Spelling suggestions: "subject:"sémantique""
101 |
L'identification des entités nommées en arabe en vue de leur extraction et classification automatiques : la construction d’un système à base de règles syntactico-sémantique / Identification of arabic named entities with a view to their automatique extraction an classification : a syntactico-semantic rule based systemAsbayou, Omar 01 December 2016 (has links)
Cette thèse explique et présente notre démarche de la réalisation d’un système à base de règles de reconnaissance et de classification automatique des EN en arabe. C’est un travail qui implique deux disciplines : la linguistique et l’informatique. L’outil informatique et les règles la linguistiques s’accouplent pour donner naissance à une nouvelle discipline ; celle de « traitement automatique des langues », qui opère sur des niveaux différents (morphosyntaxique, syntaxique, sémantique, syntactico-sémantique etc.). Nous avons donc, dans ce qui nous concerne, mis en œuvre des informations et règles linguistiques nécessaires au service du logiciel informatique, qui doit être en mesure de les appliquer, pour extraire et classifier, par des annotations syntaxiques et/ou sémantiques, les différentes classes d’entités nommées.Ce travail de thèse s’inscrit donc dans un cadre général de traitement automatique des langues, mais plus particulièrement dans la continuité des travaux réalisés au niveau de l’analyse morphosyntaxique par la conception et la réalisation des bases des données lexicales SAMIA et ensuite DIINAR avec l’ensemble de résultats de recherches qui en découlent. C’est une tâche qui vise à l’enrichissement lexical par des entités nommées simples et complexes, et qui veut établir la transition de l’analyse morphosyntaxique vers l’analyse syntaxique, et syntatico-sémantique dans une visée plus générale de l’analyse du contenu textuel. Pour comprendre de quoi il s’agit, il nous était important de commencer par la définition de l’entité nommée. Et pour mener à bien notre démarche, nous avons distingué entre deux types principaux : pur nom propre et EN descriptive. Nous avons aussi établi une classification référentielle en se basant sur diverses classes et sous-classes qui constituent la référence de nos annotations sémantiques. Cependant, nous avons dû faire face à deux difficultés majeures : l’ambiguïté lexicale et les frontières des entités nommées complexes. Notre système adopte une approche à base de règles syntactico-sémantiques. Il est constitué, après le Niveau 0 d’analyse morphosyntaxique, de cinq niveaux de construction de patrons syntaxiques et syntactico-sémantiques basés sur les informations linguistique nécessaires (morphosyntaxiques, syntaxiques, sémantique, et syntactico-sémantique). Ce travail, après évaluation en utilisant deux corpus, a abouti à de très bons résultats en précision, en rappel et en F–mesure. Les résultats de notre système ont un apport intéressant dans différents application du traitement automatique des langues notamment les deux tâches de recherche et d’extraction d’informations. En effet, on les a concrètement exploités dans les deux applications (recherche et extraction d’informations). En plus de cette expérience unique, nous envisageons par la suite étendre notre système à l’extraction et la classification des phrases dans lesquelles, les entités classifiées, principalement les entités nommées et les verbes, jouent respectivement le rôle d’arguments et de prédicats. Un deuxième objectif consiste à l’enrichissement des différents types de ressources lexicales à l’instar des ontologies. / This thesis explains and presents our approach of rule-based system of arabic named entity recognition and classification. This work involves two disciplines : linguistics and computer science. Computer tools and linguistic rules are merged to give birth to a new discipline : Natural Languge Processsing, which operates in different levels (morphosyntactic, syntactic, semantic, syntactico-semantic…). So, in our particular case, we have put the necessary linguistic information and rules to software sevice. This later should be able to apply and implement them in order to recognise and classify, by syntactic and semantic annotations, the different named entity classes.This work of thesis is incorporated within the general domain of natural language processing, but it particularly falls within the scope of the continuity of the accomplished work in terms of morphosyntactic analysis and the realisation of lexical data bases of SAMIA and then DIINAR as well as the accompanying scientific recearch. This task aimes at lexical enrichement with simple and complex named entities and at establishing the transition from the morphological analysis into syntactic and syntactico-semantic analysis. The ultimate objective is text analysis. To understand what it is about, it was important to start with named entity definition. To carry out this task, we distinguished between two main named entity types : pur proper name and descriptive named entities. We have also established a referential classification on the basis of different classes and sub-classes which constitue the reference for our semantic annotations. Nevertheless, we are confronted with two major difficulties : lexical ambiguity and the frontiers of complex named entities. Our system adoptes a syntactico-semantic rule-based approach. After Level 0 of morpho-syntactic analysis, the system is made up of five levels of syntactic and syntactico-semantic patterns based on tne necessary linguisic information (i.e. morphosyntactic, syntactic, semantic and syntactico-semantic information).This work has obtained very good results in termes of precision, recall and F-measure. The output of our system has an interesting contribution in different applications of the natural language processing especially in both tasks of information retrieval and information extraction. In fact, we have concretely exploited our system output in both applications (information retrieval and information extraction). In addition to this unique experience, we envisage in the future work to extend our system into the sentence extraction and classification, in which classified entities, mainly named entities and verbs, play respectively the role of arguments and predicates. The second objective consists in the enrichment of different types of lexical resources such as ontologies.
|
102 |
Information DigestionDias, Gaël 10 December 2010 (has links) (PDF)
The World Wide Web (WWW) is a huge information network within which searching for relevant quality contents remains an open question. The ambiguity of natural language is traditionally one of the main reasons, which prevents search engines from retrieving information according to users' needs. However, the globalized access to the WWW via Weblogs or social networks has highlighted new problems. Web documents tend to be subjective, they mainly refer to actual events to the detriment of past events and their ever growing number contributes to the well-known problem of information overload. In this thesis, we present our contributions to digest information in real-world heterogeneous text environments (i.e. the Web) thus leveraging users' efforts to encounter relevant quality information. However, most of the works related to Information Digestion deal with the English language fostered by freely available linguistic tools and resources, and as such, cannot be directly replicated for other languages. To overcome this drawback, two directions may be followed: on the one hand, building resources and tools for a given language, or on the other hand, proposing language-independent approaches. Within the context of this report, we will focus on presenting language-independent unsupervised methodologies to (1) extract implicit knowledge about the language and (2) understand the explicit information conveyed by real-world texts, thus allowing to reach Multilingual Information Digestion.
|
103 |
Modèle de structuration des relations lexicales fondé sur le formalisme des fonctions lexicalesJousse, Anne-Laure 04 1900 (has links)
Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7) / Cette thèse porte sur l’élaboration d’un modèle de structuration des relations lexicales, fondé sur les fonctions lexicales de la Théorie Sens-Texte [Mel’cuk, 1997]. Les relations lexicales considérées sont les dérivations sémantiques et les collocations telles qu’elles sont définies dans le cadre de la Lexicologie Explicative et Combinatoire [Mel’cuk et al., 1995]. En partant du constat que ces relations lexicales ne sont pas décrites ni présentées de façon satisfaisante dans les bases de données lexicales, nous posons la nécessité d’en créer un modèle de structuration.
Nous justifions l’intérêt de créer un système de fonctions lexicales puis détaillons les quatre perspectives du système que nous avons mises au point : une perspective sémantique, une perspective axée sur la combinatoire des éléments d’une relation lexicale, une perspective centrée sur leurs parties du discours, ainsi qu’une perspective mettant en avant l’élément sur lequel se focalise la relation. Le système intègre l’ensemble des fonctions lexicales, y compris les fonctions lexicales non standard, dont nous proposons une normalisation de l’encodage.
Le système a été implémenté dans la base de données lexicale du DiCo. Nous
présentons trois applications dans lesquelles il peut être exploité. Premièrement, il est possible d’en dériver des interfaces de consultation pour les bases de données lexicales de type DiCo. Le système peut également être directement consulté en tant qu’assistant à l’encodage des relations lexicales. Enfin, il sert de référence pour effectuer un certain nombre de calculs sur les informations lexicographiques, qui pourront, par la suite, être implémentés pour automatiser la rédaction de certains champs de fiches lexicographiques. / This thesis proposes a model for structuring lexical relations, based on the concept of lexical functions (LFs) proposed in Meaning-Text Theory [Mel’cuk, 1997]. The lexical relations taken into account include semantic derivations and collocations as defined within this theoretical framework, known as Explanatory and Combinatorial Lexicology [Mel’cuk et al., 1995]. Considering the assumption that lexical relations are neither encoded nor made available in lexical databases in an entirely satisfactory manner, we assume the necessity of designing a new model for structuring them.
First of all, we justify the relevance of devising a system of lexical functions rather than a simple classification. Next, we present the four perspectives developped in the system: a semantic perspective, a combinatorial one, another one targetting the parts of speech of the elements involved in a lexical relation, and, finally, a last one emphasizing which element of the relation is focused on. This system covers all LFs, even non-standard ones, for which we have proposed a normalization of the encoding.
Our system has already been implemented into the DiCo relational database. We
propose three further applications that can be developed from it. First, it can be used to build browsing interfaces for lexical databases such as the DiCo. It can also be directly consulted as a tool to assist lexicographers in encoding lexical relations by means of lexical functions. Finally, it constitutes a reference to compute lexicographic information which will, in future work, be implemented in order to automatically fill in some fields within the entries in lexical databases.
|
104 |
Utilisation de représentations de mots pour l’étiquetage de rôles sémantiques suivant FrameNetLéchelle, William 01 1900 (has links)
Dans la sémantique des cadres de Fillmore, les mots prennent leur sens par rapport au contexte événementiel ou situationnel dans lequel ils s’inscrivent. FrameNet, une ressource lexicale pour l’anglais, définit environ 1000 cadres conceptuels,
couvrant l’essentiel des contextes possibles.
Dans un cadre conceptuel, un prédicat appelle des arguments pour remplir les
différents rôles sémantiques associés au cadre (par exemple : Victime, Manière,
Receveur, Locuteur). Nous cherchons à annoter automatiquement ces rôles sémantiques, étant donné le cadre sémantique et le prédicat.
Pour cela, nous entrainons un algorithme d’apprentissage machine sur des arguments dont le rôle est connu, pour généraliser aux arguments dont le rôle est
inconnu. On utilisera notamment des propriétés lexicales de proximité sémantique
des mots les plus représentatifs des arguments, en particulier en utilisant des représentations vectorielles des mots du lexique. / According to Frame Semantics (Fillmore 1976), word meanings are best understood considering the semantic frame they play a role in, for the frame is what gives them context. FrameNet is a lexical database that defines about 1000 semantic frames, along with the roles to be filled by arguments to the predicate calling the frame in a sentence. Our task is to automatically label argument roles, given their position, the frame, and the predicate (sometimes refered to as semantic role labelling).
For this task, I make use of distributed word representations, in order to improve generalisation over the few training exemples available for each frame. A maximum entropy classifier using common features of the arguments is used as a strong baseline to be improved upon.
|
105 |
La modélisation d'objets pédagogiques pour une plateforme sémantique d'apprentissage / The modeling of learning objects for a semantic learning platformBalog-Crisan, Radu 13 December 2011 (has links)
Afin de rendre les objets pédagogiques (OP) accessibles, réutilisables et adaptables, il est nécessaire de les modéliser. Outre la forme et la structure, il faut aussi décrire la sémantique des OP. Ainsi, nous proposons un schéma de modélisation d'OP d'après la norme LOM (Learning Object Metadata), en utilisant un modèle de données de type RDF (Ressource Description Framework). Pour encoder, échanger et réutiliser les métadonnées structurées d'OP, nous avons implémenté l'application RDF4LOM (RDF for LOM). Le recours aux outils du Web sémantique nous permet de proposer le prototype d'une plateforme sémantique d'apprentissage (SLCMS), qui valorise à la fois les ressources internes, les OP modélisés avec RDF, ainsi que les ressources externes (wikis, blogs ou encore agendas sémantiques). L'architecture du SLCMS est basée sur un Noyau sémantique capable d'interpréter les métadonnées et de créer des requêtes intelligentes. Pour la description des contraintes sémantiques et des raisonnements sur les OP, nous utilisons les ontologies. Grâce à des ontologies précises et complètes, les OP seront « interprétables » et « compréhensibles » par les machines. Pour le module Quiz sémantique, nous avons modélisé l'ontologie Quiz et l'ontologie LMD. La plateforme sémantique d'apprentissage permet la recherche d'OP pertinents, la génération de parcours personnalisés pour les apprenants et, en perspective, l'adaptabilité aux styles d'apprentissage. / In order to make Learning Objects (LO) accessible, reusable and adaptable, it is necessary to model them. Besides form and structure, one must also define the semantics associated with a given LO. Thus, we propose a modeling scheme for LOs that respects the LOM (Learning Object Metadata) standard and which uses a RDF-based (Resource Description Framework) data model. In order to encode, exchange and reuse such structured metadata for LOs, we have developed the RDF4LOM (RDF for LOM) application. By using Semantic Web tools, we are able to deliver a prototype of a semantic learning platform (SLCMS) that enhances internal resources, LOs modeled with RDF as well as external resources (semantic wikis, blogs or calendars). The architecture of this SLCMS is based upon a semantic Kernel whose role is to interpret metadata and create intelligent queries. We use ontologies, for the description of semantic constraints and reasoning rules concerning the LOs. By means of accurate and complete ontologies, the LOs will be machine-interpretable and also machine-understandable. For the semantic Quiz module, we have developed the Quiz and LMD ontologies. The semantic learning platform enables searching for appropriate LOs, generating personalized learning paths for learners and, as en evolution, adaptation to learning styles.
|
106 |
Symétries locales et globales en logique propositionnelle et leurs extensions aux logiques non monotonesNabhani, Tarek 09 December 2011 (has links)
La symétrie est par définition un concept multidisciplinaire. Il apparaît dans de nombreux domaines. En général, elle revient à une transformation qui laisse invariant un objet. Le problème de satisfaisabilité (SAT) occupe un rôle central en théorie de la complexité. Il est le problème de décision de référence de la classe NP-complet (Cook, 71). Il consiste à déterminer si une formule CNF admet ou non une valuation qui la rend vraie. Dans la première contribution de ce mémoire, nous avons introduit une nouvelle méthode complète qui élimine toutes les symétries locales pour la résolution du problème SAT en exploitant son groupe des symétries. Les résultats obtenus montrent que l'exploitation des symétries locales est meilleure que l'exploitation des symétries globales sur certaines instances SAT et que les deux types de symétries sont complémentaires, leur combinaison donne une meilleure exploitation.En deuxième contribution, nous proposons une approche d'apprentissage de clauses pour les solveurs SAT modernes en utilisant les symétries. Cette méthode n'élimine pas les modèles symétriques comme font les méthodes statiques d'élimination des symétries. Elle évite d'explorer des sous-espaces correspondant aux no-goods symétriques de l'interprétation partielle courante. Les résultats obtenus montrent que l'utilisation de ces symétries et ce nouveau schéma d'apprentissage est profitable pour les solveurs CDCL.En Intelligence Artificielle, on inclut souvent la non-monotonie et l'incertitude dans le raisonnement sur les connaissances avec exceptions. Pour cela, en troisième et dernière contribution, nous avons étendu la notion de symétrie à des logiques non classiques (non-monotones) telles que les logiques préférentielles, les X-logiques et les logiques des défauts.Nous avons montré comment raisonner par symétrie dans ces logiques et nous avons mis en évidence l'existence de certaines symétries dans ces logiques qui n'existent pas dans les logiques classiques. / Symmetry is by definition a multidisciplinary concept. It appears in many fields. In general, it is a transformation which leaves an object invariant. The problem of satisfiability (SAT) is one of the central problems in the complexity theory. It is the first decision Np-complete problem (Cook, 71). It deals with determining if a CNF formula admits a valuation which makes it true. First we introduce a new method which eliminates all the local symmetries during the resolution of a SAT problem by exploiting its group of symmetries. Our experimental results show that for some SAT instances, exploiting local symmetries is better than exploiting just global symmetries and both types of symmetries are complementary. As a second contribution, we propose a new approach of Conflict-Driven Clause Learning based on symmetry. This method does not eliminate the symmetrical models as the static symmetry elimination methods do. It avoids exploring sub-spaces corresponding to symmetrical No-goods of the current partial interpretation. Our experimental results show that using symmetries in clause learning is advantageous for CDCL solvers.In artificial intelligence, we usually include non-monotony and uncertainty in the reasoning on knowledge with exceptions. Finally, we extended the concept of symmetry to non-classical logics that are preferential logics, X-logics and default logics. We showed how to reason by symmetry in these logics and we prove the existence of some symmetries in these non-classical logics which do not exist in classical logics.
|
107 |
De-automatization through awareness of subjective realism : a neurophenomenological account of meditative states and their effect on cognitive bias / Désautomatisation à travers la prise de conscience du réalisme subjectif : exploration neurophénoménologique des états méditatifs et de leurs effets sur le biais cognitifBaquedano Larrain, Constanza 22 December 2017 (has links)
L'une des caractéristiques principales de la méditation de pleine conscience est la réalisation que les événements perçus ou imaginés ne sont pas nécessairement une représentation exacte de la réalité, un processus connu sous le nom de déréification. La déréification est aussi l'objectif de nombreuses approches psychothérapeutiques, puisque l'on sait que l'immersion excessive dans le mental peut être liée à la détresse psychologique et à certains troubles psychiatriques. L'objectif de notre étude était d'évaluer dans quelle mesure la réification des contenus mentaux (réalisme subjectif) contribue aux dispositions automatiques et de comprendre les mécanismes permettant aux pratiques de méditation de les modifier. Notre hypothèse principale était que la reconnaissance du réalisme subjectif grâce aux pratiques méditatives de pleine conscience réduit le biais cognitif. Nous avons mené deux études auprès de méditants novices et expérimentés. Dans la première nous avons exploré l'effet d'une instruction brève de pleine présence sur l'attitude envers la nourriture, pour étudier comment le réalisme subjectif module les tendances automatiques d'approche et d'évitement. La seconde étude nous a permis d'explorer l'impact de la méditation sur la modulation des attentes sémantiques automatiques dans un paradigme de narration. Nous avons adopté une approche neurophénoménologique, combinant des données moléculaires, physiologiques, électroencéphalographiques et comportementales, avec des données à la première personne recueillies à l'aide d'auto-évaluations et d'entretiens qualitatifs. Dans l'ensemble, nos résultats multimodaux ont confirmé notre hypothèse selon laquelle la déréalisation peut entraîner la réduction du biais cognitif. Les résultats de l'exploration phénoménologique indiquent que les participants ont utilisé différentes stratégies cognitives pour réaliser la déréification, et que de telles stratégies varient en fonction de l'expérience en méditation. Les participants novices utilisent plus souvent des stratégies de type réévaluation cognitive et régulation émotionnelle, qui se reflètent dans la modulation des composantes tardives des potentiels évoqués (PE) cérébraux. En revanche les méditants utilisent moins souvent des stratégies élaboratives, en accord avec la modulation de composantes plus précoces des PE. / One of the key features of Mindful meditation is realizing that imagined or perceived events are not necessarily an accurate depiction of reality, a process known as dereification. Dereification is also a target of many psychotherapeutic approaches, as excessive immersion into one's mental contents has been related to psychological distress and several psychiatric conditions. The aim of this study was to investigate to what extent engagement with mental content as being real (i.e. subjective realism) can bias automatic tendencies toward the world, and to elucidate the mechanisms by which meditation practices can modulate it. Our main hypothesis was that recognizing subjective realism during mindfulness-related practices de-automatizes cognitive bias.We ran two studies in naïve and experienced meditators: Firstly, we explored the effect of a brief mindful-attention instruction on a food engagement paradigm to investigate how subjective realism modulates automatic approach-avoidance tendencies. Secondly, we explored whether mindful-attention meditation could modulate automatic semantic expectations in a modified storytelling paradigm. We used a neurophenomenological approach, combining molecular, physiological, electroencephalographic (EEG) and behavioral data, with first-person data collected using self-reports and qualitative interviews.Overall, behavioral, physiological and EEG results supported our hypothesis that derealization can prompt des-automatization of cognitive bias. Neurophenomenological accounts indicate that participants used different cognitive strategies to achieve dereification, and that such strategies vary as a function of meditation expertise, among others. Naïve participants use more often cognitive reappraisal/emotional regulation-type strategies, which are reflected in the modulation of late ERP components. In contrast, meditators used less often elaborative strategies as reflected by the modulation of early sensory ERPs
|
108 |
Robot semantic place recognition based on deep belief networks and a direct use of tiny images / Robot de reconnaissance des lieux sémantiques basée sur l'architecture profonde et une utilisation directe de mini-imagesHasasneh, Ahmad 23 November 2012 (has links)
Il est généralement facile pour les humains de distinguer rapidement différents lieux en se basant uniquement sur leur aspect visuel. . Ces catégories sémantiques peuvent être utilisées comme information contextuelle favorisant la détection et la reconnaissance d'objets. Des travaux récents en reconnaissance des lieux visent à doter les robots de capacités similaires. Contrairement aux travaux classiques, portant sur la localisation et la cartographie, cette tâche est généralement traitée comme un problème d'apprentissage supervisé.La reconnaissance de lieux sémantiques - la capacité à reconnaître la catégorie sémantique à laquelle une scène appartient – peut être considérée comme une condition essentielle en robotique autonome. Un robot autonome doit en effet pouvoir apprendre facilement l'organisation sémantique de son environnement pour pouvoir fonctionner et interagir avec succès. Pour atteindre cet objectif, différentes méthodes ont déjà été proposées. Certaines sont basées sur l'identification des objets comme une condition préalable à la reconnaissance des scènes, et d'autres fondées sur une description directe des caractéristiques de la scène. Si nous faisons l'hypothèse que les objets sont plus faciles à reconnaître quand la scène dans laquelle ils apparaissent est bien identifiée, la deuxième approche semble plus appropriée. Elle est cependant fortement dépendante de la nature des descripteurs d'images utilisées qui sont généralement dérivés empiriquement a partir des observations générales sur le codage d'images.En opposition avec ces propositions, une autre approche de codage des images, basée sur un point de vue plus théorique, a émergé ces dernières années. Les modèles d'extraction de caractéristiques fondés sur le principe de la minimisation d'une fonction d'énergie en relation avec un modèle statistique génératif expliquant au mieux les données, ont abouti à l'apparition des Machines de Boltzmann Restreintes (Rectricted Boltzmann Machines : RBMs) capables de coder une image comme la superposition d'un nombre limité de caractéristiques extraites à partir d'un plus grand alphabet. Il a été montré que ce processus peut être répété dans une architecture plus profonde, conduisant à une représentation parcimonieuse et efficace des données initiales dans l'espace des caractéristiques. Le problème complexe de la classification dans l'espace de début est ainsi remplacé par un problème plus simple dans l'espace des caractéristiques.Dans ce travail, nous montrons que la reconnaissance sémantiques des lieux peut être réalisée en considérant des mini-images au lieu d'approches plus classiques de type ''sacs-de-mots'' et par l'utilisation de réseaux profonds pour le codage des images. Après avoir realisé un codage approprié, une régression softmax dans l'espace de projection est suffisante pour obtenir des résultats de classification prometteurs. A notre connaissance, cette approche n'a pas encore été proposée pour la reconnaissance de scène en robotique autonome.Nous avons comparé nos méthodes avec les algorithmes de l'état-de-l'art en utilisant une base de données standard de localisation de robot. Nous avons étudié l'influence des paramètres du système et comparé les différentes conditions sur la même base de données. Les expériences réalisées montrent que le modèle que nous proposons, tout en étant très simple, conduit à des résultats comparables à l'état-de-l'art sur une tâche de reconnaissance de lieux sémantiques. / Usually, human beings are able to quickly distinguish between different places, solely from their visual appearance. This is due to the fact that they can organize their space as composed of discrete units. These units, called ``semantic places'', are characterized by their spatial extend and their functional unity. Such a semantic category can thus be used as contextual information which fosters object detection and recognition. Recent works in semantic place recognition seek to endow the robot with similar capabilities. Contrary to classical localization and mapping works, this problem is usually addressed as a supervised learning problem. The question of semantic places recognition in robotics - the ability to recognize the semantic category of a place to which scene belongs to - is therefore a major requirement for the future of autonomous robotics. It is indeed required for an autonomous service robot to be able to recognize the environment in which it lives and to easily learn the organization of this environment in order to operate and interact successfully. To achieve that goal, different methods have been already proposed, some based on the identification of objects as a prerequisite to the recognition of the scenes, and some based on a direct description of the scene characteristics. If we make the hypothesis that objects are more easily recognized when the scene in which they appear is identified, the second approach seems more suitable. It is however strongly dependent on the nature of the image descriptors used, usually empirically derived from general considerations on image coding.Compared to these many proposals, another approach of image coding, based on a more theoretical point of view, has emerged the last few years. Energy-based models of feature extraction based on the principle of minimizing the energy of some function according to the quality of the reconstruction of the image has lead to the Restricted Boltzmann Machines (RBMs) able to code an image as the superposition of a limited number of features taken from a larger alphabet. It has also been shown that this process can be repeated in a deep architecture, leading to a sparse and efficient representation of the initial data in the feature space. A complex problem of classification in the input space is thus transformed into an easier one in the feature space. This approach has been successfully applied to the identification of tiny images from the 80 millions image database of the MIT. In the present work, we demonstrate that semantic place recognition can be achieved on the basis of tiny images instead of conventional Bag-of-Word (BoW) methods and on the use of Deep Belief Networks (DBNs) for image coding. We show that after appropriate coding a softmax regression in the projection space is sufficient to achieve promising classification results. To our knowledge, this approach has not yet been investigated for scene recognition in autonomous robotics. We compare our methods with the state-of-the-art algorithms using a standard database of robot localization. We study the influence of system parameters and compare different conditions on the same dataset. These experiments show that our proposed model, while being very simple, leads to state-of-the-art results on a semantic place recognition task.
|
109 |
Une approche orientée service pour la recherche sémantique de contenus multimédias / An oriented service approach for semantic search of multimedia contentsMidouni, Sid Ahmed Djallal 08 July 2017 (has links)
Les sources de données multimédias provenant de divers domaines (médical, tourisme, commerce, art et culture, etc.) sont devenues incontournables sur le web. L’accès à ces sources multimédias dans les systèmes distribués pose de nouveaux problèmes en raison de nombreux paramètres : volumétrie, diversité des interfaces, format de représentation, localisation, etc. En outre, l’exigence de plus en plus forte des utilisateurs et des applications à vouloir intégrer la sémantique dans la recherche d’information pose de nouvelles questions à résoudre. Pour prendre en compte cette nouvelle complexité, nous nous intéressons dans notre travail de recherche aux solutions d’intégration de données basées sur les services web. Dans cette thèse, nous proposons une approche orientée service pour la recherche sémantique de contenus multimédia. Nous avons appelé cette approche SeSaM (Semantic Search of Multimedia content). SeSaM repose sur la définition d’un nouveau type de services accédant aux contenus multimédias, qui est les services MaaS (Multimedia as a Services). Elle est basée sur un processus en deux phases : description et découverte des services MaaS. En ce qui concerne la description de services MaaS, nous avons défini le langage SA4MaaS (Semantic Annotation for MaaS services), qui est une extension de SAWSDL (recommandation W3C). L’idée principale de ce langage est l’intégration, en plus de la sémantique métier, de la sémantique de l’information multimédia dans la description des services MaaS. En ce qui concerne la découverte de services MaaS, nous avons proposé un nouveau matchmaker MaaS-MX (MaaS services Matchmaker) adapté au modèle de description des MaaS. MaaS-MX est composé de deux étapes primordiales : appariement métier et appariement multimédia. L’appariement métier consiste à comparer la description métier des services et de la requête, tandis que l’appariement multimédia compare la description multimédia des services et de la requête. L’approche a été prototypée et évaluée dans deux domaines différents : médical et tourisme. Les résultats indiquent que l’utilisation de l’appariement métier et l’appariement multimédia a considérablement amélioré les performances des systèmes de recherche de données multimédias. / Multimedia data sources from various fields (medical, tourism, trade, art and culture, etc.) became essential on the web. Accessing to multimedia data in distributed systems poses new challenges due to many system parameters: volume, diversity of interfaces, representation format, location, etc. In addition, the growing needs of users and applications to incorporate semantics in the information retrieval pose new issues. To take into account this new complexity, we are interested in our research of data integration solutions based on web services. In this thesis, we propose an approach-oriented service for the semantic search of multimedia content. We called this approach SeSaM (Semantic Search of Multimedia content). SeSaM is based on the definition of a new pattern of services to access multimedia content, which is the MaaS services (Multimedia as a Services). It is based on a two-phase process: description and discovery of MaaS services. As for the MaaS services description, we have defined the SA4MaaS language (Semantic Annotation for MaaS services), which is an extension of SAWSDL (W3C recommendation). The main idea of this language is the integration, in addition to business domain semantic, of multimedia information semantics in the MaaS services description. As for the MaaS service discovery, we have proposed a new matchmaker MaaS-MX (MaaS services Matchmaker) adapted to the MaaS services description model. MaaS-MX is composed of two essential steps: domain matching and multimedia matching. Domain matching consists in comparing the business domain description of MaaS services and the query, whereas multimedia matching compares the multimedia description of MaaS services and the query. The approach has been implemented and evaluated in two different domains: medical and tourism. The results indicate that using both domain and multimedia matching considerably improves the performance of multimedia data retrieving systems.
|
110 |
Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine / Geographical information extraction method in order to enrich a domain ontologyNguyen, Van Tien 15 November 2012 (has links)
Notre thèse se situe dans le contexte du projet ANR GEONTO qui porte sur la constitution, l’alignement, la comparaison et l’exploitation d’ontologies géographiques hétérogènes. Dans ce contexte, notre objectif est d'extraire automatiquement des termes topographiques à partir des récits de voyage afin d'enrichir une ontologie géographique initialement conçue par l'IGN. La méthode proposée permet de repérer et d'extraire des termes à connotation topographiques contenus dans un texte. Notre méthode est basée sur le repérage automatique de certaines relations linguistiques afin d'annoter ces termes. Sa mise en œuvre s'appuie sur le principe des relations n-aires et passe par l'utilisation de méthodes ou de techniques de TAL (Traitement Automatique de la Langue). Il s'agit de relations n-aires entre les termes à extraire et d'autres éléments du textes qui peuvent être repérés à l'aide de ressources externes prédéfinies, telles que des lexiques spécifiques: les verbes de récit de voyage (verbes de déplacement, verbes de perceptions, et verbes topographiques), les pré-positions (prépositions de lieu, adverbes, adjectifs), les noms toponymiques, des thésaurus génériques, des ontologies de domaine (ici l'ontologie géographique initialement conçue par l'IGN). Une fois marquées par des patrons linguistiques, les relations proposées nous permettent d'annoter et d'extraire automatiquement des termes dont les différents indices permettent de déduire qu'ils évoquent des concepts topographiques. Les règles de raisonnement qui permettent ces déductions s'appuient sur des connaissances intrinsèques (évocation du spatial dans la langue) et des connaissances externes contenues dans les ressources ci-dessus évoquées, ou leur combinaison. Le point fort de notre approche est que la méthode proposée permet d'extraire non seulement des termes rattachés directement aux noms toponymiques mais également dans des structures de phrase où d'autres termes s'intercalent. L'expérimentation sur un corpus comportant 12 récits de voyage (2419 pages, fournit par la médiathèque de Pau) a montré que notre méthode est robuste. En résultat, elle a permis d'extraire 2173 termes distincts dont 1191 termes valides, soit une précision de 0,55. Cela démontre que l'utilisation des relations proposées est plus efficace que celle des couples (termes, nom toponymique)(qui donne 733 termes distincts valides avec une précision de 0,38). Notre méthode peut également être utilisée pour d'autres applications telles que la reconnaissance des entités nommées géographiques, l'indexation spatiale des documents textuels. / This thesis is in the context of the ANR project GEONTO covering the constitution, alignment, comparison and exploitation of heterogeneous geographic ontologies. The goal is to automatically extract terms from topographic travelogues to enrich a geographical ontology originally designed by IGN. The proposed method allows identification and extraction of terms contained in a text with a topographical connotation. Our method is based on a model that relies on certain grammatical relations to locate these terms. The implementation of this model requires the use of methods or techniques of NLP (Processing of Language). Our model represents the relationships between terms to extract and other elements of the texts that can be identified by using external predefined resources, such as specific lexicons: verbs of travelogue (verbs of displacement, verbs of perceptions, topographical verbs), pre-positions (prepositions of place, adverbs, adjectives), place name, generic thesauri, ontologies of domain (in our case the geographical ontology originally designed by IGN). Once marked by linguistic patterns, the proposed relationships allow us to annotate and automatically retrieve terms. Then various indices help deduce whether the extracted terms evoke topographical concepts. It is through reasoning rules that deductions are made. These rules are based on intrinsic knowledge (evocation of space in the language) and external knowledge contained in external resources mentioned above, or their combination. The advantage of our approach is that the method can extract not only the terms related directly to place name but also those embedded in sentence structure in which other terms coexisted. Experiments on a corpus consisting of 12 travel stories (2419 pages, provided by the library of Pau) showed that our method is robust. As a result, it was used to extract 2173 distinct terms with 1191 valid terms, with a precision of 0.55. This demonstrates that the use of the proposed relationships is more effective than that of couples (term, place name) (which gives 733 distinct terms valid with an accuracy of 0.38). Our method can also be used for other applications such as geographic named entity recognition, spatial indexing of textual documents.
|
Page generated in 0.044 seconds