• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 709
  • 260
  • 61
  • 3
  • 3
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 1066
  • 353
  • 252
  • 246
  • 228
  • 213
  • 156
  • 122
  • 121
  • 113
  • 113
  • 107
  • 100
  • 98
  • 97
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Ontologies de domaine pour la modélisation du contexte en Recherche d'information

Hernandez, Nathalie 06 December 2005 (has links) (PDF)
Afin de faciliter la mise en place de systèmes pouvant gérer de grandes quantités d'information et de s'adresser à un maximum d'utilisateurs, le fonctionnement du noyau des Systèmes de Recherche d'Information (SRI) est généralement indépendant du contexte. La Recherche d'Information contextuelle vise à replacer l'utilisateur au coeur des SRI en rendant explicites certains éléments du contexte qui peuvent influencer sur les performances des systèmes. Dans ce cadre, nous proposons un modèle à base de deux ontologies dont l'objectif est de représenter deux aspects primordiaux du contexte d'une recherche : le thème du besoin et la tâche de recherche choisie par l'utilisateur. Des ontologies légères de domaine sont utilisées pour représenter la connaissance associée à ces deux aspects du contexte. L'originalité de notre modèle repose sur le fait que les deux aspects distincts mais complémentaires du contexte sont liés par l'utilisation d'éléments communs aux deux ontologies. L'intégration du modèle dans le SRI intervient dans deux phases du processus de recherche. Par la proposition d'un mécanisme d'indexation sémantique utilisant l'ensemble de la connaissance représentée dans les deux ontologies, il est intégré à la phase de représentation des documents. De plus, le modèle est intégré à la phase d'accès aux documents via la navigation dans les ontologies. Cette navigation repose sur deux niveaux d'accès à l'information. Le niveau concept donne à l'utilisateur une vue globale sur la collection de documents et sur la connaissance associée, alors que le niveau instance donne un accès aux informations spécifiques contenues dans les documents. L'utilisation d'ontologies en RI pose une autre problématique qui est la réutilisation de la connaissance déjà modélisée. En effet, de nombreuses ressources terminologiques (comme les thésaurus) ou conceptuelles (ontologies) existent dans différents domaines. Nous avons étudié la réutilisabilité de telles ressources selon deux perspectives : le choix d'une ontologie légère en fonction de son adéquation au corpus à indexer et l'élaboration d'une ontologie légère à partir d'un thésaurus normalisé et d'un corpus de référence. Une originalité de nos travaux concernant l'évaluation de l'adéquation réside dans la prise en compte de l'ensemble des relations définies dans les ontologies et non pas seulement des relations taxonomiques. Concernant l'élaboration d'une ontologie légère à partir d'un thésaurus, une de nos contributions est de proposer un mécanisme semi-automatique pour capturer la connaissance représentée dans le thésaurus et la mettre à jour à partir de documents de référence. Dans le cadre d'un projet en coopération avec des astronomes (Masses de Données en Astronomie), nous avons pu évaluer un certain nombre des techniques que nous proposons. Un prototype illustre également l'apport de nos contributions.
32

Étude sémantique du pronom ON dans une perspective textuelle et contextuelle.

Gjesdal, Anje Müller 10 October 2008 (has links) (PDF)
Cette thèse propose une méthodologie pour l'analyse des éléments grammaticaux polysémiques, notamment le pronom ON, à partir d'une réflexion sur le cadre théorique de la Sémantique de Textes. À travers des analyses de deux genres déterminés - l'article scientifique et la poésie - la thèse montre l'interaction et l'influence réciproque de ON et le contexte, aussi bien au niveau de la phrase qu'au celui du texte. <br> La première partie de la thèse traite de la sémantique de ON et de sa classification grammaticale. Elle montre les limitations des descriptions grammaticales basées sur des critères peu précis, et la confusion entre emplois indéfinis et emplois pour des personnes déterminées qui s'exprime par l'oxymoron « pronom personnel indéfini ». Par conséquent, la thèse se propose d'affiner la description sémantique de ON, notamment par une élaboration de la notion de contexte et son influence sur l'interprétation de ce pronom. La variation dans les emplois de ON ne peut pas se réduire à un seul noyau de sens (core meaning) et l'on propose un modèle sémique approprié à l'analyse de ON selon l'hypothèse que les différents emplois correspondent à la réalisation ou l'annulation des différents sèmes en contexte. <br> La seconde partie de la thèse présente deux études de l'emploi de ON dans des genres déterminés ; l'article scientifique et la poésie. La première étude examine l'emploi de ON dans un corpus d'articles scientifiques (le corpus KIAP, voir www.kiap.uib.no) et montre l'influence de paramètres contextuels aussi bien au niveau micro (verbes, temps verbaux, adverbes) qu'au niveau macro (disposition linéaire du texte). La seconde étude analyse l'emploi de ON dans L'excès - l'usine de Leslie Kaplan (1994) à partir de la notion de zones anthropiques (Rastier 1996) qui décrit les relations entre dimensions sémantiques et expériences humaines. Dans cette perspective, ON fonctionne comme un médiateur entre les différentes zones, notamment entre le sujet et le monde qui l'entoure. La flexibilité discursive de ON, allant de l'indéfini jusqu'au déterminé, constitue un facteur remarquable dans la représentation textuelle de l'aliénation du sujet dans ce texte.
33

Approche stochastique bayésienne de la composition sémantique pour les modules de compréhension automatique de la parole dans les systèmes de dialogue homme-machine

Meurs, Marie-Jean 10 December 2009 (has links) (PDF)
Les systèmes de dialogue homme-machine ont pour objectif de permettre un échange oral efficace et convivial entre un utilisateur humain et un ordinateur. Leurs domaines d'applications sont variés, depuis la gestion d'échanges commerciaux jusqu'au tutorat ou l'aide à la personne. Cependant, les capacités de communication de ces systèmes sont actuellement limités par leur aptitude à comprendre la parole spontanée. Nos travaux s'intéressent au module de compréhension de la parole et présentent une proposition entièrement basée sur des approches stochastiques, permettant l'élaboration d'une hypothèse sémantique complète. Notre démarche s'appuie sur une représentation hiérarchisée du sens d'une phrase à base de frames sémantiques. La première partie du travail a consisté en l'élaboration d'une base de connaissances sémantiques adaptée au domaine du corpus d'expérimentation MEDIA (information touristique et réservation d'hôtel). Nous avons eu recours au formalisme FrameNet pour assurer une généricité maximale à notre représentation sémantique. Le développement d'un système à base de règles et d'inférences logiques nous a ensuite permis d'annoter automatiquement le corpus. La seconde partie concerne l'étude du module de composition sémantique lui-même. En nous appuyant sur une première étape d'interprétation littérale produisant des unités conceptuelles de base (non reliées), nous proposons de générer des fragments sémantiques (sous-arbres) à l'aide de réseaux bayésiens dynamiques. Les fragments sémantiques générés fournissent une représentation sémantique partielle du message de l'utilisateur. Pour parvenir à la représentation sémantique globale complète, nous proposons et évaluons un algorithme de composition d'arbres décliné selon deux variantes. La première est basée sur une heuristique visant à construire un arbre de taille et de poids minimum. La seconde s'appuie sur une méthode de classification à base de séparateurs à vaste marge pour décider des opérations de composition à réaliser. Le module de compréhension construit au cours de ce travail peut être adapté au traitement de tout type de dialogue. Il repose sur une représentation sémantique riche et les modèles utilisés permettent de fournir des listes d'hypothèses sémantiques scorées. Les résultats obtenus sur les données expérimentales confirment la robustesse de l'approche proposée aux données incertaines et son aptitude à produire une représentation sémantique consistante
34

Découverte d'associations sémantiques pour le Web Sémantique Géospatial - le framework ONTOAST

Miron, Alina Dia 08 December 2009 (has links) (PDF)
Il est à présent communément admis que plus de 70% des pages Web contiennent des références spatiales et temporelles à travers l'occurrence de noms de lieux, d'adresses, de coordonnées géographiques, de dates, etc. Néanmoins, ces informations spatiales et temporelles restent inexploitées, alors qu'elles pourraient être utilisées par les moteurs de recherche pour préciser le contexte d'une requête, pour la désambiguïsation de celle-ci, pour la classification des résultats, etc. Partant de ce constat, notre travail s'intéresse à l'étude des techniques de représentation et de raisonnement à base d'annotations spatiales et temporelles, indispensables pour la mise en place d'un futur Web Sémantique que l'on souhaiterait aussi Géospatial, c'est-à-dire capable par extension de gérer les dimensions spatiale mais également temporelle de l'information. L'objectif du Web Sémantique Géospatial est, en ce sens, identique à celui du Web Sémantique : associer aux données spatio-temporelles des descriptions (métadonnées) interprétables par les humains, mais surtout par les machines, afin que le traitement automatisé de ces données par des agents logiciels soit possible et efficient. Nous définissons dans cette thèse un raisonneur spatial et temporel, compatible avec le langage standard de définition d'ontologies, OWL, ainsi qu'avec l'évolution OWL 2. Notre système, appelé ONTOAST, est capable d'exploiter à la fois des données spatiales et temporelles quantitatives (i.e. les coordonnées géométriques des objets spatiaux, les intervalles de temps ou/et les instants. . . ) et des relations spatiales et temporelles qualitatives pour déduire des relations spatiales et temporelles jusque là implicites. Le but est de répondre à des questions telles que : "Quelles sont les villes qui se trouvent au Sud-Ouest de la France ?" ou "Quels sont les objectifs touristiques proches de ma position actuelle ?". . . Cette thèse s'intéresse également à une nouvelle technique de fouille du Web Sémantique, appelé analyse sémantique, qui vise la découverte des relations directes et indirectes qui existent entre deux individus. Nous proposons l'adaptation de l'analyse sémantique, initialement définie pour les graphes RDF(S), pour les ontologies OWL 2. Également, nous étendons ce processus d'analyse en y intégrant les informations spatiales et temporelles attachées aux individus. Celles-ci sont utilisées pour filtrer des connaissances ontologiques par rapport à un contexte spatial et temporel défini qui vise à préciser la portée spatiale et temporelle d'une requête, mais également pour la déduction de nouvelles associations sémantiques mettant en exergue une proximité spatiale ou/et temporelle entre individus.
35

Représentation multi-facette des documents pour leur accès sémantique.

Ralalason, Bachelin 30 September 2010 (has links) (PDF)
La recherche d'information (RI) est un domaine prépondérant dans la vie contemporaine car elle permet de disposer d'éléments d'informations qui permettent d'agir et de prendre des décisions face à une situation donnée. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maîtrisons pas. La disponibilité et la pertinence de ces nouvelles informations ont donc une très grande influence sur la prise de décision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots représentatifs des documents afin de permettre leur recherche ultérieure. Dans ces méthodes, les documents et les requêtes sont considérées comme des sacs de mots, non porteurs de sens. L'une des méthodes innovantes actuelles est l'indexation et la recherche sémantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considérant la sémantique des éléments textuels. Nous nous intéressons à cet aspect de la RI en considérant une indexation et une recherche à base d'ontologies de domaine. Les solutions que nous proposons visent à améliorer la pertinence des réponses d'un système par rapport au thème de la recherche. Le discours contenu dans un document ou dans une requête ne sont pas les seuls éléments à prendre en compte pour espérer mieux satisfaire l'utilisateur. D'autres éléments relatifs au contexte de sa recherche doivent aussi être pris en compte. La granularité des informations à restituer à l'utilisateur est un autre aspect. Nous nous sommes intéressés à ces différents aspects et avons développé un méta-modèle de représentation multi-facette des documents en vue de leur accès sémantique. Dans notre modèle, le document est vu selon différentes dimensions dont la structure logique, la structure physique, la sémantique des contenus ainsi que leurs évolutions dans le temps. Nous avons également proposé des mesures de similarité sémantique entre concepts et une fonction de similarité entre les graphes d'annotation des requêtes et ceux des documents. Pour évaluer et valider nos solutions, nous avons instancié ce modèle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons également évalué les résultats en termes de rappel/précision des fonctions que nous avons proposées et montré leur supériorité par rapport à l'état de l'art.
36

Extension des systèmes de métamodélisation persistant avec la sémantique comportementale

Bazhar, Youness 13 December 2013 (has links) (PDF)
L'Ingénierie Dirigée par les Modèles (IDM) a suscité un grand intérêt grâce aux avantages qu'elle offre. Enparticulier, l'IDM vise à accélérer le processus de développement et à faciliter la maintenance des logiciels. Mais avecl'augmentation permanente de la taille des modèles et de leurs instances, l'exploitation des modèles et de leurs instances,en utilisant des outils classiques présente des insuffisances liées au passage à l'échelle. L'utilisation des bases de donnéesest une des solutions proposées pour répondre à ce problème. Dans ce contexte, deux approches ont été proposées. Lapremière consiste à équiper les outils de modélisation avec des bases de données dédiées au stockage de modèles,appelées model repositories (p. ex. EMFStore). Ces bases de données sont équipées de langages d'exploitation limitésseulement à l'interrogation des modèles et des instances. Par conséquent, ces langages n'offrent aucune capacité poureffectuer des opérations avancées sur les modèles telles que la transformation de modèles ou la génération de code. Ladeuxième approche, que nous suivons dans notre travail, consiste à définir des environnements persistants en base dedonnées dédiés à la méta-modélisation. Ces environnements sont appelés systèmes de méta-modélisation persistants(PMMS). Un PMMS consiste en (i) une base de données dédiée au stockage des méta-modèles, des modèles et de leursinstances, et (ii) un langage d'exploitation associé possédant des capacités de méta-modélisation et d'exploitation desmodèles. Plusieurs PMMS ont été proposés tels que ConceptBase ou OntoDB/OntoQL. Ces PMMS supportentprincipalement la définition de la sémantique structurelle et descriptive des méta-modèles et des modèles en terme de(méta-)classes, (méta-)attributs, etc. Par contre, ces PMMS fournissent des mécanismes limités pour définir la sémantiquecomportementale nécessaire à l'exploitation des modèles et des instances. En effet, la sémantique comportementalepourrait être utile pour calculer des concepts dérivés, effectuer des transformations de modèles, générer du code source,etc. Ainsi, nous proposons dans notre travail d'étendre les PMMS avec la possibilité d'introduire dynamiquement desopérations qui peuvent être implémentées en utilisant des mécanismes hétérogènes. Ces opérations peuvent ainsi utiliserdes mécanismes internes au système de gestion de base de données (p. ex. les procédures stockées) tout comme desmécanismes externes tels que les services web ou les programmes externes (p. ex. Java, C++). Cette extension permetd'améliorer les PMMS en leur donnant une plus large couverture de fonctionnalités et une plus grande flexibilité. Pourvalider notre proposition, elle a été implémentée sur le prototype OntoDB/OntoQ et a été mise en oeuvre dans troiscontextes différents : (1) pour calculer les concepts dérivés dans les bases de données à base ontologique, (2) pouraméliorer une méthodologie de conception de base de données à base ontologique et finalement (3) pour faire de latransformation et de l'analyse des modèles des systèmes embarqués temps réel.
37

Extension des systèmes de métamodélisation persistant avec la sémantique comportementale / Handling behavioral semantics in persistent metamodeling systems

Bazhar, Youness 13 December 2013 (has links)
L’Ingénierie Dirigée par les Modèles (IDM) a suscité un grand intérêt grâce aux avantages qu’elle offre. Enparticulier, l’IDM vise à accélérer le processus de développement et à faciliter la maintenance des logiciels. Mais avecl'augmentation permanente de la taille des modèles et de leurs instances, l’exploitation des modèles et de leurs instances,en utilisant des outils classiques présente des insuffisances liées au passage à l’échelle. L’utilisation des bases de donnéesest une des solutions proposées pour répondre à ce problème. Dans ce contexte, deux approches ont été proposées. Lapremière consiste à équiper les outils de modélisation avec des bases de données dédiées au stockage de modèles,appelées model repositories (p. ex. EMFStore). Ces bases de données sont équipées de langages d’exploitation limitésseulement à l’interrogation des modèles et des instances. Par conséquent, ces langages n’offrent aucune capacité poureffectuer des opérations avancées sur les modèles telles que la transformation de modèles ou la génération de code. Ladeuxième approche, que nous suivons dans notre travail, consiste à définir des environnements persistants en base dedonnées dédiés à la méta-modélisation. Ces environnements sont appelés systèmes de méta-modélisation persistants(PMMS). Un PMMS consiste en (i) une base de données dédiée au stockage des méta-modèles, des modèles et de leursinstances, et (ii) un langage d'exploitation associé possédant des capacités de méta-modélisation et d’exploitation desmodèles. Plusieurs PMMS ont été proposés tels que ConceptBase ou OntoDB/OntoQL. Ces PMMS supportentprincipalement la définition de la sémantique structurelle et descriptive des méta-modèles et des modèles en terme de(méta-)classes, (méta-)attributs, etc. Par contre, ces PMMS fournissent des mécanismes limités pour définir la sémantiquecomportementale nécessaire à l’exploitation des modèles et des instances. En effet, la sémantique comportementalepourrait être utile pour calculer des concepts dérivés, effectuer des transformations de modèles, générer du code source,etc. Ainsi, nous proposons dans notre travail d'étendre les PMMS avec la possibilité d'introduire dynamiquement desopérations qui peuvent être implémentées en utilisant des mécanismes hétérogènes. Ces opérations peuvent ainsi utiliserdes mécanismes internes au système de gestion de base de données (p. ex. les procédures stockées) tout comme desmécanismes externes tels que les services web ou les programmes externes (p. ex. Java, C++). Cette extension permetd’améliorer les PMMS en leur donnant une plus large couverture de fonctionnalités et une plus grande flexibilité. Pourvalider notre proposition, elle a été implémentée sur le prototype OntoDB/OntoQ et a été mise en oeuvre dans troiscontextes différents : (1) pour calculer les concepts dérivés dans les bases de données à base ontologique, (2) pouraméliorer une méthodologie de conception de base de données à base ontologique et finalement (3) pour faire de latransformation et de l’analyse des modèles des systèmes embarqués temps réel. / Modeling and model management have taken a great interest in software development since they accelerate thesoftware development process and facilitate their maintenance. But, with the increasing size of models and their instances,the management of models and their instances with tools evolving in main memory presents some insufficiencies relatedto scalability. Indeed, classical tools using the central memory have shown their limits when they face large scale modelsand instances. Thus, to overcome the problem of scalability, the management of models in databases becomes a necessity.Indeed, two solutions were proposed. The first one consists in equipping modeling and model management tools withspecific databases, called model repositories, (e.g., EMFStore) dedicated to store metamodels, models and instances.These model repositories are equipped with exploitation languages restricted only to querying capabilities such that modelrepositories serve only as model warehouses as processing model management tasks require loading the whole model tothe central memory. The second solution, on which we focus our approach, consists in defining database environments formetamodeling and model management. These systems, called Persistent MetaModeling Systems (PMMSs), aim atproviding a database environment for metamodeling and model management. Indeed, a PMMS consists in (i) a databasethat stores metamodels, models their instances, and (ii) an associated exploitation language possessing metamodeling andmodel management capabilities. Several PMMSs have been proposed (e.g., ConceptBase, OntoDB/OntoQL) and focusmainly on the structural definition of metamodels and models in terms of (meta-)classes, (meta-)attributes, etc. Yet,existing PMMSs provide limited capabilities to define behavioral semantics for model and data management. Indeed,behavioral semantics could be useful to compute derivations, perform model transformations, generate source code, etc.In our work, we propose to extend PMMSs with the capability to introduce dynamically user-defined model and datamanagement operations. These operations can be implemented using flexible and heterogeneous mechanisms. Indeed,they can use internal database mechanisms (e.g., stored procedures) as well as external mechanisms such as web servicesor external programs (e.g., Java, C++). As a consequence, this extension enhances PMMSs giving them more coverageand further flexibility. This extension has been implemented on the OntoDB/OntoQL prototype, and experimented tocheck the scaling of our approach. Moreover, our proposition has been used in three different contexts. In particular, (1)to compute derived concepts of ontologies, (2) to enhance an ontology-based database design methodology and (3) totransform and analyze models of real-time and embedded systems.
38

Méthodologie pour l’orchestration sémantique de services, application au traitement de documents multimédia / Methodology for semantic services orchestration, application to multimedia document processing

Doucy, Jérémie 17 October 2011 (has links)
Après un état de l'art complet nous avons détaillé notre approche de services sémantiques utilisant une méthode innovante pour la composition de services, les patrons de chaînes de traitements. Notre approche est constituée d'un annuaire sémantique hybride proposant différents niveaux de correspondances entre services, de règles de compositions automatiques dans le cas où une demande de services n'est pas fructueuse et enfin d'un moteur d'exécution supportant la résolution et la composition dynamique de services. Par la suite nous avons défini une méthodologie innovante, basée sur l'utilisation de taxonomies de services permettant de peupler rapidement un annuaire sémantique de services. Pour ce faire, nous avons mis au point une ontologie de haut niveau qui permet de lier la classe d'une taxonomie avec un service abstrait annoté sémantiquement. Enfin, nous avons évalué notre prototype à partir des chaînes de traitement mises en place dans les plate-formes déployées par Cassidian. / After a complete state of the art we detailed our semantic services approach which uses an innovative method for services composition: processing chains patterns. Our approach is composed on an hybrid semantic servicers registry which propose different levels of matching between services, some composition rules when the matching phase failde and an execution engine which is able to dynamically resolve and com^pose services. In order to solve the service regitry population issue, we have designed an upper ontology, which enables links between a service taxonomy class with a semantically annotated abstract service. Finally, we have evaluated our prototype using real processing chains used by Cassidian platforms.
39

Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement

Bernier-Colborne, Gabriel 08 1900 (has links)
L’analyse des relations lexicales est une des étapes principales du travail terminologique. Cette tâche, qui consiste à établir des liens entre des termes dont les sens sont reliés, peut être facilitée par des méthodes computationnelles, notamment les techniques de la sémantique distributionnelle. En estimant la similarité sémantique des mots à partir d’un corpus, ces techniques peuvent faciliter l’analyse des relations lexicales. La qualité des résultats offerts par les méthodes distributionnelles dépend, entre autres, des nombreuses décisions qui doivent être prises lors de leur mise en œuvre, notamment le choix et le paramétrage du modèle. Ces décisions dépendent, à leur tour, de divers facteurs liés à l’objectif visé, tels que la nature des relations lexicales que l’on souhaite détecter; celles-ci peuvent comprendre des relations paradigmatiques classiques telles que la (quasi-)synonymie (p. ex. conserver -> préserver), mais aussi d’autres relations telles que la dérivation syntaxique (p. ex. conserver -> conservation). Cette thèse vise à développer un cadre méthodologique basé sur la sémantique distributionnelle pour l’analyse des relations lexicales à partir de corpus spécialisés. À cette fin, nous vérifions comment le choix, le paramétrage et l’interrogation d’un modèle distributionnel doivent tenir compte de divers facteurs liés au projet terminologique envisagé : le cadre descriptif adopté, les relations ciblées, la partie du discours des termes à décrire et la langue traitée (en l’occurrence, le français ou l’anglais). Nous montrons que deux des relations les mieux détectées par l’approche distributionnelle sont la (quasi-)synonymie et la dérivation syntaxique, mais que les modèles qui captent le mieux ces deux types de relations sont très différents. Ainsi, les relations ciblées ont une influence importante sur la façon dont on doit paramétrer le modèle pour obtenir les meilleurs résultats possibles. Un autre facteur à considérer est la partie du discours des termes à décrire. Nos résultats indiquent notamment que les relations entre verbes sont moins bien modélisées par cette approche que celles entre adjectifs ou entre noms. Le cadre descriptif adopté pour un projet terminologique est également un facteur important à considérer lors de l’application de l’approche distributionnelle. Dans ce travail, nous comparons deux cadres descriptifs, l’un étant basé sur la sémantique lexicale et l’autre, sur la sémantique des cadres. Nos résultats indiquent que les méthodes distributionnelles détectent les termes qui évoquent le même cadre sémantique moins bien que certaines relations lexicales telles que la synonymie. Nous montrons que cet écart est attribuable au fait que les termes qui évoquent des cadres sémantiques comprennent une proportion importante de verbes et aux différences importantes entre les modèles qui produisent les meilleurs résultats pour la dérivation syntaxique et les relations paradigmatiques classiques telles que la synonymie. En somme, nous évaluons deux modèles distributionnels différents, analysons systématiquement l’influence de leurs paramètres et vérifions comment cette influence varie en fonction de divers aspects du projet terminologique. Nous montrons de nombreux exemples de voisinages distributionnels, que nous explorons au moyen de graphes, et discutons les sources d’erreurs. Ce travail fournit ainsi des balises importantes pour l’application de méthodes distributionnelles dans le cadre du travail terminologique. / Identifying semantic relations is one of the main tasks involved in terminology work. This task, which aims to establish links between terms whose meanings are related, can be assisted by computational methods, including those based on distributional semantics. These methods estimate the semantic similarity of words based on corpus data, which can help terminologists identify semantic relations. The quality of the results produced by distributional methods depends on several decisions that must be made when applying them, such as choosing a model and selecting its parameters. In turn, these decisions depend on various factors related to the target application, such as the types of semantic relations one wishes to identify. These can include typical paradigmatic relations such as (near-)synonymy (e.g. preserve -> protect), but also other relations such as syntactic derivation (e.g. preserve -> preservation). This dissertation aims to further the development of a methodological framework based on distributional semantics for the identification of semantic relations using specialized corpora. To this end, we investigate how various aspects of terminology work must be accounted for when selecting a distributional semantic model and its parameters, as well as those of the method used to query the model. These aspects include the descriptive framework, the target relations, the part of speech of the terms being described, and the language (in this case, French or English). Our results show that two of the relations that distributional semantic models capture most accurately are (near-)synonymy and syntactic derivation. However, the models that produce the best results for these two relations are very different. Thus, the target relations are an important factor to consider when choosing a model and tuning it to obtain the most accurate results. Another factor that should be considered is the part of speech of the terms that are being worked on. Among other things, our results suggest that relations between verbs are not captured as accurately as those between nouns or adjectives by distributional semantic models. The descriptive framework used for a given project is also an important factor to consider. In this work, we compare two descriptive frameworks, one based on lexical semantics and another based on frame semantics. Our results show that terms that evoke the same semantic frame are not captured as accurately as certain semantic relations, such as synonymy. We show that this is due to (at least) two reasons: a high percentage of frame-evoking terms are verbs, and the models that capture syntactic derivation most accurately are very different than those that work best for typical paradigmatic relations such as synonymy. In summary, we evaluate two different distributional semantic models, we analyze the influence of their parameters, and we investigate how this influence varies with respect to various aspects of terminology work. We show many examples of distributional neighbourhoods, which we explore using graphs, and discuss sources of noise. This dissertation thus provides important guidelines for the use of distributional semantic models for terminology work.
40

Espaces vectoriels sémantiques : enrichissement et interprétation de requêtes dans un système d'information distribué et hétérogène

Ventresque, Anthony 26 September 2008 (has links) (PDF)
Les systèmes d'information font face à un problème de pertinence dans les recherches dû à l'augmentation considérable des données accessibles. De plus, le nombre d'appareils communicants ne cesse de croître et de menacer le modèle client/serveur. Une nouvelle architecture distribuée tend donc à s'imposer : les réseaux pair-à-pair (P2P). Mais ils sont peu économes en ressource réseau (une requête inonde le réseau) et offrent des fonctionnalités limitées (recherche par mots-clés). Dans les deux communautés, RI et systèmes P2P, les recherches penchent vers l'utilisation de sémantique. En informatique, les approches basées sur la sémantique nécessitent souvent de définir des ontologies. Le développement important et distribué des ontologies génère une hétérogénéité sémantique. La solution classique est d'utiliser des correspondances entre parties de deux ontologies. Mais c'est une solution qui est difficile à obtenir et qui n'est pas toujours complète. Souvent les parties non-partagées de deux ontologies ne sont pas gérées, ce qui entraîne une perte d'information. Notre solution : EXSI2D, utilise une expansion particulière, appelée expansion structurante, du côté de l'initiateur de requêtes. Cela lui permet de préciser les dimensions de sa requête sans modifier la requête elle-même. EXSI2D offre aussi la possibilité au fournisseur d'information d'interpréter l'expansion structurante dans sa propre ontologie. Ainsi, il est possible à chaque participant d'un système d'information sémantiquement hétérogène d'utiliser toute son ontologie, y compris les parties non partagées. Nous montrons aussi l'utilisation d'EXSI2D dans un système P2P, grâce à SPARTANBFS, un protocole « frugal » pour systèmes P2P non structurés.

Page generated in 0.4226 seconds