Global ETD Search

1	Traitement Automatique des Langues et Recherche d'Information en langue arabe dans un domaine de spécialité : Apport des connaissances morphologiques et syntaxiques pour l'indexation Boulaknadel, Siham 18 October 2008 (has links) (PDF) La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé. Notre thèse s'inscrit dans le cadre de la recherche d'information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d'une part, d'identifier les termes complexes présents dans les requêtes et les documents. D'autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d'identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s'appuyant sur une approche mixte qui combine modèle statistique et données linguistiques. [INFO:INFO_OH] Computer Science/Other Langue Arabe Recherche d'information Terme complexe Terme simple Extraction de termes
2	Méthodes et modèles de construction automatisée d'ontologies pour des domaines spécialisés / Methods and models for the learning the domain ontology Goncharova, Olena 23 February 2017 (has links) La thèse est préparée dans le cadre d’une convention de cotutelle sous la direction des Professeurs Jean-Hugues Chauchat (ERIC-Lyon2) et N.V. Charonova (Université Nationale Polytechnique de Kharkov en Ukraine).1. Les résultats obtenus peuvent se résumer ainsi : Rétrospective des fondations théoriques sur la formalisation des connaissances et langue naturelle en tant que précurseurs de l’ingénierie des ontologies. Actualisation de l’état de l’art sur les approches générales dans le domaine de l’apprentissage d’ontologie, et sur les méthodes d’extraction des termes et des relations sémantiques. Panorama des plateformes et outils de construction et d’apprentissage des ontologies ; répertoire des ressources lexicales disponibles en ligne et susceptibles d’appuyer l’apprentissage d’ontologie (apprentissage des concepts et relation). 2. Propositions méthodologiques : Une méthode d’apprentissage des patrons morphosyntaxiques et d’installation de taxonomies partielles de termes. Une méthode de formation de classes sémantiques représentant les concepts et les relations pour le domaine de la sécurité radiologique. Un cadre (famework) d’organisation des étapes de travaux menant à la construction de l’ontologie du domaine de la sécurité radiologique.3. Implémentation et expérimentations : Installation de deux corpus spécialisés dans le domaine de la protection radiologique, en français et en russe, comprenant respectivement 1 500 000 et 600 000 unités lexicales. Implémentation des trois méthodes proposées et analyse des résultats obtenus. Les résultats ont été présentés dans 13 publications, revues et actes de conférences nationales et internationales, entre 2010 et 2016, notamment IMS-2012, TIA-2013, TOTH-2014, Eastern-European Journal of Eenterprise Technologies, Bionica Intellecta (Бионика интеллекта), Herald of the NTU «~KhPI~» (Вестник НТУ «~ХПИ~»). / The thesis has been prepared within a co-supervision agreement with the Professors Jean-Hugues Chauchat (ERIC-Lyon2) and N.V. Charonova (National Polytechnic University of Kharkov in Ukraine).The results obtained can be summarized as follows:1. State of the art:Retrospective of theoretical foundations concerning the formalization of knowledge and natural language as precursors of ontology engineering.Update of the state of the art on general approaches in the field of ontology learning, and on methods for extracting terms and semantic relations.Overview of platforms and tools for ontology construction and learning; list of lexical resources available online able to support ontology learning (concept learning and relationship).2. Methodological proposals:Learning morphosyntactic patterns and implementing partial taxonomies of terms.Finding semantic classes representing concepts and relationships for the field of radiological safety.Building a frame for the various stages of the work leading to the construction of the ontology in the field of radiological safety.3. Implementation and experiments:Loading of two corpuses specialized in radiological protection, in French and Russian, with 1,500,000 and 600,000 lexical units respectively.Implementation of the three previous methods and analysis of the results obtained.The results have been published in 13 national and international journals and proceedings, between 2010 and 2016, including IMS-2012, TIA-2013, TOTH-2014, Bionica Intellecta (Бионика интеллекта) , Herald of the NTU "~ KhPI ~" (Вестник НТУ "~ ХПИ ~"). Apprentissage des ontologies Traitement de texte Analyse sémantique Extraction de termes Extraction de relations Ontology learning Text processing Semantic analysis Terms extraction 001
3	Analyse de la variation terminologique en corpus parallèle anglais-espagnol et de son incidence sur l'extraction des termes bilingue Carreño Cruz, Sahara Iveth January 2004 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Variation terminologique Variante terminologique Terme de base Terme simple Terme complexe Extraction automatique de termes Extraction de termes bilingue Corpus parallèle Corpus aligné Terminologie de l'environnement
4	Élaboration d'un corpus étalon pour l'évaluation d'extracteurs de termes Bernier-Colborne, Gabriel 05 1900 (has links) Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction. / We describe a methodology for constructing a gold standard for the automatic evaluation of term extractors. These programs, designed to automatically extract specialized terms from a corpus, are used in various settings, including terminology work, translation, information retrieval, indexing, etc. Thus, the evaluation of term extractors must be carried out in accordance with a specific application. One way of evaluating term extractors is to construct a corpus in which all term occurrences have been annotated. This involves establishing a protocol for term selection and term boundary identification. To our knowledge, no well-documented annotated corpus is available for the evaluation of term extractors. This contribution aims to build such a corpus and describe what issues must be dealt with in the process. The gold standard we propose is a fully annotated corpus, constructed in accordance with a specific terminological setting, namely the compilation of a specialized dictionary of automotive mechanics. This annotated corpus accounts for the wide variety of realizations of terms in context. Terms are selected in accordance with specific criteria pertaining to the terminological setting as well as formal, linguistic and conceptual properties of terms and term variations. To evaluate a term extractor, a list of all the terminological units in the corpus is extracted and compared to the output of the term extractor, using a set of metrics to assess its performance. Subsets of terminological units may also be extracted, providing a level of customization. This allows an automatic and application-driven evaluation of term extractors. Due to its reusability, it can serve not only to assess the performance of a particular extractor, but also to compare different extractors and fine-tune extraction techniques. Terminologie Terminology Terminologie computationnelle Computational terminology Extraction de termes Term acquisition Évaluation Evaluation Annotation de corpus Annotated corpora Variation terminologique Term variation
5	Élaboration d'un corpus étalon pour l'évaluation d'extracteurs de termes Bernier-Colborne, Gabriel 05 1900 (has links) Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction. / We describe a methodology for constructing a gold standard for the automatic evaluation of term extractors. These programs, designed to automatically extract specialized terms from a corpus, are used in various settings, including terminology work, translation, information retrieval, indexing, etc. Thus, the evaluation of term extractors must be carried out in accordance with a specific application. One way of evaluating term extractors is to construct a corpus in which all term occurrences have been annotated. This involves establishing a protocol for term selection and term boundary identification. To our knowledge, no well-documented annotated corpus is available for the evaluation of term extractors. This contribution aims to build such a corpus and describe what issues must be dealt with in the process. The gold standard we propose is a fully annotated corpus, constructed in accordance with a specific terminological setting, namely the compilation of a specialized dictionary of automotive mechanics. This annotated corpus accounts for the wide variety of realizations of terms in context. Terms are selected in accordance with specific criteria pertaining to the terminological setting as well as formal, linguistic and conceptual properties of terms and term variations. To evaluate a term extractor, a list of all the terminological units in the corpus is extracted and compared to the output of the term extractor, using a set of metrics to assess its performance. Subsets of terminological units may also be extracted, providing a level of customization. This allows an automatic and application-driven evaluation of term extractors. Due to its reusability, it can serve not only to assess the performance of a particular extractor, but also to compare different extractors and fine-tune extraction techniques. Terminologie Terminology Terminologie computationnelle Computational terminology Extraction de termes Term acquisition Évaluation Evaluation Annotation de corpus Annotated corpora Variation terminologique Term variation

1

Page generated in 0.0969 seconds