Global ETD Search

1	Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information / Extended local grammars : principles, implementation and applications for information extraction Martinez, Cristian 19 December 2017 (has links) Les grammaires locales constituent un formalisme de description de constructions linguistiques et sont communément représentées sous la forme de graphes orientés. Utilisées pour la recherche et l'extraction de motifs dans un texte, elles trouvent leurs limites dans le traitement de variations non décrites ou fautives ainsi que dans la capacité à accéder à des connaissances exogènes, c'est-à-dire des informations à extraire, au cours de l'analyse, de ressources externes à la grammaire et qui peuvent s'avérer utiles pour normaliser, enrichir, valider ou mettre en relation les motifs reconnus. Dans cette thèse nous introduisons la notion de grammaire locale étendue. Il s'agit d'un formalisme capable d'étendre le modèle classique des grammaires locales. Premièrement, en ajoutant des fonctions arbitraires à satisfaire, appelées fonctions étendues, qui ne sont pas prédéfinies à l'avance et qui sont évaluées en dehors de la grammaire. De surcroît, ce formalisme fournit à l'analyseur syntaxique la possibilité de déclencher des événements qui peuvent également être traités sous la forme de fonctions étendues. Le travail présenté se divise en trois parties: dans un premier temps, nous étudions les principes concernant la construction des grammaires locales étendues. Nous présentons ensuite la mise en œuvre d'un moteur d'analyse textuelle implémentant le formalisme proposé. Enfin, nous étudions quelques applications pour l'extraction de l'information dans des textes bien formés et des textes bruités. Nous nous focalisons sur le couplage des ressources externes et des méthodes non-symboliques dans la construction de nos grammaires en montrant la pertinence de cette approche pour dépasser les limites des grammaires locales classiques / Local grammars constitute a descriptive formalism of linguistic phenomena and are commonly represented using directed graphs. Local grammars are used to recognize and extract patterns in a text, but they had some inherent limits in dealing with unexpected variations as well as in their capacity to access exogenous knowledge, in other words information to extract, during the analysis, from external resources and which may be useful to normalize, enhance validate or link the recognized patterns. In this thesis, we introduce the notion of extended local grammar, a formalism capable to extend the classic model of local grammars. The means are twofold: on the one hand, it is achieved by adding arbitrary conditional-functions, called extended functions, which are not predefined in advance and are evaluated from outside of the grammar. On the other hand, it is achieved by allowing the parsing engine to trigger events that can also be processed as extended functions. The work presented herewith is divided into three parts: In the first part, we study the principles regarding the construction of the extended local grammars. Then, we present a proof-of-concept of a corpus-processing tool which implements the proposed formalism. Finally, we study some techniques to extract information from both well-formed and noisy texts. We focus on the coupling of external resources and non-symbolic methods in the construction of our grammars and we highlight the suitability of this approach in order to overcome the inherent limitations of classical local grammars Grammaire locale Grammaire locale étendue Extraction de l'information Apprentissage automatique Local grammar Extended local grammar Information extraction Machine learning
2	Acquisition de relations entre entités nommées à partir de corpus / Corpus-based recognition of relations between named entities Ezzat, Mani 06 May 2014 (has links) Les entités nommées ont été l’objet de nombreuses études durant les années 1990. Leur reconnaissance dans les textes a atteint un niveau de maturité suffisante, du moins pour les principaux types (personne, organisation et lieu), pour aller plus loin dans l’analyse, vers la reconnaissance de relations entre entités. Il est par exemple intéressant de savoir qu’un texte contient des occurrences des mots « Google » et « Youtube » ; mais l’analyse devient plus intéressante si le système est capable de détecter une relation entre ces deux éléments, voire de les typer comme étant une relation d’achat (Google ayant racheté Youtube en 2006). Notre contribution s’articule autour de deux grands axes : tracer un contour plus précis autour de la définition de la relation entre entités nommées, notamment au regard de la linguistique, et explorer des techniques pour l’élaboration de systèmes d’extraction automatique qui sollicitent des linguistes. / Named entities have been the topic of many researches during the 90’s. Their detection in texts has reached a high level of performance, at least for the main categories (person, organization and location). It becomes now possible to go further, toward relation between entities recognition. For instance, knowing that a text contains the words “Google” and “Youtube” can be relevant but being able to link them and detect an acquisition relation can be more interesting (Google has bought Youtube in 2006). Our work is focusing on two different aspects: to define a finer perimeter around the relation between named entities definition, with linguistic aspect in mind, and to explore new techniques that make use of linguists in order to build a relation between named entities recognition system. Relation Grammaire locale Corpus Ontologie Entités nommées Relation Local grammar Corpora Ontology Named entities
3	Efficient finite-state algorithms for the application of local grammars / Algorithmes performants à états finis pour l'application de grammaires locales Sastre Martinez, Javier Miguel 11 July 2011 (has links) Notre travail porte sur le développement d'algorithmes performants d'application de grammaires locales, en prenant comme référence ceux des logiciels libres existants : l'analyseur syntaxique descendant d'Unitex et l'analyseur syntaxique à la Earley d'Outilex. Les grammaires locales sont un formalisme de représentation de la syntaxe des langues naturelles basé sur les automates finis. Les grammaires locales sont un modèle de construction de descriptions précises et à grande échelle de la syntaxe des langues naturelles par le biais de l'observation systématique et l'accumulation méthodique de données. L'adéquation des grammaires locales pour cette tâche a été testée à l'occasion de nombreux travaux. À cause de la nature ambiguë des langues naturelles et des propriétés des grammaires locales, les algorithmes classiques d'analyse syntaxique tels que LR, CYK et ne peuvent pas être utilisés dans le contexte de ce travail. Les analyseurs top-down et Earley sont des alternatives possibles ; cependant, ils ont des coûts asymptotiques exponentiels pour le cas des grammaires locales. Nous avons d'abord conçu un algorithme d'application de grammaires locales avec un coût polynomial dans le pire des cas. Ensuite, nous avons conçu des structures de donnés performantes pour la représentation d'ensembles d'éléments et de séquences. Elles ont permis d'améliorer la vitesse de notre algorithme dans le cas général. Nous avons mis en œuvre notre algorithme et ceux des systèmes Unitex et Outilex avec les mêmes outils afin de les tester dans les mêmes conditions. En outre, nous avons mis en œuvre différents versions de chaque algorithme en utilisant nos structures de données et algorithmes pour la représentation d'ensembles et ceux fournis par la Standard Template Library (STL) de GNU. Nous avons comparé les performances des différents algorithmes et de leurs variantes dans le cadre d'un projet industriel proposé par l'entreprise Telefónica I+D : augmenter la capacité de compréhension d'un agent conversationnel qui fournit des services en ligne, voire l'envoi de SMS à des téléphones portables ainsi que des jeux et d'autres contenus numériques. Les conversations avec l'agent sont en espagnol et passent par Windows Live Messenger. En dépit du domaine limité et de la simplicité des grammaires appliquées, les temps d'exécution de notre algorithme, couplé avec nos structures de données et algorithmes pour la représentation d'ensembles, ont été plus courts. Grâce au coût asymptotique amélioré, on peut s'attendre à des temps d'exécution significativement inférieurs par rapport aux algorithmes utilisés dans les systèmes Unitex et Outilex, pour le cas des grammaires complexes et à large couverture / This work focuses on the research and development of efficient algorithms of application of local grammars, taking as reference those of the currently existent open-source systems : Unitex's top-down parser and Outilex's Earley-like parser. Local grammars are a finite-state based formalism for the representation of natural language grammars. Moreover, local grammars are a model for the construction of fully scaled and accurated descriptions of the syntax of natural languages by means of systematic observation and methodical accumulation of data. The adequacy of local grammars for this task has been proved by multiple works. Due to the ambiguous nature of natural languages, and the particular properties of local grammars, classic parsing algorithms such as LR, CYK's and Tomita's cannot be used in the context of this work. Top-down and Earley parsers are possible alternatives, though they have an exponential worst-case cost for the case of local grammars. We have first conceived an algorithm of application of local grammars having a polynomial worst-case cost. Furthermore, we have conceived other optimizations which increase the efficiency of the algorithm for general cases, namely the efficient management of sets of elements and sequences. We have implemented our algorithm and those of the Unitex and Outilex systems with the same tools in order to test them under the same conditions. Moreover, we have implemented different versions of each algorithm, either using our custom set data structures or those included in GNU's implementation of the C++ Standard Template Library (STL). We have compared the performances of the different algorithms and algorithm versions in the context of an industrial natural language application provided by the enterprise Telefónica I+D : extending the understanding capabilities of a chatterbot that provides mobile services, such as sending SMSs to mobile phones as well as games and other digital contents. Conversation with the chatterbot is held in Spanish by means of Microsoft's Windows Live Messenger. In spite of the limited domain and the simplicity of the applied grammars, execution times of our parsing algorithm coupled with our custom implementation of sets were lower. Thanks to the improved asymptotic cost of our algorithm, execution times for the case of complex and large coverage grammars can be expected to be considerably lower than those of the Unitex and Outilex algorithms Optimisation Algorithme États finis Grammaire locale Langue naturelle Analyse syntaxique Optimization Algorithm Finite-state Local grammar Natural language Parsing
4	Algorithmes performants à états finis pour l'application de grammaires locales Sastre Martinez, Javier Miguel 11 July 2011 (has links) (PDF) Notre travail porte sur le développement d'algorithmes performants d'application de grammaires locales, en prenant comme référence ceux des logiciels libres existants : l'analyseur syntaxique descendant d'Unitex et l'analyseur syntaxique à la Earley d'Outilex. Les grammaires locales sont un formalisme de représentation de la syntaxe des langues naturelles basé sur les automates finis. Les grammaires locales sont un modèle de construction de descriptions précises et à grande échelle de la syntaxe des langues naturelles par le biais de l'observation systématique et l'accumulation méthodique de données. L'adéquation des grammaires locales pour cette tâche a été testée à l'occasion de nombreux travaux. À cause de la nature ambiguë des langues naturelles et des propriétés des grammaires locales, les algorithmes classiques d'analyse syntaxique tels que LR, CYK et ne peuvent pas être utilisés dans le contexte de ce travail. Les analyseurs top-down et Earley sont des alternatives possibles ; cependant, ils ont des coûts asymptotiques exponentiels pour le cas des grammaires locales. Nous avons d'abord conçu un algorithme d'application de grammaires locales avec un coût polynomial dans le pire des cas. Ensuite, nous avons conçu des structures de donnés performantes pour la représentation d'ensembles d'éléments et de séquences. Elles ont permis d'améliorer la vitesse de notre algorithme dans le cas général. Nous avons mis en œuvre notre algorithme et ceux des systèmes Unitex et Outilex avec les mêmes outils afin de les tester dans les mêmes conditions. En outre, nous avons mis en œuvre différents versions de chaque algorithme en utilisant nos structures de données et algorithmes pour la représentation d'ensembles et ceux fournis par la Standard Template Library (STL) de GNU. Nous avons comparé les performances des différents algorithmes et de leurs variantes dans le cadre d'un projet industriel proposé par l'entreprise Telefónica I+D : augmenter la capacité de compréhension d'un agent conversationnel qui fournit des services en ligne, voire l'envoi de SMS à des téléphones portables ainsi que des jeux et d'autres contenus numériques. Les conversations avec l'agent sont en espagnol et passent par Windows Live Messenger. En dépit du domaine limité et de la simplicité des grammaires appliquées, les temps d'exécution de notre algorithme, couplé avec nos structures de données et algorithmes pour la représentation d'ensembles, ont été plus courts. Grâce au coût asymptotique amélioré, on peut s'attendre à des temps d'exécution significativement inférieurs par rapport aux algorithmes utilisés dans les systèmes Unitex et Outilex, pour le cas des grammaires complexes et à large couverture [INFO:INFO_OH] Computer Science/Other Optimisation Algorithme États finis Grammaire locale Langue naturelle Analyse syntaxique
5	Grammaire des adverbes de durée et de date en coréen Jung, Eun Jin 13 December 2005 (has links) (PDF) Notre travail a pour objectif une analyse syntaxique des adverbes de temps coréens dont l'interprétation correspond à une durée ou à une date (e.g. 3sigan dongan (pendant 3 heures), 5uel 6il (le 6 mai)). Pour la linguistique formelle comme pour le traitement informatique des langues, une description aussi exhaustive et explicite que possible est indispensable. La méthodologie du lexique-grammaire (M. Gross 1975, 1986b) nous a fourni un modèle de description formelle et systématique de la langue naturelle. Nous avons choisi de décrire les combinaisons lexicales concernées par des graphes d'automates finis, qui constituent autant de "grammaires locales" représentant les différents types de séquences adverbiales possibles. Nos graphes peuvent être intégrés directement à un analyseur syntaxique automatique pour localiser les adverbes de durée et de date en coréen dans des textes quelconques. Cette étude est structurée comme suit : Dans le premier chapitre, nous présentons plusieurs points cruciaux de notre cadre théorique, le lexique-grammaire, et des grammaires locales. Dans le deuxième chapitre, nous nous intéressons plus particulièrement aux formes des groupes nominaux construits sur des noms de temps (Ntps), c'est-à-dire les séquences Dét Ntps, ceci dans une large mesure indépendamment de la postposition et de l'utilisation de ces formes comme adverbes de date ou comme adverbes de durée. Nous consacrons le chapitre 3 à l'analyse des formes interprétables comme des durées et le chapitre 4 à celle des formes interprétables comme des dates. Nous analysons comment les groupes nominaux de temps étudiés dans le deuxième chapitre peuvent entrer dans des phrases qui donnent lieu à des interprétations de durée ou de date. [INFO:INFO_OH] Computer Science/Other adverbe de temps durée date lexique-grammaire analyse syntaxique verbe support grammaire locale graphe automate fini reconnaissance automatique
6	Description morphosyntaxique et sémantique des adverbes figés en vue d‟un système d‟analyse automatique des textes grecs Stavroula, Voyatzi 06 March 2006 (has links) (PDF) Cette recherche a pour objectif la description systématique et formelle des adverbes figés et semi-figés du grec moderne, abrégés ici en adverbes figés (i.e. κέζα ζηα άγξηα κεζάλπρηα/à l‟aube, ην κήλα πνπ δελ έρεη ΢άββαην/la semaine des quatre jeudis). Notre intention est d‟aboutir à une description aussi exhaustive et explicite que possible en vue de l‟analyse automatique de la langue grecque. La méthodologie du lexique-grammaire (M. Gross 1975, 1990a), s‟appuyant sur les principes de la grammaire transformationnelle harisienne, nous a fourni un modèle de description de la langue naturelle adéquat. Notre étude s‟articule autour de cinq parties. Dans la première partie, nous abordons les deux notions fondamentales qui véhiculent notre recherche : les notions d‟adverbe et de figement. Dans la deuxième partie, nous étudions la composition lexicale d‟un ensemble de 4 880 formes adverbiales figées, recensées à partir des sources éditées et numériques. Nous insistons particulièrement sur les différents types de variations mises en jeu ainsi que sur les problèmes que celles-ci posent lors de la représentation formalisée des adverbes dans le dictionnaire électronique morphologique et les tables du lexique-grammaire. La troisième partie traite l‟analyse syntaxico-sémantique des adverbes figés. En premier lieu, nous distinguons les adverbes figés des compléments formellement similaires mais syntaxiquement différents. En deuxième lieu, nous entreprenons l‟analyse syntaxique des phrases simples à adverbes figés et celle à adverbes de date. La quatrième partie porte sur la classification des adverbes figés, répartis en seize classes morpho-syntaxiquement distinctes. Après avoir exposé les principes théoriques qui régissent notre opération de classification, nous présentons l‟organisation des tables du lexique-grammaire des adverbes figés grecs. Les critères classificatoires, les régularités et les particularités que les classes établies comportent ainsi que les propriétés syntaxico-sémantiques des adverbes figés font également l‟objet de cette partie. La cinquième partie est consacrée à l‟exploitation de nos données linguistiques à des fins de traitement automatique des langues naturelles (TALN). Notre intérêt est focalisé sur la reconnaissance lexicale des adverbes figés et semi-figés dans les textes grecs. Nous présentons en annexe (volume 2) des échantillons représentatifs des tables du lexique-grammaire des adverbes figés et de la grammaire locale des expressions de date. [INFO:INFO_OH] Computer Science/Other adverbe figé adverbe semi-figé adverbe de date classification des adverbes figés propriété syntaxique propriété sémantique propriété transformationnelle dictionnaire électronique morphologique grammaire locale table de lexique-grammaire automate à états finis récursifs
7	Grammaires locales pour l'analyse automatique de textes : méthodes de construction et outils de gestion Constant, Matthieu 08 September 2003 (has links) (PDF) L'explosion du nombre de documents disponibles (notamment sur Internet) a rendu le domaine du Traitement Automatique des Langues (TAL) et ses outils incontournables. De nombreux chercheurs marquent l'importance de la linguistique dans ce domaine. Ils préconisent la construction de larges bases de descriptions linguistiques, composées de lexiques et de grammaires. Cette démarche a un gros inconvénient : elle nécessite un investissement lourd qui s'inscrit sur le long terme. Pour palier à ce problème, il est nécessaire de mettre au point des méthodes et des outils informatiques d'aide à la construction de composants linguistiques fins et directement applicables à des textes. Nous nous sommes penché sur le problème des grammaires locales qui décrivent des contraintes précises et locales sous la forme de graphes. Deux questions fondamentales se posent : - Comment construire efficacement des grammaires précises, complètes et applicables à des textes ? - Comment gérer leur nombre et leur éparpillement ? Comme solution au premier problème, nous avons proposé un ensemble de méthodes simples et empiriques. Nous avons exposé des processus d'analyse linguistique et de représentation à travers deux phénomènes : les expressions de mesure (un immeuble d'une hauteur de 20 mètres) et les adverbes de lieu contenant un nom propre locatif (à l'île de la Réunion), deux points critiques du TAL. Sur la base de M. Gross (1975), nous avons ramené chaque phénomène à une phrase élémentaire. Ceci nous a permis de classer sémantiquement certains phénomènes au moyen de critères formels. Nous avons systématiquement étudié le comportement de ces phrases selon les valeurs lexicales de ses éléments. Les faits observés ont ensuite été représentés formellement soit directement dans des graphes à l'aide d'un éditeur, soit par l'intermédiaire de tables syntaxiques ensuite converties semiautomatiquement en graphes. Au cours de notre travail, nous avons été confronté à des systèmes relationnels de tables syntaxiques pour lesquels la méthode standard de conversion due à E. Roche (1993) ne fonctionnait plus. Nous avons donc élaboré une nouvelle méthode adaptée avec des formalismes et des algorithmes permettant de gérer le cas où les informations sur les graphes à construire se trouvent dans plusieurs tables. En ce qui concerne le deuxième problème, nous avons proposé et implanté un prototype de système de gestion de grammaires locales : une bibliothèque en-ligne de graphes. Le but à terme est de centraliser et de diffuser les grammaires locales construites au sein du réseau RELEX. Nous avons conçu un ensemble d'outils permettant à la fois de stocker de nouveaux graphes et de rechercher des graphes suivant différents critères. L'implémentation d'un moteur de recherche de grammaires nous a également permis de nous pencher sur un nouveau champ d'investigation dans le domaine de la recherche d'information : la recherche d'informations linguistiques dans des grammaires locales. [INFO:INFO_OH] Computer Science/Other analyse automatique de textes analyse syntaxique complément prépositionnel locatif expression de mesure gestion de grammaires locales grammaire locale graphe lexique-grammaire nom propre géographique réseau récursif de transitions

1

Page generated in 0.054 seconds