Global ETD Search

31	Implication textuelle et réécriture / Textual Entailment and rewriting Bedaride, Paul 18 October 2010 (has links) Cette thèse propose plusieurs contributions sur le thème de la détection d'implications textuelles (DIT). La DIT est la capacité humaine, étant donné deux textes, à pouvoir dire si le sens du second texte peut être déduit à partir de celui du premier. Une des contributions apportée au domaine est un système de DIT hybride prenant les analyses d'un analyseur syntaxique stochastique existant afin de les étiqueter avec des rôles sémantiques, puis transformant les structures obtenues en formules logiques grâce à des règles de réécriture pour tester finalement l'implication à l'aide d'outils de preuve. L'autre contribution de cette thèse est la génération de suites de tests finement annotés avec une distribution uniforme des phénomènes couplée avec une nouvelle méthode d'évaluation des systèmes utilisant les techniques de fouille d'erreurs développées par la communauté de l'analyse syntaxique permettant une meilleure identification des limites des systèmes. Pour cela nous créons un ensemble de formules sémantiques puis nous générons les réalisations syntaxiques annotées correspondantes à l'aide d'un système de génération existant. Nous testons ensuite s'il y a implication ou non entre chaque couple de réalisations syntaxiques possible. Enfin nous sélectionnons un sous-ensemble de cet ensemble de problèmes d'une taille donnée et satisfaisant un certain nombre de contraintes à l'aide d'un algorithme que nous avons développé. / This thesis presents several contributions on the theme of recognising textual entailment (RTE). The RTE is the human capacity, given two texts, to determine whether the meaning of the second text could be deduced from the meaning of the first or not. One of the contributions made to the field is a hybrid system of RTE taking analysis of an existing stochastic parser to label them with semantics roles, then turning obtained structures in logical formulas using rewrite rules to finally test the entailment using proof tools. Another contribution of this thesis is the generation of finely annotated tests suites with a uniform distribution of phenomena coupled with a new methodology of systems evaluation using error minning techniques developed by the community of parsing allowing better identification of systems limitations. For this, we create a set of formulas, then we generate annotated syntactics realisations corresponding by using an existing generation system. Then, we test whether or not there is an entailment between each pair of possible syntactics realisations. Finally, we select a subset of this set of problems of a given size and a satisfactory a certain number of constraints using an algorithm that we developed Traitement automatique des langues Réécriture Représentation Raisonnement Natural Language Processing Rewriting Representation Reasoning 410.285 006.35
32	Extraction d'information à partir de transcription de conversations téléphoniques spécialisées Boufaden, Narjès January 2004 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. Extraction d'information Analyse de conversations Étiquetage sémantique Apprentissage statistique Segmentation de textes
33	Exploration des réseaux de neurones à base d'autoencodeur dans le cadre de la modélisation des données textuelles Lauly, Stanislas January 2016 (has links) Depuis le milieu des années 2000, une nouvelle approche en apprentissage automatique, l'apprentissage de réseaux profonds (deep learning), gagne en popularité. En effet, cette approche a démontré son efficacité pour résoudre divers problèmes en améliorant les résultats obtenus par d'autres techniques qui étaient considérées alors comme étant l'état de l'art. C'est le cas pour le domaine de la reconnaissance d'objets ainsi que pour la reconnaissance de la parole. Sachant cela, l’utilisation des réseaux profonds dans le domaine du Traitement Automatique du Langage Naturel (TALN, Natural Language Processing) est donc une étape logique à suivre. Cette thèse explore différentes structures de réseaux de neurones dans le but de modéliser le texte écrit, se concentrant sur des modèles simples, puissants et rapides à entraîner. Deep learning Réseaux profonds Réseau de neurones TALN Natural language processing NLP
34	Résolution d'anaphores et identification des chaînes de coréférence selon le type de texte Boudreau, Sylvie January 2004 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Résolution d'anaphores Chaîne de coréférence Nom propre Traitement automatique de texte Linguistique du texte Langage de balisage XML
35	Désignations nominales des événements : étude et extraction automatique dans les textes / Nominal designation of events : study and automatic extraction in texts Arnulphy, Béatrice 02 October 2012 (has links) Ma thèse a pour but l'étude des désignations nominales des événements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une démarche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles à une application particulière. Dans ce but général, de nombreuses campagnes d'extraction d'information ont été menées~: pour chaque événement considéré, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). Dès le départ, ces challenges touchent de près aux entités nommées (éléments « notables » des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'événement. Pourtant, ces travaux ne s'intéressent que peu aux mots utilisés pour décrire l'événement (particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme un tout englobant, comme la quantité et la qualité des informations qui le composent. Contrairement aux travaux en extraction d'informations générale, notre intérêt principal est porté uniquement sur la manière dont sont nommés les événements qui se produisent et particulièrement à la désignation nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les événements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un événement peut être évoqué par une description verbale ou nominale. Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous avons observé et comparé les différents aspects présentés dans l'état de l'art jusqu'à construire une définition de l'événement et une typologie des événements en général, et qui conviennent dans le cadre de nos travaux et pour les désignations nominales des événements. Nous avons aussi dégagé de nos études sur corpus différents types de formation de ces noms d'événements, dont nous montrons que chacun peut être ambigu à des titres divers. Pour toutes ces études, la composition d'un corpus annoté est une étape indispensable, nous en avons donc profité pour élaborer un guide d'annotation dédié aux désignations nominales d'événements. Nous avons étudié l'importance et la qualité des lexiques existants pour une application dans notre tâche d'extraction automatique. Nous avons aussi, par des règles d'extraction, porté intérêt au cotexte d'apparition des noms pour en déterminer l'événementialité. À la suite de ces études, nous avons extrait un lexique pondéré en événementialité (dont la particularité est d'être dédié à l'extraction des événements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de représenter des événements. Utilisée comme indice pour l'extraction des noms d'événements, cette pondération permet d'extraire des noms qui ne sont pas présents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillé sur des traits d'apprentissage contextuels en partie fondés sur la syntaxe pour extraire de noms d'événements. / The aim of my PhD thesis is the study of nominal designations of events for automatic extraction. My work is part of natural language processing, or in a multidisciplinary approach that involves Linguistics and Computer Science. The aim of information extraction is to analyze natural language documents and extract information relevant to a particular application. In this general goal, many information extraction campaigns were conducted: for each event considered, the task of the campaign is to extract some information (participants, dates, numbers, etc..). From the outset these challenges relate closely to named entities (elements "significant" texts, such as names of people or places). All these information are set around the event and the work does not care about the words used to describe the event (especially when it comes to a name). The event is seen as an all-encompassing as the quantity and quality of information that compose it. Unlike work in general information retrieval, our main interest is focused only on the way are named events that occur particularly in the nominal designation used. For us, this is the event that happens that is worth talking about. The most important events are the subject of newspaper articles or appear in the history books. An event can be evoked by a verbal or nominal description. In this thesis, we reflected on the notion of event. We observed and compared the different aspects presented in the state of the art to construct a definition of the event and a typology of events generally agree that in the context of our work and designations nominal events. We also released our studies of different types of training corpus of the names of events, we show that each can be ambiguous in various ways. For these studies, the composition of an annotated corpus is an essential step, so we have the opportunity to develop an annotation guide dedicated to nominal designations events. We studied the importance and quality of existing lexicons for application in our extraction task automatically. We also focused on the context of appearance of names to determine the eventness, for this purpose, we used extraction rules. Following these studies, we extracted an eventive relative weighted lexicon (whose peculiarity is to be dedicated to the extraction of nominal events), which reflects the fact that some names are more likely than others to represent events. Used as a tip for the extraction of event names, this weight can extract names that are not present in the lexicons existing standards. Finally, using machine learning, we worked on learning contextual features based in part on the syntax to extract event names. Traitement automatique des langues Événement Désignation nominale Natural language processing Event Nominal designation
36	Automatic, adaptive, and applicative sentiment analysis / Analyse de sentiments automatique, adaptative et applicative Pak, Alexander 13 June 2012 (has links) L'analyse de sentiments est un des nouveaux défis apparus en traitement automatique des langues avec l'avènement des réseaux sociaux sur le WEB. Profitant de la quantité d'information maintenant disponible, la recherche et l'industrie se sont mises en quête de moyens pour analyser automatiquement les opinions exprimées dans les textes. Pour nos travaux, nous nous plaçons dans un contexte multilingue et multi-domaine afin d'explorer la classification automatique et adaptative de polarité.Nous proposons dans un premier temps de répondre au manque de ressources lexicales par une méthode de construction automatique de lexiques affectifs multilingues à partir de microblogs. Pour valider notre approche, nous avons collecté plus de 2 millions de messages de Twitter, la plus grande plate-forme de microblogging et avons construit à partir de ces données des lexiques affectifs pour l'anglais, le français, l'espagnol et le chinois.Pour une meilleure analyse des textes, nous proposons aussi de remplacer le traditionnel modèle n-gramme par une représentation à base d'arbres de dépendances syntaxiques. Dans notre modèles, les n-grammes ne sont plus construits à partir des mots mais des triplets constitutifs des dépendances syntaxiques. Cette manière de procéder permet d'éviter la perte d'information que l'on obtient avec les approches classiques à base de sacs de mots qui supposent que les mots sont indépendants.Finalement, nous étudions l'impact que les traits spécifiques aux entités nommées ont sur la classification des opinions minoritaires et proposons une méthode de normalisation des décomptes d'observables, qui améliore la classification de ce type d'opinion en renforçant le poids des termes affectifs.Nos propositions ont fait l'objet d'évaluations quantitatives pour différents domaines d'applications (les films, les revues de produits commerciaux, les nouvelles et les blogs) et pour plusieurs langues (anglais, français, russe, espagnol et chinois), avec en particulier une participation officielle à plusieurs campagnes d'évaluation internationales (SemEval 2010, ROMIP 2011, I2B2 2011). / Sentiment analysis is a challenging task today for computational linguistics. Because of the rise of the social Web, both the research and the industry are interested in automatic processing of opinions in text. In this work, we assume a multilingual and multidomain environment and aim at automatic and adaptive polarity classification.We propose a method for automatic construction of multilingual affective lexicons from microblogging to cover the lack of lexical resources. To test our method, we have collected over 2 million messages from Twitter, the largest microblogging platform, and have constructed affective resources in English, French, Spanish, and Chinese.We propose a text representation model based on dependency parse trees to replace a traditional n-grams model. In our model, we use dependency triples to form n-gram like features. We believe this representation covers the loss of information when assuming independence of words in the bag-of-words approach.Finally, we investigate the impact of entity-specific features on classification of minor opinions and propose normalization schemes for improving polarity classification. The proposed normalization schemes gives more weight to terms expressing sentiments and lower the importance of noisy features.The effectiveness of our approach has been proved in experimental evaluations that we have performed across multiple domains (movies, product reviews, news, blog posts) and multiple languages (English, French, Russian, Spanish, Chinese) including official participation in several international evaluation campaigns (SemEval'10, ROMIP'11, I2B2'11). L'analyse des sentiments Fouille d'opinions Sentiment analysis Opinion mining Computational linguistics
37	Génération automatique de questionnaires à choix multiples pédagogiques : évaluation de l'homogénéité des options / Automatic generation of educational multiple-choice questions : evaluation of option homogeneity Pho, Van-Minh 24 September 2015 (has links) Ces dernières années ont connu un renouveau des Environnements Informatiques pour l'Apprentissage Humain. Afin que ces environnements soient largement utilisés par les enseignants et les apprenants, ils doivent fournir des moyens pour assister les enseignants dans leur tâche de génération d'exercices. Parmi ces exercices, les Questionnaires à Choix Multiples (QCM) sont très présents. Cependant, la rédaction d'items à choix multiples évaluant correctement le niveau d'apprentissage des apprenants est une tâche complexe. Des consignes ont été développées pour rédiger manuellement des items, mais une évaluation automatique de la qualité des items constituerait un outil pratique pour les enseignants.Nous nous sommes intéressés à l'évaluation automatique de la qualité des distracteurs (mauvais choix de réponse). Pour cela, nous avons étudié les caractéristiques des distracteurs pertinents à partir de consignes de rédaction de QCM. Cette étude nous a conduits à considérer que l'homogénéité des distracteurs et de la réponse est un critère important pour valider les distracteurs. L'homogénéité est d'ordre syntaxique et sémantique. Nous avons validé la définition de l'homogénéité par une analyse de corpus de QCM, et nous avons proposé des méthodes de reconnaissance automatique de l'homogénéité syntaxique et sémantique à partir de cette analyse.Nous nous sommes ensuite focalisé sur l'homogénéité sémantique des distracteurs. Pour l'estimer automatiquement, nous avons proposé un modèle d'ordonnancement par apprentissage, combinant différentes mesures d'homogénéité sémantique. L'évaluation du modèle a montré que notre méthode est plus efficace que les travaux existants pour estimer l'homogénéité sémantique des distracteurs. / Recent years have seen a revival of Intelligent Tutoring Systems. In order to make these systems widely usable by teachers and learners, they have to provide means to assist teachers in their task of exercise generation. Among these exercises, multiple-choice tests are very common. However, writing Multiple-Choice Questions (MCQ) that correctly assess a learner's level is a complex task. Guidelines were developed to manually write MCQs, but an automatic evaluation of MCQ quality would be a useful tool for teachers.We are interested in automatic evaluation of distractor (wrong answer choice) quality. To do this, we studied characteristics of relevant distractors from multiple-choice test writing guidelines. This study led us to assume that homogeneity between distractors and answer is an important criterion to validate distractors. Homogeneity is both syntactic and semantic. We validated the definition of homogeneity by a MCQ corpus analysis, and we proposed methods for automatic recognition of syntactic and semantic homogeneity based on this analysis.Then, we focused our work on distractor semantic homogeneity. To automatically estimate it, we proposed a ranking model by machine learning, combining different semantic homogeneity measures. The evaluation of the model showed that our method is more efficient than existing work to estimate distractor semantic homogeneity Traitement Automatique des Langues Homogénéité sémantique Homogénéité syntaxique Natural Language Processing Semantic homogeneity Syntactic homogeneity
38	Les Topoï : de la logique à la sémantique ou des fondements sémantiques de la logique à la naissance de la sémantique / TOPICS Daoud, Refka 10 December 2018 (has links) Notre problématique porte sur les liens entre logique et topoï, sémantique et topoï et enfin entre logique et sémantique. Le travail consiste donc à mettre en relief la pérennité de la notion de topos, son évolution et son intégration dans la logique, dans la sémantique et même dans l’informatique. Dès lors, topoï, logique et sémantique sont les trois facettes de cette problématique.L’objet de cette thèse consiste donc à présenter l’histoire des topoï, à cerner leurs propriétés linguistiques. Il consiste aussi à montrer que cette notion est présente dans toutes les approches linguistiques et que la sémantique est l’axe fédérateur de toutes les recherches linguistiques.Nous n’avons pas l’intention de donner une définition nouvelle, mais nous avons essayé de faire la synthèse des caractéristiques principales des topoï et de dresser un tableau des recherches passées et actuelles élaborées sur cette notion.L’approche que nous avons adoptée est constructive et diachronique. Elle a mis en relief l’évolution des topoï, de leurs formes, de leurs sens et de leurs usages. La notion de topoï continue à exister de l’antiquité jusqu’à nos jours, puisqu’elle a des fondements sémantiques, qui sont inhérents à toutes les langues naturelles.Notre travail comporte trois grandes parties. La première expose la conception terminologique de la notion de topoï et son aspect évolutif. Elle met en évidence les différents emplois, les différentes définitions et l’aspect évolutif des topoï. Dans cette première partie, nous avons essayé de dresser à grands traits l’historique de la notion de topoï, l’emploi qui en a été fait par les logiciens, les rhéteurs, les linguistes, les pragmaticiens et les informaticiens.La deuxième est consacrée à la présentation des fondements sémantiques de la logique et des topoï et à la relation de complémentarité de ces trois notions, à savoir logique, sémantique et topoï. Nous avons précisé que la théorie des topoï est une théorie du sens. Et la troisième partie traite les fondements lexicaux des topoï et les exploitations modernes de cette notion, à savoir le traitement automatique, la théorie des cadres et l’ontologie, tout en présentant les différentes théories sémantiques argumentatives. Nous avons présenté/évoqué tout d’abord, « les lieux d’enthymèmes d’Aristote » qui relèvent des quatre lieux principaux déjà évoqués dans la première partie (à savoir la définition, le genre, le propre et l’accident). Ensuite nous avons mis en relief la présence des topoï dès le niveau lexical dans les théories sémantiques argumentatives (théorie des topoï, théories des blocs sémantiques et sémantique des possibles argumentatifs et théorie des prototypes). Nous avons présenté un petit exemple, un échantillon d’extraction de l’information à l’aide de la plateforme NooJ. / Our problematic concerns the links between logic and topoï, semantics and topoï and finally between logic and semantics. The work therefore consists in highlighting the durability of the notion of topos, its evolution and its integration in logic, in semantics and even in computer science. From then on, topoi, logic and semantics are the three facets of this problematic. The purpose of this thesis is to present the history of topoi, to identify their linguistic properties. It also shows that this notion is present in all linguistic approaches and that semantics is the unifying axis of all linguistic research.It is not our intention to give a new definition, but we have tried to summarize the main characteristics of the topoi and to draw up a table of past and current research developed on this notion.The approach we have adopted is constructive and diachronic. She highlighted the evolution of topoi, their forms, their senses and their uses. The notion of topoi continues to exist from antiquity to the present day, since it has semantic foundations, which are inherent in all natural languages. Our work has three main parts. The first presents the terminological conception of the concept of topoi and its evolutionary aspect. It highlights the different jobs, the different definitions and the evolutionary aspect of the topoï. In this first part, we tried to sketch out the history of the notion of topoi, the use that has been made by logicians, rhetoricians, linguists, pragmatists and computer scientists.The second is devoted to the presentation of the semantic foundations of logic and topoi and to the complementary relationship of these three notions, namely logic, semantics and topoi. We have specified that the theory of topoi is a theory of meaning. And the third part deals with the lexical foundations of the topoi and the modern exploitation of this notion, namely the automatic processing, the theory of the frames and the ontology, while presenting the different semantic argumentative theories. We have presented / evoked first of all, "the places of Aristotle's enthymemes" which belong to the four principal places already mentioned in the first part (namely the definition, the kind, the clean and the accident). Then we have highlighted the presence of topoi from the lexical level in argumentative semantic theories (theory of topoï, theories of semantic blocks and semantics of argumentative possibilities and theory of prototypes). We presented a small example, a sample extraction of information using the NooJ platform. Topoï Logique Sémantique Traitement automatique Informatique Linguistique Topics Semantic Logic Linguistic Computing Automatic processing 410
39	Une pragmatique à fleur de texte : approche en corpus de l'organisation textuelle Péry-Woodley, Marie-Paule 16 June 2000 (has links) (PDF) La première partie de cette synthèse est consacrée à l'élaboration et à l'illustration d'un cadre d'analyse pour des textes entiers, principalement produits dans le contexte de l'apprentissage de l'écrit. Dans la deuxième partie, les questionnements sur les niveaux de structuration des textes et le jeu des marques formelles se poursuivent avec la mise en relation de nouveaux modèles et la focalisation sur un objet textuel – la définition – dans des corpus de textes scientifiques ou techniques. La troisième partie prend la forme d'une réflexion sur trois thèmes doublement significatifs. Ce sont ceux qui à la fois parcourent l'ensemble des travaux présentés et motivent mes chantiers actuels et mes projets : d'abord, les niveaux d'organisation textuelle et leur articulation, ensuite la notion de marqueur, et pour finir, en relation avec la méthodologie d'analyse de corpus, les notions de variation et de genre discursif. discours structures discursives linguistique de corpus traitement automatique des langues
40	Extraction d'Information et modélisation de connaissances à partir de Notes de Communication Orale Even, Fabrice 03 October 2005 (has links) (PDF) Malgré l'essor de l'Extraction d'Information et le développement de nombreuses applications dédiées lors de ces vingt dernières années, cette tâche rencontre des problèmes lorsqu'elle est réalisée sur des textes atypiques comme des Notes de Communication Orale.<br />Les Notes de Communication Orale sont des textes issus de prises de notes réalisées lors d'une communication orale (entretien, réunion, exposé, etc.) et dont le but est de synthétiser le contenu informatif de la communication. Leurs contraintes de rédaction (rapidité et limitation de la quantité d'écrits) sont à l'origine de particularités linguistiques auxquelles sont mal adaptées les méthodes classiques de Traitement Automatique des Langues et d'Extraction d'Information. Aussi, bien qu'elles soient riches en informations, elles ne sont pas exploitées par les systèmes extrayant des informations à partir de textes.<br />Dans cette thèse, nous proposons une méthode d'extraction adaptée aux Notes de Communication Orale. Cette méthode, nommée MEGET, est fondée sur une ontologie modélisant les connaissances contenues dans les textes et intéressantes du point de vue des informations recherchées (« ontologie d'extraction »). Cette ontologie est construite en unifiant une « ontologie des besoins », décrivant les informations à extraire, avec une « ontologie des termes », conceptualisant les termes du corpus à traiter liés avec ces informations. L'ontologie des termes est élaborée à partir d'une terminologie extraite des textes et enrichie par des termes issus de documents spécialisés. L'ontologie d'extraction est représentée par un ensemble de règles formelles qui sont fournies comme base de connaissance au système d'extraction SYGET. Ce système procède d'abord à un étiquetage des instances des éléments de l'ontologie d'extraction présentes dans les textes, puis extrait les informations recherchées. Cette approche est validée sur plusieurs corpus. [INFO:INFO_OH] Computer Science/Other Extraction d'Information Note de Communication Orale Ontologie Modélisation Terminologie

Search results