Global ETD Search

31	Sequence-to-sequence learning for machine translation and automatic differentiation for machine learning software tools van Merriënboer, Bart 10 1900 (has links) No description available. Deep learning Machine learning Machine translation Automatic differentiation Aprentissage automatique Différentiation automatique Traduction automatique Apprentissage profond Neural networks Natural language processing Réseaux de neurones
32	Continuous space models with neural networks in natural language processing / Modèles neuronaux pour la modélisation statistique de la langue Le, Hai Son 20 December 2012 (has links) Les modèles de langage ont pour but de caractériser et d'évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale dans de nombreux cadres d'application comme la reconnaissance automatique de la parole, la traduction automatique, l'extraction et la recherche d'information. La modélisation actuellement état de l'art est la modélisation "historique" dite n-gramme associée à des techniques de lissage. Ce type de modèle prédit un mot uniquement en fonction des n-1 mots précédents. Pourtant, cette approche est loin d'être satisfaisante puisque chaque mot est traité comme un symbole discret qui n'a pas de relation avec les autres. Ainsi les spécificités du langage ne sont pas prises en compte explicitement et les propriétés morphologiques, sémantiques et syntaxiques des mots sont ignorées. De plus, à cause du caractère éparse des langues naturelles, l'ordre est limité à n=4 ou 5. Sa construction repose sur le dénombrement de successions de mots, effectué sur des données d'entrainement. Ce sont donc uniquement les textes d'apprentissage qui conditionnent la pertinence de la modélisation n-gramme, par leur quantité (plusieurs milliards de mots sont utilisés) et leur représentativité du contenu en terme de thématique, époque ou de genre. L'usage des modèles neuronaux ont récemment ouvert de nombreuses perspectives. Le principe de projection des mots dans un espace de représentation continu permet d'exploiter la notion de similarité entre les mots: les mots du contexte sont projetés dans un espace continu et l'estimation de la probabilité du mot suivant exploite alors la similarité entre ces vecteurs. Cette représentation continue confère aux modèles neuronaux une meilleure capacité de généralisation et leur utilisation a donné lieu à des améliorations significative en reconnaissance automatique de la parole et en traduction automatique. Pourtant, l'apprentissage et l'inférence des modèles de langue neuronaux à grand vocabulaire restent très couteux. Ainsi par le passé, les modèles neuronaux ont été utilisés soit pour des tâches avec peu de données d'apprentissage, soit avec un vocabulaire de mots à prédire limités en taille. La première contribution de cette thèse est donc de proposer une solution qui s’appuie sur la structuration de la couche de sortie sous forme d’un arbre de classification pour résoudre ce problème de complexité. Le modèle se nomme Structure OUtput Layer (SOUL) et allie une architecture neuronale avec les modèles de classes. Dans le cadre de la reconnaissance automatique de la parole et de la traduction automatique, ce nouveau type de modèle a permis d'obtenir des améliorations significatives des performances pour des systèmes à grande échelle et à état l'art. La deuxième contribution de cette thèse est d'analyser les représentations continues induites et de comparer ces modèles avec d'autres architectures comme les modèles récurrents. Enfin, la troisième contribution est d'explorer la capacité de la structure SOUL à modéliser le processus de traduction. Les résultats obtenus montrent que les modèles continus comme SOUL ouvrent des perspectives importantes de recherche en traduction automatique. / The purpose of language models is in general to capture and to model regularities of language, thereby capturing morphological, syntactical and distributional properties of word sequences in a given language. They play an important role in many successful applications of Natural Language Processing, such as Automatic Speech Recognition, Machine Translation and Information Extraction. The most successful approaches to date are based on n-gram assumption and the adjustment of statistics from the training data by applying smoothing and back-off techniques, notably Kneser-Ney technique, introduced twenty years ago. In this way, language models predict a word based on its n-1 previous words. In spite of their prevalence, conventional n-gram based language models still suffer from several limitations that could be intuitively overcome by consulting human expert knowledge. One critical limitation is that, ignoring all linguistic properties, they treat each word as one discrete symbol with no relation with the others. Another point is that, even with a huge amount of data, the data sparsity issue always has an important impact, so the optimal value of n in the n-gram assumption is often 4 or 5 which is insufficient in practice. This kind of model is constructed based on the count of n-grams in training data. Therefore, the pertinence of these models is conditioned only on the characteristics of the training text (its quantity, its representation of the content in terms of theme, date). Recently, one of the most successful attempts that tries to directly learn word similarities is to use distributed word representations in language modeling, where distributionally words, which have semantic and syntactic similarities, are expected to be represented as neighbors in a continuous space. These representations and the associated objective function (the likelihood of the training data) are jointly learned using a multi-layer neural network architecture. In this way, word similarities are learned automatically. This approach has shown significant and consistent improvements when applied to automatic speech recognition and statistical machine translation tasks. A major difficulty with the continuous space neural network based approach remains the computational burden, which does not scale well to the massive corpora that are nowadays available. For this reason, the first contribution of this dissertation is the definition of a neural architecture based on a tree representation of the output vocabulary, namely Structured OUtput Layer (SOUL), which makes them well suited for large scale frameworks. The SOUL model combines the neural network approach with the class-based approach. It achieves significant improvements on both state-of-the-art large scale automatic speech recognition and statistical machine translations tasks. The second contribution is to provide several insightful analyses on their performances, their pros and cons, their induced word space representation. Finally, the third contribution is the successful adoption of the continuous space neural network into a machine translation framework. New translation models are proposed and reported to achieve significant improvements over state-of-the-art baseline systems. Espace continu de représentation Réseau de neurones Modèle de langage statistique Reconnaissance Automatique de la Parole Continuous Space model Neural Network Statistical Language Model Statistical Machine Translation Natural Language Processing Automatic Speech Recognition
33	Fouille de documents et d'opinions multilingue / Mining Documents and Sentiments in Cross-lingual Context Saad, Motaz 20 January 2015 (has links) L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue / The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair Fouille de textes Corpus comparable Recherche d’information inter-Langues Projection inter-Langues Analyse des sentiments Text mining Natural language processing Comparable corpus Cross-Lingual information retrieval Cross-Lingual projection Sentiment analysis 006.312
34	Identification de opiniónes de differentes fuentes en textos en español / Identification d'opinions issues de diverses sources dans des textes en espagnol / Identification of opinions from different sources in Spanish texts Rosá, Aiala 28 September 2011 (has links) Ce travail présente une étude linguistique des expressions d'opinions issues de différentes sources dans des textes en espagnol. Le travail comprend la définition d'un modèle pour les prédicats d'opinion et leurs arguments (la source, le sujet et le message), la création d'un lexique de prédicats d'opinions auxquels sont associées des informations provenant du modèle et la réalisation de trois systèmes informatiques.Le premier système, basé sur des règles contextuelles, obtient de bons résultats pour le score de F-mesure partielle: prédicat, 92%; source, 81%; sujet, 75%; message, 89%, opinion, 85%. En outre, l'identification de la source donne une valeur de 79% de F-mesure exacte. Le deuxième système, basé sur le modèle Conditional Random Fields (CRF), a été développé uniquement pour l'identification des sources, donnant une valeur de 76% de F-mesure exacte. Le troisième système, qui combine les deux techniques (règles et CRF), donne une valeur de 83% de F-mesure exacte, montrant ainsi que la combinaison permet d'obtenir des résultats intéressants.En ce qui concerne l'identification des sources, notre système, comparé à des travaux réalisés sur des corpus d'autres langues que l'espagnol, donne des résultats très satisfaisants. En effet ces différents travaux obtiennent des scores qui se situent entre 63% et 89,5%.Par ailleurs, en sus des systèmes réalisés pour l'identification de l'opinion, notre travail a débouché sur la construction de plusieurs ressources pour l'espagnol : un lexique de prédicats d'opinions, un corpus de 13000 mots avec des annotations sur les opinions et un corpus de 40000 mots avec des annotations sur les prédicats d'opinion et les sources. / This work presents a study of linguistic expressions of opinion from different sources in Spanish texts. The work includes the definition of a model for opinion predicates and their arguments (source, topic and message), the creation of a lexicon of opinion predicates which have information from the model associated, and the implementation of three systems.The first system, based on contextual rules, gets good results for the F-measure score (partial match): predicate, 92%; source, 81%; topic, 75%; message, 89%; full opinion, 85%. In addition, for source identification the F-measure for exact match is 79%. The second system, based on Conditional Random Fields (CRF), was developed only for the identification of sources, giving 76% of F-measure (exact match). The third system, which combines the two techniques (rules and CRF), gives a value of 83% of F-measure (exact match), showing that the combination yields interesting results.As regards the identification of sources, our system compared to other work developed for languages other than Spanish, gives very satisfactory results. Indeed these works had scores that fall between 63% and 89.5%.Moreover, in addition to the systems made for the identification of opinions, our work has led to the construction of several resources for Spanish: a lexicon of opinion predicates, a 13,000 words corpus with opinions annotated and a 40,000 words corpus with opinion predicates end sources annotated. Fouille d'opinions Discours rapporté Règles contextuelles Apprentissage automatique Conditional Random Fields (CRF) Natural Language Processing Opinion Mining Reported Speech Conditional Random Fields Contextual Rules Machine Learning
35	Plate-forme d'analyse morpho-syntaxique pour l'indexation automatique et la recherche d'information : de l'écrit vers la gestion des connaissances Sidhom, Sahbi 11 March 2002 (has links) (PDF) La contribution de ce travail de thèse s'inscrit au sein d'un domaine multidisciplinaire regroupant le traitement automatique du langage naturel, l'indexation dans un système d'information documentaire et l'organisation des connaissances autour de l'information écrite. Sa particularité consiste en la mise à disposition d'outils pour le traitement automatique de l'information.<br />L'objectif est de construire une Plate-forme d'analyse morpho-syntaxique pour l'indexation automatique et la recherche d'information. Elle est composée d'un noyau d'indexation automatique (processus d'indexation) qui utilise le modèle des syntagmes nominaux comme descripteurs de l'information textuelle. Ces syntagmes sont organisés selon une approche Logique Intensionnelle/Extensionnelle (processus de classification des connaissances) qui permet d'ordonner les objets d'une classe et de distinguer les classes de connaissances. A la base de cette dernière propriété, nous construisons notre approche pour la recherche d'information (processus de recherche d'information). <br />Cette Plate-forme d'analyse dans sa logique de fonctionnement sera un outil d'investigation orienté vers l'organisation et la gestion des connaissances écrites.<br />Dans notre recherche, cet aspect sur l'organisation des connaissances a été conduit dans le but de faire émerger les propriétés linguistiques et le traitement du langage dans une pratique expérimentale sur l'indexation automatique documentaire. Nous avons montré la nécessité de coordonner d'autres sources et stratégies dans l'exploration de ces propriétés. Il s'agit du mode de raisonnement et de la technique d'exploitation des objets du discours spécifiques à la gestion des connaissances (comme étape préalable à la recherche d'information).<br />Ces deux derniers aspects (mode et technique) intégrés dans le processus de la présentation et de l'organisation du syntagme nominal offrent des scénarii pertinents pour la recherche d'informations. Plate-forme d'analyse morpho-syntaxique organisation des connaissances recherche d'information indexation automatique syntagme nominal programmation par objets formalisme ATN automate CATN
36	Analyse automatique d'opinion : problématique de l'intensité et de la négation pour l'application à un corpus journalistique Zhang, Lei 11 December 2012 (has links) (PDF) La problématique de l'analyse d'opinion connaît un intérêt croissant depuis une quinzaine d'années. Cette problématique mène à de nombreux travaux ayant des objectifs allant de la constitution de ressources lexicales à l'identification des cibles d'une opinion. Le cadre applicatif de notre étude est l'analyse automatique d'articles de journaux pour la veille d'opinion. Ce cadre est ambitieux vis-à-vis de l'état de l'art puisque nous sommes amené à étudier un grand nombre de critères propres à l'analyse d'opinion. Nous proposons un modèle conceptuel permettant de caractériser une opinion par la polarité, l'intensité, la prototypicalité, la cible, la source, l'engagement de l'auteur, etc. En particulier, nous modélisons la négation et ses effets sur l'intensité et la polarité. En plus des cas classiques de négation, nous sommes en mesure de modéliser des effets de rhétoriques tels que l'euphémisme ou la litote, très présents dans le genre journalistique. À partir de ce modèle conceptuel, nous présentons un ensemble de choix techniques permettant de préciser les ressources et traitements nécessaires à l'automatisation. Nous mettons en œuvre deux applications (en chinois et en français) de la chaîne de traitements issue du modèle permettant de confirmer la validité du modèle conceptuel ainsi que l'efficacité des traitements automatiques. analyse d'opinion fouille d'opinions analyse de sentiments analyse automatique (linguistique) négation (linguistique) modèles linguistiques extraction d'informations
37	Énumération exhaustive et détection spécifique des analogies : étude pour les modèles de langue et la traduction automatique Gosme, Julien 13 February 2012 (has links) (PDF) Ce travail de thèse s'inscrit dans le cadre de la traduction automatique. En étudiant les fondements de la traduction automatique par l'exemple, et plus particulièrement le système Aleph, nous mettons en évidence le problème de la sélection des exemples. Le système Aleph emploie exclusivement l'analogie afin de produire de nouvelles phrases et de nouvelles traductions. Le problème est de sélectionner les phrases dans un grand corpus d'exemples afin de produire de nouvelles phrases par analogie. Notre premier apport consiste en l'élaboration d'une méthode permettant d'énumérer l'intégralité des analogies entre chaînes d'un texte. Cette méthode nous permet ensuite de mettre en œuvre une étude statistique des analogies les plus fréquentes entre trigrammes de mots et de mettre en évidence les patrons d'analogie les plus fréquents. Ces résultats permettent alors de concevoir une nouvelle méthode de lissage d'un modèle de langue trigramme basé sur un petit nombre d'analogies. Nos expériences montrent que cette méthode est très compétitive vis-à-vis des méthodes classiques. traduction automatique analogie bilinguisme problème de la sélection des exemples grammaire par l'exemple énumération des analogies modèle de langue n-gramme
38	Point de vue ontologique de fonds documentaires territorialisés indexés Kergosien, Eric 23 June 2011 (has links) (PDF) Dans les bibliothèques et les médiathèques, une caractéristique importante des fonds documentaires mis à disposition est qu'ils contiennent d'abondantes références a l'histoire, à la géographie, au patrimoine, en somme au territoire, et il est primordial pour ces centres de valoriser ces spécificités territoriales pour répondre à des objectifs d'information et d'éducation. Dans ce contexte, nous faisons l'hypothèse qu'en utilisant un point de vue géographique pour mod eliser un ensemble de ressources terminologiques utilisées pour indexer un fond documentaire, il est possible de faire émerger une représentation du territoire qui y est implicitement décrite. Concernant la modélisation de la connaissance en géomatique, de nombreux travaux s'appliquent à construire une représentation sémantique structurée géographique de domaines cibles. Cependant, il ne semble pas exister d'approche permettant de construire une représentation d'un territoire à partir de fonds documentaires annotés. Nous proposons donc une méthodologie complète et automatisée permettant de construire une couche conceptuelle de type ontologie d'un territoire, sur la base d'un fonds documentaire indexé par des experts. Nous positionnons nos travaux dans l'extraction et la structuration de la connaissance que nous appliquons dans le domaine de la géomatique en nous appuyant notamment sur des techniques provenant du Traitement Automatique du Langage Naturel. Nous entendons ici par territoire un ensemble de lieux que l'on peut mettre en relation selon un ensemble de thèmes en fonction d'une période donnée. Ainsi, nous présentons un complément original s'appuyant sur le travail d'indexation réalisé par les experts documentalistes sur un fonds documentaire pour faire émerger une ontologie d'un territoire implicitement décrit dans les documents. Une contribution importante de notre travail concerne l'enrichissement de fa con incrémentale de la représentation d'un territoire. Nous proposons pour cela une chaine de TALN qui permet de marquer dans des documents textes annotés un ensemble d'informations spatiales, temporelles et thématiques qui nous sert de base pour l'enrichissement de la représentation d'un territoire. Une perspective à ces travaux est de pouvoir valider notre approche sur plusieurs fonds documentaires d'origines diverses. L'intérêt sera de proposer une méthode qui, sur la base des représentations de territoires obtenues, permettrait d'identifier et de représenter les spécificités de chaque fonds documentaire. indexation fonds documentaire territoire vocabulaire contrôlé information géographique
39	Hypergraphs and information fusion for term representation enrichment : applications to named entity recognition and word sense disambiguation / Hypergraphes et fusion d’information pour l’enrichissement de la représentation de termes : applications à la reconnaissance d’entités nommées et à la désambiguïsation du sens des mots Soriano-Morales, Edmundo-Pavel 07 February 2018 (has links) Donner du sens aux données textuelles est une besoin essentielle pour faire les ordinateurs comprendre notre langage. Pour extraire des informations exploitables du texte, nous devons les représenter avec des descripteurs avant d’utiliser des techniques d’apprentissage. Dans ce sens, le but de cette thèse est de faire la lumière sur les représentations hétérogènes des mots et sur la façon de les exploiter tout en abordant leur nature implicitement éparse.Dans un premier temps, nous proposons un modèle de réseau basé sur des hypergraphes qui contient des données linguistiques hétérogènes dans un seul modèle unifié. En d’autres termes, nous introduisons un modèle qui représente les mots au moyen de différentes propriétés linguistiques et les relie ensemble en fonction desdites propriétés. Notre proposition diffère des autres types de réseaux linguistiques parce que nous visons à fournir une structure générale pouvant contenir plusieurstypes de caractéristiques descriptives du texte, au lieu d’une seule comme dans la plupart des représentations existantes.Cette représentation peut être utilisée pour analyser les propriétés inhérentes du langage à partir de différents points de vue, oupour être le point de départ d’un pipeline de tâches du traitement automatique de langage. Deuxièmement, nous utilisons des techniques de fusion de caractéristiques pour fournir une représentation enrichie unique qui exploite la nature hétérogènedu modèle et atténue l’eparsité de chaque représentation. Ces types de techniques sont régulièrement utilisés exclusivement pour combiner des données multimédia.Dans notre approche, nous considérons différentes représentations de texte comme des sources d’information distinctes qui peuvent être enrichies par elles-mêmes. Cette approche n’a pas été explorée auparavant, à notre connaissance. Troisièmement, nous proposons un algorithme qui exploite les caractéristiques du réseau pour identifier et grouper des mots liés sémantiquement en exploitant les propriétés des réseaux. Contrairement aux méthodes similaires qui sont également basées sur la structure du réseau, notre algorithme réduit le nombre de paramètres requis et surtout, permet l’utilisation de réseaux lexicaux ou syntaxiques pour découvrir les groupes de mots, au lieu d’un type unique des caractéristiques comme elles sont habituellement employées.Nous nous concentrons sur deux tâches différentes de traitement du langage naturel: l’induction et la désambiguïsation des sens des mots (en anglais, Word Sense, Induction and Disambiguation, ou WSI/WSD) et la reconnaissance d’entité nommées(en anglais, Named Entity Recognition, ou NER). Au total, nous testons nos propositions sur quatre ensembles de données différents. Nous effectuons nos expériences et développements en utilisant des corpus à accès libre. Les résultats obtenus nous permettent de montrer la pertinence de nos contributions et nous donnent également un aperçu des propriétés des caractéristiques hétérogènes et de leurs combinaisons avec les méthodes de fusion. Plus précisément, nos expériences sont doubles: premièrement, nous montrons qu’en utilisant des caractéristiques hétérogènes enrichies par la fusion, provenant de notre réseau linguistique proposé, nous surpassons la performance des systèmes à caractéristiques uniques et basés sur la simple concaténation de caractéristiques. Aussi, nous analysons les opérateurs de fusion utilisés afin de mieux comprendre la raison de ces améliorations. En général, l’utilisation indépendante d’opérateurs de fusion n’est pas aussi efficace que l’utilisation d’une combinaison de ceux-ci pour obtenir une représentation spatiale finale. Et deuxièmement, nous abordons encore une fois la tâche WSI/WSD, cette fois-ci avec la méthode à base de graphes proposée afin de démontrer sa pertinence par rapport à la tâche. Nous discutons les différents résultats obtenus avec des caractéristiques lexicales ou syntaxiques. / Making sense of textual data is an essential requirement in order to make computers understand our language. To extract actionable information from text, we need to represent it by means of descriptors before using knowledge discovery techniques.The goal of this thesis is to shed light into heterogeneous representations of words and how to leverage them while addressing their implicit sparse nature.First, we propose a hypergraph network model that holds heterogeneous linguistic data in a single unified model. In other words, we introduce a model that represents words by means of different linguistic properties and links them together accordingto said properties. Our proposition differs to other types of linguistic networks in that we aim to provide a general structure that can hold several types of descriptive text features, instead of a single one as in most representations. This representationmay be used to analyze the inherent properties of language from different points of view, or to be the departing point of an applied NLP task pipeline. Secondly, we employ feature fusion techniques to provide a final single enriched representation that exploits the heterogeneous nature of the model and alleviates the sparseness of each representation.These types of techniques are regularly used exclusively to combine multimedia data. In our approach, we consider different text representations as distinct sources of information which can be enriched by themselves. This approach has not been explored before, to the best of our knowledge. Thirdly, we propose an algorithm that exploits the characteristics of the network to identify and group semantically related words by exploiting the real-world properties of the networks. In contrast with similar methods that are also based on the structure of the network, our algorithm reduces the number of required parameters and more importantly, allows for the use of either lexical or syntactic networks to discover said groups of words, instead of the singletype of features usually employed.We focus on two different natural language processing tasks: Word Sense Induction and Disambiguation (WSI/WSD), and Named Entity Recognition (NER). In total, we test our propositions on four different open-access datasets. The results obtained allow us to show the pertinence of our contributions and also give us some insights into the properties of heterogeneous features and their combinations with fusion methods. Specifically, our experiments are twofold: first, we show that using fusion-enriched heterogeneous features, coming from our proposed linguistic network, we outperform the performance of single features’ systems and other basic baselines. We note that using single fusion operators is not efficient compared to using a combination of them in order to obtain a final space representation. We show that the features added by each combined fusion operation are important towards the models predicting the appropriate classes. We test the enriched representations on both WSI/WSD and NER tasks. Secondly, we address the WSI/WSD task with our network-based proposed method. While based on previous work, we improve it by obtaining better overall performance and reducing the number of parameters needed. We also discuss the use of either lexical or syntactic networks to solve the task.Finally, we parse a corpus based on the English Wikipedia and then store it following the proposed network model. The parsed Wikipedia version serves as a linguistic resource to be used by other researchers. Contrary to other similar resources, insteadof just storing its part of speech tag and its dependency relations, we also take into account the constituency-tree information of each word analyzed. The hope is for this resource to be used on future developments without the need to compile suchresource from zero. Réseaux linguistiques Représentation de mots Techniques de fusion Reconnaissance d’entités nommées Natural Language Processing Linguistic Network Word Representation Fusion Techniques Word Sense Induction and Disambiguation Named Entity Recognition 004.03
40	Mesures de similarité distributionnelle asymétrique pour la détection de l’implication textuelle par généralité / Asymmetric Distributional Similarity Measures to Recognize Textual Entailment by Generality Pais, Sebastião 06 December 2013 (has links) Textual Entailment vise à capturer les principaux besoins d'inférence sémantique dans les applications de Traitement du Langage Naturel. Depuis 2005, dans la Textual Entailment reconnaissance tâche (RTE), les systèmes sont appelés à juger automatiquement si le sens d'une portion de texte, le texte - T, implique le sens d'un autre texte, l'hypothèse - H. Cette thèse nous nous intéressons au cas particulier de l'implication, l'implication de généralité. Pour nous, il ya différents types d'implication, nous introduisons le paradigme de l'implication textuelle en généralité, qui peut être définie comme l'implication d'une peine spécifique pour une phrase plus générale, dans ce contexte, le texte T implication Hypothèse H, car H est plus générale que T.Nous proposons des méthodes sans surveillance indépendante de la langue de reconnaissance de l'implication textuelle par la généralité, pour cela, nous présentons une mesure asymétrique informatif appelée Asymmetric simplifié InfoSimba, que nous combinons avec différentes mesures d'association asymétriques à reconnaître le cas spécifique de l'implication textuelle par la généralité.Cette thèse, nous introduisons un nouveau concept d'implication, les implications de généralité, en conséquence, le nouveau concept d'implications de la reconnaissance par la généralité, une nouvelle orientation de la recherche en Traitement du Langage Naturel. / Textual Entailment aims at capturing major semantic inference needs across applications in Natural Language Processing. Since 2005, in the Textual Entailment recognition (RTE) task, systems are asked to automatically judge whether the meaning of a portion of text, the Text - T, entails the meaning of another text, the Hypothesis - H. This thesis we focus a particular case of entailment, entailment by generality. For us, there are various types of implication, we introduce the paradigm of Textual Entailment by Generality, which can be defined as the entailment from a specific sentence towards a more general sentence, in this context, the Text T entailment Hypothesis H, because H is more general than T. We propose methods unsupervised language-independent for Recognizing Textual Entailment by Generality, for this we present an Informative Asymmetric Measure called the Simplified Asymmetric InfoSimba, which we combine with different asymmetric association measures to recognizingthe specific case of Textual Entailment by Generality.This thesis, we introduce the new concept of implication, implications by generality, in consequence, the new concept of recognition implications by generality, a new direction of research in Natural Language Processing. Implication Textuelle Mesure Asymétrique Informatif Asymétrique Mesure Association Natural Language Processing Textual Entailment Informative Asymmetric Measure Asymmetric Association Measure

Search results