Spelling suggestions: "subject:"traitement dess langue naturelles"" "subject:"traitement deus langue naturelles""
1 |
Classification automatique de courrier électroniqueDubois, Julien January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Résumé automatique des commentaires de consommateursFeiguina, Olga January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Étude de transformations grammaticales pour l'entraînement de grammaires probabilistes hors-contexteNguyen, Ngoc Tran January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
4 |
Le système de question-réponse QUANTUMPlamondon, Luc January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
5 |
Système symbolique de création de résumés de mise à jourGenest, Pierre-Étienne January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
6 |
Adaptation de modèles de traduction dans le cadre du projet TransTypeNepveu, Laurent January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
7 |
Système symbolique de création de résumés de mise à jourGenest, Pierre-Étienne January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
|
8 |
Knowledge Base Population based on Entity Graph Analysis / Peuplement d'une base de connaissance fondé sur l'exploitation d'un graphe d'entitésRahman, Md Rashedur 17 April 2018 (has links)
Le peuplement de base de connaissance (KBP) est une tâche importante qui présente de nombreux défis pour le traitement automatique des langues. L'objectif de cette tâche est d'extraire des connaissances de textes et de les structurer afin de compléter une base de connaissances. Nous nous sommes intéressés à la reconnaissance de relations entre entités. L'extraction de relations (RE) entre une paire de mentions d'entités est une tâche difficile en particulier pour les relations en domaine ouvert. Généralement, ces relations sont extraites en fonction des informations lexicales et syntaxiques au niveau de la phrase. Cependant, l'exploitation d'informations globales sur les entités n'a pas encore été explorée. Nous proposons d'extraire un graphe d'entités du corpus global et de calculer des caractéristiques sur ce graphe afin de capturer des indices des relations entre paires d'entités. Pour évaluer la pertinence des fonctionnalités proposées, nous les avons testées sur une tâche de validation de relation dont le but est de décider l'exactitude de relations extraites par différents systèmes. Les résultats expérimentaux montrent que les caractéristiques proposées conduisent à améliorer les résultats de l'état de l'art. / Knowledge Base Population (KBP) is an important and challenging task specially when it has to be done automatically. The objective of KBP task is to make a collection of facts of the world. A Knowledge Base (KB) contains different entities, relationships among them and various properties of the entities. Relation extraction (RE) between a pair of entity mentions from text plays a vital role in KBP task. RE is also a challenging task specially for open domain relations. Generally, relations are extracted based on the lexical and syntactical information at the sentence level. However, global information about known entities has not been explored yet for RE task. We propose to extract a graph of entities from the overall corpus and to compute features on this graph that are able to capture some evidence of holding relationships between a pair of entities. In order to evaluate the relevance of the proposed features, we tested them on a task of relation validation which examines the correctness of relations that are extracted by different RE systems. Experimental results show that the proposed features lead to outperforming the state-of-the-art system.
|
9 |
Compression in Sequence to Sequence Learning for Natural Language ProcessingPrato, Gabriele 12 1900 (has links)
Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats avec les vecteurs de sous-phrases et de phrases. Ce travail présente aussi l’utilisation de la distillation de connaissance et de la quantification pour compresser le modèle de Transformer [Vaswani et al., 2017] pour la tâche de traduction. Nous sommes, au mieux de nos connaissances, les premiers à démontrer que le Transformer avec ses poids quantifiés à 8-bits peut obtenir un score BLEU aussi bon qu’avec ses poids de précisions pleines. De plus, en combinant la distillation de connaissance avec la quantification des poids, nous pouvons entraîner de plus petits réseaux Transformer et obtenir un taux de compression jusqu’à 12.59x, en ne perdant que seulement 2.51 BLEU sur la tâche de traduction WMT 2014 Anglais-Français, comparativement au modèle de base. Le chapitre 1 introduit des concepts d’apprentissage machine pour le traitement des langues naturelles, concepts qui sont essentiels à la compréhension des deux papiers présentés dans cette thèse. Chapitre 2 et 3 couvrent respectivement chaque papier, avant de conclure par le chapitre 4. / In this work, we propose a near lossless method for encoding long sequences of texts as well as all of their sub-sequences into feature rich representations. We test our method on sentiment analysis and show good performance across all sub-sentence and sentence embeddings. This work also demonstrates the use of knowledge distillation and quantization to compress the original Transformer model [Vaswani et al., 2017] for the translation task. We are, to the best of our knowledge, the first to show that 8-bit quantization of the weights of the Transformer can achieve the same BLEU score as the full-precision model. Furthermore, when we combine knowledge distillation with weight quantization, we can train smaller Transformer networks and achieve up to 12.59x compression while losing only 2.51 BLEU off the baseline on the WMT 2014 English-to-French translation task. Chapter 1 introduces machine learning concepts for natural language processing which are essential to understanding both papers presented in this thesis. Chapter 2 and 3 cover each paper respectively, before finally concluding with chapter 4.
|
10 |
Désambiguisation de sens par modèles de contextes et son application à la Recherche d’InformationBrosseau-Villeneuve, Bernard 12 1900 (has links)
Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection.
Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques.
La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard. / It is known that the ambiguity present in natural language has a negative effect on Information Retrieval (IR) systems effectiveness. However, up to now, the efforts made to integrate Word Sense Disambiguation (WSD) techniques in IR systems have not been successful. Past studies end up with either poor or unconvincing results. Furthermore, investigations based on the addition of artificial ambiguity shows that a very high disambiguation accuracy would be needed in order to observe gains. This thesis has for objective to develop efficient and effective approaches for WSD, using co-occurrence statistics in order to build context models. Such models could then be used in order to do a word sense discrimination between a query and documents of a collection.
In this two-part thesis, we will start by investigating the principle of strength of relation between a word and the words present in its context, proposing an approach to learn a function mapping word distance to count weights. This method is based on the idea that context models made from random samples of word in context should be similar. Experiments in English and Japanese shows that the strength of relation roughly follows a negative power law. The weights resulting from the experiments are then used in the construction of Naïve Bayes WSD systems. Evaluations of these systems in English with the Semeval-2007 English Lexical Sample (ELS), and then in Japanese with the Semeval-2010 Japanese WSD (JWSD) tasks shows that the systems have state-of-the-art accuracy even though they are much lighter and don't rely on linguistic tools or resources.
The second part of this thesis aims to adapt the new methods to IR applications. Such applications put heavy constraints on performance and available resources. We thus propose the use of corpus-based latent context models based on Latent Dirichlet Allocation (LDA). The models are combined with the query likelihood Language Model (LM) approach for IR. Evaluating the systems on three collections from the Text REtrieval Conference (TREC), we observe average proportional improvement in the range of 12% in MAP and 23% in GMAP. We then observe that the gains are mostly made on hard queries, augmenting the robustness of the results. To our knowledge, these experiments are the first positive application of WSD techniques on standard IR tasks.
|
Page generated in 0.126 seconds