Spelling suggestions: "subject:"modèle dde langue"" "subject:"modèle dee langue""
1 |
Modèles de langue appliqués à la recherche d'information contextuelleBouchard, Hugues January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Modèles de langue en recherche d'informationAlvarez, Carmen January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Les supports de vocabulaires pour les systèmes de recherche d'information orientés précision : application aux graphes pour la recherche d'information médicale.Maisonnasse, Loïc 06 May 2008 (has links) (PDF)
Cette thèse propose un cadre général pour développer des modèles orientés précision en recherche d'information (RI). Ce cadre s'appuie sur la notion de supports de vocabulaires pour modéliser l'expressivité des représentations utilisées en RI. Peu de cadres de modélisation sont disponibles dans ce domaine. Nous proposons un tel cadre axé sur la modélisation de l'expressivité et qui permet de choisir ou de comparer des modèles sur ce critère.<br />Dans ce cadre nous nous orientons vers l'utilisation de représentations expressives du texte. Nous proposons deux modèles utilisant des représentations d'expressivité forte à base de graphes. Si ces deux modèles se ressemblent au niveau de l'expressivité, ils s'opposent sur leur modèle sous-jacent. Nous implémentons l'un des modèles par un modèle dérivé des graphes conceptuels et l'autre par un modèle original dérivé des modèles de langue de RI.<br />Pour l'application de ces modèles sur du texte, nous proposons un processus en deux étapes basé sur des traitements de la langue qui favorise la couverture du document. La première étape, dépendante du domaine d'application, produit une représentation intermédiaire des documents où chaque phrase est représentée par un graphe. La deuxième étape crée les représentations finales des documents à partir de la représentation intermédiaire. Nous appliquons finalement nos modèles sur le domaine médical à l'aide du méta-thésaurus UMLS et en proposant plusieurs méthodes pour construire la représentation intermédiaire.<br />L'efficacité de nos modèles est prouvée par des expérimentations sur la campagne d'évaluation CLEF médicale qui permet de tester nos modèles dans un cadre réel.
|
4 |
Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la paroleHuet, Stéphane 11 December 2007 (has links) (PDF)
Une des voies pour améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) consiste à employer davantage de connaissances linguistiques. Nous nous plaçons dans ce cadre en axant nos travaux sur deux aspects : les informations morpho-syntaxiques et l'adaptation thématique. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur morpho-syntaxique développé pour tenir compte des spé- cificités des transcriptions. Nous réordonnons ces listes en modifiant le score global employé par un système de RAP pour reconnaître un groupe de souffle, de manière à inclure les informations morpho-syntaxiques. Une diminution significative du taux d'erreur de mots est obtenue lors d'expériences menées sur des émissions d'information francophones (corpus Ester). Nous établissons en outre l'intérêt des informations morpho-syntaxiques pour améliorer des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML) d'un système de RAP. Nous proposons à cette fin une chaîne de traitements originale qui nous permet de spécialiser de manière ne et non supervisée le ML. Nous découpons tout d'abord une première transcription du document étudié en sections thématiquement homogènes. Pour cela, nous développons un nouveau cadre probabiliste pour prendre en compte dfférentes modalités (cohérence lexicale, indices acoustiques et marqueurs linguistiques) et montrons son intérêt pour améliorer la qualité de la segmentation. Nous construisons ensuite des corpus d'adaptation à partir du Web en utilisant une procédure novatrice. Nous modifions enfin le ML avec ces corpus spécifiques et montrons que, sur des sections thématiques sélectionnées manuellement, cette méthode permet d'améliorer significativement la modélisation du ML, même si le gain constaté au niveau de la qualité de la transcription est léger.
|
5 |
Traitements linguistiques pour la reconnaissance automatique de la parole appliquée à la langue arabe : de l'arabe standard vers l'arabe dialectalBoujelbane Jarraya, Rahma 05 December 2015 (has links)
Les différents dialectes de la langue arabe (DA) présentent de grandes variations phonologiques, morphologiques, lexicales et syntaxiques par rapport à la langue Arabe Standard Moderne (MSA). Jusqu’à récemment, ces dialectes n’étaient présents que sous leurs formes orales et la plupart des ressources existantes pour la langue arabe se limite à l’Arabe Standard (MSA), conduisant à une abondance d’outils pour le traitement automatique de cette variété. Étant donné les différences significatives entre le MSA et les DA, les performances de ces outils s’écroulent lors du traitement des DA. Cette situation conduit à une augmentation notable de l’ambiguïté dans les approches computationnelles des DA. Les travaux décrits dans cette thèse s’inscrivent dans ce cadre à travers la modélisation de l’oral parlé dans les médias tunisiens. Cette source de données contient une quantité importante d’Alternance Codique (AC) entre la langue normative MSA et le dialecte parlé en Tunisie (DT). La présence de ce dernier d’une manière désordonnée dans le discours pose une sérieuse problématique pour le Traitement Automatique de Langue et fait de cet oral une langue peu dotée. Toutefois, les ressources nécessaires pour modéliser cet oral sont quasiment inexistantes. Ainsi, l’objectif de cette thèse consiste à pallier ce manque afin de construire un modèle de langage dédié à un système de reconnaissance automatique pour l’oral parlé dans les médias tunisiens. Pour ce fait, nous décrivons dans cette thèse une méthodologie de création de ressources et nous l’évaluons par rapport à une tâche de modélisation de langage. Les résultats obtenu sont encourageants. / The different dialects of the arabic language have a large phonological, morphological, lexical and syntactic variations when compared to the standard written arabic language called MSA (Modern Standard Arabic). Until recently, these dialects were presented only in their oral form and most of the existing resources for the Arabic language is limited to the Standard Arabic (MSA), leading to an abundance of tools for the automatic processing of this variety. Given the significant differences between the MSA and DA, the performance of these tools fall down when processing AD. This situation leads to a significant increase of the ambiguity in computational approaches of AD.This thesis is part of this framework by modeling the oral spoken in the Tunisian media. This data source contains a significant amount of Code Switching (CS) between the normative language MSA and the Dialect spoken in Tunisia (DT). The presence of the latter in a disorderly manner in the discourse poses a serious problem for NLP (Natural Language Processing) and makes this oral a less resourced language. However, the resources required to model this oral are almost nonexistent. Thus, the objective of this thesis is to fill this gap in order to build a language model dedicated to an automatic recognition system for the oral spoken in the Tunisian media. For this reason, we describe in this thesis a resource generation methodologyand we evaluate it relative to a language modeling task. The results obtained are encouraging.
|
6 |
MODELE DE GRAPHE ET MODELE DE LANGUE POUR LA RECONNAISSANCE DE SCENES VISUELLESPham, Trong-Ton 02 December 2010 (has links) (PDF)
Nous présentons une nouvelle méthode pour exploiter la relation entre différents niveaux de représentation d'image afin de compléter le modèle de graphe visuel. Le modèle de graphe visuel est une extension du modèle de langue classique en recherche d'information. Nous utilisons des régions d'images et des points d'intérêts (associées automatiquement à des concepts visuels), ainsi que des relations entre ces concepts, lors de la construction de la représentation sous forme de graphe. Les résultats obtenus sur catégorisation de la collection RobotVision de la compétition d'ImageCLEF 2009 et la collection STOIC-101 montrent que (a) la procédure de l'induction automatique des concepts d'une image est efficace, et (b) l'utilisation des relations spatiales entre deux niveaux de représentation, en plus de concepts, permet d'améliorer le taux de reconnaissance.
|
7 |
Approches numériques pour le filtrage de documents centrés sur une entité : un modèle diachronique et des méta critères / Entity centric document filtering using numerical approaches : a diachronical model and meta criteriaBouvier, Vincent 16 December 2015 (has links)
[...] Nos principales contributions peuvent être résumées en trois points :1. la proposition d’un système de classification de documents centrés sur les entités à l’aide d’un profil d’entité et de méta critères dans le contexte de filtrage de documents. Nous avons mis en place une approche qui est indépendante des entités et qui utilise les principes du transfert de connaissances. En effet, notre approche permet l’apprentissage à partir d’un ensemble de données annotées pour un pool d’entités tout en étant capables de catégoriser des documents concernant des entités pour lesquels aucune donnée annotée n’a été fournie ;2. la proposition d’un nouveau modèle de langue diachronique pour étendre la définition de profil d’entité afin de permettre la mise à jour de celui-ci. En effet, le suivi d’une entité nommée implique de pouvoir distinguer une information déjà connue d’une information nouvelle. Le modèle de langue diachronique permet la mise à jour automatique du profil d’entité tout en minimisant le bruit apporté ;3. la proposition d’une méthode pour découvrir la popularité d’une entité afin d’améliorer la cohérence d’un modèle de classification sur tous les aspects temporels liés à une entité. Pour détecter l’importance d’un document au regard d’une entité, nous proposons d’utiliser, entre autres, des indicateurs temporels qui peuvent varier d’une entité à l’autre. Nous proposons de regrouper les entités en fonction de leur popularité sur le Web à chaque instant pour tenter d’améliorer la cohérence des modèles et ainsi augmenter les performances des classificateurs.[...] / [...] Our main contributions are:1. We propose an entity centric classification system, which helps finding documents that are related to an entity based on its profile and a set of meta criteria. We propose to use the classification result to filter out unrelated documents. This approach is entity independent and uses transfer learning principles. We trained the classification system with a set of annotated concerning a set of entities and we categorized documents that concerns other entities;2. We introduce a diachronical language model, which extends our definition of entity profile in order to add to the capability of updating an entity profile. Tracking an entity implies to distinguish between a known piece of information from a new one. This new language model enables automatic update of entity profile while minimizing the noise;3. We develop a method to detect the entity popularity in order to enhance the coherence of a classification model concerning temporal aspects. In order to detect the importance of a document regarding an entity, we propose to use temporal sensors, which may vary from an entity to another. We cluster entities sharing the same amount of popularity on the Web at each time t to enhance the coherence of classification model and thus improve classifier performances.[...]
|
8 |
Extracting and exploiting word relationships for information retrievalCao, Guihong January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
9 |
Amélioration a posteriori de la traduction automatique par métaheuristiqueLavoie-Courchesne, Sébastien 03 1900 (has links)
La traduction automatique statistique est un domaine très en demande et où les machines sont encore loin de produire des résultats de qualité humaine. La principale méthode utilisée est une traduction linéaire segment par segment d'une phrase, ce qui empêche de changer des parties de la phrase déjà traduites. La recherche pour ce mémoire se base sur l'approche utilisée dans Langlais, Patry et Gotti 2007, qui tente de corriger une traduction complétée en modifiant des segments suivant une fonction à optimiser. Dans un premier temps, l'exploration de nouveaux traits comme un modèle de langue inverse et un modèle de collocation amène une nouvelle dimension à la fonction à optimiser. Dans un second temps, l'utilisation de différentes métaheuristiques, comme les algorithmes gloutons et gloutons randomisés permet l'exploration plus en profondeur de l'espace de recherche et permet une plus grande amélioration de la fonction objectif. / Statistical Machine Translation is a field ingreat demand and where machines are still far from producing human-level results.The main method used is a segment by segment linear translation of a sentence, which prevents modification of already translated parts of the sentence. Research for this memoir is based on an approach used by Langlais, Patry and Gotti 2007, which tries to correct a completed translation by modifying segments following a function which needs to be optimized. As a first step, exploration of new traits such as an inverted language model and a collocation model brings a new dimension to the optimization function. As a second step, use of different metaheuristics, such as the greedy and randomized greedy algorithms, allows greater depth while exploring the search space and allows a greater improvement of the objective function.
|
10 |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la questionFoucault, Nicolas 16 December 2013 (has links) (PDF)
Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d'Information pour la sélection de documents en QR. Celle-ci s'appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d'un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l'extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l'aide de RITEL. L'évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L'hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l'extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l'hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l'impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l'hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants.
|
Page generated in 0.0429 seconds