Spelling suggestions: "subject:"langue naturelles""
1 |
Une approche CBR textuel de réponse au courrier électroniqueLamontagne, Luc January 2004 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Architecture question-réponse pour l'automatisation des services d'informationBélanger, Luc January 2006 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixteServan, Christophe 10 December 2008 (has links) (PDF)
Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique " de qualité " appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels.
|
4 |
Conception d'une chaîne de traitement de la langue naturelle pour un agent conversationnel assistantBouchet, François 29 June 2010 (has links) (PDF)
Avec le nombre croissant d'utilisateurs novices des applications informatiques, le besoin d'une aide efficace est devenu critique. Afin de répondre à ce besoins, nous suggérons d'utiliser un Agent Conversationnel Assistant (ACA), c'est-à-dire une interface permettant l'utilisation de la langue naturelle (en effet celle-ci est utilisée spontanément dès qu'un problème surgit) ainsi qu'une présence rassurante pour les utilisateurs.Une étude préliminaire détaille la constitution (en combinant la collecte et l'utilisation de thesaurus) d'un corpus de requêtes dont nous justifions le besoin. Ce corpus de 11626 requêtes est comparé avec d'autres corpus existants et nous montrons qu'il couvre le domaine étudié d'aide et que de plus, il contient des requêtes portant d'une part sur le contrôle de l'application et d'autre part des phrases de 'clavardage'. Ce corpus fournit une base saine pour la conception d'un analyseur syntactico-sémantique de requêtes en langage naturel, utilisant un jeu de classes (keys) sémantiques, un jeu de règles d'analyse et un jeu de règles de transformation. En entrée, les requêtes sont exprimées dans un langage formel (DAFT) pour lequel nous proposons une syntaxe et une sémantique. L'analyseur est alors évalué en comparant une annotation manuelle avec les requêtes produites automatiquement et nous étudions l'usage de techniques d'apprentissage supervisé afin d'identifier les classes d'activités conversationnelles. La méthodologie employée est validée via l'intégration d'un ACA dans une application Web existante , dédiée au prototypage collectif de la musique sur Internet. Enfin, nous décrivons l'architecture requise pour implémenter un agent rationnel qui a pour rôle de définir les réactions aux requêtes formelles des usagers, exprimées en DAFT ainsi que le modèle de l'application assistée, mettant ainsi en lumière le besoin d'un modèle cognitif.
|
5 |
Génération de réponses en langue naturelle orales et écrites pour les systèmes de question-réponse en domaine ouvertGarcia-Fernandez, Anne 10 December 2010 (has links) (PDF)
Les travaux présentés dans ce mémoire se situent dans le contexte de la réponse à une question. Contrairement à de nombreux travaux traitant de la recherche de l'information à fournir en réponse à une question, notre problématique principale a été de caractériser la forme que peut prendre une réponse en interaction avec une question qui puisse être produite par des systèmes de question-réponse. Nous exposons les enjeux de l'interaction du type "réponse à une question" considérant deux modalités d'interaction : l'oral et l'écrit. Nous montrons que répondre n'est pas uniquement présenter une information mais fait partie d'une interaction entre deux locuteurs. Cherchant à définir ce que pourrait être une réponse en interaction pour les systèmes de question-réponse, nous constatons l'absence de corpus constitué de telles réponses. Dans l'optique de constituer un tel corpus, la forme des questions utilisées lors de la collecte est primordiale. Une étude de l'état de l'art sur les variations linguistiques des questions est ainsi présentée. Nous exposons ensuite la constitution des questions ainsi que la collecte du corpus de réponses à l'oral et à l'écrit, et effectuée auprès de plus de 150 locuteurs natifs du français. Une évaluation du protocole utilisé est ensuite effectuée. Enfin, nous présentons une analyse du corpus collecté en répondant à un ensemble de questions préalables à création d'un module de génération de réponses en langue naturelle dans un système de question-réponse.
|
6 |
Accélérer l'entraînement d'un modèle non-paramétrique de densité non normalisée par échantillonnage aléatoireSenécal, Jean-Sébastien January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
7 |
QUERI : un système de question-réponse collaboratif et interactifMerdaoui, Badis January 2005 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
8 |
Efficient finite-state algorithms for the application of local grammars / Algorithmes performants à états finis pour l'application de grammaires localesSastre Martinez, Javier Miguel 11 July 2011 (has links)
Notre travail porte sur le développement d'algorithmes performants d'application de grammaires locales, en prenant comme référence ceux des logiciels libres existants : l'analyseur syntaxique descendant d'Unitex et l'analyseur syntaxique à la Earley d'Outilex. Les grammaires locales sont un formalisme de représentation de la syntaxe des langues naturelles basé sur les automates finis. Les grammaires locales sont un modèle de construction de descriptions précises et à grande échelle de la syntaxe des langues naturelles par le biais de l'observation systématique et l'accumulation méthodique de données. L'adéquation des grammaires locales pour cette tâche a été testée à l'occasion de nombreux travaux. À cause de la nature ambiguë des langues naturelles et des propriétés des grammaires locales, les algorithmes classiques d'analyse syntaxique tels que LR, CYK et ne peuvent pas être utilisés dans le contexte de ce travail. Les analyseurs top-down et Earley sont des alternatives possibles ; cependant, ils ont des coûts asymptotiques exponentiels pour le cas des grammaires locales. Nous avons d'abord conçu un algorithme d'application de grammaires locales avec un coût polynomial dans le pire des cas. Ensuite, nous avons conçu des structures de donnés performantes pour la représentation d'ensembles d'éléments et de séquences. Elles ont permis d'améliorer la vitesse de notre algorithme dans le cas général. Nous avons mis en œuvre notre algorithme et ceux des systèmes Unitex et Outilex avec les mêmes outils afin de les tester dans les mêmes conditions. En outre, nous avons mis en œuvre différents versions de chaque algorithme en utilisant nos structures de données et algorithmes pour la représentation d'ensembles et ceux fournis par la Standard Template Library (STL) de GNU. Nous avons comparé les performances des différents algorithmes et de leurs variantes dans le cadre d'un projet industriel proposé par l'entreprise Telefónica I+D : augmenter la capacité de compréhension d'un agent conversationnel qui fournit des services en ligne, voire l'envoi de SMS à des téléphones portables ainsi que des jeux et d'autres contenus numériques. Les conversations avec l'agent sont en espagnol et passent par Windows Live Messenger. En dépit du domaine limité et de la simplicité des grammaires appliquées, les temps d'exécution de notre algorithme, couplé avec nos structures de données et algorithmes pour la représentation d'ensembles, ont été plus courts. Grâce au coût asymptotique amélioré, on peut s'attendre à des temps d'exécution significativement inférieurs par rapport aux algorithmes utilisés dans les systèmes Unitex et Outilex, pour le cas des grammaires complexes et à large couverture / This work focuses on the research and development of efficient algorithms of application of local grammars, taking as reference those of the currently existent open-source systems : Unitex's top-down parser and Outilex's Earley-like parser. Local grammars are a finite-state based formalism for the representation of natural language grammars. Moreover, local grammars are a model for the construction of fully scaled and accurated descriptions of the syntax of natural languages by means of systematic observation and methodical accumulation of data. The adequacy of local grammars for this task has been proved by multiple works. Due to the ambiguous nature of natural languages, and the particular properties of local grammars, classic parsing algorithms such as LR, CYK's and Tomita's cannot be used in the context of this work. Top-down and Earley parsers are possible alternatives, though they have an exponential worst-case cost for the case of local grammars. We have first conceived an algorithm of application of local grammars having a polynomial worst-case cost. Furthermore, we have conceived other optimizations which increase the efficiency of the algorithm for general cases, namely the efficient management of sets of elements and sequences. We have implemented our algorithm and those of the Unitex and Outilex systems with the same tools in order to test them under the same conditions. Moreover, we have implemented different versions of each algorithm, either using our custom set data structures or those included in GNU's implementation of the C++ Standard Template Library (STL). We have compared the performances of the different algorithms and algorithm versions in the context of an industrial natural language application provided by the enterprise Telefónica I+D : extending the understanding capabilities of a chatterbot that provides mobile services, such as sending SMSs to mobile phones as well as games and other digital contents. Conversation with the chatterbot is held in Spanish by means of Microsoft's Windows Live Messenger. In spite of the limited domain and the simplicity of the applied grammars, execution times of our parsing algorithm coupled with our custom implementation of sets were lower. Thanks to the improved asymptotic cost of our algorithm, execution times for the case of complex and large coverage grammars can be expected to be considerably lower than those of the Unitex and Outilex algorithms
|
9 |
Du textuel au numérique : analyse et classification automatiquesTorres Moreno, Juan-Manuel 12 December 2007 (has links) (PDF)
Dans ce document, je présente les travaux de recherche que j'ai menés après ma thèse, d'abord comme chercheur au LANIA, Mexique, puis pendant mon post-doctorat au Canada au LANCI-UQAM et comme chercheur au ERMETIS, ensuite à l'École Polytechnique de Montréal et finalement au LIA où je suis actuellement responsable de la thématique TALNE.<br /> Un goût personnel pour les méthodes d'apprentissage automatique m'a orienté vers leur utilisation dans le Traitement Automatique de la Langue Naturelle. Je laisserai de côte des aspects psycholinguistiques de la compréhension d'une langue humaine et je vais m'intéresser uniquement à la modélisation de son traitement comme un système à entrée-sortie. L'approche linguistique possède des limitations pour décider de cette appartenance, et en général pour faire face à trois caractéristiques des langages humaines : Ambiguïté. <br /> Je pense que l'approche linguistique n'est pas tout à fait appropriée pour traiter des problèmes qui sont liés à un phénomène sous-jacent des langues humaines : l'incertitude. L'incertitude affecte aussi les réalisations technologiques dérivées du TAL : un système de reconnaissance vocale par exemple, doit faire face à de multiples choix générés par une entrée. Les phrases étranges, mal écrites ou avec une syntaxe pauvre ne posent pas un problème insurmontable à un humain, car les personnes sont capables de choisir l'interprétation des phrases en fonction de leur utilisation courante. L'approche probabiliste fait face à l'incertitude en posant un modèle de langage comme une distribution de probabilité. Il permet de diviser un modèle de langage en plusieurs couches : morphologie, syntaxe, sémantique et ainsi de suite. Tout au long de cette dissertation, j'ai essayé de montrer que les méthodes numériques sont performantes en utilisant une approche pragmatique : les campagnes d'évaluation nationales et internationales. Et au moins, dans les campagnes à portée de ma connaissance, les performances des méthodes numériques surpassent celles des méthodes linguistiques. Au moment de traiter de grandes masses de documents, l'analyse linguistique fine est vite dépassée par la quantité de textes à traiter. On voit des articles et des études portant sur Jean aime Marie et autant sur Marie aime Jean ou encore Marie est aimée par Jean. J'ai découvert tout au long de mes travaux, en particulier ceux consacrés au résumé automatique et au raffinement de requêtes, qu'un système hybride combinant des approches numériques à la base et une analyse linguistique au sommet, donne de meilleures performances que les systèmes pris de façon isolée. <br />Dans l'introduction je me posais la question de savoir si la linguistique pouvait encore jouer un rôle dans le traitement de la langue naturelle. Enfin, le modèle de sac de mots est une simplification exagérée qui néglige la structure de la phrase, ce qui implique une perte importante d'information. Je reformule alors les deux questions précédentes comme ceci : Les approches linguistiques et les méthodes numériques peuvent-elles jouer un partenariat dans les tâches du TAL? Cela ouvre une voie intéressante aux recherches que je compte entreprendre la conception de systèmes TAL hybrides, notamment pour la génération automatique de texte et pour la compression de phrases.<br /> On peut difficilement envisager de dépasser le plafond auquel les méthodes numériques se heurtent sans faire appel à la finesse des approches linguistiques, mais sans négliger pour autant de les valider et de les tester sur des corpora.
|
10 |
Communication en langue naturelle avec un système d'aide à la conception d'assemblages physiques : un essai d'utilisation de réseaux sémantiques partitionnésLopez, Mauricio 29 September 1979 (has links) (PDF)
.
|
Page generated in 0.0929 seconds