Global ETD Search

1	Multi-lingual dependency parsing : word representation and joint training for syntactic analysis / Parsing en dépendances multilingue : représentation de mots et apprentissage joint pour l’analyse syntaxique Dehouck, Mathieu 20 May 2019 (has links) Les parsers en dépendances modernes ont des résultats comparables à ceux d'experts humains. Cependant, ils sont encore gourmands en données annotées et ces données ne sont disponibles que pour quelques langues. Pour rendre l'analyse syntaxique accessible aussi aux langues peu dotées, de nombreuses méthodes sont apparues comme le transfert de modèle ou d'annotation. Dans cette thèse, nous proposons de nouvelles méthodes de partage de l'information entre plusieurs langues en utilisant leurs traits grammaticaux communs.Nous utilisons cette morphologie partagée pour apprendre des représentations de mots délexicalisés qui aideront l'apprentissage de modèles d'analyse syntaxique. Nous proposons aussi une nouvelle méthode d'apprentissage nommée apprentissage phylogénétique qui utilise l'arbre généalogique des langues pour guider l'apprentissage des modèles. Enfin, à l'aide de notre mesure de la complexité morphosyntaxique nous étudions le rôle de la morphologie pour l'analyse en dépendances. / While modern dependency parsers have become as good as human experts, they still rely heavily on hand annotated training examples which are available for a handful of languages only. Several methods such as model and annotation transfer have been proposed to make high quality syntactic analysis available to low resourced languages as well. In this thesis, we propose new approaches for sharing information across languages relying on their shared morphological features. In a fist time, we propose to use shared morphological features to induce cross-lingual delexicalised word representations that help learning syntactic analysis models. Then, we propose a new multi-task learning framework called phylogenetic learning which learns models for related tasks/languages guided by the tasks/languages evolutionary tree. Eventually, with our new measure of morphosyntactic complexity we investigate the intrinsic role of morphological information for dependency parsing. Apprentissage multilingue 006.31
2	Utilisations d'un thésaurus multilingue pour la recherche d'information dans les ressources documentaires du réseau Eurydice et leur valorisation Maillot, Clarisse Balcon, Pascale. Lallich-Boidin, Geneviève. January 2007 (has links) Mémoire de master en sciences de l'information et des bibliothèques : Services documentaires numériques : Villeurbanne, ENSSIB : 2007. / Texte intégral.
3	Le TAL au service desenseignants des langues : mise en oeuvre d’une plate-forme pour l’enseignement du français et de l’arabe, langues étrangères. / NLP serving teachers of languages : implementation of a platform for teaching French and Arabic languages. Mars, Abdelkarim 21 October 2016 (has links) Aujourd’hui, l’apprentissage des langues assisté par ordinateur est de plus en plus répandu, dans les institutions publiques et privées. Cependant, il est encore loin des attentes des enseignants et des apprenants et ne répond pas encore à leurs besoins. Les systèmes d’apprentissage des langues assisté par ordinateur (ALAO) actuels sont plutôt des environnements de tests des connaissances de l'apprenant et ressemblent plus à un support d’apprentissage traditionnel. De plus, le feedback proposé par ces systèmes reste basique et ne peut pas être adapté pour un apprentissage autonome, car, il devrait être en mesure de diagnostiquer les problèmes d'un apprenant avec l’orthographe, la grammaire, la conjugaison,etc., puis générer intelligemment un feedback adéquat selon la situation de l’apprentissage.Cette recherche expose les capacités des outils TAL à apporter des solutions aux limitations des systèmes d’ALAO dans le but d’élaborer un système d’ALAO complet et autonome. Nous présentons une architecture complète d'un système multilingue pour l’apprentissage des langues assisté par ordinateur destiné aux apprenants des langues étrangères, français et arabe. Ce système pourrait être utilisé pour l’apprentissage des langues par les apprenants de la langue en tant que langue seconde ou étrangère.La première partie de nos travaux porte sur l’adaptation des outils et des ressources issues du TAL pour qu’ils soient utilisés dans un environnement d’apprentissage des langues assisté par ordinateur. Parmi ces outils et ressources, il y a les analyseurs morphologiques pour l’arabe et le français, corpus, dictionnaires électroniques, etc. Ensuite, dans la deuxième section, nous présentons la reconnaissance de l’écriture manuscrite en ligne. Dans cette optique, nous exposons une approche statistique basée sur le réseau de neurones, puis, nous présentons la conception de l’architecture du système de reconnaissance ainsi que l’implémentation de l’algorithme de la reconnaissance.La deuxième partie de notre exposé porte sur l’élaboration, l’intégration et l’exploitation des outils TAL utilisés (analyseurs morphologiques, système de reconnaissance de l’écriture, dictionnaires, etc.) dans notre système d’apprentissage des langues assisté par ordinateur. Nous y présentons aussi les modules ajoutés à la plate-forme pour avoir une architecture complète d’un système d’ALAO. Parmi ces modules, figure le générateur de feedback qui permet de corriger les fautes des apprenants et générer un feedback pédagogique pertinent qui permet à l’apprenant de cerner et ses fautes. Enfin, nous décrivons l’outil de génération automatique des activités pédagogiques variées et automatisées. / Today, learning computer assisted language is increasingly widespread in public and private institutions. However, it is still far from expectations teachers and learners, and still does not meet their needs. computer-assisted language learning (CALL) today are rather test environments of learner knowledge and more like a support traditional learning. In addition, the feedback provided by these systems remains basic and can not be adapted for independent learning, because it should be able to diagnose problems a learner with spelling, grammar, conjugation, etc., and intelligently generate adequate feedback according to the situation of learning.This research exposes the capabilities of NLP tools to provide solutions to limitations CALL systems in order to develop a comprehensive system and CALL autonomous. We present a complete architecture of a multilingual system learning the computer assisted language for language learners Foreign, French and Arabic. This system could be used for learning languages by learners of the language as a second or foreign language. The first part of our work focuses on the adaptation of tools and resources from NLP for them to be used in a language learning environment computer assisted. These tools and resources, there are stemmers for Arabic and French corpora, electronic dictionaries, etc. Then, in the second section presents the handwriting recognition online. In this optical, we present a statistical approach based on neural network, then we present the design of the architecture of the recognition system as well the implementation of the recognition algorithm.The second part of the presentation focuses on the development, integration and exploitation of NLP tools (morphological analyzers recognition system writing, dictionaries, etc.) in our learning system assisted language computer. We also present the modules added to the platform to have a the complete architecture of a CALL system. These modules, figure generator feedback that corrects the mistakes of learners and generate a relevant educational feedback which allows the learner to identify and faults. Finally, we describe the tool automatic generation and automated various educational activities. Plateforme Multilingue Apprentissage Platform Multilingual Learning 004
4	Généralisation de données textuelles adaptée à la classification automatique / Toward new features for text mining Tisserant, Guillaume 14 April 2015 (has links) La classification de documents textuels est une tâche relativement ancienne. Très tôt, de nombreux documents de différentes natures ont été regroupés dans le but de centraliser la connaissance. Des systèmes de classement et d'indexation ont alors été créés. Ils permettent de trouver facilement des documents en fonction des besoins des lecteurs. Avec la multiplication du nombre de documents et l'apparition de l'informatique puis d'internet, la mise en œuvre de systèmes de classement des textes devient un enjeu crucial. Or, les données textuelles, de nature complexe et riche, sont difficiles à traiter de manière automatique. Dans un tel contexte, cette thèse propose une méthodologie originale pour organiser l'information textuelle de façon à faciliter son accès. Nos approches de classification automatique de textes mais aussi d'extraction d'informations sémantiques permettent de retrouver rapidement et avec pertinence une information recherchée.De manière plus précise, ce manuscrit présente de nouvelles formes de représentation des textes facilitant leur traitement pour des tâches de classification automatique. Une méthode de généralisation partielle des données textuelles (approche GenDesc) s'appuyant sur des critères statistiques et morpho-syntaxiques est proposée. Par ailleurs, cette thèse s'intéresse à la construction de syntagmes et à l'utilisation d'informations sémantiques pour améliorer la représentation des documents. Nous démontrerons à travers de nombreuses expérimentations la pertinence et la généricité de nos propositions qui permettent une amélioration des résultats de classification. Enfin, dans le contexte des réseaux sociaux en fort développement, une méthode de génération automatique de HashTags porteurs de sémantique est proposée. Notre approche s'appuie sur des mesures statistiques, des ressources sémantiques et l'utilisation d'informations syntaxiques. Les HashTags proposés peuvent alors être exploités pour des tâches de recherche d'information à partir de gros volumes de données. / We have work for a long time on the classification of text. Early on, many documents of different types were grouped in order to centralize knowledge. Classification and indexing systems were then created. They make it easy to find documents based on readers' needs. With the increasing number of documents and the appearance of computers and the internet, the implementation of text classification systems becomes a critical issue. However, textual data, complex and rich nature, are difficult to treat automatically. In this context, this thesis proposes an original methodology to organize and facilitate the access to textual information. Our automatic classification approache and our semantic information extraction enable us to find quickly a relevant information.Specifically, this manuscript presents new forms of text representation facilitating their processing for automatic classification. A partial generalization of textual data (GenDesc approach) based on statistical and morphosyntactic criteria is proposed. Moreover, this thesis focuses on the phrases construction and on the use of semantic information to improve the representation of documents. We will demonstrate through numerous experiments the relevance and genericity of our proposals improved they improve classification results.Finally, as social networks are in strong development, a method of automatic generation of semantic Hashtags is proposed. Our approach is based on statistical measures, semantic resources and the use of syntactic information. The generated Hashtags can then be exploited for information retrieval tasks from large volumes of data. Taln Multilingue Sémantique Fouille de texte Nlp Semantic Text mining
5	De la linguistique des fautes à une didactique multilingue Cabassut, Erika 15 September 2003 (has links) (PDF) Dans le monde actuel, nous sommes de plus en plus souvent face à un public multilingue. Dans le contexte scolaire, l'enseignement des langues doit s'adapter à cette évolution. A partir de la présentation d'un établissement scolaire à sections internationales et d'une étude des situations de différents groupes d'apprenants (germanophones, francophones, bi- et multilingues) ainsi que des erreurs spécifiques de chaque groupe, on peut constater des tendances dans la fréquence des erreurs. Une analyse détaillée des erreurs orthographiques, morphologiques, sémantiques et syntaxiques peut aider à améliorer et approfondir la compréhension des processus d'apprentissage. On constate aussi bien des similitudes que des différences dans les types d'erreurs et leur fréquence, selon l'âge et selon la place des langues chez les différents apprenants. Les résultats et les conclusions obtenus devraient conduire à un changement d'attitudes face aux erreurs. En plaçant ainsi l'apprenant au centre des discussions et des réflexions, les approches didactiques et pédagogiques devraient évoluer. Des exemples d'unités pédagogiques se basant sur une approche contrastive illustrent de manière concrète les possibilités d'enseignement dans un contexte multilingue. En rendant l'enseignement plus motivant, en valorisant tous les élèves, en profitant de leurs compétences, en favorisant la réflexion critique, interdisciplinaire et interculturelle, une telle approche est une réponse aux besoins actuels de la société. Linguistique des fautes étude comparative allemand français apprenants : monolingue multilingue processus d'apprentissage fréquence des erreurs didactique multilingue approche contrastive
6	Intégration du web social dans les systèmes de recommandation / Social web integration in recommendation systems Nana jipmo, Coriane 19 December 2017 (has links) Le Web social croît de plus en plus et donne accès à une multitude de ressources très variées, qui proviennent de sites de partage tels que del.icio.us, d’échange de messages comme Twitter, des réseaux sociaux à finalité professionnelle, comme LinkedIn, ou plus généralement à finalité sociale, comme Facebook et LiveJournal. Un même individu peut être inscrit et actif sur différents réseaux sociaux ayant potentiellement des finalités différentes, où il publie des informations diverses et variées, telles que son nom, sa localité, ses communautés, et ses différentes activités. Ces informations (textuelles), au vu de la dimension internationale du Web, sont par nature, d’une part multilingue, et d’autre part, intrinsèquement ambiguë puisqu’elles sont éditées par les individus en langage naturel dans un vocabulaire libre. De même, elles sont une source de données précieuses, notamment pour les applications cherchant à connaître leurs utilisateurs afin de mieux comprendre leurs besoins et leurs intérêts. L’objectif de nos travaux de recherche est d’exploiter, en utilisant essentiellement l’encyclopédie Wikipédia, les ressources textuelles des utilisateurs extraites de leurs différents réseaux sociaux afin de construire un profil élargi les caractérisant et exploitable par des applications telles que les systèmes de recommandation. En particulier, nous avons réalisé une étude afin de caractériser les traits de personnalité des utilisateurs. De nombreuses expérimentations, analyses et évaluations ont été réalisées sur des données réelles collectées à partir de différents réseaux sociaux. / The social Web grows more and more and gives through the web, access to a wide variety of resources, like sharing sites such as del.icio.us, exchange messages as Twitter, or social networks with the professional purpose such as LinkedIn, or more generally for social purposes, such as Facebook and LiveJournal. The same individual can be registered and active on different social networks (potentially having different purposes), in which it publishes various information, which are constantly growing, such as its name, locality, communities, various activities. The information (textual), given the international dimension of the Web, is inherently multilingual and intrinsically ambiguous, since it is published in natural language in a free vocabulary by individuals from different origin. They are also important, specially for applications seeking to know their users in order to better understand their needs, activities and interests. The objective of our research is to exploit using essentially the Wikpédia encyclopedia, the textual resources extracted from the different social networks of the same individual in order to construct his characterizing profile, which can be exploited in particular by applications seeking to understand their users, such as recommendation systems. In particular, we conducted a study to characterize the personality traits of users. Many experiments, analyzes and evaluations were carried out on real data collected from different social networks. Web social Text mining Traitement multilingue Wikipédia Personnalité Social Web Text mining Multilingual processing Wikipédia Personality
7	Reconnaissance automatique de la parole non native Tien Ping, Tan 03 July 2008 (has links) (PDF) Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est souvent difficile et peu réaliste pour représenter toutes les origines des locuteurs. <br />Dans cette thèse, nous proposons des approches pour adapter les modèles acoustiques et de prononciation sous différentes conditions de ressource pour les locuteurs non natifs. Un travail préliminaire sur l'identification d'accent a également proposé.<br />Ce travail de thèse repose sur le concept de modélisation acoustique translingue qui permet de représenter les locuteurs non natifs dans un espace multilingue sans utiliser (ou en utilisant très peu) de parole non native. Une approche hybride d'interpolation et de fusion est proposée pour l'adaptation des modèles en langue cible en utilisant une collection de modèles acoustiques multilingues. L'approche proposée est également utile pour la modélisation du contexte de prononciation. Si, en revanche, des corpus multilingues sont disponibles, des méthodes d'interpolation peuvent être utilisées pour l'adaptation à la parole non native. Deux d'entre elles sont proposées pour une adaptation supervisée et peuvent être employées avec seulement quelques phrases non natives.<br />En ce qui concerne la modélisation de la prononciation, deux approches existantes (l'une fondée sur la modification du dictionnaire de prononciation, l'autre fondée sur la définition d'un score de prononciation utilisé dans une phase de re-scoring) sont revisitées dans cette thèse et adaptées pour fonctionner sur une quantité de données limitée. Une nouvelle approche de groupement de locuteurs selon leurs habitudes de prononciation, est également présentée : nous l'appelons « analyse de prononciation latente ». Cette approche se révèle également utile pour améliorer le modèle de prononciation pour la reconnaissance automatique de la parole non native.<br />Enfin, une méthode d'identification d'accent est proposée. Elle nécessite une petite quantité de parole non native pour créer les modèles d'accents. Ceci est rendu possible en utilisant la capacité de généralisation des arbres de décision et en utilisant des ressources multilingues pour augmenter la performance du modèle d'accent. [INFO:INFO_OH] Computer Science/Other modélisation de prononciation identification d'accent
8	Synergie des approches et des ressources déployées pour le traitement de l'écrit Morin, Emmanuel 30 November 2007 (has links) (PDF) Les travaux présentés dans le cadre de cette Habilitation à Diriger des Recherches, qui se situent au carrefour de l'informatique et de la linguistique, s'intéressent au traitement de l'écrit. Ils s'articulent autour de deux axes de recherche, celui de la fouille terminologique multilingue et celui de la reconnaissance de l'écriture manuscrite en ligne. Dans un premier temps, notre étude est consacrée à la fouille terminologique multilingue. Nous commençons par rappeler les fondements théoriques en acquisition lexicale multilingue, qui s'inscrivent dans l'héritage de la sémantique distributionnelle de Harris. Nous présentons ensuite les travaux réalisés en acquisition de lexiques bilingues à partir de corpus comparables. Nous décrivons notamment la méthode par similarité interlangue proposée pour l'alignement de termes complexes et la plate-forme informatique associée. À la lumière des nombreux résultats que nous avons engrangés dans ce champ de recherche, nous précisons les apports et limites des différentes approches utilisées. Dans un deuxième temps, nous présentons les différentes facettes de la reconnaissance de l'écriture manuscrite en ligne auxquelles nous nous sommes intéressés et les modèles développés. Ces travaux, qui se situent au niveau de la modélisation du langage naturel, visent à concevoir des modèles de langage adaptés à la reconnaissance de documents dénotant un « écrit standard » (où un stylo numérique vient remplacer la saisie sur un clavier numérique) ou un « écrit déviant » (où un stylo numérique s'offre comme une nouvelle alternative pour l'écriture de SMS). Nous présentons les modèles développés et les résultats obtenus. Nous revenons aussi sur l'importance et la difficulté de concevoir des ressources adaptées à la prise en compte de ces différents écrits. Dans un dernier temps, qui constitue le trait d'union entre nos deux axes de recherche, nous indiquons la synergie possible entre les approches et ressources déployées. En particulier, nous montrons que les méthodes probabilistes ne sont plus une alternative aux systèmes à base de règles, mais bien complémentaires et que les ressources exploitées doivent être adaptées à la tâche visée. [SPI] Engineering Sciences fouille terminologique multilingue
9	Utilisation de ressources externes dans un modèle Bayésien de Recherche d'Information. Application à la recherche d'information multilingue avec UMLS. Le, Thi Hoang Diem 29 May 2009 (has links) (PDF) Dans les systèmes de recherche d'information, une indexation à base de termes et une correspondance à base d'intersection introduisent le problème de la disparité à cause des variations linguistiques. Avec l'objectif de résoudre ce problème, notre travail de thèse se positionne dans l'utilisation des ressources externes dans la recherche d'information. Ces ressources offrent non seulement les concepts pour une indexation plus précise et indépendante de langue, mais aussi une base de relations sémantiques entre ces concepts. Nous étudions en premier une indexation par concepts extraits à partir d'une ressource externe. Nous proposons ensuite de prendre en compte ces relations sémantiques entre les concepts dans la correspondance par un modèle de recherche d'information basé sur un réseau Bayésien des concepts et leurs relations sémantiques. Ainsi, nous étudions les extensions de l'indexation conceptuelle à des documents et requête structurés et multi-médias. Les fonctions de reclassement et de combinaison ont été proposées afin d'améliorer la performance de la recherche dans ces contextes. La validation des propositions est effectuée par des expérimentations dans la recherche d'information multilingue médicale, avec l'utilisation du méta thésaurus UMLS comme ressource externe. [INFO] Computer Science Recherche d'information multilingue modèle Bayésien resource externe indexation conceptuelle UMLS
10	Alignement multilingue en corpus comparables spécialisés Prochasson, Emmanuel 17 December 2009 (has links) (PDF) Les corpus comparables rassemblent des documents multilingues n'étant pas en relation de traduction mais partageant des traits communs. Notre travail porte sur l'extraction de lexique bilingue à partir de ces corpus, c'est-à-dire la reconnaissance et l'alignement d'un vocabulaire commun multilingue disponible dans le corpus. Nous nous concentrons sur les corpus comparables spécialisés, c'est-à-dire des corpus constitués de documents révélateurs de la terminologie utilisée dans les langues de spécialité. Nous travaillons sur des corpus médicaux, l'un deux couvre la thématique du diabète et de l'alimentation, en français, anglais et japonais; l'autre couvre la thématique du cancer du sein, en anglais et en français. Nous proposons et évaluons différentes améliorations du processus d'alignement, en particulier dans le cas délicat de la langue japonaise. Nous prolongeons ce manuscrit par une réflexion sur la nature des corpus comparables et la notion de comparabilité. corpus comparables langue de spécialité alignement multilingue

Search results