Global ETD Search

61	Contribution à la traduction automatique Français/Langue des Signes Française (LSF) au moyen de personnages virtuels Kervajan, Loïc 09 December 2011 (has links) (PDF) Depuis la loi du 11-02-2005 pour l'égalité des droits et des chances, les lieux ouverts au public doivent accueillir les Sourds en Langue des Signes Française (LSF). C'est dans le cadre du développement d'outils technologiques de diffusion de LSF que nous avons travaillé, plus particulièrement au niveau de la traduction automatique du français écrit vers la LSF. Notre thèse commence par un état de l'art relatif aux connaissances sur la LSF (ressources disponibles et supports d'expression de la LSF) avant d'approfondir des notions de grammaire descriptive. Notre hypothèse de travail est la suivant : la LSF est une langue et, à ce titre, la traduction automatique lui est applicable. Nous décrivons ensuite les spécifications linguistiques pour le traitement automatique, en fonction des observations mises en avant dans l'état de l'art et des propositions de nos informateurs. Nous détaillons notre méthodologie et présentons l'avancée de nos travaux autour de la formalisation des données linguistiques à partir des spécificités de la LSF dont certaines (model verbal, modification adjectivale et adverbiale, organisation des substantifs, problématiques de l'accord) ont nécessité un traitement plus approfondi. Nous présentons le cadre applicatif dans lequel nous avons travaillé : les systèmes de traduction automatique et d'animation de personnage virtuel de France Telecom R&D. Puis, après un rapide état de l'art sur les technologies avatar nous décrivons nos modalités de contrôle du moteur de synthèse de geste grâce au format d'échange mis au point. Enfin, nous terminons par nos évaluations et perspectives de recherche et de développements qui pourront suivre cette Thèse. Notre approche a donné ses premiers résultats puisque nous avons atteint notre objectif de faire fonctionner la chaîne complète de traduction : de la saisie d'un énoncé en français jusqu'à la réalisation de l'énoncé correspondant en LSF par un personnage de synthèse. Linguistique Traitement automatique des langues Traduction automatique Langue des Signes Française Langues des signes Morphosyntaxe Avatar Personnage virtuel Signeur virtuel
62	Le lexique-grammaire des verbes du grec moderne: les constructions transitives locatives standard Yannacopoulou, Anastasia 13 July 2005 (has links) (PDF) L'objectif de notre recherche est la description formelle et systématique des verbes à construction transitive locative standard du grec moderne : N0 V N1cor Loc N2lieu (Loc N3lieu), où le nom en position complément direct (N1) désigne, en général, l'objet qui se déplace par rapport au lieu en position prépositionnelle (N2, N3) à cause de l'agent (N0). Notre étude s'inscrit dans le cadre théorique de la grammaire transformationnelle défini par Zellig S. Harris. Nous suivons le cadre méthodologique du Lexique-Grammaire défini par Maurice Gross et élaboré au Laboratoire d'Automatique Documentaire et Linguistique. Notre but est la description exhaustive du grec moderne en vue de l'analyse automatique de la langue. Ainsi, 931 verbes simples sont classés dans 5 tables du lexique-grammaire : 38GLD : constructions à complément prépositionnel destination , 38GLS : constructions à complément prépositionnel source , 38GL : constructions à complément source et complément destination , 38GLH : constructions à complément(s) prépositionnel(s) locatif(s) et à complément direct obligatoirement humain ; 38GLR : constructions transitives locatives résiduelles. Nous procédons à la description morphologique et syntactico-sémantique des prépositions introduisant des compléments locatifs et nous exposons les propriétés transformationnelles et distributionnelles des verbes transitifs locatifs. Nous présentons la conversion automatique des tables en automates à états finis récursifs, dans le cadre du TAL (Traitement automatique des langues), ainsi que nos remarques sur la traduction, vers le français, des constructions locatives grecques, basée sur les propriétés figurant dans les tables. [INFO:INFO_OH] Computer Science/Other table du lexique-grammaire construction transitive locative analyse syntaxique préposition complément locatif propriété transformationnelle propriété distributionnelle classification de verbes traduction
63	La coordination dans les grammaires d'interaction Le Roux, Joseph 17 October 2007 (has links) (PDF) Cette thèse présente une modélisation des principaux aspects syntaxiques de la coordination dans les grammaires d'interaction de Guy Perrier . Les grammaires d'interaction permettent d'expliciter la valence des groupes conjoints. C'est précisément sur cette notion qu'est fondée notre modélisation.<br />Nous présentons également tous les travaux autour de cette modélisation qui nous ont permis d'aboutir à une implantation réaliste: le développement du logiciel XMG et son utilisation pour l'écriture de grammaires lexicalisées, le filtrage lexical par intersection d'automates et l'analyse syntaxique. linguistique computationnelle traitement automatique des langues syntaxe formelle coordination grammaires d'interaction analyse syntaxique théorie des automates
64	Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien Le-Hong, Phuong 22 October 2010 (has links) (PDF) Cette thèse s'inscrit dans le domaine du traitement automatique des langues naturelles et plus spécifiquement dans celui du traitement du vietnamien. Le travail présenté dans la thèse porte sur la construction d'outils et de ressources linguistiques pour les tâches fondamentales de traitement automatique du vietnamien, notamment la construction d'une grammaire à large couverture et un analyseur syntaxique pour cette langue. Nous développons une chaîne modulaire de prétraitements pour le vietnamien dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Il s'agit d'un segmenteur en phrases, d'un segmenteur en unités lexicales, d'un reconnaisseur de mots redoublés et d'un étiqueteur morpho-syntaxique. Préalables nécessaires à une possible analyse, ces traitements peuvent également servir à préparer d'autres tâches. La modélisation de la grammaire vietnamienne est effectuée en utilisant le formalisme des grammaires d'arbres adjoints lexicalisées (Lexicalized Tree Adjoining Grammars ou LTAG). Nous développons un système qui extrait automatiquement une grammaire LTAG à partir d'un corpus arboré du vietnamien. Les arbres élémentaires de la grammaire forment les structures syntaxiques de la langue vietnamienne. Nous adaptons et enrichissons un analyseur syntaxique du français pour construire un analyseur syntaxique profond pour le vietnamien. Nous présentons les fondements théoriques des différents modules et systèmes, leurs évaluations quantitatives. Nos systèmes atteignent des performances prometteuses dans les tâches du traitement automatique du vietnamien à l'heure actuelle. traitement automatique des langues analyse syntaxique étiquetage syntaxique segmentation vietnamien grammaire d'arbres adjoints apprentissage supervisé modèle de l'entropie maximale automate à états finis
65	Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle Rossignol, Mathias 26 October 2005 (has links) (PDF) Les lexiques sémantiques sont des ressources indispensables pour permettre à de nombreuses applications de traitement automatique des langues (résumé automatique, recherche d'information, traduction automatique, etc.) d'accéder au sens d'un texte. La question de la pertinence des informations présentes dans de tels lexiques est cruciale : le sens d'un mot comme navet, par exemple, varie considérablement selon que le texte étudié est consacré à la gastronomie ou à la cinématographie. Un moyen économique et linguistiquement motivé de disposer de descriptions de sens de mots réellement pertinentes est d'« apprendre » celles-ci à partir de l'utilisation effective des mots dans un corpus, collection de textes représentative d'un domaine d'expression. Nous proposons pour tenter de répondre à ce défi une méthodologie d'acquisition automatique sur corpus d'informations lexicales sémantiques en trois étapes, fondée sur les principes linguistiques de la Sémantique interprétative de F. Rastier. Par analyse statistique et comparaison des modes d'emploi des mots, en utilisant des méthodes classiques ou originales, nous parvenons tout d'abord à rapprocher des mots appartenant à un même domaine (par exemple donnée, transfert, réseau pour les NTIC), puis des mots de sens similaires (donnée et information). Enfin, nous proposons une première méthode permettant la mise au jour de nuances fines marquant des distinctions de sens entre mots proches (donnée est plus « concret » que information), ce qui constitue un résultat encore inédit en acquisition automatique d'informations lexicales sémantiques. Traitement automatique des langues apprentissage automatique corpus sémantique interprétative mots-clés thèmes classes sémantiques taxèmes nuances sémantiques sèmes spécifiques
66	Acquisition automatique de lexiques sémantiques pour la recherche d'information Claveau, Vincent 17 December 2003 (has links) (PDF) De nombreuses applications du traitement automatique des langues (recherche d'information, traduction automatique, etc.) requièrent des ressources sémantiques spécifiques à leur tâche et à leur domaine. Pour répondre à ces besoins spécifiques, nous avons développé ASARES, un système d'acquisition d'informations sémantiques lexicales sur corpus. Celui-ci répond à un triple objectif : il permet de fournir des résultats de bonne qualité, ses résultats et le processus ayant conduit à leur extraction sont interprétables, et enfin, il est assez générique et automatique pour être aisément portable d'un corpus à un autre. Pour ce faire, ASARES s'appuie sur une technique d'apprentissage artificiel symbolique --- la programmation logique inductive --- qui lui permet d'inférer des patrons d'extraction morphosyntaxiques et sémantiques à partir d'exemples des éléments lexicaux sémantiques que l'on souhaite acquérir. Ces patrons sont ensuite utilisés pour extraire du corpus de nouveaux éléments. Nous montrons également qu'il est possible de combiner cette approche symbolique avec des techniques d'acquisition statistiques qui confèrent une plus grande automaticité à ASARES. Pour évaluer la validité de notre méthode, nous l'avons appliquée à l'extraction d'un type de relations sémantiques entre noms et verbes définies au sein du Lexique génératif appelées relations qualia. Cette tâche d'acquisition revêt deux intérêts principaux. D'une part, ces relations ne sont définies que de manière théorique ; l'interprétabilité linguistique des patrons inférés permet donc d'en préciser le fonctionnement et les réalisations en contexte. D'autre part, plusieurs auteurs ont noté l'intérêt de ce type de relations dans le domaine de la recherche d'information pour donner accès à des reformulations sémantiquement équivalentes d'une même idée. Grâce à une expérience d'extension de requêtes, nous vérifions expérimentalement cette affirmation : nous montrons que les résultats d'un système de recherche exploitant ces relations qualia, acquises par ASARES, sont améliorés de manière significative quoique localisée. traitement automatique des langues apprentissage artificiel acquisition de lexique Lexique génératif programmation logique inductive recherche d'information apprentissage semi-supervisé
67	Une approche hybride de l'extraction d'information : sous-langages et lexique-grammaire Watrin, Patrick 25 October 2006 (has links) L'extraction d'information consiste habituellement à remplir, au départ d'un ensemble de documents, les champs d'un formulaire préalablement établi et articulé autour d'un scénario précis. Dans ce travail, nous cherchons à étudier la pertinence des bases de données syntaxiques du lexique-grammaire afin de répondre aux questions et enjeux posés par ce domaine d'application (adaptabilité, performance,...). La phrase élémentaire (couple <prédicat, compléments essentiels>) est l'unité significative minimale de cette théorie linguistique (M. Gross, 1975) qui réunit lexique et syntaxe en un unique formalisme. Chacune de ces phrases dessine le sens d'un prédicat au moyen de critères tant distributionnels que transformationnels. Dans un cadre générique, on ne peut malheureusement pas prétendre caractériser davantage ces phrases. Il convient en effet que l'analyse syntaxico-sémantique qui dérive de l'utilisation du formalisme s'adapte à toute situation d'énonciation. Toutefois, si on limite l'analyse dont il est question à un contexte ou sous-langage particulier, celui d'un scénario d'extraction par exemple, en d'autres termes, si nous bornons la situation d'énonciation, il est envisageable de préciser la sémantique du prédicat et de ses compléments essentiels. Les phrases élémentaires peuvent ainsi être appréhendées comme autant de motifs d'extraction. Traitement automatique des langues TAL NLP Natural language processing Zellig S. Harris Lexicon-grammar Lexique-grammaire Extraction d'information Maurice Gross Sous-langage Sublanguage Information extraction
68	Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique Grouin, Cyril 26 June 2013 (has links) (PDF) Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques. Anonymisation comptes rendus médicaux guide d'annotation méthodes symboliques apprentissage statistique traitement automatique des langues
69	Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes Constant, Matthieu 03 December 2012 (has links) (PDF) Dans ce mémoire, nous nous attachons à retracer les différents travaux de recherche que nous avons menés depuis plus de 10 ans. L'un de nos objectifs principaux a été d'améliorer la finesse linguistique de différentes tâches du TAL en prenant en compte les expressions multi-mots. En particulier, notre idée directrice a été d'exploiter des ressources lexicales riches et de les coupler à différents modèles probabilistes ou différentes procédures hybrides. Nos travaux peuvent se découper en trois axes. Le premier axe porte sur l'étiquetage morphosyntaxique et l'analyse syntaxique. L'intégration de la reconnaissance des expressions multi-mots dans telles tâches a essentiellement consisté à adapter divers modèles probabilistes dédiés à ces tâches. Comme ces expressions sont, par définition, difficilement prédictibles, l'exploitation de ressources lexicales est primordiale pour leur reconnaissance. Nous avons donc été amené à trouver des stratégies d'intégration de ressources symboliques externes dans nos modèles. Le deuxième axe consiste à intégrer la reconnaissance d'expressions multi-mots dans des applications. Nous avons, en particulier, développé des applications liées au monde privé (extraction d'informations, classification) ou liées au monde académique (aide à la construction de lexiques bilingues ou à des études linguistiques). Dans tous les cas, nous nous sommes basé sur des prétraitements fins alimentés par des ressources lexicales riches. Le troisième axe concerne la construction de ressources linguistiques. En effet, le développement des outils décrits ci-dessus n'est possible que grâce à l'existence de ressources (corpus annotés ou lexiques). Or, les ressources autour des expressions multi-mots manquent cruellement ou sont incomplètes. Pour toutes les ressources développées, nous avons mené des études linguistiques fines et systématiques. Nous avons également mis en place un outillage informatique pour les gérer et les appliquer à des textes. Traitement automatique des langues analyse syntaxique étiquetage morphosynatxique expressions multi-mots expressions polylexicales extraction d'information ressources linguistiques
70	UNE DESCRIPTION LINGUISTIQUE DU CREOLE GUADELOUPEEN DANS LA PERSPECTIVE DE LA GENERATION AUTOMATIQUE D'ENONCES. Delumeau, Fabrice 14 February 2006 (has links) (PDF) Le but de cette thèse est de proposer une description du créole guadeloupéen dans la perspective de la génération automatique d'énoncés en créole, à partir du français contemporain. En ce qui concerne les domaines phonologique et morphophonologique, les régularités observées se traduisent par des règles (qui rendent compte de ce qu'il convient de nommer la « créolisation synchronique »). En ce qui concerne le domaine syntaxique, l'accent est mis sur les différences entre le français et le créole, et une description formalisée des principales constructions du créole guadeloupéen est présentée. Créole guadeloupéen Description du créole de Guadeloupe Génération automatique d'énoncés Syntaxe Formelle Grammaire d'Arbres Polychromes (GAP) Linguistique Traitement Automatique des Langues Analyse Syntaxique Phonologie Morphophonologie

Search results