Global ETD Search

131	ANTHAPSI : un système d'analyse thématique et d'apprentissage de connaissances pragmatiques fondé sur l'amorçage Ferret, Olivier 22 December 1998 (has links) (PDF) Le système ANTHAPSI a été conçu dans le but d'apprendre de manière automatique des connaissances sur les situations prototypiques du monde à partir de textes. Afin que ce processus d'apprentissage soit le plus général possible, ANTHAPSI se place dans un cadre minimisant le recours à des connaissances pragmatiques fournies a priori. Pour mener sa tâche à bien, il met l'accent sur la nécessité d'associer étroitement l'analyse des textes, en l'occurrence une analyse de nature thématique, et l'apprentissage de connaissances. Cette association repose sur un modèle de mémoire spécifique, chargé de servir de trait d'union entre ces deux processus. Cette mémoire joue en effet le rôle de réceptacle actif pour les connaissances nécessaires au fonctionnement de l'analyse thématique, ces connaissances étant produites par le processus d'apprentissage à partir des représentations des textes construites par l'analyse thématique. De cette manière, l'association entre l'analyse des textes et l'apprentissage de connaissances permet de développer progressivement un noyau initial de connaissances et met en oeuvre par là même la première forme d'amorçage présente dans ANTHAPSI, appelée amorçage intra-niveau. ANTHAPSI explore également la façon dont ce noyau initial peut être constitué à partir d'un niveau de connaissances moins précises et moins structurées. Il est ainsi formé de deux composantes fonctionnellement similaires mais utilisant des connaissances et des représentations de niveaux différents : MLK applique les principes de l'amorçage intra-niveau en manipulant des représentations composées de graphes conceptuels tandis que ROSA le fait avec des représentations simplement composées de mots. L'amorçage inter-niveau montre en l'occurrence comment ROSA peut contribuer, au moins sur le plan thématique, à la mise en opération de MLK. compréhension de textes analyse thématique apprentissage automatique
132	Le lexique-grammaire des verbes du grec moderne: les constructions transitives locatives standard Yannacopoulou, Anastasia 13 July 2005 (has links) (PDF) L'objectif de notre recherche est la description formelle et systématique des verbes à construction transitive locative standard du grec moderne : N0 V N1cor Loc N2lieu (Loc N3lieu), où le nom en position complément direct (N1) désigne, en général, l'objet qui se déplace par rapport au lieu en position prépositionnelle (N2, N3) à cause de l'agent (N0). Notre étude s'inscrit dans le cadre théorique de la grammaire transformationnelle défini par Zellig S. Harris. Nous suivons le cadre méthodologique du Lexique-Grammaire défini par Maurice Gross et élaboré au Laboratoire d'Automatique Documentaire et Linguistique. Notre but est la description exhaustive du grec moderne en vue de l'analyse automatique de la langue. Ainsi, 931 verbes simples sont classés dans 5 tables du lexique-grammaire : 38GLD : constructions à complément prépositionnel destination , 38GLS : constructions à complément prépositionnel source , 38GL : constructions à complément source et complément destination , 38GLH : constructions à complément(s) prépositionnel(s) locatif(s) et à complément direct obligatoirement humain ; 38GLR : constructions transitives locatives résiduelles. Nous procédons à la description morphologique et syntactico-sémantique des prépositions introduisant des compléments locatifs et nous exposons les propriétés transformationnelles et distributionnelles des verbes transitifs locatifs. Nous présentons la conversion automatique des tables en automates à états finis récursifs, dans le cadre du TAL (Traitement automatique des langues), ainsi que nos remarques sur la traduction, vers le français, des constructions locatives grecques, basée sur les propriétés figurant dans les tables. [INFO:INFO_OH] Computer Science/Other table du lexique-grammaire construction transitive locative analyse syntaxique préposition complément locatif propriété transformationnelle propriété distributionnelle classification de verbes traduction
133	La coordination dans les grammaires d'interaction Le Roux, Joseph 17 October 2007 (has links) (PDF) Cette thèse présente une modélisation des principaux aspects syntaxiques de la coordination dans les grammaires d'interaction de Guy Perrier . Les grammaires d'interaction permettent d'expliciter la valence des groupes conjoints. C'est précisément sur cette notion qu'est fondée notre modélisation.<br />Nous présentons également tous les travaux autour de cette modélisation qui nous ont permis d'aboutir à une implantation réaliste: le développement du logiciel XMG et son utilisation pour l'écriture de grammaires lexicalisées, le filtrage lexical par intersection d'automates et l'analyse syntaxique. linguistique computationnelle traitement automatique des langues syntaxe formelle coordination grammaires d'interaction analyse syntaxique théorie des automates
134	Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques Durrieu, Jean-Louis 07 May 2010 (has links) (PDF) Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR) : nous cherchons à indexer les morceaux de musique à l'aide de leur mélodie. La seconde application est la séparation aveugle de sources sonores (BASS) : extraire une piste audio pour chaque source présente dans un mélange sonore. La séparation de la mélodie principale et de l'accompagnement et l'extraction de cette mélodie sont traitées au sein d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant à l'état du filtre et de la source. Le modèle spectral choisi permet de prendre compte les fréquences fondamentales de l'instrument désiré et de séparer ce dernier de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM) et un modèle de mélange instantané (IMM). L'accompagnement est modélisé par un modèle spectral plus général. Cinq systèmes sont proposés, trois systèmes fournissent la mélodie sous forme de séquence de fréquences fondamentales, un système fournit les notes de la mélodie et le dernier système sépare l'instrument principal de l'accompagnement. Les résultats en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Nous avons ainsi réussi à intégrer de la connaissance musicale améliorant les résultats de travaux antérieurs sur la séparation de sources sonores. Traitement automatique de la musique extraction de la mélodie principale Séparation de sources audio mono-canale Modèle source/filtre Non-negative Matrix Factorisation (NMF)
135	Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien Le-Hong, Phuong 22 October 2010 (has links) (PDF) Cette thèse s'inscrit dans le domaine du traitement automatique des langues naturelles et plus spécifiquement dans celui du traitement du vietnamien. Le travail présenté dans la thèse porte sur la construction d'outils et de ressources linguistiques pour les tâches fondamentales de traitement automatique du vietnamien, notamment la construction d'une grammaire à large couverture et un analyseur syntaxique pour cette langue. Nous développons une chaîne modulaire de prétraitements pour le vietnamien dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Il s'agit d'un segmenteur en phrases, d'un segmenteur en unités lexicales, d'un reconnaisseur de mots redoublés et d'un étiqueteur morpho-syntaxique. Préalables nécessaires à une possible analyse, ces traitements peuvent également servir à préparer d'autres tâches. La modélisation de la grammaire vietnamienne est effectuée en utilisant le formalisme des grammaires d'arbres adjoints lexicalisées (Lexicalized Tree Adjoining Grammars ou LTAG). Nous développons un système qui extrait automatiquement une grammaire LTAG à partir d'un corpus arboré du vietnamien. Les arbres élémentaires de la grammaire forment les structures syntaxiques de la langue vietnamienne. Nous adaptons et enrichissons un analyseur syntaxique du français pour construire un analyseur syntaxique profond pour le vietnamien. Nous présentons les fondements théoriques des différents modules et systèmes, leurs évaluations quantitatives. Nos systèmes atteignent des performances prometteuses dans les tâches du traitement automatique du vietnamien à l'heure actuelle. traitement automatique des langues analyse syntaxique étiquetage syntaxique segmentation vietnamien grammaire d'arbres adjoints apprentissage supervisé modèle de l'entropie maximale automate à états finis
136	Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle Rossignol, Mathias 26 October 2005 (has links) (PDF) Les lexiques sémantiques sont des ressources indispensables pour permettre à de nombreuses applications de traitement automatique des langues (résumé automatique, recherche d'information, traduction automatique, etc.) d'accéder au sens d'un texte. La question de la pertinence des informations présentes dans de tels lexiques est cruciale : le sens d'un mot comme navet, par exemple, varie considérablement selon que le texte étudié est consacré à la gastronomie ou à la cinématographie. Un moyen économique et linguistiquement motivé de disposer de descriptions de sens de mots réellement pertinentes est d'« apprendre » celles-ci à partir de l'utilisation effective des mots dans un corpus, collection de textes représentative d'un domaine d'expression. Nous proposons pour tenter de répondre à ce défi une méthodologie d'acquisition automatique sur corpus d'informations lexicales sémantiques en trois étapes, fondée sur les principes linguistiques de la Sémantique interprétative de F. Rastier. Par analyse statistique et comparaison des modes d'emploi des mots, en utilisant des méthodes classiques ou originales, nous parvenons tout d'abord à rapprocher des mots appartenant à un même domaine (par exemple donnée, transfert, réseau pour les NTIC), puis des mots de sens similaires (donnée et information). Enfin, nous proposons une première méthode permettant la mise au jour de nuances fines marquant des distinctions de sens entre mots proches (donnée est plus « concret » que information), ce qui constitue un résultat encore inédit en acquisition automatique d'informations lexicales sémantiques. Traitement automatique des langues apprentissage automatique corpus sémantique interprétative mots-clés thèmes classes sémantiques taxèmes nuances sémantiques sèmes spécifiques
137	Acquisition automatique de lexiques sémantiques pour la recherche d'information Claveau, Vincent 17 December 2003 (has links) (PDF) De nombreuses applications du traitement automatique des langues (recherche d'information, traduction automatique, etc.) requièrent des ressources sémantiques spécifiques à leur tâche et à leur domaine. Pour répondre à ces besoins spécifiques, nous avons développé ASARES, un système d'acquisition d'informations sémantiques lexicales sur corpus. Celui-ci répond à un triple objectif : il permet de fournir des résultats de bonne qualité, ses résultats et le processus ayant conduit à leur extraction sont interprétables, et enfin, il est assez générique et automatique pour être aisément portable d'un corpus à un autre. Pour ce faire, ASARES s'appuie sur une technique d'apprentissage artificiel symbolique --- la programmation logique inductive --- qui lui permet d'inférer des patrons d'extraction morphosyntaxiques et sémantiques à partir d'exemples des éléments lexicaux sémantiques que l'on souhaite acquérir. Ces patrons sont ensuite utilisés pour extraire du corpus de nouveaux éléments. Nous montrons également qu'il est possible de combiner cette approche symbolique avec des techniques d'acquisition statistiques qui confèrent une plus grande automaticité à ASARES. Pour évaluer la validité de notre méthode, nous l'avons appliquée à l'extraction d'un type de relations sémantiques entre noms et verbes définies au sein du Lexique génératif appelées relations qualia. Cette tâche d'acquisition revêt deux intérêts principaux. D'une part, ces relations ne sont définies que de manière théorique ; l'interprétabilité linguistique des patrons inférés permet donc d'en préciser le fonctionnement et les réalisations en contexte. D'autre part, plusieurs auteurs ont noté l'intérêt de ce type de relations dans le domaine de la recherche d'information pour donner accès à des reformulations sémantiquement équivalentes d'une même idée. Grâce à une expérience d'extension de requêtes, nous vérifions expérimentalement cette affirmation : nous montrons que les résultats d'un système de recherche exploitant ces relations qualia, acquises par ASARES, sont améliorés de manière significative quoique localisée. traitement automatique des langues apprentissage artificiel acquisition de lexique Lexique génératif programmation logique inductive recherche d'information apprentissage semi-supervisé
138	Une approche hybride de l'extraction d'information : sous-langages et lexique-grammaire Watrin, Patrick 25 October 2006 (has links) L'extraction d'information consiste habituellement à remplir, au départ d'un ensemble de documents, les champs d'un formulaire préalablement établi et articulé autour d'un scénario précis. Dans ce travail, nous cherchons à étudier la pertinence des bases de données syntaxiques du lexique-grammaire afin de répondre aux questions et enjeux posés par ce domaine d'application (adaptabilité, performance,...). La phrase élémentaire (couple <prédicat, compléments essentiels>) est l'unité significative minimale de cette théorie linguistique (M. Gross, 1975) qui réunit lexique et syntaxe en un unique formalisme. Chacune de ces phrases dessine le sens d'un prédicat au moyen de critères tant distributionnels que transformationnels. Dans un cadre générique, on ne peut malheureusement pas prétendre caractériser davantage ces phrases. Il convient en effet que l'analyse syntaxico-sémantique qui dérive de l'utilisation du formalisme s'adapte à toute situation d'énonciation. Toutefois, si on limite l'analyse dont il est question à un contexte ou sous-langage particulier, celui d'un scénario d'extraction par exemple, en d'autres termes, si nous bornons la situation d'énonciation, il est envisageable de préciser la sémantique du prédicat et de ses compléments essentiels. Les phrases élémentaires peuvent ainsi être appréhendées comme autant de motifs d'extraction. Traitement automatique des langues TAL NLP Natural language processing Zellig S. Harris Lexicon-grammar Lexique-grammaire Extraction d'information Maurice Gross Sous-langage Sublanguage Information extraction
139	Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique Grouin, Cyril 26 June 2013 (has links) (PDF) Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques. Anonymisation comptes rendus médicaux guide d'annotation méthodes symboliques apprentissage statistique traitement automatique des langues
140	Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes Constant, Matthieu 03 December 2012 (has links) (PDF) Dans ce mémoire, nous nous attachons à retracer les différents travaux de recherche que nous avons menés depuis plus de 10 ans. L'un de nos objectifs principaux a été d'améliorer la finesse linguistique de différentes tâches du TAL en prenant en compte les expressions multi-mots. En particulier, notre idée directrice a été d'exploiter des ressources lexicales riches et de les coupler à différents modèles probabilistes ou différentes procédures hybrides. Nos travaux peuvent se découper en trois axes. Le premier axe porte sur l'étiquetage morphosyntaxique et l'analyse syntaxique. L'intégration de la reconnaissance des expressions multi-mots dans telles tâches a essentiellement consisté à adapter divers modèles probabilistes dédiés à ces tâches. Comme ces expressions sont, par définition, difficilement prédictibles, l'exploitation de ressources lexicales est primordiale pour leur reconnaissance. Nous avons donc été amené à trouver des stratégies d'intégration de ressources symboliques externes dans nos modèles. Le deuxième axe consiste à intégrer la reconnaissance d'expressions multi-mots dans des applications. Nous avons, en particulier, développé des applications liées au monde privé (extraction d'informations, classification) ou liées au monde académique (aide à la construction de lexiques bilingues ou à des études linguistiques). Dans tous les cas, nous nous sommes basé sur des prétraitements fins alimentés par des ressources lexicales riches. Le troisième axe concerne la construction de ressources linguistiques. En effet, le développement des outils décrits ci-dessus n'est possible que grâce à l'existence de ressources (corpus annotés ou lexiques). Or, les ressources autour des expressions multi-mots manquent cruellement ou sont incomplètes. Pour toutes les ressources développées, nous avons mené des études linguistiques fines et systématiques. Nous avons également mis en place un outillage informatique pour les gérer et les appliquer à des textes. Traitement automatique des langues analyse syntaxique étiquetage morphosynatxique expressions multi-mots expressions polylexicales extraction d'information ressources linguistiques

Search results