Spelling suggestions: "subject:"traitement automatique dess langue"" "subject:"traitement automatique deus langue""
71 |
Médiatiser l'annotation pour une herméneutique numérique : AnT&CoW, un collecticiel pour une coopération via l'annotation de documents numériquesLortal, Gaëlle 24 November 2006 (has links) (PDF)
Suite au projet CNRS PI-TCAN Mediapro, centré sur les activités coopératives en conception mécanique, le projet Mediannote, dans lequel s'inscrivent nos travaux, se concentre sur l'annotation dans ces activités. Dans un contexte où les échanges médiatisés s'accroissent, le document numérique devient central. Pour soutenir les échanges et la construction d'une interprétation collective autour de ce document, nous proposons d'instrumenter l'annotation - définie comme un fragment de discours à propos d'un texte, un support à l'argumentation -. Nous proposons donc de concevoir un collecticiel pour annoter collectivement des documents numériques et ainsi soutenir l'herméneutique numérique.<br />L'annotation comme support au travail coopératif est envisagée à la fois comme un objet qui relève de l'étiquette et du commentaire et comme une activité qui relève de la communication, de l'indexation et de l'élaboration de discours. La conception de notre collecticiel se fonde sur un modèle d'activité d'annotation qui souligne la dimension interactionnelle et coopérative de l'annotation. Cette démarche guidée par les modèles est enrichie par l'utilisation de corpus qui permet de conserver l'utilisateur final au centre de nos préoccupations. Nous présentons une maquette du collecticiel, AnT&CoW, utilisant des outils de TAL pour le soutien de l'utilisateur à différents niveaux : soutien à la construction de classification et aide à l'indexation. Une première évaluation de cette maquette est également présentée.
|
72 |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la questionFoucault, Nicolas 16 December 2013 (has links) (PDF)
Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d'Information pour la sélection de documents en QR. Celle-ci s'appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d'un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l'extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l'aide de RITEL. L'évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L'hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l'extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l'hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l'impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l'hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants.
|
73 |
Analyse syntaxique automatique de l'oral : étude des disfluencesBove, Rémi 25 November 2008 (has links) (PDF)
Le but de cette thèse est d'étudier de façon détaillée l'impact des disfluences en français parlé (répétitions, auto-corrections, amorces, etc.) sur l'analyse syntaxique automatique de l'oral et de propose un modèle théorique permettant de les intégrer dans cette analyse. Notre axe de recherche se fonde sur l'hypothèse selon laquelle une analyse détaillée des énoncés oraux (principalement en termes morphosyntaxiques) peut permettre un traitement efficace pour ce type de données, et s'avère incontournable dans une optique de développement d'applications génériques dans le domaine des technologies de la parole. Dans le cadre de ce travail, nous proposons à la fois une étude linguistique détaillée et une stratégie d'analyse syntaxique automatique partielle des disfluences (en syntagmes minimaux non récursifs ou "chunks"). Le corpus final obtenu est ainsi segmenté en chunks non-disfluents d'une part, à côté des chunks disfluents d'autre part après prise en compte des régularités observées dans notre corpus. Les résultats de l'analyse automatique sont finalement évalués de façon quantitative sur le corpus permettant ainsi de valider le modèle théorique de façon empirique.
|
74 |
Contribution des basses fréquences à l'alignement sous-phrastique multilingue : une approche différentielleLardilleux, Adrien 14 September 2010 (has links) (PDF)
L'objectif de cette thèse est de montrer que, contrairement aux idées reçues, les mots de basses fréquences peuvent être mis à profit de façon efficace en traitement automatique des langues. Nous les mettons à contribution en alignement sous-phrastique, tâche qui constitue la première étape de la plupart des systèmes de traduction automatique fondée sur les données (traduction probabiliste ou par l'exemple). Nous montrons que les mots rares peuvent servir de fondement même dans la conception d'une méthode d'alignement sous-phrastique multilingue, à l'aide de techniques différentielles proches de celles utilisées en traduction automatique par l'exemple. Cette méthode est réellement multilingue, en ce sens qu'elle permet le traitement simultané d'un nombre quelconque de langues. Elle est de surcroît très simple, anytime, et permet un passage à l'échelle naturel. Nous comparons notre implémentation, Anymalign, à deux ténors statistiques du domaine sur des tâches bilingues. Bien qu'à l'heure actuelle ses résultats sont en moyenne légèrement en retrait par rapport à l'état de l'art en traduction automatique probabiliste par segments, nous montrons que la qualité propre des lexiques produits par notre méthode est en fait supérieure à celle de l'état de l'art.
|
75 |
Étude des phénomènes itératifs en langue : Inscription discursive et Calcul aspectuo-temporel, vers un traitement automatiséLebranchu, Julien 15 December 2011 (has links) (PDF)
Cette thèse s'inscrit dans le domaine du traitement automatique des langues, et concerne l'étude des phénomènes itératifs en langue. Il s'agit notamment de rendre compte de la sémantique de procès exprimant une répétition (d'événements ou d'états) au sein d'un même texte, tant du point de vue de l'aspect que du temps. Nous avons mené nos travaux dans le cadre d'un travail d'équipe pluridisciplinaire couvrant des orientations linguistiques, logiques et informatiques. Ces travaux reposent sur une double appréhension commune d'un énoncé itératif : une entité événementielle en quelque sorte générique qui est présentée comme répétée dans le temps, d'une part ; l'itération proprement dite, conçue comme ensemble des occurrences du modèle, d'autre part. Nous nous focalisons pour notre part sur deux facettes : l'inscription discursive, en nous reposant sur une modélisation objet de la construction du sens des itérations (Mathet, 2007) ; et le calcul aspectuo-temporel au travers de la Sémantique de la temporalité (SdT) (Gosselin, 2011). Nous menons en premier lieu une étude de corpus, sur des articles de journaux et des œuvres littéraires, qui vise à caractériser l'inscription discursive des phénomènes itératifs. Nous exposons sur cette base leurs propriétés discursives dans la perspective de circonscrire automatiquement les itérations, c'est-à-dire repérer la borne initiale et finale du segment textuel correspondant. Nous établissons également un modèle d'annotation pour cette automatisation permettant in fine d'instancier les itérations au sein du modèle objet. Dans un second temps, nous abordons les phénomènes itératifs sous l'angle du calcul aspectuo-temporel. Fondé sur les travaux de Laurent Gosselin sur le calcul aspectuel des procès semelfactifs, nous étudions les ajustements nécessaires pour l'appliquer aux procès itératifs, en intégrant la notion de double visée aspectuelle issue de la SdT, dans la perspective de l'automatisation du calcul. Enfin, nous complétons ces deux aspects de notre travail par l'intégration de nos résultats au sein de TimeML, un formalisme XML de structuration des connaissances temporelles.
|
76 |
Indexation de textes médicaux par extraction de concepts, et ses utilisationsPouliquen, Bruno 07 June 2002 (has links) (PDF)
Nous nous intéressons à l'accès à l'information médicale. Nous avons utilisé un lexique de flexions, dérivations et synonymes de mots spécifiquement créé pour le domaine médical, issu de la base de connaissances "Aide au Diagnostic Médical". Nous avons exploité les mots composés et les associations de mots de ce lexique pour optimiser l'indexation d'une phrase en mots de référence. Nous avons créé un outil d'indexation permettant de reconnaître un concept d'un thésaurus médical dans une phrase en langage naturel. Nous avons ainsi pu indexer des documents médicaux par un ensemble de concepts, ensuite nous avons démontré l'utilité d'une telle indexation en développant un système de recherche d'information et divers outils: extraction de mots-clés, similarité de documents et synthèse automatique de documents. Cette indexation diminue considérablement la complexité de la représentation des connaissances contenues dans les documents en langage naturel. Les résultats des évaluations montrent que cette indexation conserve néanmoins la majeure partie de l'information sémantique.
|
77 |
Lexique et analyse sémantique de textes - structures, acquisitions, calculs, et jeux de motsLafourcade, Mathieu 07 December 2011 (has links) (PDF)
L'analyse sémantique de textes nécessite en préalable la construction d'objets relevant de la sémantique lexicale. Les vecteurs d'idées et les réseaux lexicaux semblent de bons candidats et constituent ensemble des structures complémentaires. Toutefois, faut-il encore être capable dans la pratique de les construire. Les vecteurs d'idées peuvent être calculés à partir de corpus de définitions de dictionnaires, de thésaurus ou encore de textes. Ils peuvent se décliner en des vecteurs conceptuels, des vecteurs anonymes ou des vecteurs lexicaux - chaque type présentant un équilibre différent entre précision, couverture et praticité. Quant aux réseaux lexicaux, ils peuvent être acquis efficacement via des jeux, et c'est précisément l'objet du projet JeuxDeMots. L'analyse sémantique peut être abordée par l'analyse thématique, et ainsi servir de moyen de calcul à des vecteurs d'idées (bouclage). Nous pouvons modéliser l'analyse comme un problème d'activation et de propagation. La multiplicité des critères pouvant intervenir dans une analyse sémantique, et la difficulté inhérente à définir une fonction de contrôle satisfaisante, nous amène à explorer l'usage de métaheuristiques bio-inspirées. Plus précisément, nous introduisons un modèle d'analyse par colonies de fourmis artificielles. A partir d'un texte, l'analyse vise a construire un graphe contenant les objets du texte (les mots), des objets identifiés comme pertinents (des syntagmes, des concepts) ainsi que des relations pondérées et typées entre ces objets.
|
78 |
Analyse syntaxique à l'aide des tables du Lexique-Grammaire du françaisTolone, Elsa 31 March 2011 (has links) (PDF)
Les tables du Lexique-Grammaire, dont le développement a été initié par Gross (1975), constituent un lexique syntaxique très riche pour le français. Elles couvrent diverses catégories lexicales telles que les verbes, les noms, les adjectifs et les adverbes. Cette base de données linguistiques n'est cependant pas directement exploitable informatiquement car elle est incomplète et manque de cohérence. Chaque table regroupe un certain nombre d'entrées jugées similaires car elles acceptent des propriétés communes. Ces propriétés ont pour particularité de ne pas être codées dans les tables même mais uniquement décrites dans la littérature. Pour rendre ces tables exploitables, il faut expliciter les propriétés intervenant dans chacune d'entre elles. De plus, un grand nombre de ces propriétés doivent être renommées dans un souci de cohérence. Notre objectif est d'adapter les tables pour les rendre utilisables dans diverses applications de Traitement Automatique des Langues (TAL), notamment l'analyse syntaxique. Nous expliquons les problèmes rencontrés et les méthodes adoptées pour permettre leur intégration dans un analyseur syntaxique. Nous proposons LGExtract, un outil générique pour générer un lexique syntaxique pour le TAL à partir des tables du Lexique-Grammaire. Il est relié à une table globale dans laquelle nous avons ajouté les propriétés manquantes et un unique script d'extraction incluant toutes les opérations liées à chaque propriété devant être effectuées pour toutes les tables. Nous présentons également LGLex, le nouveau lexique syntaxique généré des verbes, des noms prédicatifs, des expressions figées et des adverbes. Ensuite, nous montrons comment nous avons converti les verbes et les noms prédicatifs de ce lexique au format Alexina, qui est celui du lexique Lefff (Lexique des Formes Fléchies du Français) (Sagot, 2010), un lexique morphologique et syntaxique à large couverture et librement disponible pour le français. Ceci permet son intégration dans l'analyseur syntaxique FRMG (French MetaGrammar) (Thomasset et de La Clergerie, 2005), un analyseur profond à large couverture pour le français, basé sur les grammaires d'arbres adjoints (TAG), reposant habituellement sur le Lefff. Cette étape de conversion consiste à extraire l'information syntaxique codée dans les tables du Lexique-Grammaire. Nous présentons les fondements linguistiques de ce processus de conversion et le lexique obtenu. Nous évaluons l'analyseur syntaxique FRMG sur le corpus de référence de la campagne d'évaluation d'analyseurs du français Passage (Produire des Annotations Syntaxiques à Grande Échelle) (Hamon et al., 2008), en comparant sa version basée sur le Lefff avec notre version reposant sur les tables du Lexique-Grammaire converties
|
79 |
Syntactic Similarity Measures in Annotated Corpora for Language Learning : application to Korean Grammar / Mesures de similarité syntaxique dans des corpus annotés pour la didactique des langues : application à la grammaire du coréenWang, Ilaine 17 October 2017 (has links)
L'exploration de corpus à travers des requêtes fait aujourd'hui partie de la routine de nombreux chercheurs adoptant une approche empirique de la langue, mais aussi de non-spécialistes qui utilisent des moteurs de recherche ou des concordanciers dans le cadre de l'apprentissage d'une langue. Si les requêtes ainsi basées sur des mots-clés sont communes, les non-spécialistes semblent encore peu enclins à explorer des constructions syntaxiques. En effet, les requêtes syntaxiques requièrent souvent des connaissances spécifiques comme la maîtrise des expressions régulières, le langage de requête de l'outil utilisé, ou même simplement le jeu d'étiquettes morpho-syntaxiques du corpus étudié.Pour permettre aux apprenants de langue de se concentrer sur l'analyse des données langagières plutôt que sur la formulation de requêtes, nous proposons une méthodologie incluant un analyseur syntaxique et utilisant des mesures de similarité classiques pour comparer des séquences d'étiquettes syntaxiques ainsi obtenues de manière automatique. / Using queries to explore corpora is today part of the routine of not only researchers of various fields with an empirical approach to discourse, but also of non-specialists who use search engines or concordancers for language learning purposes. If keyword-based queries are quite common, non-specialists still seem to be less likely to explore syntactic constructions. Indeed, syntax-based queries usually require the use of regular expressions with grammatical words combined with morphosyntactic tags, which imply that users master both the query language of the tool and the tagset of the annotated corpus. However, non-specialists like language learners might want to focus on the output rather than spend time and efforts on mastering a query language.To address this shortcoming, we propose a methodology including a syntactic parser and using common similarity measures to compare sequences of morphosyntactic tags automatically provided.
|
80 |
Un environnement générique et ouvert pour le traitement des expressions polylexicales : de l'acquisition aux applications / A generic and open framework for multiword expressions treatment : from acquisition to applicationsRamisch, Carlos Eduardo 11 September 2012 (has links)
Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres / This thesis presents an open and flexible methodological framework for the automatic acquisition of multiword expressions (MWEs) from monolingual textual corpora. This research is motivated by the importance of MWEs for NLP applications. After briefly presenting the modules of the framework, the work reports extrinsic evaluation results considering two applications: computer-aided lexicography and statistical machine translation. Both applications can benefit from automatic MWE acquisition and the expressions acquired automatically from corpora can both speed up and improve their quality. The promising results of our experiments encourage further investigation about the optimal way to integrate MWE treatment into these and many other applications.
|
Page generated in 0.1377 seconds