Global ETD Search

11	Immersion dans des documents scientifiques et techniques : unités, modèles théoriques et processus Andreani, Vanessa 23 September 2011 (has links) (PDF) Cette thèse aborde la problématique de l'accès à l'information scientifique et technique véhiculée par de grands ensembles documentaires. Pour permettre à l'utilisateur de trouver l'information qui lui est pertinente, nous avons oeuvré à la définition d'un modèle répondant à l'exigence de souplesse de notre contexte applicatif industriel ; nous postulons pour cela la nécessité de segmenter l'information tirée des documents en plans ontologiques. Le modèle résultant permet une immersion documentaire, et ce grâce à trois types de processus complémentaires : des processus endogènes (exploitant le corpus pour analyser le corpus), exogènes (faisant appel à des ressources externes) et anthropogènes (dans lesquels les compétences de l'utilisateur sont considérées comme ressource) sont combinés. Tous concourent à l'attribution d'une place centrale à l'utilisateur dans le système, en tant qu'agent interprétant de l'information et concepteur de ses connaissances, dès lors qu'il est placé dans un contexte industriel ou spécialisé. Traitement automatique des langues Ergonomie Représentation des connaissances Ontologies Entités nommées
12	Évaluation transparente du traitement des éléments de réponse à une question factuelle El Ayari, Sarra 23 November 2009 (has links) (PDF) Les systèmes de questions-réponses permettent à un utilisateur de rechercher une information précise dans un corpus de données massif, comme le Web. Ce sont des systèmes complexes qui utilisent des techniques de traitement automatique des langues (TAL). Des campagnes d'évaluation sont organisées pour évaluer leur performance fi nale, mais les équipes de recherche doivent ensuite réaliser des évaluation de diagnostic pour savoir les raisons de leurs succès et de leurs échecs. Or, il n'existe ni outil, ni méthode pour réaliser des évaluations systématiques de critères linguistiques pour de tels systèmes. L'objectif de ce travail est de proposer une méthodologie d'évaluation transparente des résultats intermédiaires produits par les systèmes de questions-réponses, en combinant à la fois une évaluation de performance et une analyse de corpus. Ainsi, nous discuterons de l'évaluation telle qu'elle est menée pour ces systèmes, et des limites rencontrées pour une évaluation de diagnostic. Dans un premier temps, nous nous interrogerons sur les pratiques d'évaluation, qu'elles portent sur les résultats finaux d'un système ou bien sur ceux que produisent les différents composants dans l'optique de dégager les tenants et les aboutissants d'une évaluation plus fine des stratégies linguistiques mise en oeuvre au sein des systèmes de questions-réponses. Cette étude nous permettra de dégager les principes d'une méthodologie d'évaluation de diagnostic transparente pour les systèmes de questions-réponses. Dans un deuxième temps, nous nous sommes intéressée aux erreurs classiques d'un système de questions-réponses a n de détailler les fonctionnalités nécessaires à un outil de diagnostic systématique de ces erreurs. Ceci nous a conduit à la création d'un outil d'évaluation, REVISE (Recherche, Extraction, VISualisation et Evaluation ), qui permet de stocker les résultats intermédiaires d'un système de façon à en disposer pour les annoter, les modi fier, les visualiser et les évaluer. Nous avons également discuté la généricité de cet outil à l'aide des résultats du système de questions-réponses RITEL. Enfi n, nous avons mené à l'aide de notre outil deux types d'études sur les systèmes de questions-réponses FRASQUES et QALC, l'une portant sur le critère linguistique focus extrait lors de l'analyse des questions et sur ses variations en contexte dans les phrases réponses sélectionnées par le système ; l'autre sur l'application des règles d'extraction de réponses précises. [INFO] Computer Science systèmes de questions-réponses évaluation transparente traitement automatique des langues
13	Revisiter le couplage traitement automatique des langues et recherche d'information Moreau, Fabienne 07 December 2006 (has links) (PDF) La principale difficulté des systèmes de recherche d'information (SRI) est d'établir une correspondance entre l'information recherchée par un utilisateur et celle contenue dans leur base documentaire. Pour y parvenir, ils tentent généralement un appariement des mots de la requête posée avec ceux représentant le contenu des documents. Un tel mécanisme, fondé sur une simple comparaison de chaînes de caractères, ne permet cependant pas de prendre en compte le fait qu'un même mot peut posséder plusieurs sens et qu'une même idée peut être formulée de différentes manières. Pour pallier ces difficultés, une solution assez naturelle est de se tourner vers le traitement automatique des langues (TAL) qui, en considérant les mots non comme des chaînes de caractères mais comme des entités linguistiques à part entière, doit offrir un appariement requête-document plus pertinent. Les résultats des nombreux travaux proposant d'enrichir la RI par des informations linguistiques sont toutefois souvent décevants, peu tranchés et contradictoires. Pour comprendre ces faibles résultats et savoir comment les améliorer, nous abordons le couplage TAL-RI sous des angles nouveaux. Contrairement aux autres études, nous choisissons d'exploiter pleinement la richesse de la langue en combinant plusieurs informations linguistiques appartenant aux niveaux morphologique, syntaxique et sémantique. Afin de tester l'intérêt de coupler ces informations, nous proposons une plate-forme intégrant en parallèle ces multiples indices ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces connaissances, et, via une analyse originale des corrélations qu'elles présentent, des cas de complémentarité intéressants. Grâce à une méthode d'apprentissage supervisé qui fusionne les listes de résultats fournis par chaque index linguistique et s'adapte automatiquement aux caractéristiques des requêtes, nous prouvons, par des résultats plus stables qu'habituellement, le gain effectif du couplage d'informations linguistiques multi-niveaux. Enfin, nous proposons une méthode novatrice d'acquisition par apprentissage non supervisé d'informations morphologiques qui permet d'accroître encore l'impact de ces connaissances efficaces sur les performances de notre SRI. Nous montrons ainsi qu'en construisant des outils plus souples et plus adaptés aux contraintes de la RI, l'apport du TAL dans ce domaine est réel. Traitement automatique des langues recherche d'information
14	Analyse discursive pour le repérage automatique de segments obsolescents dans des documents encyclopédiques. Laignelet, Marion 25 September 2009 (has links) (PDF) La question de la mise à jour des documents se pose dans de nombreux do- maines. Elle est centrale dans le domaine de l'édition encyclopédique : les ouvrages publiés doivent être continuellement vérifiés afin de ne pas mettre en avant des informations fausses ou altérées par le temps. Dans ce travail, nous proposons la mise en œuvre d'un prototype d'aide à la mise à jour : l'objectif visé est le repérage automatique de zones textuelles dans lesquelles l'information est potentiellement obsolescente. Pour y répondre, nous proposons la prise en compte d'indices linguistiques et discursifs variés et faisant appel à des niveaux d'analyses différents. L'obsolescence étant un phénomène non linguistique pour lequel il n'existe pas d'outil rhétorique dédié, notre hypothèse est qu'il faut considérer les indices linguistiques et discursifs en termes de complémentarité, de combinaisons. Sur un corpus annoté manuellement par des experts, nous projetons un repérage automatique d'un grand nombre d'indices linguistiques, discursifs et structurels. Un système d'apprentissage automatique est ensuite mis en place afin de faire émerger les configurations d'indices pertinentes dans les segments obsolescents caractérisés par les experts. Notre double finalité est remplie : nous proposons une description fine de l'ob- solescence dans notre corpus de textes encyclopédiques ainsi qu'un prototype logi- ciel d'aide à la mise à jour des textes. Une double évaluation a été menée : par validation croisée sur le corpus d'apprentissage et par les experts sur un corpus de test. Les résultats sont encourageants. Ils nous amènent à faire évoluer la définition du segment d'obsolescence, sur la base des « découvertes » émergeant des corpus et dans l'interaction avec les besoins des experts concernant l'aide à la mise à jour. Ils montrent également les limites des annotations automatiques des indices linguistiques et discursifs. Enfin, la reproductibilité de notre système doit être évaluée ainsi que la pertinence et la réutilisabilité du modèle de représentation des données présenté. linguistique du discours traitement automatique des langues linguistique de corpus modélisation statistiques apprentissage automatique
15	Méthodologie linguistique et terminologique pour la structuration d'ontologies différentielles à partir de corpus textuels Malaisé, Véronique 19 October 2005 (has links) (PDF) Des ressources telles que les terminologies ou les ontologies sont utilisées dans différentes applications, notamment dans la description documentaire et la recherche d'information. Différentes méthodologies ont été proposées pour construire ce type de ressources, que ce soit à partir d'entrevues avec des experts du domaine ou à partir de corpus textuels. Nous nous intéressons dans ce mémoire à l'utilisation de méthodologies existantes dans le domaine du Traitement Automatique des Langues, destinées à la construction d'ontologies à partir de corpus textuels, pour la construction d'un type de ressource particulier : des ontologies différentielles. Ces ontologies sont structurées selon un système d'identité et de différence sémantique entre leurs constituants : les termes du domaine et des catégories dites "de haut niveau". Nous présentons différentes expérimentations qui ont été menées pour éliciter, structurer, définir et interdéfinir les éléments terminologiques pertinents à la réalisation d'une tâche particulière. Notre premier contexte applicatif a été le projet OPALES, et nous devions fournir à des nthropologue le vocabulaire conceptuel destiné à annoter des documents audiovisuels traitant de la petite enfance. Nous nous sommes servie du corpus constitué à cette occasion pour tester les méthodologies et outils linguistiques proposés pour l'aide à la construction d'ontologie, et avons défini notre propre chaîne de traitement. Celle-ci, appellée SODA, est basée sur l'extraction et l'exploitation d'énoncés définitoires en corpus pour repérer des éléments terminologiques, les structurer et donner des éléments de communauté sémantique permettant de les comparer. Ontologie différentielle Traitement Automatique des Langues Enoncé définitoire
16	Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens Nguyen, Thi Minh Huyen 10 October 2006 (has links) (PDF) Le travail présenté dans ce mémoire porte sur la construction des outils et ressources linguistiques pour les tâches fondamentales de traitement automatique de la langue vietnamienne, dans un contexte monolingue ainsi que multilingue. Nous présentons pour cette langue encore peu étudiée des solutions possibles aux problèmes d'annotation morpho-syntaxique (définition de descripteurs lexicaux « de référence », construction d'un lexique avec ces descriptions, des outils de segmentation et d'étiquetage lexical), d'analyse syntaxique (première tentative de modélisation de la grammaire vietnamienne en employant le formalisme TAG, cadre de construction de ressources pour l'analyse syntaxique) et d'alignement multilingue (constitution d'un corpus multilingue, développement d'un système d'alignement multilingue). Afin d'assurer la réutilisabilité des travaux réalisés, et dans l'espoir de les voir stimuler le développement du TAL au Vietnam, nous avons apporté une attention particulière aux questions de normalisation de la gestion des ressources linguistiques. Traitement automatique des langues vietnamien analyse morphosyntaxique analyse syntaxique alignement multilingue
17	Vers une algèbre des relations de discours Roze, Charlotte 22 May 2013 (has links) (PDF) Dans cette thèse, nous abordons la question de la construction d'une "algèbre" des relations de discours (ou relations rhétoriques) - en s'inspirant de l'algèbre temporelle de Allen (1983) - constituée d'un ensemble de règles de déduction de relations de discours. Disposer de telles règles présente un intérêt dans le cadre de l'analyse automatique du discours, en permettant de déduire des informations implicitement contenues dans des annotations manuelles ou automatiques, pour aider l'annotation ou comparer plusieurs annotations d'un même discours. Or, les théories d'analyse du discours ne définissent pas ou peu de règles de ce type. La thèse se concentre donc sur cette question. Nous abordons l'ensemble des questions soulevées par la construction d'une algèbre des relations de discours, qui concernent les propriétés des structures discursives, des relations, et des ensembles de relations. Après avoir adopté un ensemble de relations, nous proposons une méthodologie visant à identifier, en partant de deux relations R1(a,b) et R2(b,c), l'ensemble des relations pouvant être établies entre a et c. La méthodologie allie l'examen des liens sémantiques associés aux relations en jeu, l'analyse de données construites et de données empiriques, extraites automatiquement en s'appuyant sur la présence de connecteurs de discours. Pour l'analyse des données, plusieurs tests linguistiques sont proposés pour déterminer si les unités a et c sont reliées rhétoriquement, et si oui, par quelle relation. Cette méthodologie est déclinée sur un ensemble de prémisses mettant en jeu des interaction; entre différents "groupes" de relations : les relations temporelles, causales, et adversatives. Analyse du discours traitement automatique des langues algèbre marqueurs discursifs
18	Répondre à des questions à réponses multiples sur le Web Falco, Mathieu-Henri 22 May 2014 (has links) (PDF) Les systèmes de question-réponse renvoient une réponse précise à une question formulée en langue naturelle. Les systèmes de question-réponse actuels, ainsi que les campagnes d'évaluation les évaluant, font en général l'hypothèse qu'une seule réponse est attendue pour une question. Or nous avons constaté que, souvent, ce n'était pas le cas, surtout quand on cherche les réponses sur le Web et non dans une collection finie de documents.Nous nous sommes donc intéressés au traitement des questions attendant plusieurs réponses à travers un système de question-réponse sur le Web en français. Pour cela, nous avons développé le système Citron capable d'extraire des réponses multiples différentes à des questions factuelles en domaine ouvert, ainsi que de repérer et d'extraire le critère variant (date, lieu) source de la multiplicité des réponses. Nous avons montré grâce à notre étude de différents corpus que les réponses à de telles questions se trouvaient souvent dans des tableaux ou des listes mais que ces structures sont difficilement analysables automatiquement sans prétraitement. C'est pourquoi, nous avons également développé l'outil Kitten qui permet d'extraire le contenu des documents HTML sous forme de texte et aussi de repérer, analyser et formater ces structures. Enfin, nous avons réalisé deux expériences avec des utilisateurs. La première expérience évaluait Citron et les êtres humains sur la tâche d'extraction de réponse multiples : les résultats ont montré que Citron était plus rapide que les êtres humains et que l'écart entre la qualité des réponses de Citron et celle des utilisateurs était raisonnable. La seconde expérience a évalué la satisfaction des utilisateurs concernant la présentation de réponses multiples : les résultats ont montré que les utilisateurs préféraient la présentation de Citron agrégeant les réponses et y ajoutant un critère variant (lorsqu'il existe) par rapport à la présentation utilisée lors des campagnes d'évaluation. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Traitement automatique des langues Question-réponse Question liste Traitement web
19	Système de Questions/Réponses dans un contexte de Business Ingelligence Kuchmann-Beauger, Nicolas 15 February 2013 (has links) (PDF) Le volume et la complexité des données générées par les systèmes d'information croissent de façon singulière dans les entrepôts de données. Le domaine de l'informatique décisionnelle (aussi appelé BI) a pour objectif d'apporter des méthodes et des outils pour assister les utilisateurs dans leur tâche de recherche d'information. En effet, les sources de données ne sont en général pas centralisées, et il est souvent nécessaire d'interagir avec diverses applications. Accéder à l'information est alors une tâche ardue, alors que les employés d'une entreprise cherchent généralement à réduire leur charge de travail. Pour faire face à ce constat, le domaine "Enterprise Search" s'est développé récemment, et prend en compte les différentes sources de données appartenant aussi bien au réseau privé d'entreprise qu'au domaine public (telles que les pages Internet). Pourtant, les utilisateurs de moteurs de recherche actuels souffrent toujours de du volume trop important d'information à disposition. Nous pensons que de tels systèmes pourraient tirer parti des méthodes du traitement naturel des langues associées à celles des systèmes de questions/réponses. En effet, les interfaces en langue naturelle permettent aux utilisateurs de rechercher de l'information en utilisant leurs propres termes, et d'obtenir des réponses concises et non une liste de documents dans laquelle l'éventuelle bonne réponse doit être identifiée. De cette façon, les utilisateurs n'ont pas besoin d'employer une terminologie figée, ni de formuler des requêtes selon une syntaxe très précise, et peuvent de plus accéder plus rapidement à l'information désirée. Un challenge lors de la construction d'un tel système consiste à interagir avec les différentes applications, et donc avec les langages utilisés par ces applications d'une part, et d'être en mesure de s'adapter facilement à de nouveaux domaines d'application d'autre part. Notre rapport détaille un système de questions/réponses configurable pour des cas d'utilisation d'entreprise, et le décrit dans son intégralité. Dans les systèmes traditionnels de l'informatique décisionnelle, les préférences utilisateurs ne sont généralement pas prises en compte, ni d'ailleurs leurs situations ou leur contexte. Les systèmes état-de-l'art du domaine tels que Soda ou Safe ne génèrent pas de résultats calculés à partir de l'analyse de la situation des utilisateurs. Ce rapport introduit une approche plus personnalisée, qui convient mieux aux utilisateurs finaux. Notre expérimentation principale se traduit par une interface de type search qui affiche les résultats dans un dashboard sous la forme de graphes, de tables de faits ou encore de miniatures de pages Internet. En fonction des requêtes initiales des utilisateurs, des recommandations de requêtes sont aussi affichées en sus, et ce dans le but de réduire le temps de réponse global du système. En ce sens, ces recommandations sont comparables à des prédictions. Notre travail se traduit par les contributions suivantes : tout d'abord, une architecture implémentée via des algorithmes parallélisés et qui prend en compte la diversité des sources de données, à savoir des données structurées ou non structurées dans le cadre d'un framework de questions-réponses qui peut être facilement configuré dans des environnements différents. De plus, une approche de traduction basée sur la résolution de contrainte, qui remplace le traditionnel langage-pivot par un modèle conceptuel et qui conduit à des requêtes multidimensionnelles mieux personnalisées. En outre, en ensemble de patrons linguistiques utilisés pour traduire des questions BI en des requêtes pour bases de données, qui peuvent être facilement adaptés dans le cas de configurations différentes. Enfin, nous avons implémenté une application pour iPhone/iPad et une interface de type "HTML" qui démontre la faisabilité des différentes approches développées grâce à un ensemble de mesures d'évaluations pour l'élément principal (le composant de traduction) et un scénario d'évaluation pour le framework dans sa globalité. Dans ce but, nous introduisons un ensemble de requêtes pouvant servir à évaluer d'autres système de recherche d'information dans le domaine, et nous montrons que notre système se comporte de façon similaire au système de référence WolframAlpha, en fonction des paramètres d'évaluation. Traitement Automatique des Langues Entrepôts de données BI
20	Génération modulaire de grammaires formelles / Modular generation of formal grammars Petitjean, Simon 11 December 2014 (has links) Les travaux présentés dans cette thèse visent à faciliter le développement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes très diverses, en raison de l’existence de différents niveaux d’étude de la langue (syntaxe, morphologie, sémantique,. . . ) et de différents formalismes proposés pour la description des langues à chacun de ces niveaux. Les formalismes faisant intervenir différents types de structures, un unique langage de description n’est pas suffisant : il est nécessaire pour chaque formalisme de créer un langage dédié (ou DSL), et d’implémenter un nouvel outil utilisant ce langage, ce qui est une tâche longue et complexe. Pour cette raison, nous proposons dans cette thèse une méthode pour assembler modulairement, et adapter, des cadres de développement spécifiques à des tâches de génération de ressources langagières. Les cadres de développement créés sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), à savoir disposer d’un langage de description permettant la définition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-déterministe (c’est à dire au moyen des opérateurs logiques de conjonction et disjonction). La méthode se base sur l’assemblage d’un langage de description à partir de briques réutilisables, et d’après un fichier unique de spécification. L’intégralité de la chaîne de traitement pour le DSL ainsi défini est assemblée automatiquement d’après cette même spécification. Nous avons dans un premier temps validé cette approche en recréant l’outil XMG à partir de briques élémentaires. Des collaborations avec des linguistes nous ont également amené à assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sémantique (au moyen de la théorie des frames). / The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics. Traitement automatique des langues Langages dédiés Modularité Natural language processing Domain specific languages Modularity 005.13

Search results