Spelling suggestions: "subject:"questionsréponses"" "subject:"questionnaireresponses""
1 |
Questions réponses et interactionsSéjourné, Kévin 09 December 2009 (has links) (PDF)
Les systèmes de question- réponse monolingues ou multilingues permettent de chercher dans une grande collection de documents (de type journalistique par exemple), ou sur le Web une réponse précise à une question. Cependant, il n'y a pas d'interaction possible après la réponse : on ne peut pas demander une précision, modifier sa question. Or souvent la réponse ne peut pas être apportée directement (question trop imprécise), ou n'est pas pleinement satisfaisante pour l'utilisateur. Le sujet de la thèse proposée consiste à étendre ces travaux de manière à permettre à un utilisateur d'engager un vrai dialogue, qui ne se réduise pas à une question/une réponse, en se fondant sur le travaux menés dans le cadre du dialogue homme-machine. Le contexte de cette thèse se situe dans le prolongement des travaux menés dans le groupe LIR du LIMSI. En effet, nous travaillons depuis plusieurs années sur les systèmes de Question-Réponse, et nous avons participé à plusieurs campagnes d'évaluation, tant sur le monolingue anglais (campagne TREC-QA : http: / / t rec.nist.gov/), que sur le monolingue français (campagne EqueR-EVALDA : http: / /www.elda.org/article118.html) ou sur le multi-lingue (campagne CLEF-QA : http: / / clef- qa.itc.it /). Ces campagnes présentent l'intérêt de permettre une évaluation de nos travaux par rapport à la communauté nationale et internationale. Elles nous ont également permis d'en mesurer les limites et de définir des champs de recherche très ouverts, que ce soit au niveau de notre groupe ou des perspectives envisagées dans le cadre même de ces campagnes d'évaluation. Par ailleurs, nous avons longtemps travaillé sur les systèmes de dialogue homme-machine, plus ou moins finalisés. Le cadre des systèmes ouverts (sans tâche définie a priori) que constitue la recherche dans des grandes collections de documents ou sur le web nous permet de reprendre et d'étendre ces travaux. Le but de cette thèse est donc d'ouvrir les systèmes de question/ réponse à un dialogue au cours duquel n'importe quel sujet peut être abordé. Le point de départ est une adaptation des travaux menés en dialogue Homme-Machine dans des domaines restreints à un système de Questions-Réponses. Ces recherches ont pour finalité d'apporter des perspectives nouvelles au moteur de recherche d'information classique, à la fois en terme de précision de l'information trouvée, de volume d'information traitées et de gain de temps pour accéder à cette information.
|
2 |
Utilisation de connaissances sémantiques pour l'analyse de justifications de réponses à des questionsBarbier, Vincent 22 January 2009 (has links) (PDF)
Notre travail se positionne dans la thématique du traitement automatique du langage et plus précisément des systèmes de question-réponse. Il se fonde sur la notion de justification, qu'il formalise dans un modèle faisant intervenir trois types de phénomène linguistiques : les variations paradigmatiques locales d'un terme (sémantiques, morphologiques, inférences), les liens syntagmatiques entre les constituants d'une phrase, et une composante de sémantique énonciative reliant des éléments distants (anaphores, coréférences, thématisation), dans un contexte multiphrase, aussi bien mono- que multi-documents. Nous fondons notre formalisation de la structure des justifications sur un corpus de couples question-réponse extrait de façon semi-automatique. Ensuite, nous décrivons et évaluons un programme extrayant d'articles de journaux justifications structurées. Notre programme vise à conserver au système la capacité de produire une justification structurée, tout en rendant possible l'intégration modulaire d'une grande hétérogénéité de traitements linguistiques, de nature, de niveau de granularité et de fiabilité variés.
|
3 |
Définition et utilisation des S-L graphes en démonstration automatiqueSaya, Henri 15 March 1975 (has links) (PDF)
.
|
4 |
Validation de réponses dans un système de questions réponses / Answer validation in question answering systemGrappy, Arnaud 08 November 2011 (has links)
Avec l'augmentation des connaissances disponibles sur Internet est apparue la difficulté d'obtenir une information. Les moteurs de recherche permettent de retourner des pages Web censés contenir l'information désirée à partir de mots clés. Toutefois il est encore nécessaire de trouver la bonne requête et d'examiner les documents retournés. Les systèmes de questions réponses ont pour but de renvoyer directement une réponse concise à partir d'une question posée en langue naturelle. La réponse est généralement accompagnée d'un passage de texte censé la justifier. Par exemple, pour la question « Quel est le réalisateur d'Avatar ? » la réponse « James Cameron » peut être renvoyée accompagnée de « James Cameron a réalisé Avatar. ». Cette thèse se focalise sur la validation de réponses qui permet de déterminer automatiquement si la réponse est valide. Une réponse est valide si elle est correcte (répond bien à la question) et justifiée par le passage textuel. Cette validation permet d'améliorer les systèmes de questions réponses en ne renvoyant à l'utilisateur que les réponses valides. Les approches permettant de reconnaître les réponses valides peuvent se décomposer en deux grandes catégories : -les approches utilisant un formalisme de représentation particulier de la question et du passage dans lequel les structures sont comparées ;-les approches suivant une approche par apprentissage qui combinent différents critères d'ordres lexicaux ou syntaxiques. Dans le but d'identifier les différents phénomènes sous tendant la validation de réponses, nous avons participé à la création d'un corpus annoté manuellement. Ces phénomènes sont de différentes natures telle que la paraphrase ou la coréférence. On peut aussi remarquer que les différentes informations sont réparties sur plusieurs phrases, voire sont manquantes dans les passages contenant la réponse. Une deuxième étude de corpus de questions a porté sur les différentes informations à vérifier afin de détecter qu'une réponse est valide. Cette étude a montré que les trois phénomènes les plus fréquents sont la vérification du type de la réponse, la date et le lieu contenus dans la question. Ces différentes études ont permis de mettre au point notre système de validation de réponses qui s'appuie sur une combinaison de critères. Certains critères traitent de la présence dans le passage des mots de la question ce qui permet de pointer la présence des informations de la question. Un traitement particulier a été effectué pour les informations de date en détectant une réponse comme n'étant pas valide si le passage ne contient pas la date contenue dans la question. D'autres critères, dont la proximité dans le passage des mots de la question et de la réponse, portent sur le lien entre les différents mots de la question dans le passage. Le second grand type de vérification permet de mesurer la compatibilité entre la réponse et la question. Un certain nombre de questions attendent une réponse étant d'un type particulier. La question de l'exemple précédent attend ainsi un réalisateur en réponse. Si la réponse n'est pas de ce type alors elle est incorrecte. Comme cette information peut ne pas se trouver dans le passage justificatif, elle est recherchée dans des documents autres à l'aide de la structure des pages Wikipédia, en utilisant des patrons syntaxiques ou grâce à des fréquences d'apparitions du type et de la réponse dans des documents. La vérification du type est particulièrement efficace puisqu'elle effectue 80 % de bonnes détections. La vérification de la validité des réponses est également pertinente puisque lors de la participation à une campagne d'évaluation, AVE 2008, le système s'est placé parmi les meilleurs toutes langues confondues. La dernière contribution a consisté à intégrer le module de validation dans un système de questions réponses, QAVAL. Dans ce cadre de nombreuses réponses sont extraites par QAVAL et ordonnées grâce au module de validation de réponses. Le système n'est plus utilisé afin de détecter les réponses valides mais pour fournir un score de confiance à chaque réponse. Le système QAVAL peut ainsi aussi bien être utilisé en effectuant des recherches dans des articles de journaux que dans des articles issus du Web. Les résultats sont assez bons puisqu'ils dépassent ceux obtenus par un simple ordonnancement des réponses de près de 50 %. / Question answering systems extract precise answers from a set of documents, and return the answers along with text snippets which justify them. For example, to the question "Who is the director of Avatar?" The answer "James Cameron" may be returned with "Avatar by James Cameron.".The answer validation detect automatically if the answer is valid ie. if it is correct (responds to the question) and justified by the text passage. This validation allows to improve the question answering systems by producing only valid answers.Two kind of methods can be used to detect right answers : -approaches using specific representation formalism of the question and the passage in which the structures are compared;-learning approaches that combines lexical and syntactic features.To identify the phenomena that characterize the answer validation, we built a manually annotated corpus. Differents phenomena can be seen like paraphrasing, coreference or that the information is spread in different sentences or documents. A second corpus aims to identify the different informations to be checked to valid an answer. This study showed that the three mains phenomena are the answer type, the date and place of the question.These studies have helped to develop our answer validation system which is based on a combination of features. The first one estimates the proportion of common terms in the snippet and the question, the second one measures the proximity of these terms and the answer. The second kind of features measure the compatibility between the answer and the question. Numerous questions wait for answers of an explicit type. For example, the question “Which president succeeded to Jacques Chirac?” requires an instance of president as answer.If the answer is not of this type then it is incorrect. The method aims at verifying that an answer given by a system corresponds to the given type. This verification is done by combining features provided by different methods. The first types of feature are statistical and compute the presence rate of both the answer and the type in documents, other features rely on named entity recognizers and the last criteria are based on the use of Wikipedia. Type checking is particularly effective because it makes 80 % correct detections. The final contribution was to integrate the validation module in a question answering system, QAVAL. Many answers are retrieved by QAVAL and ordered through the answers validation module. The module provide a confidence score to each response. QAVAL can be used both by researching the information in newspaper articles and in articles from the Web. The results are good, exceeding those obtained by a simple answer ranking from nearly 50%.
|
5 |
Évaluation transparente du traitement des éléments de réponse à une question factuelleEl Ayari, Sarra 23 November 2009 (has links) (PDF)
Les systèmes de questions-réponses permettent à un utilisateur de rechercher une information précise dans un corpus de données massif, comme le Web. Ce sont des systèmes complexes qui utilisent des techniques de traitement automatique des langues (TAL). Des campagnes d'évaluation sont organisées pour évaluer leur performance fi nale, mais les équipes de recherche doivent ensuite réaliser des évaluation de diagnostic pour savoir les raisons de leurs succès et de leurs échecs. Or, il n'existe ni outil, ni méthode pour réaliser des évaluations systématiques de critères linguistiques pour de tels systèmes. L'objectif de ce travail est de proposer une méthodologie d'évaluation transparente des résultats intermédiaires produits par les systèmes de questions-réponses, en combinant à la fois une évaluation de performance et une analyse de corpus. Ainsi, nous discuterons de l'évaluation telle qu'elle est menée pour ces systèmes, et des limites rencontrées pour une évaluation de diagnostic. Dans un premier temps, nous nous interrogerons sur les pratiques d'évaluation, qu'elles portent sur les résultats finaux d'un système ou bien sur ceux que produisent les différents composants dans l'optique de dégager les tenants et les aboutissants d'une évaluation plus fine des stratégies linguistiques mise en oeuvre au sein des systèmes de questions-réponses. Cette étude nous permettra de dégager les principes d'une méthodologie d'évaluation de diagnostic transparente pour les systèmes de questions-réponses. Dans un deuxième temps, nous nous sommes intéressée aux erreurs classiques d'un système de questions-réponses a n de détailler les fonctionnalités nécessaires à un outil de diagnostic systématique de ces erreurs. Ceci nous a conduit à la création d'un outil d'évaluation, REVISE (Recherche, Extraction, VISualisation et Evaluation ), qui permet de stocker les résultats intermédiaires d'un système de façon à en disposer pour les annoter, les modi fier, les visualiser et les évaluer. Nous avons également discuté la généricité de cet outil à l'aide des résultats du système de questions-réponses RITEL. Enfi n, nous avons mené à l'aide de notre outil deux types d'études sur les systèmes de questions-réponses FRASQUES et QALC, l'une portant sur le critère linguistique focus extrait lors de l'analyse des questions et sur ses variations en contexte dans les phrases réponses sélectionnées par le système ; l'autre sur l'application des règles d'extraction de réponses précises.
|
6 |
Système de questions/réponses dans un contexte de business intelligenceKuchmann-Beauger, Nicolas 15 February 2013 (has links) (PDF)
Le volume et la complexité des données générées par les systèmes d'information croissent de façon singulière dans les entrepôts de données. Le domaine de l'informatique décisionnelle (aussi appelé BI) a pour objectif d'apporter des méthodes et des outils pour assister les utilisateurs dans leur tâche de recherche d'information. En effet, les sources de données ne sont en général pas centralisées, et il est souvent nécessaire d'interagir avec diverses applications. Accéder à l'information est alors une tâche ardue, alors que les employés d'une entreprise cherchent généralement à réduire leur charge de travail. Pour faire face à ce constat, le domaine " Enterprise Search " s'est développé récemment, et prend en compte les différentes sources de données appartenant aussi bien au réseau privé d'entreprise qu'au domaine public (telles que les pages Internet). Pourtant, les utilisateurs de moteurs de recherche actuels souffrent toujours de du volume trop important d'information à disposition. Nous pensons que de tels systèmes pourraient tirer parti des méthodes du traitement naturel des langues associées à celles des systèmes de questions/réponses. En effet, les interfaces en langue naturelle permettent aux utilisateurs de rechercher de l'information en utilisant leurs propres termes, et d'obtenir des réponses concises et non une liste de documents dans laquelle l'éventuelle bonne réponse doit être identifiée. De cette façon, les utilisateurs n'ont pas besoin d'employer une terminologie figée, ni de formuler des requêtes selon une syntaxe très précise, et peuvent de plus accéder plus rapidement à l'information désirée. Un challenge lors de la construction d'un tel système consiste à interagir avec les différentes applications, et donc avec les langages utilisés par ces applications d'une part, et d'être en mesure de s'adapter facilement à de nouveaux domaines d'application d'autre part. Notre rapport détaille un système de questions/réponses configurable pour des cas d'utilisation d'entreprise, et le décrit dans son intégralité. Dans les systèmes traditionnels de l'informatique décisionnelle, les préférences utilisateurs ne sont généralement pas prises en compte, ni d'ailleurs leurs situations ou leur contexte. Les systèmes état-de-l'art du domaine tels que Soda ou Safe ne génèrent pas de résultats calculés à partir de l'analyse de la situation des utilisateurs. Ce rapport introduit une approche plus personnalisée, qui convient mieux aux utilisateurs finaux. Notre expérimentation principale se traduit par une interface de type search qui affiche les résultats dans un dashboard sous la forme de graphes, de tables de faits ou encore de miniatures de pages Internet. En fonction des requêtes initiales des utilisateurs, des recommandations de requêtes sont aussi affichées en sus, et ce dans le but de réduire le temps de réponse global du système. En ce sens, ces recommandations sont comparables à des prédictions. Notre travail se traduit par les contributions suivantes : tout d'abord, une architecture implémentée via des algorithmes parallélisés et qui prend en compte la diversité des sources de données, à savoir des données structurées ou non structurées dans le cadre d'un framework de questions/réponses qui peut être facilement configuré dans des environnements différents. De plus, une approche de traduction basée sur la résolution de contrainte, qui remplace le traditionnel langage-pivot par un modèle conceptuel et qui conduit à des requêtes multidimensionnelles mieux personnalisées. En outre, en ensemble de patrons linguistiques utilisés pour traduire des questions BI en des requêtes pour bases de données, qui peuvent être facilement adaptés dans le cas de configurations différentes.
|
7 |
Validation de réponses dans un système de questions réponsesGrappy, Arnaud 08 November 2011 (has links) (PDF)
Avec l'augmentation des connaissances disponibles sur Internet est apparue la difficulté d'obtenir une information. Les moteurs de recherche permettent de retourner des pages Web censés contenir l'information désirée à partir de mots clés. Toutefois il est encore nécessaire de trouver la bonne requête et d'examiner les documents retournés.Les systèmes de questions réponses ont pour but de renvoyer directement une réponse concise à partir d'une question posée en langue naturelle. La réponse est généralement accompagnée d'un passage de texte censé la justifier. Par exemple, pour la question " Quel est le réalisateur d'Avatar ? " la réponse " James Cameron " peut être renvoyée accompagnée de " James Cameron a réalisé Avatar. ". Cette thèse se focalise sur la validation de réponses qui permet de déterminer automatiquement si la réponse est valide. Une réponse est valide si elle est correcte (répond bien à la question) et justifiée par le passage textuel. Cette validation permet d'améliorer les systèmes de questions réponses en ne renvoyant à l'utilisateur que les réponses valides. Les approches permettant de reconnaître les réponses valides peuvent se décomposer en deux grandes catégories : -les approches utilisant un formalisme de représentation particulier de la question et du passage dans lequel les structures sont comparées ;-les approches suivant une approche par apprentissage qui combinent différents critères d'ordres lexicaux ou syntaxiques. Dans le but d'identifier les différents phénomènes sous tendant la validation de réponses, nous avons participé à la création d'un corpus annoté manuellement. Ces phénomènes sont de différentes natures telle que la paraphrase ou la coréférence. On peut aussi remarquer que les différentes informations sont réparties sur plusieurs phrases, voire sont manquantes dans les passages contenant la réponse. Une deuxième étude de corpus de questions a porté sur les différentes informations à vérifier afin de détecter qu'une réponse est valide. Cette étude a montré que les trois phénomènes les plus fréquents sont la vérification du type de la réponse, la date et le lieu contenus dans la question.Ces différentes études ont permis de mettre au point notre système de validation de réponses qui s'appuie sur une combinaison de critères. Certains critères traitent de la présence dans le passage des mots de la question ce qui permet de pointer la présence des informations de la question. Un traitement particulier a été effectué pour les informations de date en détectant une réponse comme n'étant pas valide si le passage ne contient pas la date contenue dans la question. D'autres critères, dont la proximité dans le passage des mots de la question et de la réponse, portent sur le lien entre les différents mots de la question dans le passage.Le second grand type de vérification permet de mesurer la compatibilité entre la réponse et la question. Un certain nombre de questions attendent une réponse étant d'un type particulier. La question de l'exemple précédent attend ainsi un réalisateur en réponse. Si la réponse n'est pas de ce type alors elle est incorrecte. Comme cette information peut ne pas se trouver dans le passage justificatif, elle est recherchée dans des documents autres à l'aide de la structure des pages Wikipédia, en utilisant des patrons syntaxiques ou grâce à des fréquences d'apparitions du type et de la réponse dans des documents. La vérification du type est particulièrement efficace puisqu'elle effectue 80 % de bonnes détections. La vérification de la validité des réponses est également pertinente puisque lors de la participation à une campagne d'évaluation, AVE 2008, le système s'est placé parmi les meilleurs toutes langues confondues. La dernière contribution a consisté à intégrer le module de validation dans un système de questions réponses, QAVAL. Dans ce cadre de nombreuses réponses sont extraites par QAVAL et ordonnées grâce au module de validation de réponses. Le système n'est plus utilisé afin de détecter les réponses valides mais pour fournir un score de confiance à chaque réponse. Le système QAVAL peut ainsi aussi bien être utilisé en effectuant des recherches dans des articles de journaux que dans des articles issus du Web. Les résultats sont assez bons puisqu'ils dépassent ceux obtenus par un simple ordonnancement des réponses de près de 50 %.
|
8 |
Question Answering System in a Business Intelligence Context / Système de questions/réponses dans un contexte de business intelligenceKuchmann-Beauger, Nicolas 15 February 2013 (has links)
Le volume et la complexité des données générées par les systèmes d’information croissent de façon singulière dans les entrepôts de données. Le domaine de l’informatique décisionnelle (aussi appelé BI) a pour objectif d’apporter des méthodes et des outils pour assister les utilisateurs dans leur tâche de recherche d’information. En effet, les sources de données ne sont en général pas centralisées, et il est souvent nécessaire d’interagir avec diverses applications. Accéder à l’information est alors une tâche ardue, alors que les employés d’une entreprise cherchent généralement à réduire leur charge de travail. Pour faire face à ce constat, le domaine « Enterprise Search » s’est développé récemment, et prend en compte les différentes sources de données appartenant aussi bien au réseau privé d’entreprise qu’au domaine public (telles que les pages Internet). Pourtant, les utilisateurs de moteurs de recherche actuels souffrent toujours de du volume trop important d’information à disposition. Nous pensons que de tels systèmes pourraient tirer parti des méthodes du traitement naturel des langues associées à celles des systèmes de questions/réponses. En effet, les interfaces en langue naturelle permettent aux utilisateurs de rechercher de l’information en utilisant leurs propres termes, et d’obtenir des réponses concises et non une liste de documents dans laquelle l’éventuelle bonne réponse doit être identifiée. De cette façon, les utilisateurs n’ont pas besoin d’employer une terminologie figée, ni de formuler des requêtes selon une syntaxe très précise, et peuvent de plus accéder plus rapidement à l’information désirée. Un challenge lors de la construction d’un tel système consiste à interagir avec les différentes applications, et donc avec les langages utilisés par ces applications d’une part, et d’être en mesure de s’adapter facilement à de nouveaux domaines d’application d’autre part. Notre rapport détaille un système de questions/réponses configurable pour des cas d’utilisation d’entreprise, et le décrit dans son intégralité. Dans les systèmes traditionnels de l’informatique décisionnelle, les préférences utilisateurs ne sont généralement pas prises en compte, ni d’ailleurs leurs situations ou leur contexte. Les systèmes état-de-l’art du domaine tels que Soda ou Safe ne génèrent pas de résultats calculés à partir de l’analyse de la situation des utilisateurs. Ce rapport introduit une approche plus personnalisée, qui convient mieux aux utilisateurs finaux. Notre expérimentation principale se traduit par une interface de type search qui affiche les résultats dans un dashboard sous la forme de graphes, de tables de faits ou encore de miniatures de pages Internet. En fonction des requêtes initiales des utilisateurs, des recommandations de requêtes sont aussi affichées en sus, et ce dans le but de réduire le temps de réponse global du système. En ce sens, ces recommandations sont comparables à des prédictions. Notre travail se traduit par les contributions suivantes : tout d’abord, une architecture implémentée via des algorithmes parallélisés et qui prend en compte la diversité des sources de données, à savoir des données structurées ou non structurées dans le cadre d’un framework de questions/réponses qui peut être facilement configuré dans des environnements différents. De plus, une approche de traduction basée sur la résolution de contrainte, qui remplace le traditionnel langage-pivot par un modèle conceptuel et qui conduit à des requêtes multidimensionnelles mieux personnalisées. En outre, en ensemble de patrons linguistiques utilisés pour traduire des questions BI en des requêtes pour bases de données, qui peuvent être facilement adaptés dans le cas de configurations différentes. / The amount and complexity of data generated by information systems keep increasing in Warehouses. The domain of Business Intelligence (BI) aims at providing methods and tools to better help users in retrieving those data. Data sources are distributed over distinct locations and are usually accessible through various applications. Looking for new information could be a tedious task, because business users try to reduce their work overload. To tackle this problem, Enterprise Search is a field that has emerged in the last few years, and that takes into consideration the different corporate data sources as well as sources available to the public (e.g. World Wide Web pages). However, corporate retrieval systems nowadays still suffer from information overload. We believe that such systems would benefit from Natural Language (NL) approaches combined with Q&A techniques. Indeed, NL interfaces allow users to search new information in their own terms, and thus obtain precise answers instead of turning to a plethora of documents. In this way, users do not have to employ exact keywords or appropriate syntax, and can have faster access to new information. Major challenges for designing such a system are to interface different applications and their underlying query languages on the one hand, and to support users’ vocabulary and to be easily configured for new application domains on the other hand. This thesis outlines an end-to-end Q&A framework for corporate use-cases that can be configured in different settings. In traditional BI systems, user-preferences are usually not taken into account, nor are their specific contextual situations. State-of-the art systems in this field, Soda and Safe do not compute search results on the basis of users’ situation. This thesis introduces a more personalized approach, which better speaks to end-users’ situations. Our main experimentation, in this case, works as a search interface, which displays search results on a dashboard that usually takes the form of charts, fact tables, and thumbnails of unstructured documents. Depending on users’ initial queries, recommendations for alternatives are also displayed, so as to reduce response time of the overall system. This process is often seen as a kind of prediction model. Our work contributes to the following: first, an architecture, implemented with parallel algorithms, that leverages different data sources, namely structured and unstructured document repositories through an extensible Q&A framework, and this framework can be easily configured for distinct corporate settings; secondly, a constraint-matching-based translation approach, which replaces a pivot language with a conceptual model and leads to more personalized multidimensional queries; thirdly, a set of NL patterns for translating BI questions in structured queries that can be easily configured in specific settings. In addition, we have implemented an iPhone/iPad™ application and an HTML front-end that demonstrate the feasibility of the various approaches developed through a series of evaluation metrics for the core component and scenario of the Q&A framework. To this end, we elaborate on a range of gold-standard queries that can be used as a basis for evaluating retrieval systems in this area, and show that our system behave similarly as the well-known WolframAlpha™ system, depending on the evaluation settings.
|
9 |
Contributions en faveur d'une meilleure personnalisation de la recherche d'informations - Applications à la tâche questions-réponses, à la recherche de documents audio et à l'accessibilité pour des personnes dyslexiquesBellot, Patrice 04 December 2008 (has links) (PDF)
Dans un article récent sur les enjeux de la recherche d'informations, Belkin (2008) rappelle que la question de la personnalisation est annoncée comme majeure depuis une vingtaine d'années mais que la plupart des tentatives vers une étude systématique ont échoué. S'il n'est pas question de prétendre que les évaluations TREC Interactive puis TREC Hard et TREC ciQA, pour ne mentionner qu'elles, n'ont abouti à rien dans ce domaine, force est de constater que l'utilisateur n'intervient que très peu dans les systèmes de recherche de l'Internet et qu'aussi bien des paradigmes d'évaluation que des stratégies efficaces restent encore à trouver. <br /><br />Dans les différents chapitres qui constituent ce mémoire d'Habilitation, nous présentons trois directions vers une personnalisation de la recherche d'informations. La première correspond à une analyse du besoin en information d'un utilisateur qui permet de distinguer recherche documentaire et recherche de réponses précises sachant que celles-ci peuvent être des informations factuelles, des définitions ou des explications. Cette distinction correspond à celle entre Recherche d'informations (RI) et questions-réponses (QR) mais, pour être utilisables, les systèmes correspondants devront être fusionnés. En outre, il sera utile d'inciter l'utilisateur à changer ses habitudes pour laisser de côté les requêtes mots-clés et (re)venir à des requêtes en langue naturelle. Les solutions logicielles que nous avons développées ont été évaluées dans le cadre des campagnes TREC, CLEF et EQUER.<br /><br />La seconde direction que nous avons suivie est celle de l'aide à la navigation dans de grandes bases documentaires mélangeant fichiers audio et textes. Elle consiste à définir une interface homme-machine permettant un survol chronologique, par l'exploitation de méthodes de reconnaissance de la parole, d'indexation sémantique (LSI), de segmentation thématique et de résumé automatique (campagne d'évaluation DUC), des documents de la collection. Les techniques d'indexation en jeu n'exploitent pas la totalité des traits propres à l'audio (prosodie, hésitations...) et cela fera l'objet de travaux futurs. L'objectif étant de parvenir à des systèmes multimodaux dans lesquels les documents audio ne sont pas \textit{noyés} parmi des documents texte plus nombreux et plus verbeux.<br /><br />La troisième direction consiste à prendre en compte la capacité de lecture et d'écriture d'un utilisateur dans le calcul du score de pertinence d'un document vis à vis d'une requête. Les avancées les plus récentes de la technique et de l'imagerie médicale nous offrent des modélisations plausibles de nos fonctionnements cognitifs dont nous pouvons nous inspirer afin de simuler l'humain dans des domaines tels que le langage et la pensée. Nous nous sommes plus particulièrement intéressé aux modèles cognitifs de la lecture et à la tentative de les exploiter afin de définir des systèmes de recherche d'informations capables d'estimer l'effort nécessaire à la compréhension d'un document et d'être suffisamment robustes pour accepter des requêtes mal orthographiées. Les modèles de recherche d'informations usuels permettent d'ordonner des documents en fonction de la quantité d'informations qu'ils véhiculent vis à vis de ce que l'utilisateur a exprimé dans sa requête tout en tenant compte, dans le meilleur des cas, du taux de nouveautés apportées par rapport à d'autres documents déjà connus. Il s'agit d'une vision purement informationnelle de la pertinence posant l'hypothèse que plus le nombre d'informations nouvelles est grand, plus le document est susceptible d'intéresser l'utilisateur. Cela s'avère exact dans une certaine mesure mais ne tient pas compte du fait que les besoins sont différents suivant le niveau d'expertise de l'utilisateur : une personne novice dans un domaine sera certainement plus intéressée par un document de vulgarisation que par une étude approfondie, au vocabulaire et à la structure complexes. Cela est vrai à plus forte raison pour des personnes ayant des difficultés élevées de lecture tels les dylsexiques. Il s'agit alors de définir de nouvelles mesures prenant en compte cet aspect tout en offrant la possibilité de présenter d'abord les documents les plus "simples", les plus "lisibles".<br /><br />La problématique de la personnalisation et de la prise en compte de l'utilisateur en recherche d'informations renvoie naturellement à celle, bien plus large, des fondements du traitement automatique des langues, au croisement de la linguistique et de l'informatique, toutes deux rejointes par la psycholinguistique et la psychologie cognitive pour l'étude des comportements individuels, les neurosciences pour l'étude des racines physiologiques du langage mais aussi par la sémiologie pour des analyses globales des usages et des significations. Ce croisement pluridisciplinaire est un enjeu majeur des années à venir si l'on veut aller au-delà, pour paraphraser K. Sparck-Jones, de la seule étude permettant d'espérer (et encore ne s'agit-il que d'un espoir sans même être convaincu de la significativité des gains) grappiller quelques points de précision en recherche ad-hoc.<br /><br />Il va de soi que les recherches présentées correspondent à un travail d'équipe. Elles sont ainsi l'\oe uvre des activités conduites au LIA depuis septembre 2000, et notamment, en respectant l'ordre chronologique, celles de Laurent Gillard, Benoît Favre et Laurianne Sitbon dont j'ai co-encadrées les thèses de Doctorat avec Marc El-Bèze (Université d'Avignon et des Pays de Vaucluse), Jean-François Bonastre (Université d'Avignon et des Pays de Vaucluse) et Philippe Blache (CNRS et Université Aix-Marseille).
|
10 |
Recherche de réponses précises à des questions médicales : le système de questions-réponses MEANSBen Abacha, Asma 28 June 2012 (has links) (PDF)
La recherche de réponses précises à des questions formulées en langue naturelle renouvelle le champ de la recherche d'information. De nombreux travaux ont eu lieu sur la recherche de réponses à des questions factuelles en domaine ouvert. Moins de travaux ont porté sur la recherche de réponses en domaine de spécialité, en particulier dans le domaine médical ou biomédical. Plusieurs conditions différentes sont rencontrées en domaine de spécialité comme les lexiques et terminologies spécialisés, les types particuliers de questions, entités et relations du domaine ou les caractéristiques des documents ciblés. Dans une première partie, nous étudions les méthodes permettant d'analyser sémantiquement les questions posées par l'utilisateur ainsi que les textes utilisés pour trouver les réponses. Pour ce faire nous utilisons des méthodes hybrides pour deux tâches principales : (i) la reconnaissance des entités médicales et (ii) l'extraction de relations sémantiques. Ces méthodes combinent des règles et patrons construits manuellement, des connaissances du domaine et des techniques d'apprentissage statistique utilisant différents classifieurs. Ces méthodes hybrides, expérimentées sur différents corpus, permettent de pallier les inconvénients des deux types de méthodes d'extraction d'information, à savoir le manque de couverture potentiel des méthodes à base de règles et la dépendance aux données annotées des méthodes statistiques. Dans une seconde partie, nous étudions l'apport des technologies du web sémantique pour la portabilité et l'expressivité des systèmes de questions-réponses. Dans le cadre de notre approche, nous exploitons les technologies du web sémantique pour annoter les informations extraites en premier lieu et pour interroger sémantiquement ces annotations en second lieu. Enfin, nous présentons notre système de questions-réponses, appelé MEANS, qui utilise à la fois des techniques de TAL, des connaissances du domaine et les technologies du web sémantique pour répondre automatiquement aux questions médicales.
|
Page generated in 0.0996 seconds