Spelling suggestions: "subject:"erreurs d'annotation""
1 |
Influence des annotations imparfaites sur les systèmes de Traitement Automatique des Langues, un cadre applicatif: la résolution de l'anaphore pronominaleWeissenbacher, Davy 20 November 2008 (has links) (PDF)
Un système informatique ne peut traiter automatiquement un texte sans qu'un certain nombre d'informations contenues dans ce texte, comme les mots ou les phrases, ne soient annotées. L'annotation est en général produite automatiquement par un processus incrémental. Pour ajouter un nouveau niveau d'annotation un système exploite des annotations d'entrée, plus "simples", produites par les systèmes qui ont été appliqués précédemment au texte. Or aucun système d'annotation, à ce jour, ne réalise automatiquement une annotation parfaite d'un texte. En raison de la complexité et de la diversité de la langue naturelle, le biais de représentation est élevé : il est difficile d'isoler les annotations l'entrée discriminantes qui sont nécessaires pour annoter un texte. De plus, ces annotations d'entrée, résultant elles-même d'un calcul automatique, sont imparfaites i.e. imprécises, bruitées et parfois manquantes. Enfin, le corpus sur lequel ont été choisies les annotations d'entrée discriminantes est un rassemblement artificiel de textes d'un même domaine qui donne une vue partielle de la langue. Cette erreur l'estimation implique une variation importante de la fiabilité de ces annotations lorsque le système est appliqué sur un corpus d'un autre domaine. L'imperfection des annotations d'entrée et de sortie des systèmes de traitement automatique des langues (TAL) semble être une fatalité avec laquelle nous devons composer plutôt qu'un désagrément passager dû à la maturité naissante des techniques de TAL. Nous ne pouvons donc pas l'ignorer. L'imprécision des annotations se transmet et augmente à chaque niveau d'annotation du traitement d'un document. Si nous pouvons chercher à atténuer l'imperfection des informations d'entrée en réduisant le biais de représentation et l'erreur d'estimation, elles ne seront certainement jamais, sans intervention humaine, d'une qualité parfaite. Ce constat fait, une série de questions s'impose. Quelles sont les caractéristiques que le modèle de représentation des informations d'entrée doit réunir pour réduire le biais de représentation ? Comment adapter le statut des informations d'entrée dans le processus l'inférence du système lorsque, le système étant appliqué à un corpus d'un autre domaine, leur utilité vient à changer ? L'étude de la logique nous montre que nous savons raisonner formellement à partir d'informations imparfaites mais pouvons-nous en espérer un bénéfice pour le TAL ? Autrement dit, lequel de ces deux systèmes de TAL obtient les meilleures performances : un système qui intègre l'imperfection des informations d'entrée dans son processus de raisonnement ou un système prévu pour raisonner à partir d'informations d'entrée parfaites mais travaillant avec des informations imparfaites ? Pour répondre à ces questions, nous avons proposé un classifieur reposant sur le modèle des réseaux bayésiens. Ce modèle d'inférence probabiliste est adapté pour raisonner sur les données de la langue naturelle. La possibilité de représenter dans un formalisme unique les attributs hétérogènes qui décrivent les annotations d'entrée diminue le biais de représentation. Tous les attributs pertinents pour une tâche d'annotation peuvent être exploités lors de l'inférence et les données de chaque classe discriminées au mieux. Les probabilités conditionnelles a priori associées au réseau expriment un ensemble de contraintes dont nous nous servons pour estimer les valeurs inconnues des attributs et renforcer la fiabilité des attributs les plus bruités. De plus, leur apprentissage automatique atténue l'erreur d'estimation. L'étape d'apprentissage adapte les probabilités conditionnelles aux corpus et garantit que les attributs engagés dans la décision du classifieur sont toujours discriminants. Nous avons validé notre modèle sur le problème de la résolution du pronom it anaphorique dans les textes anglais. Nous avons conçu et implémenté un classifieur pour la distinction des pronoms impersonnels des pronoms anaphoriques et pour le choix de l'antécédent puis, nous avons évalué les deux classifieurs sur des corpus de domaines et de genres différents. L'analyse des résultats du classifieur pour la distinction des pronoms impersonnels a mis clairement en évidence l'intérêt de notre approche. Les résultats de notre classifieur sont meilleurs que ceux des systèmes de l'état de l'art concurrents. Sur la tâche plus difficile du choix de l'antécédent, les résultats de notre second classifieur sont moins satisfaisants mais ils restent comparables aux résultats des systèmes de l'état de l'art : lorsque l'imperfection des attributs est prise en compte dans l'inférence, l'emploi d'attributs de mauvaise qualité ne dégrade que très faiblement les performances du système ; si, sans être parfaits, les attributs sont de meilleure qualité, leur utilisation améliore significativement les performances du système. De plus, l'analyse des erreurs du classifieur montre qu'il est encore trop simple et qu'il modélise imparfaitement le problème du choix de l'antécédent. Pour corriger ces défauts du classifieur, nous proposons, en dernière partie de cette thèse, le prototype d'un nouveau classifieur reposant sur une extension des réseaux bayésiens dynamiques.
|
Page generated in 0.5374 seconds