Spelling suggestions: "subject:"coréférence"" "subject:"références""
1 |
Coreference resolution with and for WikipediaGhaddar, Abbas 06 1900 (has links)
Wikipédia est une ressource embarquée dans de nombreuses applications du traite-
ment des langues naturelles. Pourtant, aucune étude à notre connaissance n’a tenté de
mesurer la qualité de résolution de coréférence dans les textes de Wikipédia, une étape
préliminaire à la compréhension de textes. La première partie de ce mémoire consiste à
construire un corpus de coréférence en anglais, construit uniquement à partir des articles
de Wikipédia. Les mentions sont étiquetées par des informations syntaxiques et séman-
tiques, avec lorsque cela est possible un lien vers les entités FreeBase équivalentes. Le
but est de créer un corpus équilibré regroupant des articles de divers sujets et tailles.
Notre schéma d’annotation est similaire à celui suivi dans le projet OntoNotes. Dans la
deuxième partie, nous allons mesurer la qualité des systèmes de détection de coréférence
à l’état de l’art sur une tâche simple consistant à mesurer les mentions du concept décrit
dans une page Wikipédia (p. ex : les mentions du président Obama dans la page Wiki-
pédia dédiée à cette personne). Nous tenterons d’améliorer ces performances en faisant
usage le plus possible des informations disponibles dans Wikipédia (catégories, redi-
rects, infoboxes, etc.) et Freebase (information du genre, du nombre, type de relations
avec autres entités, etc.). / Wikipedia is a resource of choice exploited in many NLP applications, yet we are
not aware of recent attempts to adapt coreference resolution to this resource, a prelim-
inary step to understand Wikipedia texts. The first part of this master thesis is to build
an English coreference corpus, where all documents are from the English version of
Wikipedia. We annotated each markable with coreference type, mention type and the
equivalent Freebase topic. Our corpus has no restriction on the topics of the documents
being annotated, and documents of various sizes have been considered for annotation.
Our annotation scheme follows the one of OntoNotes with a few disparities. In part two,
we propose a testbed for evaluating coreference systems in a simple task of measuring
the particulars of the concept described in a Wikipedia page (eg. The statements of Pres-
ident Obama the Wikipedia page dedicated to that person). We show that by exploiting
the Wikipedia markup (categories, redirects, infoboxes, etc.) of a document, as well
as links to external knowledge bases such as Freebase (information of the type, num-
ber, type of relationship with other entities, etc.), we can acquire useful information on
entities that helps to classify mentions as coreferent or not.
|
2 |
Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantiqueChaumartin, François-Régis 25 September 2012 (has links) (PDF)
Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de " rendre calculable " du texte tout-venant : avis de consommateurs, textes encyclopédiques, documents RH, articles de presse... Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate-forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle.
|
Page generated in 0.0421 seconds