L’extraction d’information ouverte (OIE) est un domaine du traitement des langues naturelles qui a pour but de présenter les informations contenues dans un texte dans un format régulier permettant d’organiser, d’analyser et de réfléchir ces informations. De nombreux systèmes d’OIE existent et sont proposés, revendiquant des performances de plus en plus proches d’un idéal. Dans les dernières années, beaucoup de ces systèmes utilisent des architectures neuronales et leurs auteurs affirment être plus performant sur cette tâche que les méthodes précédentes. Afin d’établir ces performances et de les comparer les unes aux autres, il est nécessaire d’utiliser une référence. Celles-ci ont également évolué dans le temps et se veulent précises, objectives et proches de la réalité. Dans ce mémoire, nous proposons une nouvelle référence permettant de remédier à certaines limitations potentielles des méthodes d’évaluation actuelles. Cette référence comprend deux composantes principales soit une annotations manuelles de phrases candidates et une fonction permettant d’établir la concordance syntaxique entre différents faits extraits et annotés. De plus, nous proposons de nouvelles lignes directrice pour encadrer et mieux définir la tâche d’extraction d’information ouverte elle-même, ce qui permet de mieux quantifier et mesurer la quantité d’informations pertinentes extraites par les systèmes d’OIE. Nos expériences démontrent que notre référence suit de plus près ces lignes directrices que les références précédentes ,qu’elle parvient à mieux juger de la concordances entre les faits extraits et les faits annotés et qu’elle est plus souple dans son approche que la référence qui est à ce jour l’état de l’art. Notre nouvelle référence permet de tirer des conclusions intéressantes sur les performances réelles des systèmes d’extraction d'Information ouverte, notamment sur la réelle amélioration des systèmes plus récents par rapport aux méthodes classiques. / Open Information Extraction (OIE) is a field of natural language processing whose aim is
to present the information contained in a text in a regular format that allows that information
to be organized, analyzed and reflected upon. Numerous OIE systems exist, claiming everincreasing
levels of performance. In order to establish their performance and compare them,
it is necessary to use a reference. These have also evolved over time, and are intended to
be precise and objective, making it possible to identify the best-performing systems. In this
thesis, we identify some of the limitations of current evaluation methods and propose a new
benchmark to remedy them. This new benchmark comprises two main components : a manual
annotation of candidate sentences and a function to establish syntactic concordance between
different extracted and annotated facts. In addition, we propose new guidelines to frame and
better define the open information extraction task itself, enabling us to better quantify and
measure the amount of relevant information extracted by OIE systems. Our experiment shows
that our benchmark follows these guidelines more closely than previous benchmarks, is better
at judging the match between extracted and annotated facts, and is more flexible than the
current state-of-the-art benchmarks. Our new benchmark allows us to draw some interesting
conclusions about the actual performance of open information extraction systems. We show
that the latest systems are not necessarily the best.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32226 |
Date | 08 1900 |
Creators | Lamarche, Fabrice |
Contributors | Langlais, Philippe |
Source Sets | Université de Montréal |
Language | fra |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0017 seconds