Le développement des technologies de l'information et de la communication à modifié en profondeur la manière dont nous avons accès aux connaissances. Face à l’afflux de données et à leur diversité, il est nécessaire de meure su point des technologies performantes et robustes pour y rechercher des informations. Notre travail porte sur le reconnaissance des entités nommées et leur annotation su sein de transcriptions d’émissions radiodiffusées ou télévisuelles. En première partie, nous abordons le problématique de la reconnaissance automatique des entités nommées. Après une caractérisation de leur nature linguistique, nous proposons une approche par instructions, fondée sur les marqueurs (balises) d’annotation, qui considère ces éléments isolément (début ou fin d’une annotation). En seconde partie, nous faisons état des travaux en fouille de données et présentons un cadre formel pour explorer les données. Nous y proposons une formulation alternative par segments, qui limite la combinatoire lors de l’exploration. Les motifs corrélés à un ou plusieurs marqueurs d’annotation sont extraits comme règles d’annotation. La dernière partie décrit le cadre expérimental, quelques spécificités de l’implémentation du système (mXS) et les résultats obtenus. Nous montrons l’intérêt d’extraire largement les règles d’annotation et expérimentons les motifs de segments. Nous fournissons des résultats chiffrés relatifs aux performances du système à divers point de vue et dans diverses configurations. Ils montrent que l’approche que nous proposons est compétitive et qu’elle ouvre des perspectives dans le cadre de l’observation des langues naturelles et de l’annotation automatique. / Those latest decades, the development of information end communication technologies has deeply modified die way we access knowledge. Facing the volume end the diversity of date, it is necessary to work out robust end efficient technologies to retrieve information. The present work considers recognition and annotation of Named Entities within radio and TV broadcasts transcripts. For this purpose, we interpret die annotation task es s local structuration. We can therefore leverage data to empirically extract mies that govern annotation markers (or tags) presence. In die first part, we introduce our problematic: processing named entities. We question named entities status (related notions, typologies, evaluation end annotation) and propose properties to define their linguistic nature. We conclude this part by describing state-of-the-art approaches end by presenting our contribution, focused on markers (tags) diet begin or end an annotation. In die second part, we present die formalism used to mine date. The framework we use to enrich date, explore sequences and extract annotation rules is formalized. The lest part describes the implemented system (mXS) and the obtained results. Specific implementation details are given and results about rule extraction from data are reported. Finally, we provide quantitative results of the performance of mXS on Ester2 end Etape datasets, among with various indications about die behaviour of die system from diverse points of view and in diverse configurations. They show diet our approach gives competitive results end that it opens up new perspectives for natural language processing and automatic annotation.
Identifer | oai:union.ndltd.org:theses.fr/2012TOUR4011 |
Date | 20 November 2012 |
Creators | Nouvel, Damien |
Contributors | Tours, Antoine, Jean-Yves, Friburger, Nathalie, Soulet, Arnaud |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.002 seconds