Return to search

Extraction et recherche d'information en langage naturel dans les documents semi-structurés

La recherche d'information (RI) dans des documents semi-structurés<br />(écrits en XML en pratique) combine des aspects de la RI<br />traditionnelle et ceux de l'interrogation de bases de données. La<br />structure a une importance primordiale, mais le besoin d'information<br />reste vague. L'unité de recherche est variable (un paragraphe, une<br />figure, un article complet\dots). Par ailleurs, la flexibilité du<br />langage XML autorise des manipulations du contenu qui provoquent<br />parfois des ruptures arbitraires dans le flot naturel du texte.<br /><br />Les problèmes posés par ces caractéristiques sont nombreux, que ce<br />soit au niveau du pré-traitement des documents ou de leur<br />interrogation. Face à ces problèmes, nous avons étudié les solutions<br />spécifiques que pouvait apporter le traitement automatique de la<br />langue (TAL). Nous avons ainsi proposé un cadre théorique et une<br />approche pratique pour permettre l'utilisation des techniques<br />d'analyse textuelle en faisant abstraction de la structure. Nous avons<br />également conçu une interface d'interrogation en langage naturel pour<br />la RI dans les documents XML, et proposé des méthodes tirant profit de<br />la structure pour améliorer la recherche des éléments pertinents.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00121721
Date27 September 2006
CreatorsTannier, Xavier
PublisherEcole Nationale Supérieure des Mines de Saint-Etienne
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0021 seconds