La recherche d'information (RI) dans des documents semi-structurés<br />(écrits en XML en pratique) combine des aspects de la RI<br />traditionnelle et ceux de l'interrogation de bases de données. La<br />structure a une importance primordiale, mais le besoin d'information<br />reste vague. L'unité de recherche est variable (un paragraphe, une<br />figure, un article complet\dots). Par ailleurs, la flexibilité du<br />langage XML autorise des manipulations du contenu qui provoquent<br />parfois des ruptures arbitraires dans le flot naturel du texte.<br /><br />Les problèmes posés par ces caractéristiques sont nombreux, que ce<br />soit au niveau du pré-traitement des documents ou de leur<br />interrogation. Face à ces problèmes, nous avons étudié les solutions<br />spécifiques que pouvait apporter le traitement automatique de la<br />langue (TAL). Nous avons ainsi proposé un cadre théorique et une<br />approche pratique pour permettre l'utilisation des techniques<br />d'analyse textuelle en faisant abstraction de la structure. Nous avons<br />également conçu une interface d'interrogation en langage naturel pour<br />la RI dans les documents XML, et proposé des méthodes tirant profit de<br />la structure pour améliorer la recherche des éléments pertinents.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00121721 |
Date | 27 September 2006 |
Creators | Tannier, Xavier |
Publisher | Ecole Nationale Supérieure des Mines de Saint-Etienne |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0024 seconds