Nous assistons aujourd’hui à un développement continu et rapide du Web Structuré, dans lequel les documents (les pages Web) ne sont plus composés que du texte non structuré mais sont centrés sur les données, présentant des contenus structurés et des objets complexes. Ces pages Web sont générées le plus souvent de façon dynamique à partir d’une base de données accessible via des formulaires (Web caché), et sont organisées selon une structure régulière et prédéfinie. Les plates-formes de recherche actuelles ne permettent d’obtenir que des pages en utilisant des méthodes traditionnelles de recherche par des mots-clés, qui sont inadaptées pour interroger le Web structuré. En effet, la recherche par mots-clés est sémantiquement pauvre et ignore les liens structurels existant entre les différents contenus des objets complexes (ex. dans une page Web d’un site commercial, constituée d’une liste de livres, les entités élémentaires “titre” et “auteur” composant chaque “livre” sont présentées selon une disposition qui illustre leurs relations. De nouveaux moyens de recherche sur le Web sont donc nécessaires, pour permettre à l’utilisateur de cibler des données complexes avec une sémantique précise. L’objectif de cette thèse est de fournir des algorithmes efficaces pour l’extraction et la recherche des objets structurées (un livre, un concert de musique, etc.) de façon automatique, à l’aide de méthodes adaptées allant au-delà de la recherche par mots-clés. Nous avons proposé une approche d’interrogation du Web en deux étapes, qui permet à l’utilisateur de décrire le schéma des objets ciblés, de façon souple et précise. Les deux problématiques principales adressées sont : (1) la sélection de sources Web structurées les plus pertinentes pour un schéma fourni par l’utilisateur (c-à-d, contenant les objets, instances de ce schéma), et (2) la construction de wrappers (extracteurs) pour l’extraction des objets complexes ciblés à partir des sources sélectionnées, en exploitant la régularité des structures des pages et la sémantique des données. Notre approche est générique, dans le sens où elle nŠest pas spécifique à des sources ou des objets d’un domaine particulier. Elle a été implantée (système ObjectRunner) et testée sur des sources Web appartenant à des domaines variés. Les résultats obtenus montrent, en particulier, une pertinente élevée au niveau de la sélection de sources et un gain significatif au niveau de la qualité de l’extraction par rapport aux approches existantes. / We are witnessing in recent years a steady growth of the so-called structured Web, in which documents (Web pages) are no longer quasi-textual, but are data-centric, presen-ting structured content, complex objects. Such schematized pages are often generated dynamically by means of formatting templates over a database, possibly using user input via forms (hidden Web). The current Web search platforms allow only to retrieve Web pages by traditional keyword search methods, which are not adapted to query the structured Web. Indeed, keyword search is semantically poor and ignores the existing structural links between various components of complex objects (e.g., in a commercial Web site page, providing book lists, the atomic entities “title” and “author” forming each “book” are displayed in a way that illustrates their relationship. New ways of searching the Web are thus required, in order to enable users to target complex data, with a clear semantics. The main aim of this thesis is to provide effective algorithms for extracting and retrieving structured objects (e.g., a book, a music concert, etc.) automatically, using adapted methods rather going beyond the keyword search ones. We propose a two-phase querying approach of the Web, which allows users to first describe the schema of the targeted objects, in a flexible, lightweight and precise manner. The two main problems we address are : (1) the selection of the most relevant structured Web sources with respect to the schema provided by the user (i.e., containing objects, instances of this schema), and (2) the construction of wrappers for extracting the targeted complex objects from the selected sources, leveraging both the regularity of the pages and the semantics of the data. Our approach is generic, in the sense that it can be applied to any domain and schema for complex objects. It has been implemented in the ObjectRunner system, and tested extensively. The experimental results show high source-selection relevance and significant improvements over existing techniques in terms of extraction precision.
Identifer | oai:union.ndltd.org:theses.fr/2012ENST0011 |
Date | 20 March 2012 |
Creators | Derouiche, Nora |
Contributors | Paris, ENST, Abdessalem, Talel, Cautis, Bogdan |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.003 seconds