Return to search

Extraction de données à partir du Web

Le Web est devenu riche en informations circulant à travers le monde entier via le réseau Internet. Cela a provoqué l'expansion de grandes quantités de données. De plus, ces données sont souvent non structurées et difficiles à être utilisées dans des applications Web. D'une part, l'intérêt des utilisateurs pour l'exploitation de ces données a augmenté d'une façon concurrentielle. D'autre part, les données ne sont pas faciles à être consultées par l'humain. Cet intérêt a motivé les chercheurs à penser à des approches d'extraction des données à partir du Web, d'où l'apparition des adaptateurs. Un adaptateur est basé sur un ensemble des règles d'extraction définissant l'emplacement des données dans le document à extraire. Plusieurs outils existent pour la construction de ces règles. Notre travail s'intéresse au problème de l'extraction de données à partir du Web. Dans ce document, nous proposons une méthode d'extraction des données à partir du Web basée sur l'apprentissage machine pour la construction des règles d'extraction. Les résultats de l'extraction de notre approche démontrent une importance en matière de précision d'extraction et une meilleure performance dans le processus d'apprentissage. L'utilisation de notre outil dans une application d'interrogation de sources de données a permis de répondre aux besoins des utilisateurs d'une manière très simple et automatique.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : extraction, adaptateurs, règles d'extraction, apprentissage machine, Web, applications Web.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMUQ.5801
Date07 1900
CreatorsAchir, Badr
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
Detected LanguageFrench
TypeMémoire accepté, NonPeerReviewed
Formatapplication/pdf
Relationhttp://www.archipel.uqam.ca/5801/

Page generated in 0.0023 seconds