Return to search

Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles

Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. Dans cette thèse, nous abordons l'aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances expérimentales portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d'information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00258948
Date25 September 2006
CreatorsNguyen, Tuan Dang
PublisherUniversité de Caen
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0019 seconds