Return to search

Découverte et caractérisation des corpus comparables spécialisés

Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l'avantage d'être représentatifs des particularités culturelles et linguistiques de chaque langue. Le Web peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d'aide à la construction de corpus comparables. Nous présentons d'abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d'apprentissage automatique. Une analyse stylistique sur un corpus d'apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d'analyse : structurel, modal et lexical. Nous l'utilisons ensuite afin d'apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d'évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d'une chaîne logicielle d'aide à la construction de corpus comparables implémentée sur la plateforme UIMA.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00474405
Date30 January 2009
CreatorsGoeuriot, Lorraine
PublisherUniversité de Nantes
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.002 seconds