Return to search

Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle

Les lexiques sémantiques sont des ressources indispensables pour permettre à de nombreuses applications de traitement automatique des langues (résumé automatique, recherche d'information, traduction automatique, etc.) d'accéder au sens d'un texte. La question de la pertinence des informations présentes dans de tels lexiques est cruciale : le sens d'un mot comme navet, par exemple, varie considérablement selon que le texte étudié est consacré à la gastronomie ou à la cinématographie. Un moyen économique et linguistiquement motivé de disposer de descriptions de sens de mots réellement pertinentes est d'« apprendre » celles-ci à partir de l'utilisation effective des mots dans un corpus, collection de textes représentative d'un domaine d'expression. Nous proposons pour tenter de répondre à ce défi une méthodologie d'acquisition automatique sur corpus d'informations lexicales sémantiques en trois étapes, fondée sur les principes linguistiques de la Sémantique interprétative de F. Rastier. Par analyse statistique et comparaison des modes d'emploi des mots, en utilisant des méthodes classiques ou originales, nous parvenons tout d'abord à rapprocher des mots appartenant à un même domaine (par exemple donnée, transfert, réseau pour les NTIC), puis des mots de sens similaires (donnée et information). Enfin, nous proposons une première méthode permettant la mise au jour de nuances fines marquant des distinctions de sens entre mots proches (donnée est plus « concret » que information), ce qui constitue un résultat encore inédit en acquisition automatique d'informations lexicales sémantiques.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00524299
Date26 October 2005
CreatorsRossignol, Mathias
PublisherUniversité Rennes 1
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0017 seconds