Return to search

Des mots aux textes. Analyse sémantique pour l'accès à l'information

Pourquoi est-il si difficile de comprendre une langue de manière automatique, même si on ne vise qu'une compréhension limitée, factuelle et orientée vers des faits connus ? La langue, telle qu'elle s'offre à nous, semble trop malléable pour être directement appréhendable par ordinateur. C'est pourtant à ce problème que je me suis intéressé : comment identifier du semblable dans des productions langagières si variées, comment repérer des fragments de signification au milieu d'un océan de textes ? Ce mémoire se compose de quatre chapitres. Je reviens au sein du chapitre 1 sur certains développements récents de la linguistique informatique, pour montrer que la disponibilité de gros corpus a entraîné une forte opérationnalisation du domaine. Cette évolution n'est pas neutre théoriquement : l'apport des corpus et des techniques d'acquisition dynamique de connaissances (notamment par les techniques d'apprentissage) rend tout à fait plausible l'idée d'une sémantique fondée sur l'usage. Les trois chapitres suivants portent chacun sur un niveau d'analyse différent (niveau lexical pour l'annotation sémantique, niveau prédicatif pour l'extraction de relations, niveau textuel pour la modélisation de documents spécialisés). Je défends l'idée d'un continuum entre ces niveaux, du fait notamment que tous partagent des similarités fondamentales, ce qui peut se manifester parfois de manière très visible et influer sur les techniques utilisées. Le chapitre 2 traite du niveau lexical (microsémantique), essentiellement à travers l'analyse des « entités nommées » : ce type de séquences comprend notamment les noms propres, qui sont des éléments essentiels pour une prise de connaissance rapide du contenu des documents. Ces séquences, et plus particulièrement les noms propres, ont été largement étudiées dans le cadre des approches logiques ; mon travail se situe dans un cadre en partie hérité de cette tradition : celui-ci offre bien des avantages applicatifs mais les noms propres, comme le vocabulaire courant, sont soumis aux mêmes phénomènes de variation et de brouillage de sens, du fait des tropes notamment. Le chapitre 3 traite essentiellement des relations prédicatives (mésosémantique) : le repérage de ces séquences est essentiel pour les systèmes d'extraction d'information et de questions-réponses. Ces applications reposent en effet sur la mise en correspondance d'entités autour d'un prédicat. Je détaille différentes techniques permettant d'acquérir automatiquement ces structures à partir de corpus (classes sémantiques, cadres de sous-catégorisation et restrictions de sélection). Je montre que ces catégories sont floues et que les analyses à partir de corpus remettent en cause certaines classifications de la grammaire traditionnelle. Le chapitre 4 traite du contenu et de la structure de textes complexes, essentiellement techniques (macrosémantique). Le texte forme un tout cohérent, marqué par un ensemble de séquences (ou périodes) liées entre elles ; cette architecture textuelle est normée et elle est significative pour la compréhension globale. J'essaie d'étendre ce travail sur l'architecture textuelle à des ensembles de textes cohérents, afin d'aboutir à une typologie. Je montre là aussi le flou et la difficulté à définir des typologies cohérentes et, surtout, fondées linguistiquement. Je reviens, dans la conclusion, sur les similitudes observées entre ces différents paliers : la question de la relation entre mots et concepts, les bords flous des catégories envisagées, leur grande variabilité sur le plan linguistique. Je m'interroge sur le lien entre traitement automatique des langues (TAL) et linguistique, avant de proposer quelques perspectives permettant de poursuivre ce travail par d'autres chemins.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00436064
Date26 November 2008
CreatorsPoibeau, Thierry
PublisherUniversité Paris-Nord - Paris XIII
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
Typehabilitation ࠤiriger des recherches

Page generated in 0.002 seconds