Global ETD Search

Return to search

Concepts et algorithmes pour la découverte des structures formelles des langues

Que peut-on apprendre sur la structure d'une langue à partir d'un texte écrit dans cette langue, et ceci sans connaissance particulière sur celle-ci et avec l'aide (disons l'utilisation) d'un ordinateur? Voilà la question à laquelle nous avons essayé de répondre. Cette réponse peut être vue comme une continuation des travaux en analyse distributionnelle développée par Zellig Harris. L'objectif de ce travail est donc de découvrir les structures formelles d'une langue en étudiant ces régularités formelles contenues dans un corpus Notre méthode de découverte se base sur une simple conception formelle de la langue: un objet linéaire dans lequel les frontières (de début et de fin) des différentes structures sont indiquées par des éléments caractéristiques. Les structures ainsi identifiées sont le syntagme simple (non récursif), et la proposition, structures à la fois multilingues et formelles. Ces indicateurs de frontières correspondent à des morphèmes (libres ou liés) pour le syntagme, et à des morphèmes ou des syntagmes pour la proposition. À partir de ces structures théoriques, nous construisons la liste de toutes les catégories qu'un élément (morphème ou mot) peut prendre. Une fois ces structures et catégories recensées, nous construisons des contextes spécifiques à chaque catégorie afin de catégoriser les éléments du texte. Nous obtenons donc un mécanisme permettant d'assigner à un élément plusieurs catégories si cet élément apparaît dans différents contextes. Ces contextes sont construits à l'aide des éléments prototypiques de marqueurs de frontières de structures, identifiables grâce à leur position par rapport à la segmentation physique du texte (en particulier les ponctuations). Les résultats obtenus permettent la catégorisation des mots du corpus, ainsi qu'une segmentation partielle en syntagmes. La méthode a été appliquée à une dizaine de langues comme le français, l'allemand, le turc, le vietnamien et le swahili.

Apprentissage non supervisé

langues naturelles

distributionalisme

catégorisation (linguistique)

multilinguisme

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00169572
Date	18 December 1998
Creators	Déjean, Hervé
Publisher	Université de Caen
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0024 seconds

Concepts et algorithmes pour la découverte des structures formelles des langues

Description

Links & Downloads

Tags

Additional Fields