Return to search

Concepts et algorithmes pour la découverte des structures formelles des langues

Que peut-on apprendre sur la structure d'une langue à partir d'un texte écrit dans cette langue, et ceci sans connaissance particulière sur celle-ci et avec l'aide (disons l'utilisation) d'un ordinateur? <br /><br />Voilà la question à laquelle nous avons essayé de répondre. Cette réponse peut être vue comme une continuation des travaux en analyse distributionnelle développée par Zellig Harris. <br /><br />L'objectif de ce travail est donc de découvrir les structures formelles d'une langue en étudiant ces régularités formelles contenues dans un corpus<br /><br />Notre méthode de découverte se base sur une simple conception formelle de la langue: un objet linéaire dans lequel les frontières (de début et de fin) des différentes structures sont indiquées par des éléments caractéristiques. Les structures ainsi identifiées sont le syntagme simple (non récursif), et la proposition, structures à la fois multilingues et formelles. Ces indicateurs de frontières correspondent à des morphèmes (libres ou liés) pour le syntagme, et à des morphèmes ou des syntagmes pour la proposition.<br /><br />À partir de ces structures théoriques, nous construisons la liste de toutes les catégories qu'un élément (morphème ou mot) peut prendre. Une fois ces structures et catégories recensées, nous construisons des contextes spécifiques à chaque catégorie afin de catégoriser les éléments du texte. Nous obtenons donc un mécanisme permettant d'assigner à un élément plusieurs catégories si cet élément apparaît dans différents contextes. Ces contextes sont construits à l'aide des éléments prototypiques de marqueurs de frontières de structures, identifiables grâce à leur position par rapport à la segmentation physique du texte (en particulier les ponctuations).<br /><br />Les résultats obtenus permettent la catégorisation des mots du corpus, ainsi qu'une segmentation partielle en syntagmes. La méthode a été appliquée à une dizaine de langues comme le français, l'allemand, le turc, le vietnamien et le swahili.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00169572
Date18 December 1998
CreatorsDéjean, Hervé
PublisherUniversité de Caen
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0024 seconds