Global ETD Search

Return to search

Méthodes de segmentation et d'analyse automatique de textes thaï

Ce travail de thèse a pour objectif de concevoir et réaliser un module informaticolinguistique apte à effectuer des analyses automatiques de textes thaï sous le système INTEX © . Basé fondamentalement sur les langues indo-européennes écrites avec l'alphabet latin, INTEX © rencontre quelques difficultés pour travailler sur une langue très différente comme le thaï. Le problème crucial est la segmentation en mots et en phrases, étant donné que le thaï n'a pas de séparateur de mot : une phrase est écrite en une séquence de lettres continues, et les séparateurs de phrase sont fréquemment ambigus. Aussi avons-nous développé et évalué deux méthodes de segmentation en mots, par expressions rationnelles et par transducteurs à nombre fini d'états, qui découpent respectivement des textes thaï en lettres et en syllabes. Nous avons également créé les dictionnaires électroniques du thaï qui servent à la fois à reconnaître les mots à partir des lettres ou des syllabes et à les étiqueter avec les codes syntaxiques et sémantiques. Deux méthodes de segmentation en phrases thaï, par la ponctuation et par mots-clés, sont également proposées et évaluées. Nous montrons enfin que, grâce à notre travail, INTEX © est capable d'analyser des documents thaï, malgré toutes les difficultés.

[INFO:INFO_OH] Computer Science/Other

segmentation en mots

segmentation en phrases

dictionnaire électronique

analyse automatique de textes

expression rationnelle

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00626256
Date	08 September 2003
Creators	Kosawat, Krit
Publisher	Université Paris-Est
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0016 seconds

Méthodes de segmentation et d'analyse automatique de textes thaï

Description

Links & Downloads

Tags

Additional Fields