Return to search

Méthodes pour informatiser les langues et les groupes de langues « peu dotées »

En 2004, moins de 1 % des 6800 langues du monde bénéficie d'un niveau d'informatisation élevé, incluant un éventail large de services allant du traitement de textes à la traduction automatique. Cette thèse, qui s'intéresse aux autres langues - les langues-pi - s'attache à proposer des solutions pour remédier à leur sous-développement informatique. Dans une première partie destinée à montrer la complexité du problème, nous présentons la diversité des langues, les technologies utilisées, ainsi que les approches des différents acteurs impliqués : populations linguistiques, éditeurs de logiciels, Nations Unies, États... Une mesure du degré d'informatisation des langues - l'indice-sigma - ainsi que plusieurs méthodes sont proposées. La seconde partie traite de l'informatisation du laotien et présente concrètement les travaux réalisés pour cette langue en appliquant les méthodes décrites précédemment. Les réalisations décrites ont permis d'améliorer l'indice-sigma de la langue laotienne d'environ 4 points, cet indice étant actuellement évalué à 8,7/20. Dans la troisième partie, nous montrons qu'une approche par groupe de langues peut encore réduire les coûts d'informatisation grâce à l'utilisation d'une architecture modulaire associant des logiciels grand public et des compléments spécifiques. Pour les parties intimement liées aux langues, des outils linguiciels génériques complémentaires permettent aux populations d'informatiser elles-mêmes leurs langues. Nous avons validé cette méthode en l'appliquant à la segmentation syllabique de langues à écritures non segmentée d'Asie du Sud-Est, telles que le birman, le khmer, le laotien et le siamois (thaï).

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00006313
Date18 May 2004
CreatorsBerment, Vincent
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0022 seconds