Return to search

Utilisation de ressources non conventionnelles et de méthodes contributives pour combler le fossé terminologique entre les langues en développant des "préterminologies" multilingues

Notre motivation est de combler le fossé terminologique qui grandit avec la production massive de nouveaux concepts (50 quotidiens) dans divers domaines, pour lesquels les termes sont souvent inventés d'abord dans une certaine langue bien dotée, telle que l'anglais ou le français. Trouver des termes équivalents dans différentes langues est nécessaire pour de nombreuses applications, telles que la RI translingue et la TA. Cette tâche est très difficile, particulièrement pour certaines langues très utilisées telles que l'arabe, parce que (1) seule une petite proportion de nouveaux termes est correctement enregistrée par des terminologues, et pour peu de langues ; (2) des communautés spécifiques créent continuellement des termes équivalents sans les normaliser ni même les enregistrer (terminologie latente) ; (3) dans de nombreux cas, aucuns termes équivalents ne sont créés, formellement ou informellement (absence de terminologie). Cette thèse propose de remplacer le but impossible de construire d'une manière continue une terminologie à jour, complète et de haute qualité pour un grand nombre de langues par celui de construire une preterminologie, en utilisant des méthodes non conventionnelles et des contributions passives ou actives par des communautés d'internautes : extraction de termes parallèles potentiels non seulement à partir de textes parallèles ou comparables, mais également à partir des logs (traces) des visites à des sites Web tels que DSR (Route de la Soie Digitale), et à partir de données produites par des jeux sérieux. Une préterminologie est un nouveau genre de ressource lexicale qui peut être facilement construit et a une bonne couverture. Suivant en ceci une tendance croissante en lexicographie computationnelle et en TALN en général, nous représentons une préterminologie multilingue par une structure de graphe (Preterminological Multilingual Graph, MPG), où les nœuds portent des prétermes et les arcs des relations préterminologiques simples (synonymie monolingue, traduction, généralisation, spécialisation, etc.) qui sont des approximations des relations (terminologiques ou ontologiques) usuelles. Un Système complet pour Éliciter une Préterminologie (SEPT) a été développé pour construire et maintenir des MPG. Des approches passives ont été expérimentées en développant un MPG pour le site Web culturel de DSR, et un autre pour le domaine de l'onirologie arabe : les ressources produites ont atteint une bonne couverture informationnelle et linguistique. L'approche indirecte par contribution active est testée depuis 8-9 mois sur l'instance arabe du jeu sérieux JeuxDeMots.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00583682
Date20 December 2010
CreatorsDaoud, Mohammad
Source SetsCCSD theses-EN-ligne, France
LanguageEnglish
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0021 seconds