L'accroissement explosif des connaissances dans le domaine médical et l'inflation textuelle et multilingue, notamment sur le Web, confèrent à l'accès, l'exploitation ou la traduction de ces informations un enjeu important. Ces traitements nécessitent des ressources lexicales multilingues qui font partiellement défaut. L'actualisation de ces ressources multilingues est donc une problématique clé dans l'accès à ces informations. Les travaux présentés ici ont été réalisés dans le cadre de l'extraction de lexique bilingue spécialisé à partir de textes médicaux comparables. L'objectif est d'évaluer et de proposer un outil d'aide à l'actualisation de lexique bilingue spécialisé et à la recherche d'information translangue en s'appuyant sur l'exploitation de ressources bilingues provenant du Web dans le domaine médical. Nous présentons un modèle fondé sur l'analyse distributionnelle en introduisant à cette occasion une nouvelle notion que nous nommons symétrie distributionnelle. En général, les modèles classiques d'extraction de lexique bilingue à partir de corpus comparables établissent la relation de traduction entre deux mots en calculant la ressemblance entre leurs distributions d'une langue vers l'autre (par exemple, du français vers l'anglais). L'hypothèse de symétrie distributionnelle postule que la ressemblance des distributions de deux mots dans les deux directions de langues est un critère fort du lien traductionnel entre ces mots. Deux grandes applications de ce modèle ont été expérimentées afin de le valider. Il s'agit de l'extraction d'un lexique bilingue médical (français-anglais) et de la recherche d'information translangue. Dans le cas de l'extraction lexicale bilingue, les résultats montrent que la prise en compte de la symétrie distributionnelle améliore la performance de manière significative par rapport aux modèles classiques. Dans le cas de la recherche d'information translangue, notre modèle a été appliqué pour traduire et étendre les requêtes. Les résultats montrent que lorsque les propositions de traduction ou d'extension sont supervisées par l'utilisateur, il améliore la recherche d'information par rapport à une traduction basée sur un dictionnaire initial.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00007704 |
Date | 30 June 2004 |
Creators | Chiao, Yun-Chuang |
Publisher | Université Pierre et Marie Curie - Paris VI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds