• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Ressources et méthodes semi-supervisées pour l'analyse sémantique de texte en français

Mouton, Claire 17 December 2010 (has links) (PDF)
Pouvoir chercher des informations sur un niveau sémantique plutôt que purement lexical devrait améliorer la recherche d'informations. Cette thèse a pour objectif de développer des modules d'analyse sémantique lexicale a n d'améliorer le système de recherche de documents textuels de la société Exalead. Les travaux présentés concernent plus spécifi quement l'analyse sémantique de texte en français. La problématique liée au traitement du français réside dans le fait qu'il n'existe que peu de ressources sémantiques et de corpus annotés pour cette langue. Rendre possible une telle analyse implique donc d'une part de pourvoir aux besoins en ressources linguistiques françaises, et d'autre part, de trouver des méthodes alternatives ne nécessitant pas de corpus français manuellement annoté. Notre manuscrit est structuré en trois parties suivies d'une conclusion. Les deux chapitres de la première partie délimitent les objectifs et le contexte de notre travail. Le premier introduit notre thèse en évoquant la problématique de la sémantique en recherche d'information, en présentant la notion de sens et en identifiant deux tâches d'analyse sémantique : la désambiguïsation lexicale et l'analyse en rôles sémantiques. Ces deux tâches font l'objet de l'ensemble de notre étude et constituent respectivement les parties 2 et 3. Le second chapitre dresse un état de l'art de toutes les thématiques abordées dans notre travail. La deuxième partie aborde le problème de la désambiguïsation lexicale. Le chapitre 3 est consacré à la constitution de nouvelles ressources françaises pour cette tâche. Nous décrivons dans un premier temps une méthode de traduction automatique des synsets nominaux de WordNet vers le français à partir de dictionnaires bilingues et d'espaces distributionnels. Puis, nous constituons une ressource automatiquement en proposant une adaptation de deux méthodes d'induction de sens existantes. L'originalité des clusters de sens ainsi constitués est de contenir des mots dont la syntaxe est proche de celle des mots source. Ces clusters sont alors exploités dans l'algorithme que nous proposons au chapitre 4 pour la désambiguïsation elle-même. Le chapitre 4 fournit également des recommandations concernant l'intégration d'un tel module dans un système de recherche de documents. L'annotation en rôles sémantiques est traitée dans la troisième partie. Suivant une structure similaire, un premier chapitre traite de la constitution de ressources pour le français, tandis que le chapitre suivant présente l'algorithme développé pour l'annotation elle-même. Ainsi, le chapitre 5 décrit nos méthodes de traduction et d'enrichissement des prédicats de FrameNet, ainsi que l'évaluation associée. Nous proposons au chapitre 6 une méthode semi-supervisée exploitant les espaces distributionnels pour l'annotation en rôles sémantiques. Nous concluons ce chapitre par une ré flexion sur l'usage des rôles sémantiques en recherche d'information et plus particulièrement dans le cadre des systèmes de réponses à des questions posées en langage naturel. La conclusion de notre mémoire résume nos contributions en soulignant le fait que chaque partie de notre travail exploite les espaces distributionnels syntaxiques et que ceci permet d'obtenir des résultats intéressants. Cette conclusion mentionne également les perspectives principales que nous inspirent ces travaux. La perspective principale et la plus immédiate est l'intégration de ces modules d'analyse sémantique dans des prototypes de recherche documentaire.

Page generated in 0.0629 seconds