• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées

Girault, Thomas 18 June 2010 (has links) (PDF)
Certaines applications du traitement automatique des langues sont amenées à traiter des flux de données textuelles caractérisés par l'emploi d'un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. En partant de ce constat, nous avons mis au point un algorithme incrémental pour construire automatiquement et faire évoluer une base lexicale qui répertorie des unités lexicales non étiquetées sémantiquement observées dans des flux. Cette base lexicale est représentée par un treillis de Galois qui organise des concepts formels (assimilés à des unités de sens) sur des niveaux de granularité allant du très spécifique au très général. Cette représentation est complétée par une modélisation vectorielle visualisable qui tient compte des aspects continus du sens et de la proximité sémantique entre concepts. Ce modèle est alors exploité pour propager l'étiquetage manuel d'un petit nombre d'entités nommées (EN : unités lexicales qui se référent habituellement à des personnes, des lieux, des organisations...) à d'autres EN non étiquetées observées dans un flux pendant la construction incrémentale du treillis. Les concepts de ce treillis sont enrichis avec les étiquettes d'EN observées dans un corpus d'apprentissage. Ces concepts et leurs étiquettes attachées sont respectivement employés pour l'annotation non supervisée et la classification supervisée des EN d'un corpus de test.

Page generated in 0.0625 seconds