• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Repérage automatique de séquences figées / Automatic extraction of fixed sequences

Joseph, Aurélie 18 December 2013 (has links)
Cette thèse vise à proposer un modèle théorique et une méthodologie permettant d’effectuer des analyses linguistiques fines des textes, permettant de rendre compte des éléments utiles des courriers à savoir : le motif/objet du courrier, l’émetteur et le destinataire du courrier. L’approche doit permettre un traitement efficace des verrous technologiques du TAL, et spécialement le problème du figement et plus particulièrement des séquences verbales figées. Il s’agit d’un phénomène extrêmement fréquent dans toutes les langues, présenté comme une des sources de difficultés majeures pour la recherche d’information et la veille dans les documents dits non structurés. La thèse comprendra une partie applicative démontrant l’efficacité de la théorie proposee, et aboutissant à un système de traitement automatique des courriers. Par ailleurs, la démarche méthodologique aboutissant aux ressources linguistiques doit permettre de définir un outil d’apprentissage automatique de ces ressources qui pourra ainsi être appliqué à de nouveaux types de documents. / The aim of this thesis is to propose a theoretic model and a methodology to make fine linguistic text analysis. That can represent elements useful in mails like: message purposes, message addressee or sender. This approach must permit an efficient processing of NLP technology issues, especially in the fixity problematic and mainly on fixed verbal sequences. This phenomenon is extremely recurrent in all languages. It is introduced as a main issue for information retrieval in unstructured documents. This thesis will include an applicative part showing the relevance of the proposed theory and to make a system to automatically process mails. Moreover, the methodology which creating linguistically resources must permit to define an automatic learning resources tool which can be applied on new kind of documents.
2

Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits

Montreuil, Florent 28 June 2011 (has links) (PDF)
Le traitement automatique des documents écrits est un domaine très actif dans le monde industriel. En effet, devant la masse de documents écrits à traiter, l'analyse automatique devient une nécessité mais les performances des systèmes actuels sont très variables en fonction des types de documents traités. Par exemple, le traitement des documents manuscrits non contraints reste une problématique non encore résolue à ce jour car il existe toujours deux verrous technologiques qui freinent la mise en place de systèmes fiables de traitement automatique des documents manuscrits : - la première concerne la reconnaissance des écritures manuscrites ; - la seconde est liée à l'existence d'une grande variabilité de structures de documents. Cette thèse porte sur la résolution de ce deuxième verrou dans le cas de documents manuscrits non contraints. Pour cela, nous avons développé des méthodes fiables et robustes d'analyse de structures de documents basées sur l'utilisation de Champs Aléatoires Conditionnels. Le choix des Champs Aléatoires Conditionnels est motivé par la capacité de ces modèles graphiques à prendre en compte les relations entre les différentes entités du document (mots, phrases, blocs, ...) et à intégrer des connaissances contextuelles. De plus, l'utilisation d'une modélisation probabiliste douée d'apprentissage permet de s'affranchir de la variabilité inhérente des documents à traiter. L'originalité de la thèse porte également sur la proposition d'une approche hiérarchique permettant l'extraction conjointe des structures physique (segmentation du document en blocs, lignes, ...) et logique (interprétation fonctionnelle de la structure physique) en combinant des caractéristiques physiques de bas niveau (position, représentation graphique, ...) et logiques de haut niveau (détection de mots clés). Les expérimentations effectuées sur des courriers manuscrits montrent que le modèle proposé représente une solution intéressante de par son caractère discriminant et sa capacité naturelle à intégrer et à contextualiser des caractéristiques de différentes natures.

Page generated in 0.0374 seconds