Spelling suggestions: "subject:"traitement dde corpus"" "subject:"traitement dee corpus""
1 |
Apprentissage statistique pour l'extraction de concepts à partir de textes : application au filtrage d'informations textuellesTurenne, Nicolas 24 November 2000 (has links) (PDF)
Cette thèse présente un modèle de construction automatique et approximatif de la représentation du sens d'un texte. On adapte des techniques de documentation automatique à des bases documentaires non indexées. Les techniques classiques reposent sur une indexation vectorielle. Chaque document est représenté par un descripteur, on définit une distance entre ces descripteurs. L'accès aux documents pertinents est basé sur des calculs de proximité entre ces descripteurs. Une structuration du domaine, couvert par des documents, est obtenue par une classification (en anglais « clustering ») faisant apparaître des thèmes sémantiques. Il faut améliorer les techniques en leur permettant de traiter les documents non indexés, en améliorant les résultats par une adaptation de connaissances linguistiques et une analyse des relations que marquent les cooccurrences entre termes. La quantité grandissante d'informations électroniques permet de constituer des échantillons de données variés et significatifs. Les techniques pour décrire les relations entre termes sont issues de méthodes mathématiques usuellement appliquées aux données structurées non textuelles. Le couplage de connaissances propres aux données avec une méthodologie adaptée aux données textuelles devrait apporter une amélioration des résultats. Nous tentons de justifier : d'une part l'utilisation de mécanismes linguistiques réduisant les biais d'une statisque descriptive des occurrences d'un terme, d'autre part l'utilisation d'une méthode basée sur les graphes dont les motifs permettraient de récupérer les relations conceptuelles entre termes. Dans un troisième temps nous facilitons l'interprétation des résultats émanant de traitements automatiques par la qualification consensuelle du thème représenté par une classe. L'interprétation de classes reste difficile, due aux multiples points de vue qu'un lecteur peut se faire des associations entre termes. Des classes de meilleure qualité facilitent l'interprétation, assistée par un théssaurus, que l'on peut attribuer à la structuration conceptuelle des termes d'un domaine. Le développement d'Internet renforce l'échange de documents électroniques entre les acteurs de différents sites. Le développement de systèmes logiciels d'échanges de documents appelés « workflow » dans les intranets d'entreprise augmente la fluidité des documents entre individus et entre services. Un système qui permet d'apprendre automatiquement des profils d'utilisateur et d'exploiter ces connaissances pour distribuer l'information semble incontournable. Nous essayons de caractériser un centre d'intérêt par des classes de termes.
|
2 |
Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantiqueChaumartin, François-Régis 25 September 2012 (has links) (PDF)
Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de " rendre calculable " du texte tout-venant : avis de consommateurs, textes encyclopédiques, documents RH, articles de presse... Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate-forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle.
|
3 |
Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois. / Tools and environments for incremental improvement, contributive post-editing and continuous evaluation of MT systems. Application to French-Chinese MT.Wang, Lingxiao 14 December 2015 (has links)
La thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA. / The thesis, conducted as part of a CIFRE grant, and extending one of the aspects of the ANR project Traouiero, first addresses the production, extension and improvement of multilingual corpora by machine translation (MT) and contributory post-editing (PE). Functional and technical improvements have been made to the SECTra and iMAG software produced in previous PhD theses (P.C. Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of the structure of a multilingual, annotated and multi-media corpus that may contain usual documents as well as pseudo-documents (such as Web pages) and meta-segments. This part has been validated by the creation of good French-Chinese bilingual corpora, one of them resulting from the first application to literary translation (a Jules Verne novel).A second part, initially motivated by an industrial need, has consisted in building MT systems of Moses type, specialized to sub-languages, for french↔chinese, and to study how to improve them in the context of a continuous use with the possibility of PE. As part of an internal project on the LIG website and of a project (TABE-FC) in cooperation with Xiamen University, it has been possible to demonstrate the value of incremental learning in statistical MT, under certain conditions, through an experiment that spread over the whole thesis.The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems.
|
Page generated in 0.117 seconds