Global ETD Search

1	Acquisition de grammaire catégorielle de dépendances de grande envergure Alfared, Ramadan 18 December 2012 (has links) (PDF) Ce travail est une étude qui s'inscrit dans le cadre de la création d'un lexique complet d'une grammaire catégorielle de dépendance du français (CDG) et s'inscrit aussi dans le cadre de l'analyse mixte stochastique-déterministe des grammaires de dépendances de grande envergure. En particulier, nous élaborons des algorithmes pour améliorer le lexique de base de la CDG du français. Nous résolvons plusieurs problèmes pour l'analyse avec cette grammaire à savoir l'absence de solution proposée par l'analyseur pour certaines phrases. Nous présentons un algorithme proto-déverb qui permet de compléter le lexique de la CDG du français en plaçant les déverbaux dans les classes lexicales qui correspondent à leurs cadres de sous-catégorisation déduits de ceux des verbes correspondants. Le second problème auquel nous nous intéressons provient du fait que l'analyseur de CDG donne actuellement toutes les solutions compatibles avec une CDG. Nous proposons une approche de filtrage qui consiste à utiliser un étiqueteur morphosyntaxique pour choisir les classes grammaticales les plus probables des unités lexicales. Notre approche permet de réduire de manière significative le taux d'ambiguïtés fallacieuses de la CDG. Notre étude conclue que la qualité de cette solution est basée principalement sur la compatibilité entre les unités lexicales qui sont définies par les étiqueteurs morpho-syntaxiques et la grammaire de dépendance. analyses en dépendances grammaires de dépendances unités lexicales étiqueteur morpho-syntaxique déverbaux cadres de sous-catégorisation
2	Acquisition automatique de traductions d'unités lexicales complexes à partir du Web Léon, Stéphanie 08 December 2008 (has links) (PDF) Les systèmes de traduction automatique ont connu des progrès récents avec la prise en compte d'expressions complexes telles que " vol à main armée " ("armed robbery" en anglais). Cependant, dès que l'on sort de ces listes d'expressions figées, on retombe rapidement dans des erreurs de traduction. Par exemple, le traducteur Systran traduit " caisse centrale " par "central case" au lieu de "central fund". Cette expression aurait pu être automatiquement traduite grâce au Web. Le but de cette étude est la création d'une base bilingue français-anglais de traduction automatique d'unités lexicales complexes à partir du Web. Nous axerons notre étude sur les difficultés de traduction telles que la polysémie ou le caractère idiomatique et proposerons des traitements adaptés. Au-delà des aspects linguistiques et technologiques, nous analyserons les utilisations du Web dans le domaine de la linguistique. [INFO] Computer Science [INFO] Informatique Traduction automatique Acquisition automatique Unités lexicales complexes Désambiguïsation lexicale World Wide Web Corpus Collocations Recherche d'informations Compositionnalité Terminologie
3	Des modèles de langage pour la reconnaissance de l'écriture manuscrite / Language Modelling for Handwriting Recognition Swaileh, Wassim 04 October 2017 (has links) Cette thèse porte sur le développement d'une chaîne de traitement complète pour réaliser des tâches de reconnaissance d'écriture manuscrite non contrainte. Trois difficultés majeures sont à résoudre: l'étape du prétraitement, l'étape de la modélisation optique et l'étape de la modélisation du langage. Au stade des prétraitements il faut extraire correctement les lignes de texte à partir de l'image du document. Une méthode de segmentation itérative en lignes utilisant des filtres orientables a été développée à cette fin. La difficulté dans l’étape de la modélisation optique vient de la diversité stylistique des scripts d'écriture manuscrite. Les modèles optiques statistiques développés sont des modèles de Markov cachés (HMM-GMM) et les modèles de réseaux de neurones récurrents (BLSTM-CTC). Les réseaux récurrents permettent d’atteindre les performances de l’état de l’art sur les deux bases de référence RIMES (pour le Français) et IAM (pour l’anglais). L'étape de modélisation du langage implique l'intégration d’un lexique et d’un modèle de langage statistique afin de rechercher parmi les hypothèses proposées par le modèle optique, la séquence de mots (phrase) la plus probable du point de vue linguistique. La difficulté à ce stade est liée à l’obtention d’un modèle de couverture lexicale optimale avec un minimum de mots hors vocabulaire (OOV). Pour cela nous introduisons une modélisation en sous-unités lexicales composée soit de syllabes soit de multigrammes. Ces modèles couvrent efficacement une partie importante des mots hors vocabulaire. Les performances du système de reconnaissance avec les unités sous-lexicales dépassent les performances des systèmes de reconnaissance traditionnelles de mots ou de caractères en présence d’un fort taux de mots hors lexique. Elles sont équivalentes aux modèles traditionnels en présence d’un faible taux de mots hors lexique. Grâce à la taille compacte du modèle de langage reposant sur des unités sous-lexicales, un système de reconnaissance multilingue unifié a été réalisé. Le système multilingue unifié améliore les performances de reconnaissance par rapport aux systèmes spécialisés dans chaque langue, notamment lorsque le modèle optique unifié est utilisé. / This thesis is about the design of a complete processing chain dedicated to unconstrained handwriting recognition. Three main difficulties are adressed: pre-processing, optical modeling and language modeling. The pre-processing stage is related to extracting properly the text lines to be recognized from the document image. An iterative text line segmentation method using oriented steerable filters was developed for this purpose. The difficulty in the optical modeling stage lies in style diversity of the handwriting scripts. Statistical optical models are traditionally used to tackle this problem such as Hidden Markov models (HMM-GMM) and more recently recurrent neural networks (BLSTM-CTC). Using BLSTM we achieve state of the art performance on the RIMES (for French) and IAM (for English) datasets. The language modeling stage implies the integration of a lexicon and a statistical language model to the recognition processing chain in order to constrain the recognition hypotheses to the most probable sequence of words (sentence) from the language point of view. The difficulty at this stage is related to the finding the optimal vocabulary with minimum Out-Of-Vocabulary words rate (OOV). Enhanced language modeling approaches has been introduced by using sub-lexical units made of syllables or multigrams. The sub-lexical units cover an important portion of the OOV words. Then the language coverage depends on the domain of the language model training corpus, thus the need to train the language model with in domain data. The recognition system performance with the sub-lexical units outperformes the traditional recognition systems that use words or characters language models, in case of high OOV rates. Otherwise equivalent performances are obtained with a compact sub-lexical language model. Thanks to the compact lexicon size of the sub-lexical units, a unified multilingual recognition system has been designed. The unified system performance have been evaluated on the RIMES and IAM datasets. The unified multilingual system shows enhanced recognition performance over the specialized systems, especially when a unified optical model is used. Dir. physique Reconnaissance d'écriture manuscrite Réseaux de neurones récurrents Modèles de langage Sous-unités lexicales Syllabes Multigrammes Handwriting recognition Pattern recognition Language modelling Sub-lexical units Syllables Multigrams 006.4
4	Enseignement/apprentissage du vocabulaire du français à titre de spécialité en milieu universitaire chinois : au cours de français élémentaire / French major vocabulary teaching and learning in higher education in China : fundamental French course Li, Shengyun 20 December 2015 (has links) Le vocabulaire tient toujours une place importante dans l’enseignement supérieur du français à titre de spécialité en Chine. Afin de connaître les apports des recherches scientifiques dans le domaine de l’enseignement/apprentissage du vocabulaire d’une langue étrangère et de trouver les assises théoriques pour notre travail, nous avons dressé un état des lieux en privilégiant des données essentielles sur l’aspect combinatoire des mots. Pour savoir quels seraient des acquis et problèmes relatifs au vocabulaire dans l’enseignement du français à titre de spécialité universitaire en Chine, nous avons analysé la pratique de l’enseignement du vocabulaire de deux professeurs chinois de français dans leurs cours de français élémentaire dont nous avons enregistré plusieurs séances. Les analyses montrent que l’importance particulière attachée à l’étude structurale des mots contribue à la forte compétence lexicale en compréhension orale et écrite des étudiants chinois de français et que la dominance de la méthode de traduction et la négligence des collocations ou des unités lexicales préfabriquées sont deux causes principales des difficultés que les étudiants chinois de français ont à mobiliser leurs ressources lexicales pour s’exprimer de manière appropriée. Pour renforcer la compétence lexicale en production des étudiants chinois de français, nous proposons donc, dans l’enseignement du vocabulaire au cours de français élémentaire, d’adopter une notion large de vocabulaire et de sensibiliser nos étudiants à la notion de collocation et aux unités lexicales préfabriquées. / Vocabulary, which is an essential component of a language, holds an important place in the higher education of French major in China. Within the framework of the lexicology, foreign language vocabulary learning / acquisition and foreign language vocabulary didactics, this research is particularly interested in vocabulary teaching in fundamental French course in higher education in China.Firstly, we summarize the scientific researches in the field of foreign language vocabulary teaching and learning, especially on combinatorial aspect of words. Secondly, by analysing French vocabulary teaching practice of two Chinese professors in their fundamental French course, we find that teacher’s emphasis on the structural study of words develops lexical competence in comprehension of the Chinese students of French major. Meanwhile, we also realize that the dominance of translation method, and the negligence of collocations and lexical prefabricated items, result in difficulties of the Chinese students in mobilizing their lexical resources to express freely and precisely. As a solution, to strengten lexical competence in production of the Chinese students, we suggest a wide notion of vocabulary should be applied in vocabulary teaching, and sensitivity to the notion of collocation and lexical prefabricated items should be improved. / 词汇是语言的主要组成成分之一。在中国高等学校法语本科专业法语教学中, 词汇历来占据重要地位。本论文在词汇学、二语词汇习得以及外语词汇教学的理论框架下, 研究中国大学法语本科专业基础阶段基础法语课上词汇教学的现状和问题。论文首先综述了二语词汇习得和词汇教学理论研究现状以及成果, 着重强调词项搭配方面的分析 ; 然后, 论文对收集到的两名大学基础法语课教师的课堂教学实践数据进行分析, 阐明中国大学法语专业基础法语课词汇教学拥有的经验和存在的问题, 分析指出教师注重词汇结构性学习, 有利于丰富学生的词汇量, 提高学生的阅读能力, 但过于注重翻译法, 忽视词项搭配和预制语块, 很可能会导致学生法语产出词汇能力相对薄弱, 用法语表达时的正确性和流利性都有待改善。因此, 论文最后建议在基础法语课的词汇教学中, 教师应采取一种广义的词汇概念, 加强学生词汇搭配和预制语块的意识, 从而提高法语表达能力。 Cours de français élémentaire Collocation Unités lexicales préfabriquées Vocabulary teaching and learning Fundamental French course Collocation Lexical prefabricated items 基础法语课词汇教学词项搭配预制语块

1

Page generated in 0.0815 seconds