Global ETD Search

51	Traduction automatique statistique et adaptation à un domaine spécialisé / Domain Adaptation for Statistical Machine Translation Rubino, Raphaël 30 November 2011 (has links) Nous avons observé depuis plusieurs années l’émergence des approches statistiques pour la traduction automatique. Cependant, l’efficacité des modèles construits est soumise aux variabilités inhérentes au langage naturel. Des études ont montré la présence de vocabulaires spécifique et général composant les corpus de textes de domaines spécialisés. Cette particularité peut être prise en charge par des ressources terminologiques comme les lexiques bilingues.Toutefois, nous pensons que si le vocabulaire est différent entre des textes spécialisés ou génériques, le contenu sémantique et la structure syntaxique peuvent aussi varier. Dans nos travaux,nous considérons la tâche d’adaptation aux domaines spécialisés pour la traduction automatique statistique selon deux axes majeurs : l’acquisition de lexiques bilingues et l’édition a posteriori de traductions issues de systèmes automatiques. Nous évaluons l’efficacité des approches proposées dans un contexte spécialisé : le domaine médical. Nos résultats sont comparés aux travaux précédents concernant cette tâche. De manière générale, la qualité des traductions issues de systèmes automatiques pour le domaine médical est améliorée par nos propositions. Des évaluations en oracle tendent à montrer qu’il existe une marge de progression importante / These last years have seen the development of statistical approaches for machine translation. Nevertheless, the intrinsic variations of the natural language act upon the quality of statistical models. Studies have shown that in-domain corpora containwords that can occur in out-of-domain corpora (common words), but also contain domain specific words. This particularity can be handled by terminological resources like bilingual lexicons. However, if the vocabulary differs between out and in-domain data, the syntactic and semantic content may also vary. In our work, we consider the task of domain adaptation for statistical machine translation through two majoraxes : bilingual lexicon acquisition and post-edition of machine translation outputs.We evaluate our approaches on the medical domain. The quality of automatic translations in the medical domain are improved and the results are compared to other works in this field. Oracle evaluations tend to show that further gains are still possible Traduction automatique statistique Domaine spécialisé Post-édition Lexique bilingue Terminologie Statistical machine translation Specific domain Post-edition Bilingual lexicon Terminology
52	Élaboration d'un dictionnaire électronique de berbère avec annotations étymologiques / Development of an electronic dictionary of Berber with etymological annotations Kessai, Fodil 19 December 2018 (has links) Le berbère est généralement présenté comme un ensemble de dialectes, distincts, avec des frontières plus ou moins hermétiques, qui, le plus souvent, sont étudiés et enseignés de façon clivée voire exclusive. Cette atomisation et cette pratique différenciative occultent l’unité structurale (grammaire et fonds lexical communs) qui forme cette langue commune à laquelle référent tous ces dialectes et n’en donnent qu’une vue fragmentaire.Le domaine de la lexicographie ne déroge pas à cet usage. Chaque dictionnaire est consacré à un seul dialecte avec une graphie et une orthographe propres, et c’est au plan du lexique notamment que le berbère apparaît le plus disparate. Pour aller au-delà du particularisme et appréhender la langue dans sa globalité, nous explorons, à travers le matériau lexical, un panel de dialectes (17) représentant toute la diversité berbère. Nous établissons, par approche comparative, des passerelles inter-dialectales puis rassemblons les éléments communs du lexique recueillis à ce jour. Nous relevons ensuite les changements phonétiques, phonologiques, morphologiques et sémantiques observés dans les unités lexicales afin de mieux comprendre l'évolution du système lexical.Pour ce faire, nous élaborons un E-dictionnaire bilingue (berbère <-> français) qui permet, en tant qu’outil didactique, d’étudier la langue berbère aussi bien dans son unité que dans sa diversité dialectale, et en tant que moyen heuristique de recherche et d'analyse, d’étudier l’étymologie et les faits linguistiques en synchronie et en diachronie.Enfin, nous proposons un outil statistique (le « taux d’homogénéité ») qui mesure la proximité entre les lexiques (ou dialectes). / The Berber language is usually presented as a set of distinct dialects, with more or less hermetic boundaries, which are, most often, studied and taught in a cleaved or even exclusive way.This atomization and this differentiating practice obscure the structural unity (grammar and lexical bases) which founds that common language to which all these dialects refer and give only a fragmentary view of it. The field of lexicography does not depart from this usage. Each dictionary is devoted to a single dialect with a specific spelling, and it is in the lexicon in particular that Berber appears the most disparate.To go beyond particularism and grasp the language as a whole, we explore, through the lexical material, a panel of dialects (17) representing all of Berber diversity. We establish, by comparative approach, inter-dialectal bridges and then gather the common elements of the lexicon collected to date. We then note the phonetic, phonological, morphological and semantic changes observed in lexical units in order to better understand the evolution of the lexical system.To do this, we develop a bilingual E-dictionary (Berber <-> French) which allows - as a didactic tool - for the studying of the Berber language in its unity as well as in its dialectal diversity and - as a heuristic means of research and analysis - for etymology and linguistics facts in synchrony and diachrony.Finally, we introduce a statistical tool (the “homogeneity rate”) that measures the proximity between lexicons (or dialects). Berbère Comparatisme Diachronie Dialecte Dictionnaire Étymologie Lexique Morphologie Sémantique Variation Berber Comparatism Diachronic Dialect Dictionary Etymology Lexicon Morphology Semantics Variation
53	Le clic en français parlé dans une perspective linguitique et interculturelle franco-japonaise / The click in spoken french from a linguistic and franco-japanese intercultural perspective Inoue-Morita, Misato 28 May 2018 (has links) Le clic dans le discours français spontané n’a pas encore fait l’objet de recherches détaillées. Il peut représenter pour certains apprenants en FLE un obstacle dans leur communication avec des francophones. Les fonctions et les usages du clic sont analysés d’un point de vue linguistique en recourant aux méthodes de la phonétique expérimentale, de la sociolinguistique et de la comparaison diachronique appliquées au corpus ESLO. De plus, en vue de caractériser les différences de perception,nous avons réalisé des enquêtes interculturelles franco-japonaises. Cette recherche montre que le clic en français peut être bilabial, dental ou apico-alvéolaire. Il apparaît à la jonction de deux segments en cooccurrence avec des fillers, des ligateurs(Morel et Danon-Boileau 1998) et des pauses courtes. Il est commun à tous les francophones depuis au moins une quarantaine d’années. Néanmoins, sa fréquence dépend du contexte et il existe une forte variation interindividuelle. On a proposé une distribution du clic selon qu’il assure une « Fonction réflexive », l’« Organisation du discours conditionnée parla syntaxe » ou une « Fonction conative ». Il est la plus phonétique des conduites co-gestuelles, ou le moins phonétique des sons du langage parlé. Nous le définissons comme « péri-lexical » : une unité de segmentation qui n’est ni phonologique ni lexicale mais qui est susceptible de recevoir une interprétation. Ce son est surtout perçu par les apprenants japonais ayant un filtre affectif élevé, en particulier ceux qui manquent de confiance en eux dans leurs échanges en français. / The click consonant in French spontaneous discourse has never been researched in depth, but students of the French language can find this phenomen on quite daunting when communicating with native French speakers. This PhD thesis will provide a linguistic analysis of the functions and usages of the click, through the use of the ESLO (Enquête Sociolinguistique à Orléans: Socio-Linguistic Survey in Orléans) corpus as well as experimental phonetics, sociolinguistics and diachronic comparison methods. Intercultural surveys amongst French and Japanese candidates were also conducted in order to define differences inperception.This research will show that the click can be bilabial, dental or apico-alveolar. It occurs at the junction between two segments, and accompanies fillers, ligateurs (Morel and Danon-Boileau 1998) and brief pauses.It appears to be common to all native French speakers since at least forty years. Nevertheless, its frequency depends on contexts, and variations can be noted between individuals. It can perform three main roles: reflexive function, discourse organization conditioned by syntax or conative function.It is the most phonetic phenomenon in gestural behavior and the least phonetic in the spoken language. We define it as a perilexical element: a segmentation unit which is neither phonological nor lexical, but which is open to interpretation.This sound is perceived both by Japanese students of the French language who possess high affective filters, and by those who lack self-esteem when communicating in French. Français parlé Clic Corpus eslo FLE Péri-Lexique Spoken french Clik Corpus eslo French as a foreign language Perilexicon
54	Normalisation polynomique d'une langue fortement dialectisée et fragmentée : l'aménagement lexical du berbère / Polynomic normalization of a language highly dialectalized and fragmented : the lexical planning of berber Touati, Ramdane 27 November 2018 (has links) L’objectif de cette recherche est d’étudier, dans une approche critique et interventionniste, l’aménagement lexical du berbère. L’étude critique des actions glottopolitiques, de la fragmentation dialectologique ainsi que la réflexion sur la revitalisation et la normalisation linguistique ont brossé l’essentiel de la berbérophonie. Cette thèse est organisée en trois parties. La première partie présente une étude critique des actions glottopolitiques concernant le berbère et la sociolinguistique étudiant ces questions. La deuxième partie explore la diversité linguistique et la configuration dialectale de cette langue. Dans une perspective de revitalisation et de normalisation linguistique, nous avons développé une réflexion sur l’adoption du concept de la langue polynomique au berbère, en nous basant en premier lieu sur sa situation dialectologique et sa vitalité. La dernière partie met en pratique les réflexions théoriques, présentées dans les deux parties précédentes, dans le domaine de l’aménagement lexical. C’est une illustration de l’aménagement du vocabulaire commun et spécialisé. Elle comprend également une réflexion sur l’aménagement terminologique, la normalisation linguistique et leur mise en pratique dans le cadre d’un processus d’aménagement à la fois polynomique et convergent. En conclusion, nous suggérons, pour la normalisation du berbère, un aménagement polynomique permettant à la fois d’intégrer la variation dialectologique et d’engager un processus de convergence. Celui-ci doit nécessairement s’appuyer sur l’étude de la dialectalisation de cette langue ainsi que sur la vitalité de ses différents groupes. / The objective of this research is to study, in a critical and interventionist approach, the lexical planning of Berber. Critical studies of glottopolitical actions and dialectological fragmentation, as well as reflections on revitalization and linguistic normalization, have brushed the great majority of the Berber-speaking world. This dissertation is organized into three parts. The first part presents a critical study of glottopolitical actions concerning Berber and sociolinguistics studying these questions. The objective is to establish an inventory of theoretical research and the implementation of glottopolitical actions in the Berber area. The second part explores the linguistic diversity and dialectal configuration of Berber. In a perspective of revitalization and linguistic normalization, we have developed a reflection on the adoption of the concept of the polynomic language to Berber, basing ourselves first and primarily on its dialectological situation and its vitality. The last part puts into practice the theoretical reflections presented in the two preceding parts in the field of lexical planning. This is an illustration of the planning of common and specialized vocabulary. It also includes a reflection on terminological planning, linguistic standardization and their application in a polynomic and convergent planning process. In conclusion, we suggest, for the “normalization” of Berber, a polynomic planning allowing both to integrate the dialectological variation and to initiate a process of convergence. This must necessarily be based on the study of the dialectalization of this language as well as on the vitality of its different groups. Berbère Sociolinguistique appliquée Aménagement linguistique Normalisation linguistique Polynomie Dialectalisation Lexique Berber Applied sociolinguistics Linguistic planning Linguistic normalization Polynomic Dialectalization Lexicon
55	Usages du lexique verbal chez les collégiens camerounais : d’un corpus oral d’élèves à une didactique de l’expression dans la formation des enseignants / The use of verbal lexical by camerounian secondary school students : from an oral corpus of students to didactics in trainning of teachers Onguene Mete, Tony Noël 15 October 2015 (has links) Notre thèse s’inscrit dans le domaine de l’acquisition du Français Langue de Scolarisation (FLS) et Langue Seconde (L2) en plurilinguisme. Elle s’intéresse aux usages du lexique des verbes chez les collégiens francophones, pour lesquels nous esquissons des solutions à l’enseignement-apprentissage de ce lexique. L’objectif est de comprendre quels sont les verbes mobilisés par les collégiens de L2 pour exprimer des procès à l’oral. Nous nous appuyons sur un corpus oral collecté auprès des pré-adolescents et adolescents scolarisés dans la ville Camerounaise de Yaoundé. Les données empiriques ont été réunies, traitées, transcrites et codées conformément au protocole de traitement CHILDES (Child Language Data Exchange Système). Ainsi, la commande FREQ de CLAN a mécaniquement fourni des inventaires complets de verbes avec leur fréquence respective que nous avons classé par familles sémantiques après lemmatisation. Cette procédure nous permet de dégager le potentiel communicatif le plus fondamental des jeunes que devront corriger, accroitre ou organiser les cours de vocabulaire. Nos analyses sont basées sur l’étape de la formulation, sur le niveau conceptuel et discursif. Nous interrogeons les facteurs qui influencent l’acquisition du lexique verbal. / We are pondering over the acquisition of French as the language of education and as a second language in a multilingual situation. Our research study centers on the uses of verbs by French-speaking students. We propose some solutions for the teaching-learning of this vocabulary. The objective is to understand the verbs mainly used by secondary school pupils learning and speaking French as a second language. We have collected our corpus of analysis from pre-adolescents and adolescents in Yaoundé, Cameroon. These data were cross-checked, transcribed, processed, and coded in conformity with the processing protocol of CHILDES,( Child Language Data Exchange System). Hence the FREG command mechanically provided us with an exhaustive list of the verbs and the frequency at which they are used. These verbs were grouped according to their semantic contents after LEMMATIZATION (using the headword technique). This method enabled us to dig out the most fundamental communicative potential of the youngsters who will have to improve on, increase or organize vocabulary classes. Our analyses are concerned with the formulation phases, the conceptual and discursive levels. We are questioning the factors which influence the acquisition of verbal terms. Lexique des verbes Acquisition du FLS Production orale Enseignement du vocabulaire Verbal terms Oral rendition Teaching of vocabulary 410
56	Procédé de reconnaissance syntaxique des caractères alphanumériques manuscrits‎ : réalisation micro-informatique Kinder, Alain 20 January 1981 (has links) (PDF) . statistique stucture texte syntaxe syntaxique lexique phrases caractères typographie dictionnaire traduction automatisme automatique tests classifieur
57	Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL Fabre, Cécile 29 November 2010 (has links) (PDF) Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières. linguistique de corpus analyse syntaxique automatique complémentation verbale acquisition de relations sémantiques lexique et discours
58	Apprentissage sur corpus de relations lexicales sémantiques - La linguistique et l'apprentissage au service d'applications du traitement automatique des langues Sébillot, Pascale 13 December 2002 (has links) (PDF) Le document présente une synthèse des recherches que nous avons menées sur le thème de l'acquisition de ressources lexicales à partir de corpus textuels. Plus particulièrement, ces travaux portent sur le développement de méthodes d'apprentissage automatique de relations lexicales sémantiques, ayant pour objectif d'enrichir la description de mots dans une double optique de désambiguïsation et de traitement de variantes sémantiques intra- et intercatégorielles, et susceptibles d'être utilisées au sein de différentes applications (recherche d'information, filtrage...). Nos études se caractérisent particulièrement par le fort couplage que nous recherchons entre les méthodes d'apprentissage développées et des théories linguistiques. Ces théories nous servent de cadres pour déterminer les relations lexicales pertinentes, valider ce qui est acquis, voire mettre au point la méthode d'apprentissage nécessaire à cette acquisition; de plus, les éléments appris doivent être linguistiquement motivés et significatifs. Ainsi, nous décrivons comment, en nous positionnant dans le cadre de la sémantique interprétative de F. Rastier, nous cherchons à apprendre, par des méthodes statistiques (en particulier de classification ascendante hiérarchique), des liens paradigmatiques intracatégoriels - antonymie, synonymie..., mais aussi d'autres liens plus fins de type sémique - à partir de corpus non spécialisés. D'autre part, nous expliquons comment, en contrôlant leur pertinence grâce au formalisme du Lexique génératif de J. Pustejovsky, nous acquérons par de l'apprentissage symbolique de type programmation logique inductive des liens transcatégoriels nomino-verbaux. Parmi les perspectives évoquées en conclusion, nous abordons en particulier les questions soulevées lorsque l'on s'intéresse à l'insertion des relations acquises dans un système de recherche d'information pour reformuler des requêtes, ainsi que celles concernant l'évaluation des apports de ces ressources lexicales. Nous discutons également de la pertinence de l'utilisation de méthodes d'apprentissage explicative pour acquérir des informations en corpus. sémantique lexicale apprentissage artificiel sémantique interprétative lexique génératif
59	Lexicographie et lexicologie historique du français Stumpf, Béatrice 16 September 2009 (has links) (PDF) Thèse sur travaux Le premier volume se divise en deux parties consacrées successivement à la lexicographie diachronique et à la lexicographie synchronique. La première partie relate les différentes étapes de la rédaction des notices Étymologie et Histoire élaborées pour le Trésor de la Langue Française (TLF) avec leurs exigences et leurs difficultés spécifiques et constitue une introduction raisonnée pour l'utilisateur de ce dictionnaire. La seconde, consacrée aux notices rédigées pour le Dictionnaire du Moyen Français (DMF), met l'accent sur les différences entre la lexicographie diachronique et la lexicographie synchronique, cette dernière, grâce au support de l'informatique, étant évolutive. Le second volume, constitué essentiellement par les articles du lexique des Pèlerinages de Guillaume de Digulleville est destiné principalement à dégager les faits linguistiques intéressants non attestés ou mal attestés dans les dictionnaires de référence et vise à apporter des données nouvelles ou complémentaires, notamment en ce qui concerne la variation du moyen français. Il contribue à une meilleure interprétation de cette œuvre d'une frappante richesse, composée par un véritable créateur de mots sous la plume duquel abondent les néologismes, archaïsmes et régionalismes normands et picards. Le dernier volume, constitué par la transcription du manuscrit de Paris, BNF, fr. 1818, est né de la nécessité de rédiger un lexique des Pèlerinages de Guillaume de Digulleville sur des assises philologiquement solides, ce que n'aurait pas permis l'édition du XIXème siècle de J. J. Stürzinger, à la fois peu lisible pour le profane et peu fidèle à son manuscrit de base. [SHS] Humanities and Social Sciences lexicographie diachronique lexicographie synchronique lexicologie lexique Guillaume de Digulleville moyen français BNF fr. 1818
60	Caractérisation phonétique et phonologique du syntagme intermédiaire en français : de la production à la perception. Michelas, Amandine 04 July 2011 (has links) (PDF) Le travail présenté ici est sous-tendu par deux observations majeures. Premièrement, la plupart des modèles proposés pour le français s'accordent sur l'existence de deux niveaux de structure prosodique: le syntagme accentuel et le syntagme intonatif. Deuxièmement, bien que l'existence d'un niveau additionnel de structure situé entre ces deux niveaux ait été proposé pour le français, les propriétés phonétiques et phonologiques de ce constituant n'ont pas clairement été définies. Dans cette thèse nous avons fourni des preuves de l'existence du syntagme intermédiaire (ip) à la fois en production et en perception de la parole. Grâce à cinq expérimentations menées dans le cadre de la phonologie de laboratoire, nous avons caractérisé les propriétés phonético-phonologiques de ce constituant et attesté de son rôle dans le traitement perceptif du langage. Les résultats obtenus en production montrent que l'ip est le domaine de l'abaissement des accents mélodiques en français. Sa frontière droite est marquée par un allongement pré-frontière ainsi qu'un accent de syntagme responsable du retour à la ligne de référence du registre. Les analyses menées en perception ont montré que les frontières droites du syntagme accentuel et du syntagme intermédiaire sont utilisées très tôt dans le processus de traitement syntaxique. Les indices phonétiques et phonologiques présents à ces frontières permettent aux auditeurs du français de construire des attentes sur la structure syntaxique des énoncés perçus. Une analyse séparée des différents types d'indices acoustiques a également montré qu'en l'absence de marquage tonal, les indices de durée semblent suffisants dans le but de marquer la frontière de syntagme accentuel. Un marquage conjoint de la frontière droite d'ip par les indices mélodiques et l'allongement pré-frontière semble au contraire nécessaire pour que les auditeurs du français perçoivent et utilisent cette frontière dans le traitement du langage. Découpage prosodique syntagme accentuel syntagme intermédiaire intonation accès au lexique traitement syntaxique phonologie de laboratoire français

Search results