Global ETD Search

1	Mémoires partagées d’alignements sous-phrastiques bilingues / Mémoires partagées d’alignements sous-phrastiques bilingues Segura, Johan 16 November 2012 (has links) Cette thèse s'inscrit dans le cadre du traitement automatique du langage naturel, et traite plus précisément de l'alignement sous-phrastique bilingue classiquement lié à la traduction automatique statistique. Les travaux exposés s'en distinguent en proposant une mécanique évolutive à base d'exemples initiée par des annotateurs non-experts via une interface adaptée. L'approche est principalement motivée par la recherche d'une expressivité comparable à celle observée dans les alignements manuels. Une partie importante de ce travail consiste à définir un cadre formel sous-tendant une architecture originale à base d'exemples alignés. Plusieurs mémoires d'alignements ont été constituées en tirant parti d'informations provenant d'analyseurs syntaxiques automatiques en plaçant les prérequis technologiques à un niveau raisonnablement peu élevé. Deux nouvelles méthodes d'alignement sont comparées à des références connues via des mesures d'accord classiques et trois distances transformationnelles sont introduites. / This research belongs to the Natural Language Processing (NLP) field and more specifically focuses on topic Sub-sentential Alignment which is closely related to Machine Translation. The originality of this work consists in an example-based approach bootstrapped by the participation of non-expert annotators through an appropriate interface. Seeking for a greater expressivity, such as observed in manual alignments, mainly motivates the whole approach. An important effort has been made to define a formal environment for this original architecture based on aligned examples. Several memories have been created using syntactic informations from parsers' outputs with reasonnable low-tech requirements. A couple of new alignment methods were compared with state-of-the-art measures and three transformational metrics were introduced. Alignement sous-phrastique Golden corpus Mémoire d'exemples Traduction automatique Subsentential alignment Golden corpus Examples memory Machine translation
2	Mémoires partagées d'alignements sous-phrastiques bilingues Segura, Johan 16 November 2012 (has links) (PDF) Cette thèse s'inscrit dans le cadre du traitement automatique du langage naturel, et traite plus précisément de l'alignement sous-phrastique bilingue classiquement lié à la traduction automatique statistique. Les travaux exposés s'en distinguent en proposant un fonctionnement évolutif à base d'exemples initialisé par des annotateurs non-experts via une interface adaptée. L'approche est principalement motivée par la recherche d'une expressivité comparable à celle observée dans les alignements manuels. Une partie importante de ce travail consiste à définir un cadre formel sous-tendant une architecture originale à base d'exemples alignés. Plusieurs mémoires d'alignements ont été constituées en tirant parti d'informations provenant d'analyseurs syntaxiques automatiques, en plaçant les prérequis technologiques à un niveau raisonnablement peu élevé. Deux nouvelles méthodes d'alignement sont comparées à des références connues via des mesures d'accord classiques, et trois distances transformationnelles sont introduites. Alignement sous-phrastique corpus de référence divergence expressivité annotation interface homme-machine
3	Analyse contrastive français-japonais du discours en langue de spécialité - modalité et définition phrastique Nakao, Yukie 02 July 2010 (has links) (PDF) La langue de spécialité (LS) représentative des sciences et des techniques est la langue employée par les spécialistes d'un domaine. Son lexique, ses syntaxes et ses sémantiques sont souvent étudiés, contrairement au discours. Nous nous intéressons aux différents niveaux de spécialisation du discours qui caractérisent les utilisateurs de la LS : spécialistes et non-initiés, reflétés par la modalité et la définition terminologique. Notre analyse se porte sur le discours médical d'un corpus comparable français et japonais, contenant deux types de discours, scientifique et vulgarisé. Une analyse de la modalité permet d'examiner les variations de la spécialisation du point de vue de l'attitude du locuteur. Nous adaptons un modèle élaboré sur le français courant à la LS et le confrontons à la langue japonaise. Nous en tirons une typologie composée de groupes locutifs qui permet de caractériser les modalités dans le corpus. La définition terminologique joue un rôle central, lorsque les utilisateurs de la LS ne partagent pas le même niveau de connaissances. Nous déterminons une nouvelle typologie à partir des définitions dictionnairiques et phrastiques. Pour chaque catégorie, nous listons des marqueurs avant de mener une analyse qualitative et quantitative. Les deux langues et les deux types de discours sont différentiés au niveau des modalités en fonction de la fréquence et le contenu de celles-ci, et au niveau des définitions selon la distribution des catégories définitoires. Cette typologie pourra être utilisée pour constituer des ressources terminologiques ou mettre à jour des ressources existantes dans le cadre de travaux de veille scientifique. langue de spécialité analyse du discours modalité définition terminologique phrastique corpus multilingue français-japonais
4	Codes linguistiques et alternance de codes chez les immigrants égyptiens en France / Language codes and code switching among the Egyptian immigrants in France El Shafey, Ezzat 21 June 2019 (has links) Cette thèse étudie pour la première fois les pratiques langagières de la communauté grandissante des immigrés égyptiens en France. L’analyse morphosyntaxique a comme cadre la théorie insertionnelle Matrix Language Frame de Myers-Scotton (1993, 1997 et 2000). Nous constatons que les Égyptiens de la première génération recourent à l’alternance codique sans s’en rendre compte ou sans le reconnaître tandis que ceux de la deuxième génération sont conscients des caractéristiques linguistiques nées du contact des langues. De plus, la femme égyptienne, avec son rôle de maintien de l’arabe auprès de ses enfants, trouve sa féminité dans l’apprentissage du français et par conséquent elle joue un rôle important dans la pratique de l’alternance codique au sein de la famille. Les raisons de l’alternance codique chez les Égyptiens sont variées, par exemple : la citation ou le discours rapporté ; la désignation d’un interlocuteur en faisant intégrer à un groupe un interlocuteur tenu à l’écart ; l’humour qui caractérise notamment les Égyptiens de la première génération ; la spontanéité et la précision en optant directement pour le lexème le plus immédiatement disponible, même s’il est dans une langue différente par rapport au reste de la communication. Nos informateurs de la première génération ont recours aux procédés morphologiques pour simplifier l’usage des mots français ayant des sons qui n’existent pas en arabe égyptien ou ceux qui se composent de plus de trois syllabes. Nous exploitons les caractéristiques de ce contact des langues pour aider les élèves égyptiens nouvellement arrivés à réussir leur scolarité et s’intégrer dans la société française via la maîtrise du français. / This thesis analyses for the first time the language practices of the growing community of Egyptian immigrants in France. The morphosyntactical analysis is made in the framework of insertional theory Matrix Language Frame of Myers-Scotton (1993, 1997 and 2000). We find that the Egyptians of the first generation resort to code switching without realizing it or recognizing it while those of second generation are aware of the linguistic characteristics of the language contact. Furthermore, the Egyptian woman, with her role of maintaining Arabic with her children, finds her femininity in learning French and therefore she plays an important role in the practice of code switching within the family. The reasons of the code switching in the Egyptian community are varied, for example, the quotation or the reported speech ; the designation of an interlocutor by integrating into a group an interlocutor kept apart ; the humor that particularly characterizes the Egyptians of the first generation ; the spontaneity and the precision by opting directly for the most immediately available lexeme even if it is in a different language than the rest of the communication. Our informants of the first generation use morphological procedures to simplify the use of French words having sounds that don’t exist in Egyptian Arabic or those that consist of more than three syllables. We use the characteristics of this language contact to help Egyptian students newlly arrived to succeed in their schooling and integrate into the French society through the mastering of French language. Alternance codique Intra-phrastique Myers-Scotton Analyse morphosyntaxique Raisons d'alternance codique Emprunt Calque UPE2A Code switching Intra-Sentential Myers-Scotton Morphosyntactic analysis Reasons of code switching Borrowing Layer
5	Confidence Measures for Alignment and for Machine Translation / Mesures de Confiance pour l’Alignement et pour la Traduction Automatique Xu, Yong 26 September 2016 (has links) En linguistique informatique, la relation entre langues différentes est souventétudiée via des techniques d'alignement automatique. De tels alignements peuvent êtreétablis à plusieurs niveaux structurels. En particulier, les alignements debi-textes aux niveaux phrastiques et sous-phrastiques constituent des sources importantesd'information dans pour diverses applications du Traitement Automatique du Language Naturel (TALN)moderne, la Traduction Automatique étant un exemple proéminent.Cependant, le calcul effectif des alignements de bi-textes peut êtreune tâche compliquée. Les divergences entre les langues sont multiples,de la structure de discours aux constructions morphologiques.Les alignements automatiques contiennent, majoritairement, des erreurs nuisantaux performances des applications.Dans cette situation, deux pistes de recherche émergent. La première est de continuerà améliorer les techniques d'alignement.La deuxième vise à développer des mesures de confiance fiables qui permettent aux applicationsde sélectionner les alignements selon leurs besoins.Les techniques d'alignement et l'estimation de confiance peuvent tous les deuxbénéficier d'alignements manuels.Des alignements manuels peuventjouer un rôle de supervision pour entraîner des modèles, et celuides données d'évaluation. Pourtant, la création des telles données est elle-mêmeune question importante, en particulier au niveau sous-phrastique, où les correspondancesmultilingues peuvent être implicites et difficiles à capturer.Cette thèse étudie des moyens pour acquérir des alignements de bi-textes utiles, aux niveauxphrastiques et sous-phrastiques. Le chapitre 1 fournit une description de nos motivations,la portée et l'organisation du travail, et introduit quelques repères terminologiques et lesprincipales notations.L'état-de-l'art des techniques d'alignement est revu dans la Partie I. Les chapitres 2 et3 décriventles méthodes respectivement pour l'alignement des phrases et des mots.Le chapitre 4 présente les bases de données d'alignement manuel,et discute de la création d'alignements de référence. Le reste de la thèse, la Partie II,présente nos contributions à l'alignement de bi-textes, en étudiant trois aspects.Le chapitre 5 présente notre contribution à la collection d'alignements de référence. Pourl'alignement des phrases, nous collectons les annotations d'un genre spécifiquede textes: les bi-textes littéraires. Nous proposons aussi un schéma d'annotation deconfiance. Pour l'alignement sous-phrastique,nous annotons les liens entre mots isolés avec une nouvelle catégorisation, et concevonsune approche innovante de segmentation itérative pour faciliter l'annotation des liens entre groupes de mots.Toutes les données collectées sont disponibles en ligne.L'amélioration des méthodes d'alignement reste un sujet important de la recherche. Nousprêtons une attention particulière à l'alignement phrastique, qui est souvent le point dedépart de l'alignement de bi-textes. Le chapitre 6 présente notre contribution. En commençantpar évaluer les outils d'alignement d'état-de-l'art et par analyser leurs modèles et résultats,nous proposons deux nouvelles méthodes pour l'alignement phrastique, qui obtiennent desperformances d'état-de-l'art sur un jeu de données difficile.L'autre sujet important d'étude est l'estimation de confiance. Dans le chapitre 7, nousproposons des mesures de confiance pour les alignements phrastique et sous-phrastique.Les expériences montrent que l'estimation de confiance des liens d'alignement reste undéfi remarquable. Il sera très utile de poursuivre cette étude pour renforcer les mesuresde confiance pour l'alignement de bi-textes.Enfin, notons que les contributions apportées dans cette thèse sont employées dans uneapplication réelle: le développement d'une liseuse qui vise à faciliter la lecturedes livres électroniques multilingues. / In computational linguistics, the relation between different languages is often studied through automatic alignment techniques. Such alignments can be established at various structural levels. In particular, sentential and sub-sentential bitext alignments constitute an important source of information in various modern Natural Language Processing (NLP) applications, a prominent one being Machine Translation (MT).Effectively computing bitext alignments, however, can be a challenging task. Discrepancies between languages appear in various ways, from discourse structures to morphological constructions. Automatic alignments would, at least in most cases, contain noise harmful for the performance of application systems which use the alignments. To deal with this situation, two research directions emerge: the first is to keep improving alignment techniques; the second is to develop reliable confidence measures which enable application systems to selectively employ the alignments according to their needs.Both alignment techniques and confidence estimation can benefit from manual alignments. Manual alignments can be used as both supervision examples to train scoring models and as evaluation materials. The creation of such data is, however, an important question in itself, particularly at sub-sentential levels, where cross-lingual correspondences can be only implicit and difficult to capture.This thesis focuses on means to acquire useful sentential and sub-sentential bitext alignments. Chapter 1 provides a non-technical description of the research motivation, scope, organization, and introduces terminologies and notation. State-of-the-art alignment techniques are reviewed in Part I. Chapter 2 and 3 describe state-of-the-art methods for respectively sentence and word alignment. Chapter 4 summarizes existing manual alignments, and discusses issues related to the creation of gold alignment data. The remainder of this thesis, Part II, presents our contributions to bitext alignment, which are concentrated on three sub-tasks.Chapter 5 presents our contribution to gold alignment data collection. For sentence- level alignment, we collect manual annotations for an interesting text genre: literary bitexts, which are very useful for evaluating sentence aligners. We also propose a scheme for sentence alignment confidence annotation. For sub-sentential alignment, we annotate one-to-one word links with a novel 4-way labelling scheme, and design a new approachfor facilitating the collection of many-to-many links. All the collected data is released on-line.Improving alignment methods remains an important research subject. We pay special attention to sentence alignment, which often lies at the beginning of the bitext alignment pipeline. Chapter 6 presents our contributions to this task. Starting by evaluating state-of-the-art aligners and analyzing their models and results, we propose two new sentence alignment methods, which achieve state-of-the-art performance on a difficult dataset.The other important subject that we study is confidence estimation. In Chapter 7, we propose confidence measures for sentential and sub-sentential alignments. Experiments show that confidence estimation of alignment links is a challenging problem, and more works on enhancing the confidence measures will be useful.Finally, note that these contributions have been employed in a real world application: the development of a bilingual reading tool aimed at facilitating the reading in a foreign language. Mesures de confiance Estimation de Confiance Alignement de Bi-textes Alignement Phrastique Alignement de Mots Schème d’Annotation Corpus de Référence Traduction Automatique Confidence Measure Confidence Estimation Bitext Alignment Sentence Alignment Word Alignment Annotation Scheme Reference Corpus Machine Translation

1

Page generated in 0.0599 seconds