Global ETD Search

11	Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens Nguyen, Thi Minh Huyen 10 October 2006 (has links) (PDF) Le travail présenté dans ce mémoire porte sur la construction des outils et ressources linguistiques pour les tâches fondamentales de traitement automatique de la langue vietnamienne, dans un contexte monolingue ainsi que multilingue. Nous présentons pour cette langue encore peu étudiée des solutions possibles aux problèmes d'annotation morpho-syntaxique (définition de descripteurs lexicaux « de référence », construction d'un lexique avec ces descriptions, des outils de segmentation et d'étiquetage lexical), d'analyse syntaxique (première tentative de modélisation de la grammaire vietnamienne en employant le formalisme TAG, cadre de construction de ressources pour l'analyse syntaxique) et d'alignement multilingue (constitution d'un corpus multilingue, développement d'un système d'alignement multilingue). Afin d'assurer la réutilisabilité des travaux réalisés, et dans l'espoir de les voir stimuler le développement du TAL au Vietnam, nous avons apporté une attention particulière aux questions de normalisation de la gestion des ressources linguistiques. Traitement automatique des langues vietnamien analyse morphosyntaxique analyse syntaxique alignement multilingue
12	Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable Ellouze, Nebrasse 03 December 2010 (has links) (PDF) Cette thèse aborde les problématiques liées à la construction de Topic Maps et à leur utilisation pour la recherche d'information dans le cadre défini par le Web sémantique (WS). Le WS a pour objectif de structurer les informations disponibles sur le Web. Pour cela, les ressources doivent être sémantiquement étiquetées par des métadonnées afin de permettre d'optimiser l'accès à ces ressources. Ces métadonnées sont actuellement spécifiées à l'aide des deux standards qui utilisent le langage XML : RDF et les Topic Maps. Un contenu à organiser étant très souvent volumineux et sujet à enrichissement perpétuel, il est pratiquement impossible d'envisager une création et gestion d'une Topic Map, le décrivant, de façon manuelle. Plusieurs travaux de recherche ont concerné la construction de Topic Maps à partir de documents textuels [Ellouze et al. 2008a]. Cependant, aucune d'elles ne permet de traiter un contenu multilingue. De plus, bien que les Topic Maps soient, par définition, orientées utilisation (recherche d'information), peu d'entre elles prennent en compte les requêtes des utilisateurs.Dans le cadre de cette thèse, nous avons donc conçu une approche que nous avons nommée ACTOM pour " Approche de Construction d'une TOpic Map Multilingue ". Cette dernière sert à organiser un contenu multilingue composé de documents textuels. Elle a pour avantage de faciliter la recherche d'information dans ce contenu. Notre approche est incrémentale et évolutive, elle est basée sur un processus automatisé, qui prend en compte des documents multilingues et l'évolution de la Topic Map selon le changement du contenu en entrée et l'usage de la Topic Map. Elle prend comme entrée un référentiel de documents que nous construisons suite à la segmentation thématique et à l'indexation sémantique de ces documents et un thésaurus du domaine pour l'ajout de liens ontologiques. Pour enrichir la Topic Map, nous nous basons sur deux ontologies générales et nous explorons toutes les questions potentielles relatives aux documents sources. Dans ACTOM, en plus des liens d'occurrences reliant un Topic à ses ressources, nous catégorisons les liens en deux catégories: (a) les liens ontologiques et (b) les liens d'usage. Nous proposons également d'étendre le modèle des Topic Maps défini par l'ISO en rajoutant aux caractéristiques d'un Topic des méta-propriétés servant à mesurer la pertinence des Topics plus précisément pour l'évaluation de la qualité et l'élagage dynamique de la Topic Map. [INFO] Computer Science Topic Map Recherche d'information Enrichissement Multilingue Thésaurus Elagage Incrémental Requêtes Fusion Evolution
13	Interopérabilité Sémantique Multi-lingue des Ressources Lexicales en Données Liées Ouvertes / Semantic Interoperability of Multilingual Lexical Resources in Lexical Linked Data Tchechmedjiev, Andon 14 October 2016 (has links) Lorsqu’il s’agit la construction de ressources lexico-sémantiques multilingues, la première chose qui vient à l’esprit, et la nécessité que les ressources à alignées partagent le même format de données et la même représentations (interopérabilité représentationnelle). Avec l’apparition de standard tels que LMF et leur adaptation au web sémantique pour la production de ressources lexico- sémantiques multilingues en tant que données lexicales liées ouvertes (Ontolex), l’interopérabilité représentationnelle n’est plus un verrou majeur. Cependant, en ce qui concerne l’interopérabilité des alignements multilingues, le choix et la construction du pivot interlingue est l’un des obstacles principaux. Pour nombre de ressources (par ex. BabelNet, EuroWordNet), le choix est fait d’utiliser l’Anglais, ou une autre langue comme pivot interlingue. Ce choix mène à une perte de contraste dans les cas où des sens du Pivot ont des lexicalisations différentes dans la même acception dans plusieurs autres langues. L’utilisation d’une pivot à acceptions interlingues, solution proposée il y a déjà plus de 20 ans, pourrait être viable. Néanmoins, leur construction manuelle est trop ardue du fait du manque d’experts parlant assez de langues et leur construction automatique pose problème du fait de l’absence d’une formalisation et d’une caractérisation axiomatique permettant de garantir leur propriétés. Nous proposons dans cette thèse de d’abord formaliser l’architecture à pivot interlingue par acceptions, en développant une axiomatisation garantissant leurs propriétés. Nous proposons ensuite des algorithmes de construction initiale automatique en utilisant les propriétés combinatoires du graphe des alignements bilingues, mais aussi des algorithmes de mise à jour garantissant l’interopérabilité dynamique. Dans un deuxième temps, nous étudions de manière plus pratique sur DBNary, un extraction périodique de Wiktionary dans de nombreuses éditions de langues, afin de cerner les contraintes pratiques à l’application des algorithmes proposés. / When it comes to the construction of multilingual lexico-semantic resources, the first thing that comes to mind is that the resources we want to align, should share the same data model and format (representational interoperability). However, with the emergence of standards such as LMF and their implementation and widespread use for the production of resources as lexical linked data (Ontolex), representational interoperability has ceased to be a major challenge for the production of large-scale multilingual resources. However, as far as the interoperability of sense-level multi-lingual alignments is concerned, a major challenge is the choice of a suitable interlingual pivot. Many resources make the choice of using English senses as the pivot (e.g. BabelNet, EuroWordNet), although this choice leads to a loss of contrast between English senses that are lexicalized with a different words in other languages. The use of acception-based interlingual representations, a solution proposed over 20 years ago, could be viable. However, the manual construction of such language-independent pivot representations is very difficult due to the lack of expert speaking enough languages fluently and algorithms for their automatic constructions have never since materialized, mainly because of the lack of a formal axiomatic characterization that ensures the pre- servation of their correctness properties. In this thesis, we address this issue by first formalizing acception-based interlingual pivot architectures through a set of axiomatic constraints and rules that guarantee their correctness. Then, we propose algorithms for the initial construction and the update (dynamic interoperability) of interlingual acception-based multilingual resources by exploiting the combinatorial properties of pairwise bilingual translation graphs. Secondly, we study the practical considerations of applying our construction algorithms on a tangible resource, DBNary, a resource periodically extracted from Wiktionary in many languages in lexical linked data. Désambigïsation lexicale multilingue Interopérabilité Ressources langagières Multilingual Word Sense Disambiguation Interoperability Multilingual Lexical Resources 004
14	La détection automatique multilingue d’énoncés biaisés dans Wikipédia Aleksandrova, Desislava 11 1900 (has links) Nous proposons une méthode multilingue pour l'extraction de phrases biaisées de Wikipédia, et l'utilisons pour créer des corpus en bulgare, en français et en anglais. En parcourant l'historique des révisions des articles, nous cherchons ceux qui, à un moment donné, avaient été considérés en violation de la politique de neutralité de Wikipédia (et corrigés par la suite). Pour chacun de ces articles, nous récupérons la révision signalée comme biaisée et la révision qui semble avoir corrigé le biais. Ensuite, nous extrayons les phrases qui ont été supprimées ou réécrites dans cette révision. Cette approche permet d'obtenir suffisamment de données même dans le cas de Wikipédias relativement petites, comme celle en bulgare, où de 62 000 articles nous avons extrait 5 000 phrases biaisées. Nous évaluons notre méthode en annotant manuellement 520 phrases pour le bulgare et le français, et 744 pour l'anglais. Nous évaluons le niveau de bruit, ses sources et analysons les formes d’expression de biais. Enfin, nous utilisons les données pour entrainer et évaluer la performance d’algorithmes de classification bien connus afin d’estimer la qualité et le potentiel des corpus. / We propose a multilingual method for the extraction of biased sentences from Wikipedia, and use it to create corpora in Bulgarian, French and English. Sifting through the revision history of the articles that at some point had been considered biased and later corrected, we retrieve the last tagged and the first untagged revisions as the before/after snapshots of what was deemed a violation of Wikipedia’s neutral point of view policy. We extract the sentences that were removed or rewritten in that edit. The approach yields sufficient data even in the case of relatively small Wikipedias, such as the Bulgarian one, where 62k articles produced 5 thousand biased sentences. We evaluate our method by manually annotating 520 sentences for Bulgarian and French, and 744 for English. We assess the level of noise and analyze its sources. Finally, we exploit the data with well-known classification methods to detect biased sentences. Biais Neutralité Classification Multilingue Corpus Wikipédia Bias Neutrality Multilingual Corpora
15	Explorations in Word Embeddings : graph-based word embedding learning and cross-lingual contextual word embedding learning / Explorations de plongements lexicaux : apprentissage de plongements à base de graphes et apprentissage de plongements contextuels multilingues Zhang, Zheng 18 October 2019 (has links) Les plongements lexicaux sont un composant standard des architectures modernes de traitement automatique des langues (TAL). Chaque fois qu'une avancée est obtenue dans l'apprentissage de plongements lexicaux, la grande majorité des tâches de traitement automatique des langues, telles que l'étiquetage morphosyntaxique, la reconnaissance d'entités nommées, la recherche de réponses à des questions, ou l'inférence textuelle, peuvent en bénéficier. Ce travail explore la question de l'amélioration de la qualité de plongements lexicaux monolingues appris par des modèles prédictifs et celle de la mise en correspondance entre langues de plongements lexicaux contextuels créés par des modèles préentraînés de représentation de la langue comme ELMo ou BERT.Pour l'apprentissage de plongements lexicaux monolingues, je prends en compte des informations globales au corpus et génère une distribution de bruit différente pour l'échantillonnage d'exemples négatifs dans word2vec. Dans ce but, je précalcule des statistiques de cooccurrence entre mots avec corpus2graph, un paquet Python en source ouverte orienté vers les applications en TAL : il génère efficacement un graphe de cooccurrence à partir d'un grand corpus, et lui applique des algorithmes de graphes tels que les marches aléatoires. Pour la mise en correspondance translingue de plongements lexicaux, je relie les plongements lexicaux contextuels à des plongements de sens de mots. L'algorithme amélioré de création d'ancres que je propose étend également la portée des algorithmes de mise en correspondance de plongements lexicaux du cas non-contextuel au cas des plongements contextuels. / Word embeddings are a standard component of modern natural language processing architectures. Every time there is a breakthrough in word embedding learning, the vast majority of natural language processing tasks, such as POS-tagging, named entity recognition (NER), question answering, natural language inference, can benefit from it. This work addresses the question of how to improve the quality of monolingual word embeddings learned by prediction-based models and how to map contextual word embeddings generated by pretrained language representation models like ELMo or BERT across different languages.For monolingual word embedding learning, I take into account global, corpus-level information and generate a different noise distribution for negative sampling in word2vec. In this purpose I pre-compute word co-occurrence statistics with corpus2graph, an open-source NLP-application-oriented Python package that I developed: it efficiently generates a word co-occurrence network from a large corpus, and applies to it network algorithms such as random walks. For cross-lingual contextual word embedding mapping, I link contextual word embeddings to word sense embeddings. The improved anchor generation algorithm that I propose also expands the scope of word embedding mapping algorithms from context independent to contextual word embeddings. Vecteurs de mots Traitement automatique des langues Multilingue Word embeddings Natural Language Processing Multilingual
16	Les eurorégions :éclosion de groupes d’intérêt transfrontaliers et transnationaux en Europe. Analyse de la formation discursive multilingue et du scénario sémiotique sur le web. Hermand, Marie-Hélène 30 May 2017 (has links) (PDF) L’objectif de cette recherche est de caractériser les discours qui construisent des acteurs-clés de l’univers politique européen en mouvance :les eurorégions. Des discours (institutionnels, économiques, médiatiques) produits en plusieurs langues au sujet de ces entités transfrontalières encore méconnues ont été recueillis sur le web, principal vecteur de la communication eurorégionale. Ils comportent au moins une occurrence du mot eurorégion ou de ses traductions. À l’aide d’une méthode qualitative adossée aux concepts éprouvés de formation discursive et de scénario sémiotique, la thèse relève les procédés mobilisés pour construire le nouveau référent collectif eurorégional. On montre notamment comment, dans le contexte spécifique de l’intégration européenne, l’appui sur l’histoire souvent fantasmée de la construction européenne encourage la transformation des acteurs frontaliers, déplace le cadre de leur action et propose les eurorégions en modèles d’une nouvelle Europe. En faisant du concept de groupe d’intérêt la pierre angulaire de l’analyse, la thèse met progressivement au jour des procédés de reconnaissance et de visibilité qui permettent aux eurorégions de devenir des entités collectives capables d’agir dans le monde social. La recherche se démarque par sa tentative d’inscrire l’analyse sémiodiscursive dans une perspective pluridisciplinaire :du point de vue méthodologique, le recours à la textométrie permet la modélisation d’un corpus multilingue non parallèle, matériau non encore traité en analyse du discours ;du point de vue de l’analyse, le recours à la science politique réactive le lien immanent entretenu par la notion de dispositif avec des enjeux de pouvoir. Il s’agit d’un travail qui tente d’apporter de nouvelles connaissances dans le champ encore peu exploré de l’analyse de discours d’appareils politico-administratifs transnationaux en lien avec le discours institutionnel européen. / Doctorat en Information et communication / info:eu-repo/semantics/nonPublished Information et communication Communication politique Analyse du discours des médias Intégration et coopération européenne eurorégion groupes d’intérêt analyse du discours multilingue textométrie multilingue sémiotique du web communication européenne communication transfrontalière
17	[en] PUBLISHING ANNOTATED MULTIMEDIA DEEP WEB DATA / [pt] PUBLICANDO ANOTAÇÕES DE DADOS MULTIMÍDIA ADVINDA DA DEEP WEB ALEXANDER ARTURO MERA CARABALLO 27 November 2014 (has links) [pt] Nos últimos anos, temos assistido um enorme crescimento de dados multimídia na Web. Novas tecnologias de menor custo e maior largura de banda têm permitido que a Web evolua para um formato multimídia. No entanto, a falta de ferramentas que podem tornar o formato multimídia disponível na Web nos levou a um conjunto de dados não-pesquisável e não indexável da Web, também conhecido como Deep Web. Desta forma, esta dissertação aborda o problema de como publicar conteúdo de áudio e vídeo na Web. Apresentamos uma ferramenta e uma nova abordagem que facilita a indexação e recuperação dos objetos com a ajuda das maquinas de busca tradicionais. A ferramenta gera automaticamente páginas Web estáticas que descrevem o conteúdo dos objetos e organizar esse conteúdo para facilitar a localização de segmentos do áudio ou vídeo que correspondem às descrições. As páginas Web estáticas podem ser traduzidos para outras línguas para atingir outras populações de usuários. Um processo de anotação também é realizado para incorporar dados legíveis pelas máquinas nas páginas Web. A dissertação também apresenta um experimento completo, publicando objetos de aprendizagem baseados em áudio e vídeo para avaliar a eficácia da abordagem. / [en] In recent years, we witnessed a huge growth of multimedia data on the Web. New lower-cost technologies and greater bandwidth allowed the Web to evolve into a multimedia format. However, the lack of tools that can make multimedia format easily accessible on the Web led us to a non-searchable and non-indexable data of the Web, also known as Deep Web. In line with these observations, this dissertation addresses the problem of how to publish audio and video content on the Web. We present a tool and a novel approach that facilitates the indexing and retrieval of the objects with the help of traditional search engines. The tool automatically generates static Web pages that describe the content of the objects and organize this content to facilitate locating segments of the audio or video which correspond to the descriptions. The static Web pages can be translated to others languages to reach other user populations. An annotation process is also performed to embed machine-readable data into the Web pages. The dissertation also presents an in-depth experiment, publishing learning objects based on audio and video, to assess the efficacy of the technique. [pt] OBJETOS DE APRENDIZAGEM [pt] RECUPERACAO DE CONTEUDO FALADO [pt] RECUPERACAO DE DADOS MULTIMIDIA [pt] NAVEGACAO DE AUDIO
18	Découverte et caractérisation des corpus comparables spécialisés Goeuriot, Lorraine 30 January 2009 (has links) (PDF) Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l'avantage d'être représentatifs des particularités culturelles et linguistiques de chaque langue. Le Web peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d'aide à la construction de corpus comparables. Nous présentons d'abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d'apprentissage automatique. Une analyse stylistique sur un corpus d'apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d'analyse : structurel, modal et lexical. Nous l'utilisons ensuite afin d'apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d'évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d'une chaîne logicielle d'aide à la construction de corpus comparables implémentée sur la plateforme UIMA. corpus comparables langues de spécialité analyse stylistique typologie multilingue types de discours apprentissage automatique
19	Les tribulations d'un nom propre en traduction : étude contrastive du nom propre et de sa traduction à partir d'un corpus aligné de dix langues européennes / Tribulations of a proper name in translation : a contrastive study of proper name and its translation based on an aligned corpus in ten european languages Lecuit, Émeline 30 November 2012 (has links) Les noms propres sont omniprésents et intéressent, depuis des siècles, philosophes et linguistes. Le travail réalisé ici est une étude contrastive des noms propres en traduction, divisée en quatre parties. Les deux premières parties sont théoriques. La première partie traite de la notion de nom propre en linguistique anglaise et en linguistique française. La deuxième partie présente les différents procédés de traduction, illustrés par des exemples sur les noms propres. Les deux parties suivantes sont expérimentales. La troisième partie détaille les différentes étapes de la constitution de notre corpus multilingue parallèle aligné et annoté, composé de onze versions du roman de Jules Verne, Le Tour du Monde en quatre-vingts jours, en dix langues européennes. La quatrième partie expose les résultats obtenus suite à l’observation du comportement des noms propres en traduction.Cette étude contredit souvent l’hypothèse largement répandue de leur intraduisibilité. / Proper names are omnipresent and have long held the interest of both philosophers and linguists.Our work, divided into four parts, presents, from a contrastive perspective, the behaviour of proper names in translation.The first two parts are theoretical. Firstly, we give a general presentation of what is a proper name from the point of view of both English and French linguistics. Secondly, we introduce the different translation processes proper nouns can undergo.The last two parts are experimental. We begin by explaining the different phases in the process of constitution of our aligned and annotated multilingual parallel corpus, composed of eleven versions of Jules Verne’s novel, Le Tour du monde en quatre-vingts jours, in ten European languages. We then present the results obtained from the observation of proper names behaviour in translation.These results often contradict the widespread idea regarding proper names untranslatability. Noms propres Traduction Corpus multilingue parallèle aligné Annotation Alignement Proper names Translation Aligned parallel mutilingual corpus Annotation Alignment
20	Etude de cas sociolinguistique et ethnographique de quatre familles indiennes immigrantes en Europe : pratiques langagières et politiques linguistiques nationales & familiales Haque, Shahzaman 03 July 2012 (has links) (PDF) Ce travail de recherche s'inscrit dans une approche pluridisciplinaire - monographique, ethnographique et sociolinguistique avec une dimension longitudinale. Il tente de décrire de manière approfondie les pratiques langagières familiales de quatre familles indiennes immigrantes installées dans quatre pays européens : la France, la Suède, la Norvège et la Finlande. Cette étude cherche également à cerner les enjeux des politiques linguistiques familiales, domaine dans lequel peu de recherches ont été entreprises et qui, de ce fait, reste à développer. Par ailleurs, les idéologies et attitudes concernant les langues se traduisent dans les décisions prises par les chefs de la famille, les parents, qui privilégient l'apprentissage de telle ou telle langue, pour eux-mêmes et surtout pour les enfants. Au plan macro, la politique linguistique nationale de chacun des pays concernés par notre étude est évoquée, y compris celle de l'Inde, avec un centrage sur la politique linguistique éducative et les modalités d'enseignement des langues migrantes. Le plurilinguisme des participants est analysé avec la notion de répertoire multilingue au sein duquel les compétences langagières sont segmentées par domaine. Les notions d'espace, de contexte, de mobilité, d'échelle, de polycentralité et d'ordres d'indexicalité ont été convoquées pour pouvoir appréhender ces compétences. La transmission linguistique intergénérationnelle est abordée par le biais d'une analyse critique de la politique linguistique familiale et nationale ainsi que la question de l'incidence du legs des valeurs culturelles et linguistiques du pays d'origine (ou de son absence) sur la construction de l'identité de la deuxième génération. L'apport principal de cette thèse est de porter un regard sur les questions de langues en lien avec la migration qui ne s'inscrit pas dans la perspective des pays d'accueil, mais celle des migrants eux-mêmes. Pratiques langagières familiales Immigrants indiens en France Suède Norvège et Finlande Répertoire multilingue Mobilité Polycentralité

Search results