• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 32
  • 6
  • 5
  • 1
  • 1
  • Tagged with
  • 45
  • 19
  • 13
  • 11
  • 11
  • 11
  • 8
  • 8
  • 8
  • 7
  • 7
  • 7
  • 7
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Méthodologies pour la création de connaissances relatives au marché chinois dans une démarche d'Intelligence Économique : application dans le domaine des biotechnologies agricoles

Guénec, Nadège 02 July 2009 (has links) (PDF)
Le décloisonnement des économies et l'accélération mondiale des échanges commerciaux ont, en une décennie à peine, transformés l'environnement concurrentiel des entreprises. La zone d'activités s'est élargie en ouvrant des nouveaux marchés à potentiels très attrayants. Ainsi en est-il des BRIC (Brésil, Russie, Inde et Chine). De ces quatre pays, impressionnants par la superficie, la population et le potentiel économique qu'ils représentent, la Chine est le moins accessible et le plus hermétique à notre compréhension de par un système linguistique distinct des langues indo-européennes d'une part et du fait d'une culture et d'un système de pensée aux antipodes de ceux de l'occident d'autre part. Pourtant, pour une entreprise de taille internationale, qui souhaite étendre son influence ou simplement conserver sa position sur son propre marché, il est aujourd'hui absolument indispensable d'être présent sur le marché chinois. Comment une entreprise occidentale aborde-t-elle un marché qui de par son altérité, apparaît tout d'abord comme complexe et foncièrement énigmatique ? Six années d'observation en Chine, nous ont permis de constater les écueils dans l'accès à l'information concernant le marché chinois. Comme sur de nombreux marchés extérieurs, nos entreprises sont soumises à des déstabilisations parfois inimaginables. L'incapacité à " lire " la Chine et à comprendre les enjeux qui s'y déroulent malgré des effets soutenus, les erreurs tactiques qui découlent d'une mauvaise appréciation du marché ou d'une compréhension biaisée des jeux d'acteurs nous ont incités à réfléchir à une méthodologie de décryptage plus fine de l'environnement d'affaire qui puisse offrir aux entreprises françaises une approche de la Chine en tant que marché. Les méthodes de l'Intelligence Economique (IE) se sont alors imposées comme étant les plus propices pour plusieurs raisons : le but de l'IE est de trouver l'action juste à mener, la spécificité du contexte dans lequel évolue l'organisation est prise en compte et l'analyse se fait en temps réel. Si une approche culturelle est faite d'interactions humaines et de subtilités, une approche " marché " est dorénavant possible par le traitement automatique de l'information et de la modélisation qui s'en suit. En effet, dans toute démarche d'Intelligence Economique accompagnant l'implantation d'une activité à l'étranger, une grande part de l'information à portée stratégique vient de l'analyse du jeu des acteurs opérants dans le même secteur d'activité. Une telle automatisation de la création de connaissance constitue, en sus de l'approche humaine " sur le terrain ", une réelle valeur ajoutée pour la compréhension des interactions entre les acteurs car elle apporte un ensemble de connaissances qui, prenant en compte des entités plus larges, revêtent un caractère global, insaisissable par ailleurs. La Chine ayant fortement développé les technologies liées à l'économie de la connaissance, il est dorénavant possible d'explorer les sources d'information scientifiques et techniques chinoises. Nous sommes en outre convaincus que l'information chinoise prendra au fil du temps une importance de plus en plus cruciale. Il devient donc urgent pour les organisations de se doter de dispositifs permettant non seulement d'accéder à cette information mais également d'être en mesure de traiter les masses d'informations issues de ces sources. Notre travail consiste principalement à adapter les outils et méthodes issues de la recherche française à l'analyse de l'information chinoise en vue de la création de connaissances élaborées. L'outil MATHEO, apportera par des traitements bibliométriques une vision mondiale de la stratégie chinoise. TETRALOGIE, outil dédié au data-mining, sera adapté à l'environnement linguistique et structurel des bases de données scientifiques chinoises. En outre, nous participons au développement d'un outil d'information retreival (MEVA) qui intègre les données récentes des sciences cognitives et oeuvrons à son application dans la recherche de l'information chinoise, pertinente et adéquate. Cette thèse étant réalisée dans le cadre d'un contrat CIFRE avec le Groupe Limagrain, une application contextualisée de notre démarche sera mise en œuvre dans le domaine des biotechnologies agricoles et plus particulièrement autour des enjeux actuels de la recherche sur les techniques d'hybridation du blé. L'analyse de ce secteur de pointe, qui est à la fois une domaine de recherche fondamentale, expérimentale et appliquée donne actuellement lieu à des prises de brevets et à la mise sur le marché de produits commerciaux et représente donc une thématique très actuelle. La Chine est-elle réellement, comme nous le supposons, un nouveau territoire mondial de la recherche scientifique du 21e siècle ? Les méthodes de l'IE peuvent-elles s'adapter au marché chinois ? Après avoir fourni les éléments de réponses à ces questions dans es deux premières parties de notre étude, nous poserons en troisième partie, le contexte des biotechnologies agricoles et les enjeux mondiaux en terme de puissance économico-financière mais également géopolitique de la recherche sur l'hybridation du blé. Puis nous verrons en dernière partie comment mettre en œuvre une recherche d'information sur le marché chinois ainsi que l'intérêt majeur en terme de valeur ajoutée que représente l'analyse de l'information chinoise
32

Effets des apprentissages de la langue écrite effectués par la typologie textuelle dans l’apprentissage multilingue (le coréen, l’anglais et le français) chez l’apprenant coréen

Kim, Hyun-Jung 05 1900 (has links)
On s’accorde aujourd’hui sur la nécessité de la dimension textuelle dans l’enseignement de la langue écrite. L’objectif de notre recherche est de mettre à l’essai une démarche pédagogique visant à enseigner la compréhension/expression écrite en prenant appui sur la typologie textuelle et en adoptant une approche stratégique. Compte tenu que les Coréens apprennent le français comme deuxième langue étrangère après l’apprentissage de l’anglais, nous menons notre recherche dans un contexte d’apprentissage multilingue (le coréen, le français et l’anglais). Nous effectuons notre recherche à Montréal. Nous sélectionnons vingt- et-un apprenants coréens âgés de 14 à 15 ans en passant des entrevues sur les caractéristiques de leurs expériences scolaires et leurs apprentissages des langues. Ils possèdent tous un bagage éducatif solide en anglais mais leurs niveaux de français sont variés (i.e. sept sujets débutants, sept intermédiaires et sept avancés). Notre recherche se base sur trois expérimentations. Dans la première, nous nous intéressons notamment au rôle de la typologie textuelle auprès des débutants, dont les caractéristiques sont représentatives des apprenants coréens qui sont grammaticalement et lexicalement faibles en français. Nous mobilisons les connaissances textuelles par le biais des textes en anglais puis nous mesurons si les participants peuvent les utiliser dans les textes en français. Nous vérifions cette utilisation en comparant les résultats de la perception du fonctionnement de l’écrit en français avant et après la mobilisation des connaissances textuelles. Les donnés empiriques révèlent que les apprenants coréens qui n’ont pas encore maîtrisé les compétences de base réussissent à percevoir le fonctionnement de l’écrit en français grâce à leurs connaissances textuelles préalablement mobilisées en anglais.Dans notre deuxième expérimentation, nous examinons l’effet de l’enseignement de la typologie textuelle sur la lecture stratégique dans l’apprentissage multilingue. Nous offrons le cours de lecture stratégique avec un texte en français et examinons l’effet de cette pratique. En comparant les résultats de la compréhension avant et après le cours, nous vérifions que le cours de lecture stratégique est efficace non seulement sur la perception du fonctionnement de l’écrit, mais également sur l’apprentissage de la grammaire et du vocabulaire. Nous vérifions également l’influence translinguistique du français vers l’anglais. Dans la troisième expérimentation, nous examinons l’effet de l’enseignement de la typologie textuelle sur le processus de production écrite en français. Nous recueillons les productions des participants avant et après le cours de l’écriture. Nous les analysons avec les mêmes grilles de codage concernant la forme typologique et le sens culturel. Nous observons que les scripteurs qui ont l’occasion de mobiliser explicitement leurs connaissances textuelles peuvent obtenir des performances plus élevées concernant la forme typologique ainsi que le sens culturel après le processus de production. Nous en concluons que la didactique effectuée à partir de la typologie textuelle a toute sa pertinence dans l’apprentissage multilingue et que l’approche stratégique peut stimuler la mise en place de la typologie textuelle pour appréhender la langue écrite au niveau textuel tant en lecture qu’en écriture. / The concept of text-level organization is required in French literacy education for Korean learners. The major objective of this study was to explore a strategic approach which emphasizes the concept of textual typology on text-level language learning, as well as its cognitive and cultural dimensions of transfer, particularly in relation to French literacy education in multilingual learning (Korean, French and English). The textual typology which is deeply embedded in the empirical traditions of French literacy education has been a useful educational tool not only for teaching rhetorical conventions but also for practicing lexical and grammatical usage. Data were obtained from 21 Korean aged 14 to 15 years who study in English-French multilingual learning environments in Montreal. For comparative purposes, the results of the reading activity of three groups of seven students with elementary, intermediate and advanced competence in French as a second foreign language were analyzed. Our empirical research focuses on three issues. The first issue deals with whether the textual typology facilitates access to the text-level meaning as a useful pedagogical tool especially for low French level learners who have a limited vocabulary and grammar. We mobilized students’ background knowledge using English texts and we verified if they use it when they read French texts. The Post hoc contrasts showed that the textual typology is a profitable tool especially for beginners. The second issue is concerned with the practice of the strategic reading approach using a textual typology. The post-hoc about reading comprehension provided empirical support for the positive effects of reading strategies, not only for learning rhetorical conventions but also for understanding lexical and grammatical usage. And the results indicate crosslinguistic influence effects as well. The third issue focuses on the writing process with emphasis on the rhetorical norm in French writing. An analysis of students’ written texts showed that the rhetorical pattern of textual typology guided effectively to well formed writings in rhetorical and cultural dimension. In conclusion, the results demonstrated that the participants could effectively use the textual typology as well-developed networks of relevant prior knowledge in multilingual learning. And the strategic approach could stimulate the practice of the textual typology in textual comprehension and composition during reading and writing process.
33

Etude de cas sociolinguistique et ethnographique de quatre familles indiennes immigrantes en Europe : pratiques lagagières et politiques linguistiques nationales et familiales / A sociolinguistic and ethnographic case study of four Indian immigrant families in Europe : language practices and national & family language policies

Haque, Shahzaman 03 July 2012 (has links)
Ce travail de recherche s'inscrit dans une approche pluridisciplinaire – monographique, ethnographique et sociolinguistique avec une dimension longitudinale. Il tente de décrire de manière approfondie les pratiques linguistiques familiales de quatre familles indiennes immigrantes installées dans quatre pays européens : la France, la Suède, la Norvège et la Finlande. Cette étude cherche également à cerner les enjeux des politiques linguistiques familiales, domaine dans lequel peu de recherches ont été entreprises et qui, de ce fait, reste à développer. Par ailleurs, les idéologies et attitudes concernant les langues se traduisent dans les décisions prises par les chefs de la famille, les parents, qui privilégient l'apprentissage de telle ou telle langue, pour eux-mêmes et surtout pour les enfants. Au plan macro, la politique linguistique nationale de chacun des pays concernés par notre étude est évoquée, y compris celle de l'Inde, avec un centrage sur la politique linguistique éducative et les modalités d'enseignement des langues migrantes. Le plurilinguisme des participants est analysé avec la notion de répertoire multilingue au sein duquel les compétences langagières sont segmentées par domaine. Les notions d'espace, de contexte, de mobilité, d'échelle, de polycentralité et d'ordres d'indexicalité ont été convoquées pour pouvoir appréhender ces compétences. La transmission linguistique intergénérationnelle est abordée par le biais d'une analyse critique de la politique linguistique familiale et nationale ainsi que la question de l'incidence du legs des valeurs culturelles et linguistiques du pays d'origine (ou de son absence) sur la construction de l'identité de la deuxième génération. / This research is part of a multidisciplinary approach - . monographic, ethnographic, sociolinguistic, and includes a longitudinal dimension. It attempts to expound the language practices of four Indian immigrant families settled in four European countries : France, Sweden, Norway and Finland. This study also seeks to identify issues of family language policies, a domain where little research has been undertaken and therefore, remains to be developed. Moreover, ideologies and attitudes about languages are reflected in decisions taken by the heads of the household, who manifest a special penchant for a specific language, for themselves and in particular, for their children. At the macro level, the national language policy of each country in our study is discussed, including that of India, with a focus on language education policy and on the teaching of immigrant languages in schools. The plurilinguism of participants is analyzed with the concept of multilingual repertoire, in which language competencies are truncated by specific domains. The concepts of space, context, mobility, scale, polycentrality and orders of indexicality were raised in order to understand and sift the truncated verbal repertoire. Intergenerational language transmission is examined through a critical analysis of national and family language policies ; the question of the effect of the legacy of cultural and linguistic values of the country of origin (or the absence of such transmission) on the construction of the identity of the second generation are equally reviewed.
34

Méthodes en caractères pour le traitement automatique des langues

Denoual, Etienne 21 September 2006 (has links) (PDF)
Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues.<br />Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais.<br /><br />Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU.<br />Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots.<br />Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique.<br />Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.
35

Systèmes de compréhension et de traduction de la parole : vers une approche unifiée dans le cadre de la portabilité multilingue des systèmes de dialogue

Jabaian, Bassam 04 December 2012 (has links) (PDF)
La généralisation de l'usage des systèmes de dialogue homme-machine accroît la nécessité du développement rapide des différents composants de ces systèmes. Les systèmes de dialogue peuvent être conçus pour différents domaines d'application et dans des langues différentes. La nécessité d'une production rapide pour de nouvelles langues reste un problème ouvert et crucial auquel il est nécessaire d'apporter des solutions efficaces.Nos travaux s'intéressent particulièrement au module de compréhension de la parole et proposent des approches pour la portabilité rapide peu coûteuse de ce module.Les méthodes statistiques ont montré de bonnes performances pour concevoir les modules de compréhension de la parole pour l'étiquetage sémantique de tours de dialogue.Cependant ces méthodes nécessitent de larges corpus pour être apprises. La collecte de ces corpus est aussi coûteuse en temps et en expertise humaine.Dans cette thèse, nous proposons plusieurs approches pour porter un système de compréhension d'une langue vers une autre en utilisant les techniques de la traduction automatique. Les premiers travaux consistent à appliquer la traduction automatique à plusieurs niveaux du processus de portabilité du système de compréhension afin de réduire le coût lié à production de nouvelles données d'apprentissage. Les résultats expérimentaux montrent que l'utilisation de la traduction automatique permet d'obtenir des systèmes performant avec un minimum de contribution humaine.Cette thèse traite donc à la fois de la traduction automatique et de la compréhension de la parole. Nous avons effectué une comparaison approfondie entre les méthodes utilisées pour chacune des tâches et nous avons proposé un décodage conjoint basé sur une méthode discriminante qui à la fois traduit une phrase et lui attribue ses étiquettes sémantiques. Ce décodage est obtenu par une approche à base de graphe qui permet de composer un graphe de traduction avec un graphe de compréhension. Cette représentation peut être généralisée pour permettre des transmissions d'informations riches entre les composants du système de dialogue
36

Effets des apprentissages de la langue écrite effectués par la typologie textuelle dans l’apprentissage multilingue (le coréen, l’anglais et le français) chez l’apprenant coréen

Kim, Hyun-Jung 05 1900 (has links)
On s’accorde aujourd’hui sur la nécessité de la dimension textuelle dans l’enseignement de la langue écrite. L’objectif de notre recherche est de mettre à l’essai une démarche pédagogique visant à enseigner la compréhension/expression écrite en prenant appui sur la typologie textuelle et en adoptant une approche stratégique. Compte tenu que les Coréens apprennent le français comme deuxième langue étrangère après l’apprentissage de l’anglais, nous menons notre recherche dans un contexte d’apprentissage multilingue (le coréen, le français et l’anglais). Nous effectuons notre recherche à Montréal. Nous sélectionnons vingt- et-un apprenants coréens âgés de 14 à 15 ans en passant des entrevues sur les caractéristiques de leurs expériences scolaires et leurs apprentissages des langues. Ils possèdent tous un bagage éducatif solide en anglais mais leurs niveaux de français sont variés (i.e. sept sujets débutants, sept intermédiaires et sept avancés). Notre recherche se base sur trois expérimentations. Dans la première, nous nous intéressons notamment au rôle de la typologie textuelle auprès des débutants, dont les caractéristiques sont représentatives des apprenants coréens qui sont grammaticalement et lexicalement faibles en français. Nous mobilisons les connaissances textuelles par le biais des textes en anglais puis nous mesurons si les participants peuvent les utiliser dans les textes en français. Nous vérifions cette utilisation en comparant les résultats de la perception du fonctionnement de l’écrit en français avant et après la mobilisation des connaissances textuelles. Les donnés empiriques révèlent que les apprenants coréens qui n’ont pas encore maîtrisé les compétences de base réussissent à percevoir le fonctionnement de l’écrit en français grâce à leurs connaissances textuelles préalablement mobilisées en anglais.Dans notre deuxième expérimentation, nous examinons l’effet de l’enseignement de la typologie textuelle sur la lecture stratégique dans l’apprentissage multilingue. Nous offrons le cours de lecture stratégique avec un texte en français et examinons l’effet de cette pratique. En comparant les résultats de la compréhension avant et après le cours, nous vérifions que le cours de lecture stratégique est efficace non seulement sur la perception du fonctionnement de l’écrit, mais également sur l’apprentissage de la grammaire et du vocabulaire. Nous vérifions également l’influence translinguistique du français vers l’anglais. Dans la troisième expérimentation, nous examinons l’effet de l’enseignement de la typologie textuelle sur le processus de production écrite en français. Nous recueillons les productions des participants avant et après le cours de l’écriture. Nous les analysons avec les mêmes grilles de codage concernant la forme typologique et le sens culturel. Nous observons que les scripteurs qui ont l’occasion de mobiliser explicitement leurs connaissances textuelles peuvent obtenir des performances plus élevées concernant la forme typologique ainsi que le sens culturel après le processus de production. Nous en concluons que la didactique effectuée à partir de la typologie textuelle a toute sa pertinence dans l’apprentissage multilingue et que l’approche stratégique peut stimuler la mise en place de la typologie textuelle pour appréhender la langue écrite au niveau textuel tant en lecture qu’en écriture. / The concept of text-level organization is required in French literacy education for Korean learners. The major objective of this study was to explore a strategic approach which emphasizes the concept of textual typology on text-level language learning, as well as its cognitive and cultural dimensions of transfer, particularly in relation to French literacy education in multilingual learning (Korean, French and English). The textual typology which is deeply embedded in the empirical traditions of French literacy education has been a useful educational tool not only for teaching rhetorical conventions but also for practicing lexical and grammatical usage. Data were obtained from 21 Korean aged 14 to 15 years who study in English-French multilingual learning environments in Montreal. For comparative purposes, the results of the reading activity of three groups of seven students with elementary, intermediate and advanced competence in French as a second foreign language were analyzed. Our empirical research focuses on three issues. The first issue deals with whether the textual typology facilitates access to the text-level meaning as a useful pedagogical tool especially for low French level learners who have a limited vocabulary and grammar. We mobilized students’ background knowledge using English texts and we verified if they use it when they read French texts. The Post hoc contrasts showed that the textual typology is a profitable tool especially for beginners. The second issue is concerned with the practice of the strategic reading approach using a textual typology. The post-hoc about reading comprehension provided empirical support for the positive effects of reading strategies, not only for learning rhetorical conventions but also for understanding lexical and grammatical usage. And the results indicate crosslinguistic influence effects as well. The third issue focuses on the writing process with emphasis on the rhetorical norm in French writing. An analysis of students’ written texts showed that the rhetorical pattern of textual typology guided effectively to well formed writings in rhetorical and cultural dimension. In conclusion, the results demonstrated that the participants could effectively use the textual typology as well-developed networks of relevant prior knowledge in multilingual learning. And the strategic approach could stimulate the practice of the textual typology in textual comprehension and composition during reading and writing process.
37

Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois. / Tools and environments for incremental improvement, contributive post-editing and continuous evaluation of MT systems. Application to French-Chinese MT.

Wang, Lingxiao 14 December 2015 (has links)
La thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA. / The thesis, conducted as part of a CIFRE grant, and extending one of the aspects of the ANR project Traouiero, first addresses the production, extension and improvement of multilingual corpora by machine translation (MT) and contributory post-editing (PE). Functional and technical improvements have been made to the SECTra and iMAG software produced in previous PhD theses (P.C. Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of the structure of a multilingual, annotated and multi-media corpus that may contain usual documents as well as pseudo-documents (such as Web pages) and meta-segments. This part has been validated by the creation of good French-Chinese bilingual corpora, one of them resulting from the first application to literary translation (a Jules Verne novel).A second part, initially motivated by an industrial need, has consisted in building MT systems of Moses type, specialized to sub-languages, for french↔chinese, and to study how to improve them in the context of a continuous use with the possibility of PE. As part of an internal project on the LIG website and of a project (TABE-FC) in cooperation with Xiamen University, it has been possible to demonstrate the value of incremental learning in statistical MT, under certain conditions, through an experiment that spread over the whole thesis.The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems.
38

Méthodes de veille textométrique multilingue appliquées à des corpus de l’environnement et de l’énergie : « Restitution, prévision et anticipation d’événements par poly-résonances croisées » / Textometric Multilingual Information Monitoring Methods Applied to Energy & Environment Corpora : "Restitution, Forecasting and Anticipation of Events by Cross Poly-resonance"

Shen, Lionel 21 October 2016 (has links)
Cette thèse propose une série de méthodes de veille textométrique multilingue appliquées à des corpus thématiques. Pour constituer ce travail, deux types de corpus sont mobilisés : un corpus comparable et un corpus parallèle, composés de données textuelles extraites des discours de presse, ainsi que ceux des ONG. Les informations récupérées proviennent de trois mondes en trois langues différentes : français, anglais et chinois. La construction de ces deux corpus s’effectue autour de deux thèmes d’actualité ayant pour objet, l’environnement et l’énergie, avec une attention particulière sur trois notions : les énergies, le nucléaire et l’EPR. Après un bref rappel de l’état de l’art en intelligence économique, veille et textométrie, nous avons exposé les deux sujets retenus, les technicités morphosyntaxiques des trois langues dans les contextes nationaux et internationaux. Successivement, les caractéristiques globales, les convergences et les particularités de ces corpus ont été mises en évidence. Les dépouillements et les analyses qualitatives et quantitatives des résultats obtenus sont réalisés à l’aide des outils de la textométrie, notamment grâce aux analyses factorielles des correspondances, réseaux cooccurrentiels et poly-cooccurrentiels, spécificités du modèle hypergéométrique, segments répétés ou encore à la carte des sections. Ensuite, la veille bi-textuelle bilingue a été appliquée sur les trois mêmes concepts dans l’objectif de mettre en évidence les modes selon lesquels les corpus multilingues à caractère comparé et parallèle se complètent dans un processus de veille plurilingue, de restitution, de prévision et d’anticipation. Nous concluons notre recherche en proposant une méthode analytique par Objets-Traits-Entrées (OTE). / This thesis proposes a series of textometric multilingual information monitoring methods applied to thematic corpora (textometry is also called textual statistics or text data analysis). Two types of corpora are mobilized to create this work: a comparable corpus and a parallel corpus in which the textual data are extracted from the press and discourse of NGOs. The information source was retrieved from three countries in three different languages: English, French and Chinese. The two corpora were constructed on two topical issues concerning the environment and energy, with a focus on three concepts: energy, nuclear power and the EPR (European Pressurized Reactor or Evolutionary Power Reactor). After a brief review of the state of the art on business intelligence, information monitoring and textometry, we first set out the two chosen subjects – the environment and energy – and then the morphosyntactic features of the three languages in national and international contexts. The overall characteristics, similarities and peculiarities of these corpora are highlighted successively. The recounts and qualitative and quantitative analyses of the results were carried out using textometric tools, including factor analysis of correspondences, co-occurrences and polyco-occurrential networks, specificities of the hypergeometric model and repeated segments or map sections. Thereafter, bilingual bitextual information monitoring was applied to the same three concepts with the aim of elucidating how the comparable corpus and the parallel corpus can mutually help each other in a process of multilingual information monitoring, by restitution, forecasting and anticipation. We conclude our research by offering an analytical method called Objects-Features-Opening (OFO).
39

Méthodes et outils pour les problèmes faibles de traduction

Malik, Muhammad Ghulam Abbas 09 July 2010 (has links) (PDF)
Étant données une langue source L1 et une langue cible L2, un segment (phrase ou titre) S de n mots écrit en L1 peut avoir un nombre exponentiel N=O(kn) de traductions valides T1...TN. Nous nous intéressons au cas où N est très faible en raison de la proximité des formes écrites de L1 et L2. Notre domaine d'investigation est la classe des paires de combinaisons de langue et de système d'écriture (Li-Wi, Lj-Wj) telles qu'il peut y avoir une seule traduction valide, ou un très petit nombre de traductions valides, pour tout segment S de Li écrit en Wi. Le problème de la traduction d'une phrase hindi/ourdou écrite en ourdou vers une phrase équivalente en devanagari tombe dans cette classe. Nous appelons le problème de la traduction pour une telle paire un problème faible de traduction. Nous avons conçu et expérimenté des méthodes de complexité croissante pour résoudre des instances de ce problème, depuis la transduction à états finis simple jusqu'à à la transformation de graphes de chaînes d'arbres syntaxiques partiels, avec ou sans l'inclusion de méthodes empiriques (essentiellement probabilistes). Cela conduit à l'identification de la difficulté de traduction d'une paire (Li-Wi, Lj-Wj) comme le degré de complexité des méthodes de traduction atteignant un objectif souhaité (par exemple, moins de 15% de taux d'erreur). Considérant la translittération ou la transcription comme un cas spécial de traduction, nous avons développé une méthode basée sur la définition d'une transcription intermédiaire universelle (UIT) pour des groupes donnés de couples Li-Wi, et avons utilisé UIT comme un pivot phonético-graphémique. Pour traiter la traduction interdialectale dans des langues à morphologie flexionnelle riche, nous proposons de faire une analyse de surface sur demande et limitée, produisant des arbres syntaxiques partiels, et de l'employer pour mettre à jour et propager des traits tels que le genre et le nombre, et pour traiter les phénomènes aux limites des mots. A côté d'expériences à grande échelle, ce travail a conduit à la production de ressources linguistiques telles que des corpus parallèles et annotés, et à des systèmes opérationnels, tous disponibles gratuitement sur le Web. Ils comprennent des corpus monolingues, des lexiques, des analyseurs morphologiques avec un vocabulaire limité, des grammaires syntagmatiques du hindi, du punjabi et de l'ourdou, des services Web en ligne pour la translittération entre hindi et ourdou, punjabi (shahmukhi) et punjabi (gurmukhi), etc. Une perspective intéressante est d'appliquer nos techniques à des paires distantes LW, pour lesquelles elles pourraient produire efficacement des présentations d'apprentissage actif, sous la forme de sorties pidgin multiples.
40

Étude sur l’influence du vocabulaire utilisé pour l’indexation des images en contexte de repérage multilingue

Ménard, Elaine 27 November 2008 (has links)
Depuis quelques années, Internet est devenu un média incontournable pour la diffusion de ressources multilingues. Cependant, les différences linguistiques constituent souvent un obstacle majeur aux échanges de documents scientifiques, culturels, pédagogiques et commerciaux. En plus de cette diversité linguistique, on constate le développement croissant de bases de données et de collections composées de différents types de documents textuels ou multimédias, ce qui complexifie également le processus de repérage documentaire. En général, on considère l’image comme « libre » au point de vue linguistique. Toutefois, l’indexation en vocabulaire contrôlé ou libre (non contrôlé) confère à l’image un statut linguistique au même titre que tout document textuel, ce qui peut avoir une incidence sur le repérage. Le but de notre recherche est de vérifier l’existence de différences entre les caractéristiques de deux approches d’indexation pour les images ordinaires représentant des objets de la vie quotidienne, en vocabulaire contrôlé et en vocabulaire libre, et entre les résultats obtenus au moment de leur repérage. Cette étude suppose que les deux approches d’indexation présentent des caractéristiques communes, mais également des différences pouvant influencer le repérage de l’image. Cette recherche permet de vérifier si l’une ou l’autre de ces approches d’indexation surclasse l’autre, en termes d’efficacité, d’efficience et de satisfaction du chercheur d’images, en contexte de repérage multilingue. Afin d’atteindre le but fixé par cette recherche, deux objectifs spécifiques sont définis : identifier les caractéristiques de chacune des deux approches d’indexation de l’image ordinaire représentant des objets de la vie quotidienne pouvant influencer le repérage, en contexte multilingue et exposer les différences sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images à repérer des images ordinaires représentant des objets de la vie quotidienne indexées à l’aide d’approches offrant des caractéristiques variées, en contexte multilingue. Trois modes de collecte des données sont employés : l’analyse des termes utilisés pour l’indexation des images, la simulation du repérage d’un ensemble d’images indexées selon chacune des formes d’indexation à l’étude réalisée auprès de soixante répondants, et le questionnaire administré aux participants pendant et après la simulation du repérage. Quatre mesures sont définies pour cette recherche : l’efficacité du repérage d’images, mesurée par le taux de succès du repérage calculé à l’aide du nombre d’images repérées; l’efficience temporelle, mesurée par le temps, en secondes, utilisé par image repérée; l’efficience humaine, mesurée par l’effort humain, en nombre de requêtes formulées par image repérée et la satisfaction du chercheur d’images, mesurée par son autoévaluation suite à chaque tâche de repérage effectuée. Cette recherche montre que sur le plan de l’indexation de l’image ordinaire représentant des objets de la vie quotidienne, les approches d’indexation étudiées diffèrent fondamentalement l’une de l’autre, sur le plan terminologique, perceptuel et structurel. En outre, l’analyse des caractéristiques des deux approches d’indexation révèle que si la langue d’indexation est modifiée, les caractéristiques varient peu au sein d’une même approche d’indexation. Finalement, cette recherche souligne que les deux approches d’indexation à l’étude offrent une performance de repérage des images ordinaires représentant des objets de la vie quotidienne différente sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images, selon l’approche et la langue utilisées pour l’indexation. / During the last few years, the Internet has become an indispensable medium for the dissemination of multilingual resources. However, language differences are often a major obstacle to the exchange of scientific, cultural, educational and commercial documents. Besides this linguistic diversity, many databases and collections now contain documents in various formats that can also adversely affect their retrieval process. In general, images are considered to be language-independent resources. Nevertheless, the image indexing process using either a controlled or uncontrolled vocabulary gives the image a linguistic status similar to any other textual document and thus leads to the same difficulties in their retrieval. The goal of our research is to first identify the differences between the indexing approaches using a controlled and an uncontrolled vocabulary for ordinary images of everyday-life objects and to then differentiate between the results obtained at the time of image retrieval. This study supposes that the two indexing approaches show not only common characteristics, but also differences that can influence image retrieval. Thus, this research makes it possible to indicate if one of these indexing approaches surpasses the other in terms of effectiveness, efficiency, and satisfaction of the image searcher in a multilingual retrieval context. For this study, two specific objectives are defined: to identify the characteristics of each approach used for ordinary image indexing of everyday-life objects that can effect image retrieval in a multilingual context; and to explore the differences between the two indexing approaches in terms of their effectiveness, their efficiency, and the satisfaction of the image searcher when trying to retrieve ordinary images of everyday-life objects indexed according to either approach in a multilingual retrieval context. Three methods of data collection are used: an analysis of the image indexing terms, a simulation of the retrieval of a set of images indexed according to each of the two indexing approaches conducted with sixty respondents, and a questionnaire submitted to the participants during and after the retrieval simulation. Four measures are defined in this research: the effectiveness of image retrieval measured by the success rate calculated in terms of the number of retrieved images; time efficiency measured by the average time, in seconds, used to retrieve an image; human efficiency measured in terms of the human effort represented per average number of queries necessary to retrieve an image; and the satisfaction of the image searcher measured by the self-evaluation of the participant of the retrieval process after each completed task. This research shows that in terms of ordinary image indexing representing everyday-life objects, the two approaches investigated are fundamentally distinct on the terminological, perceptual, and structural perspective. Additionally, the analysis of the characteristics of the two indexing approaches reveals that if the indexing language differs, the characteristics vary little within the same indexing approach. Finally, this research underlines that the two indexing approaches of ordinary images representing everyday-life objects have a retrieval performance that is different in terms of its effectiveness, efficiency, and satisfaction of the image searcher according to the approach and the language used for indexing.

Page generated in 0.0621 seconds