Global ETD Search

11	Extraction, Exploitation and Evaluation of Document-based Knowledge Doucet, Antoine 30 April 2012 (has links) (PDF) Les travaux présentés dans ce mémoire gravitent autour du document numérique : Extraction de connaissances, utilisation de connaissances et évaluation des connaissances extraites, d'un point de vue théorique aussi bien qu'expérimental. Le fil directeur de mes travaux de recherche est la généricité des méthodes produites, avec une attention particulière apportée à la question du passage à l'échelle. Ceci implique que les algorithmes, principalement appliqués au texte dans ce mémoire, fonctionnent en réalité pour tout type de donnée séquentielle. Sur le matériau textuel, la généricité et la robustesse algorithmique des méthodes permettent d'obtenir des approches endogènes, fonctionnant pour toute langue, pour tout genre et pour tout type de document (et de collection de documents). Le matériau expérimental couvre ainsi des langues utilisant différents alphabets, et des langues appartenant à différentes familles linguistiques. Les traitements peuvent d'ailleurs être appliqués de la même manière au grain phrase, mot, ou même caractère. Les collections traitées vont des dépêches d'agence de presse aux ouvrages numérisés, en passant par les articles scientifiques. Ce mémoire présente mes travaux en fonction des différentes étapes du pipeline de traitement des documents, de leur appréhension à l'évaluation applicative. Le document est ainsi organisé en trois parties décrivant des contributions en : extraction de connaissances (fouille de données séquentielle et veille multilingue) ; exploitation des connaissances acquises, par des applications en recherche d'information, classification et détection de synonymes via un algorithme efficace d'alignement de paraphrases ; méthodologie d'évaluation des systèmes d'information dans un contexte de données massives, notamment l'évaluation des performances des systèmes de recherche d'information sur des bibliothèques numérisées. fouille de données séquentielles unités multi-mots recherche d'information évaluation des systèmes d'information méthodes multilingues passage à l'échelle
12	Vers une adaptation autonome des modèles acoustiques multilingues pour le traitement automatique de la parole Sam, Sethserey 07 June 2011 (has links) (PDF) Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est généralement une tâche très difficile et peu réaliste pour représenter toutes les origines des locuteurs. Ce travail de thèse porte sur l'amélioration des modèles acoustiques multilingues pour la transcription phonétique de la parole de type " réunion multilingue ". Traiter ce type de parole constitue plusieurs défis : 1) il peut exister de la conversation entre des locuteurs natifs et non natifs ; 2) il y a non seulement de la parole non native d'une langue, mais de plusieurs langues parlées par des locuteurs venant de différentes origines ; 3) il est difficile de collecter suffisamment de données pour amorcer les systèmes de transcription. Pour répondre à ces défis, nous proposons un processus d'adaptation de modèles acoustiques multilingues que nous appelons " adaptation autonome ". Dans l'adaptation autonome, nous étudions plusieurs approches pour adapter les modèles acoustiques multilingues de manière non supervisée (les langues parlées et les origines des locuteurs ne sont pas connues à l'avance) et qui n'utilise aucune donnée supplémentaire lors du processus d'adaptation. Les approches étudiées sont décomposées selon deux modules. Le premier module qui s'appelle " l'observateur de langues " consiste à récupérer les caractéristiques linguistiques (les langues parlées et les origines des locuteurs) des segments à décoder. Le deuxième module consiste à adapter le modèle acoustique multilingue en fonction des connaissances fournies par l'observateur de langue. Pour évaluer l'utilité de l'adaptation autonome d'un modèle acoustique multilingue, nous utilisons les données de test, qui sont extraites de réunions multilingues, contenant de la parole native et non native de trois langues : l'anglais (EN), le français (FR) et le vietnamien (VN). Selon les résultats d'expérimentation, l'adaptation autonome donne des résultats prometteurs pour les paroles non natives mais dégradent très légèrement les performances sur de la parole native. Afin d'améliorer la performance globale des systèmes de transcription pour toutes les paroles natives et non natives, nous étudions plusieurs approches de détection de parole non native et proposons de cascader un tel détecteur avec notre processus d'adaptation autonome. Les résultats obtenus ainsi, sont les meilleurs parmi toutes les expériences réalisées sur notre corpus de réunions multilingues. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Observateur de langues Classification de la par Interpolation
13	Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois. / Tools and environments for incremental improvement, contributive post-editing and continuous evaluation of MT systems. Application to French-Chinese MT. Wang, Lingxiao 14 December 2015 (has links) La thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA. / The thesis, conducted as part of a CIFRE grant, and extending one of the aspects of the ANR project Traouiero, first addresses the production, extension and improvement of multilingual corpora by machine translation (MT) and contributory post-editing (PE). Functional and technical improvements have been made to the SECTra and iMAG software produced in previous PhD theses (P.C. Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of the structure of a multilingual, annotated and multi-media corpus that may contain usual documents as well as pseudo-documents (such as Web pages) and meta-segments. This part has been validated by the creation of good French-Chinese bilingual corpora, one of them resulting from the first application to literary translation (a Jules Verne novel).A second part, initially motivated by an industrial need, has consisted in building MT systems of Moses type, specialized to sub-languages, for french↔chinese, and to study how to improve them in the context of a continuous use with the possibility of PE. As part of an internal project on the LIG website and of a project (TABE-FC) in cooperation with Xiamen University, it has been possible to demonstrate the value of incremental learning in statistical MT, under certain conditions, through an experiment that spread over the whole thesis.The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems. Passerelles d'accès multilingue Mémoire de traductions TA statistique Traitement de corpus multilingues Évaluation des systèmes de TA TA français--Chinois Multilingual Access Gateways Translation memory Statistical MT Multilingual corpus processing Evaluation of MT systems French--Chinese MT 621
14	Vers une adaptation autonome des modèles acoustiques multilingues pour le traitement automatique de la parole / Towards autonomous adaptation of multilingual acoustic models for automatic speech processing Sam, Sethserey 07 June 2011 (has links) Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est généralement une tâche très difficile et peu réaliste pour représenter toutes les origines des locuteurs. Ce travail de thèse porte sur l'amélioration des modèles acoustiques multilingues pour la transcription phonétique de la parole de type « réunion multilingue ». Traiter ce type de parole constitue plusieurs défis : 1) il peut exister de la conversation entre des locuteurs natifs et non natifs ; 2) il y a non seulement de la parole non native d'une langue, mais de plusieurs langues parlées par des locuteurs venant de différentes origines ; 3) il est difficile de collecter suffisamment de données pour amorcer les systèmes de transcription. Pour répondre à ces défis, nous proposons un processus d'adaptation de modèles acoustiques multilingues que nous appelons « adaptation autonome ». Dans l'adaptation autonome, nous étudions plusieurs approches pour adapter les modèles acoustiques multilingues de manière non supervisée (les langues parlées et les origines des locuteurs ne sont pas connues à l'avance) et qui n'utilise aucune donnée supplémentaire lors du processus d'adaptation. Les approches étudiées sont décomposées selon deux modules. Le premier module qui s'appelle « l'observateur de langues » consiste à récupérer les caractéristiques linguistiques (les langues parlées et les origines des locuteurs) des segments à décoder. Le deuxième module consiste à adapter le modèle acoustique multilingue en fonction des connaissances fournies par l'observateur de langue. Pour évaluer l'utilité de l'adaptation autonome d'un modèle acoustique multilingue, nous utilisons les données de test, qui sont extraites de réunions multilingues, contenant de la parole native et non native de trois langues : l'anglais (EN), le français (FR) et le vietnamien (VN). Selon les résultats d'expérimentation, l'adaptation autonome donne des résultats prometteurs pour les paroles non natives mais dégradent très légèrement les performances sur de la parole native. Afin d'améliorer la performance globale des systèmes de transcription pour toutes les paroles natives et non natives, nous étudions plusieurs approches de détection de parole non native et proposons de cascader un tel détecteur avec notre processus d'adaptation autonome. Les résultats obtenus ainsi, sont les meilleurs parmi toutes les expériences réalisées sur notre corpus de réunions multilingues. / Automatic speech recognition technologies are now integrated into many systems. The performance of speech recognition systems for non-native speakers, however, continues to suffer high error rates, due to the difference between native and non-speech models trained. The making of recordings in large quantities of non-native speech is typically a very difficult and impractical to represent all the origins of the speakers. This thesis focuses on improving multilingual acoustic models for automatic phonetic transcription of speech such as “multilingual meeting”. There are several challenges in “multilingual meeting” speech: 1) there can be a conversation between native and non native speakers ; 2) there is not only one spoken language but several languages spoken by speakers from different origins ; 3) it is difficult to collect sufficient data to bootstrapping transcription systems. To meet these challenges, we propose a process of adaptation of multilingual acoustic models is called "autonomous adaptation". In autonomous adaptation, we studied several approaches for adapting multilingual acoustic models in unsupervised way (spoken languages and the origins of the speakers are not known in advance) and no additional data is used during the adaptation process. The approaches studied are decomposed into two modules. The first module called "the language observer" is to recover the linguistic information (spoken languages and the origins of the speakers) of the segments to be decoded. The second module is to adapt the multilingual acoustic model based on knowledge provided by the language observer. To evaluate the usefulness of autonomous adaptation of multilingual acoustic model, we use the test data, which are extracted from multilingual meeting corpus, containing the native and nonnative speech of three languages: English (EN), French (FR) and Vietnamese (VN). According to the experiment results, the autonomous adaptation shows promising results for non native speech but very slightly degrade performance on native speech. To improve the overall performance of transcription systems for all native and non native speech, we study several approaches for detecting non native speech and propose such a detector cascading with our self-adaptation process (autonomous adaptation). The results thus are the best among all experiments done on our corpus of multilingual meetings. Observateur de langues Classification de la par Interpolation Non native speech recognition Language observer Interpolation
15	Création et exploitation d'un corpus trilingue du tourisme (italien/français/anglais) en vue de la réalisation d'une base de données lexicale informatisée / Creation and exploitation of a trilingual tourism corpus (Italian, French, English) for the realisation of a lexical electronic stored database Piccato, Mariangela 23 July 2012 (has links) Au cours des dernières années, le secteur touristique a été caractérisé par toute une série de changements fondamentaux. L’un de ces changements, certainement le plus important, a été le fait d’être considéré aujourd’hui comme l’activité productive capable de faire tourner l’économie d’un pays entier.Notre mémoire de recherche se situe à l’intersection de la terminologie thématique, de la linguistique de corpus et du traitement automatique des langues.Dans le premier chapitre du travail que nous allons présenter, nous chercherons à introduire aux domaines d’études théoriques sur lesquels notre recherche s’appuie.Premièrement, on traitera de la linguistique de corpus et on examinera les différentes catégories de corpus existantes. On mettra l’accent sur deux notions fondamentales dans la conception de l’outil corpus en général et dans la création de notre corpus en particulier : représentativité et contexte. Au sein du discours touristique, la représentativité, d’un côté, se relie au caractère spécial de notre micro-langue ; le contexte, de l’autre, révèle la pluralité des sous-domaines qui composent ce technolecte à mi-chemin entre la langue générale et la langue spécialisée.Dans le deuxième chapitre, nous présenterons le corpus thématique trilingue (CTT) que nous avons créé préalablement à la rédaction de la thèse proprement dite.Avant tout, on fournira les indications théoriques et pragmatiques nécessaires pour réaliser un corpus trilingue en langue de spécialité : la collecte des textes, l’homogénéisation des échantillons textuels repérés et l’annotation. Au cours de ce chapitre, nous présenterons Alinea, l’instrument qu’on a utilisé pour l’alignement de textes recueillis et pour la consultation simultanée des traductions trilingues. Dans le troisième et dernier chapitre, on passera à l’interrogation du corpus créé. Sur la base d’un terme pris comme exemple, le terme ville, on lancera la recherche dans le CTT. Ensuite, on analysera les collocations les plus usitées contenant le mot ville.En guise de conclusion de notre mémoire, nous présenterons une annexe consacrée à notre glossaire trilingue comme résultat de notre exploration de la chaîne terminologique qu’on aura analysée précédemment. Pour conclure, l’objectif général de notre étude sera d’explorer la chaîne de gestion terminologique à travers la création d’un glossaire trilingue dans le domaine du tourisme. Notre orientation méthodologique de caractère sémasiologique impliquera ainsi au moins quatre objectifs spécifiques :• créer un corpus trilingue du tourisme (CTT), capable d’attester des usages en contexte des termes.• extraire des termes en utilisant des techniques diverses, telle que l’étude fréquentielle des éléments du corpus.• vérifier les données obtenues et les compléter à l’aide de ressources externes.• répertorier et décrire l’ensemble des termes sous forme d’un glossaire trilingue à sujet touristique (GTT). / Our study concerns the language of tourism from a lexicographical perspective.Exploiting the web we realized a corpus ad hoc. This corpus is composed by about 10.000 texts in three languages (French, Italian and English), aligned using “Alinea”.Starting from terminological extraction, we analysed some collocations at the aim to create a trilingual and tri-directional glossary.We chose this subject according to the increasing importance taken from tourism economy in the world.Our study fields are thematic terminology, corpus linguistics and automatic language treatment.The first chapter presents the study field of our research. First of all, we introduced to corpus linguistics presenting the different categories of corpus and pointing out our attention on two main notions: representativeness and context.Therefore, we explained the link between Language for Special Purposes and tourism discourse as a Specialized Discourse.In the second chapter, we showed the trilingual thematic corpus we created during our researches. We described the main steps to create a corpus: collection of texts, cleaning and annotation.In this chapter, we gave a particular attention to the presentation of “Alinea”.Finally, the third chapter is a study of frequent collocations with the term “town” (ville).The annexes present the glossary as well as the methodological principals we followed in the redaction. Lexicographie bilingue Linguistique de corpus Langues de spécialité Terminologie Alinea Discours touristique Corpus alignés Corpus multilingues Glossaire tri-directionnel du tourisme Collocations Bilingual lexicography Corpus linguistics LSP Terminology Alinea Tourism discourse Collocations Aligned corpora Multilingual corpora Tri-directional tourism glossary
16	Prediction of Alzheimer's disease and semantic dementia from scene description: toward better language and topic generalization Ivensky, Ilya 05 1900 (has links) La segmentation des données par la langue et le thème des tests psycholinguistiques devient de plus en plus un obstacle important à la généralisation des modèles de prédiction. Cela limite notre capacité à comprendre le cœur du dysfonctionnement linguistique et cognitif, car les modèles sont surajustés pour les détails d'une langue ou d'un sujet particulier. Dans ce travail, nous étudions les approches potentielles pour surmonter ces limitations. Nous discutons des propriétés de divers modèles de plonjement de mots FastText pour l'anglais et le français et proposons un ensemble des caractéristiques, dérivées de ces propriétés. Nous montrons que malgré les différences dans les langues et les algorithmes de plonjement, un ensemble universel de caractéristiques de vecteurs de mots indépendantes de la langage est capable de capturer le dysfonctionnement cognitif. Nous soutenons que dans le contexte de données rares, les caractéristiques de vecteur de mots fabriquées à la main sont une alternative raisonnable pour l'apprentissage des caractéristiques, ce qui nous permet de généraliser sur les limites de la langue et du sujet. / Data segmentation by the language and the topic of psycholinguistic tests increasingly becomes a significant obstacle for generalization of predicting models. It limits our ability to understand the core of linguistic and cognitive dysfunction because the models overfit the details of a particular language or topic. In this work, we study potential approaches to overcome such limitations. We discuss the properties of various FastText word embedding models for English and French and propose a set of features derived from these properties. We show that despite the differences in the languages and the embedding algorithms, a universal language-agnostic set of word-vector features can capture cognitive dysfunction. We argue that in the context of scarce data, the hand-crafted word-vector features is a reasonable alternative for feature learning, which allows us to generalize over the language and topic boundaries. Déficience cognitive Caractéristiques multilingues Plongement de mots Linguistique informatique Traitement automatique des langues Cognitive impairment Multilingual features Word embedding Computational linguistics Natural language processing
17	Entity-level Event Impact Analytics / Analyse de l'impact des évenements au niveau des entités Govind, . 12 December 2018 (has links) Notre société est de plus en plus présente sur le Web. En conséquence, une grande partie des événements quotidiens a vocation à être numérisée. Dans ce cadre, le Web contient des descriptions de divers événements du monde réel et provenant du monde entier. L'ampleur de ces événements peut varier, allant de ceux pertinents uniquement localement à ceux qui retiennent l'attention du monde entier. La presse et les médias sociaux permettent d’atteindre une diffusion presque mondiale. L’ensemble de toutes ces données décrivant des événements sociétaux potentiellement complexes ouvre la porte à de nombreuses possibilités de recherche pour analyser et mieux comprendre l'état de notre société.Dans cette thèse, nous étudions diverses tâches d’analyse de l’impact des événements sociétaux. Plus précisément, nous abordons trois facettes dans le contexte des événements et du Web, à savoir la diffusion d’événements dans des communautés de langues étrangères, la classification automatisée des contenus Web et l’évaluation et la visualisation de la viralité de l’actualité. Nous émettons l'hypothèse que les entités nommées associées à un événement ou à un contenu Web contiennent des informations sémantiques précieuses, qui peuvent être exploitées pour créer des modèles de prédiction précis. À l'aide de nombreuses études, nous avons montré que l'élévation du contenu Web au niveau des entités saisissait leur essence essentielle et offrait ainsi une variété d'avantages pour obtenir de meilleures performances dans diverses tâches. Nous exposons de nouvelles découvertes sur des tâches disparates afin de réaliser notre objectif global en matière d'analyse de l’impact des événements sociétaux. / Our society has been rapidly growing its presence on the Web, as a consequence we are digitizing a large collection of our daily happenings. In this scenario, the Web receives virtual occurrences of various events corresponding to their real world occurrences from all around the world. Scale of these events can vary from locally relevant ones up to those that receive global attention. News and social media of current times provide all essential means to reach almost a global diffusion. This big data of complex societal events provide a platform to many research opportunities for analyzing and gaining insights into the state of our society.In this thesis, we investigate a variety of social event impact analytics tasks. Specifically, we address three facets in the context of events and the Web, namely, diffusion of events in foreign languages communities, automated classification of Web contents, and news virality assessment and visualization. We hypothesize that the named entities associated with an event or a Web content carry valuable semantic information, which can be exploited to build accurate prediction models. We have shown with the help of multiple studies that raising Web contents to the entity-level captures their core essence, and thus, provides a variety of benefits in achieving better performance in diverse tasks. We report novel findings over disparate tasks in an attempt to fulfill our overall goal on societal event impact analytics. Analyse d'événements sociétaux Analyse du Web au niveau des entités Données Web multilingues Societal Events Analysis Entity-level Web Analytics Multilingual Web Data Web Semantics
18	Valorisation des analogies lexicales entre l'anglais et les langues romanes : étude prospective pour un dispositif plurilingue d'apprentissage du FLE dans le domaine de la santé / Emphasising lexical analogies between English and Romance languages : prospective study towards a plurilingual learning device of French for healthcare Gilles, Fabrice 29 September 2017 (has links) Cette étude lexicologique prospective s'inscrit dans la didactique des L3. L’objectif est d’élaborer un interlexique anglais-espagnol-français-italien-portugais composé des adjectifs, noms et verbes anglais fréquents dans les écrits scientifiques de la santé, et de leurs équivalents de traduction analogues en espagnol, français, italien et portugais. Deux mots sont analogues s’ils ont le même sens et une forme similaire.Les rapports entre les concepts d'analogie, de similarité et d'identité sont examinés, les types d'analogies intralinguistiques et interlinguistiques illustrés et les principales analogies et dissemblances entre l’anglais, le français et les langues romanes exposées. L'existence de celles-ci est justifiée par les origines indoeuropéennes et surtout d'intenses contacts de langues. Après avoir rappelé l’importance de l’analogie dans l’apprentissage, nous montrons le lien entre notre recherche et deux types d’approches didactiques des langues : l'intercompréhension, qui développe la compréhension de langues voisines, et les approches sur corpus qui permettent de mieux connaitre et faire connaitre la phraséologie scientifique.Les 2000 lemmes anglais les plus fréquents ont été extraits du corpus scientifique anglais de ScienText, leurs 2208 acceptions fréquentes délimitées sur la base du profil combinatoire et triées en deux catégories sémantiques : lexique de spécialité et lexique scientifique transdisciplinaire. Les lemmes anglais ont été traduits dans les quatre langues romanes, et la similarité mesurée en fonction de la sous-chaine maximale commune (SMC).L’interlexique contient 47 % des acceptions fréquentes. Par couples de langues, l’analogie est encore plus élevée : anglais – français, 66 %, anglais-italien, 65 %, anglais-espagnol, 63 %, anglais-portugais, 58 %. Ce lexique analogue pourrait donc servir comme base de transfert dans des activités de FLE L3 pour des professionnels de la santé, et l’anglais L2 semble être une passerelle possible vers les langues romanes. Des activités plurilingues sont construites sur des concordances extraites des corpus multilingues alignés EMEA et Europarl. Un questionnement métalinguistique en anglais sensibilise à des traits (morpho)syntaxiques du français ; les analogies des deux langues sont systématiquement mises en relief, et dans les cas d'opacité, celles des autres langues romanes avec l’anglais. / This prospective lexicological investigation belongs to the field of L3 French didactics. The purpose is to elaborate a French-Italian-Portuguese-Spanish interlexicon out of the frequent adjectives, nouns and verbs of the healthcare scientific writings, and their analogue translation equivalents in French, Italian, Portuguese and Spanish. Two words are analogue if they have the same meaning and a similar form.Related concepts of analogy, similarity and identity are discussed, types of intralinguistic and cross-linguistic analogies reviewed, and the main analogies and differences between English, French and Romance languages detailed. Their many analogies are justified by Indo-European origins and mostly by intense language contacts. Once the importance of analogy in learning procedures has been highlighted, we show how this research and two types of didactic approaches connect together: intercomprehension, which develops comprehension skills in neighbor languages, and corpus approaches which enable to get a closer insight into scientific phraseology.The 2000 most frequent English lemmas were extracted from the ScienText English scientific corpus, their 2208 frequent acceptions explored from their combinatory profile and sorted out in two semantic categories: healthcare subject-specific vocabulary and science specific trans-disciplinary vocabulary. The English lemmas were translated into the four Romance languages, and similarity measurements were carried out with the longest common substring method.The interlexicon contains 47% of the frequent acceptions. Analogy is even higher by language pairs: English – French, 66%, English – Italian, 65%, English - Spanish, 63%, English – Portuguese, 58%. Consequently, this analogue vocabulary could form a transfer basis in learning activities of L3 French for health care providers, and L2 English seems to be a possible bridge language toward Romance languages. Plurilingual activities are built on concordances extracted from multilingual aligned corpora (EMEA, Europarl). Metalinguistic questions in English point out (morpho)syntactic features of French; the analogies between both languages are systematically enhanced, and in case of lexical opacity, those between English and the other Romance languages. FOS / français de la santé Corpus multilingues alignés Profil combinatoire Sous-Chaîne commune maximale (SCM) Langue passerelle Multilingual aligned corpora Combinatory profile Longest common substring Bridge language 448

Search results