161 |
Les manuels de philosophie en France et au Brésil : une analyse du discours contrastive de la prise en charge énonciative / Os livros didáticos de filosofia na França e no Brasil : uma análise do discurso contrastiva do comprometimento enunciativo / Philosophy textbooks in France and Brazil : a contrastive discourse analysis of enunciative undertakingSardá, Daniela Nienkötter 13 November 2015 (has links)
Cette thèse en analyse du discours a pour objectif l'analyse comparative du genre discursif « manuel scolaire de philosophie » dans deux communautés ethnolinguistiques différentes : la France et le Brésil. Cet examen est réalisé moyennant la notion de « prise en charge énonciative » (PCE), qui est notre principale entrée pour l'analyse d'un corpus constitué de neuf manuels scolaires de philosophie. Nous cherchons ainsi à savoir comment les auteurs prennent en charge leurs discours dans les manuels, afin de répondre à la question de recherche suivante : « Quelles sont les représentations que l'on se fait de la philosophie et de son enseignement, suivant les discours des manuels français et brésiliens ? ». Les analyses linguistiques sont divisées en prise en charge énonciative maximale (PCE+) et prise en charge énonciative minimale (PCE-). L'effacement énonciatif, notion connexe à celle de PCE, ainsi qu'un ensemble de catégories issues de la linguistique de l'énonciation, sont mobilisés dans cette analyse. Dans un dernier temps de notre recherche, nous proposons quelques interprétations qui visent à rendre compte des représentations sociales concernant la philosophie et son enseignement, repérables à travers l'analyse des manuels scolaires. Nous pouvons dire grosso modo que ces représentations sociales tiennent, d'une part, à la stabilité de l'enseignement de la philosophie dans le système scolaire français et, d'autre part, à son instabilité dans le système scolaire brésilien. / This thesis in discourse analysis aims to analyse comparatively the discursive genre "philosophy textbook" in two different ethnolinguistic communities: France and Brazil. The investigation is realized using the notion of "enunciative undertaking" ("prise en change énonciative", PCE), which is our main entry point for analysing a corpus constituted by nine philosophy textbooks. We seek to know how the authors undertake their discourses in the textbooks, in order to answer the following research question: "What are the representations that one has of philosophy and its teaching, according to the philosophy textbooks' discourses?". The linguistic analyses are divided into maximal enunciative undertaking (PCE+) and minimal enunciative undertaking (PCE-). Enunciative erasing, a correlative notion of that of PCE, as well as a set of categories that stem from enunciative linguistics, are used in this analysis. At the end of our research, we propose some interpretations that seek to take into account social representations concerning philosophy and its teaching, recognisable through textbook analysis. Roughly speaking, these social representations are due, on the one hand, to the stability of philosophy teaching in the French school system and, on the other hand, to the instability of the Brazilian school system. / Esta tese em análise do discurso tem por objetivo a análise comparativa do gênero discursivo "livro didático de filosofia" em duas comunidades etnolinguísticas diferentes: a França e o Brasil. Esse exame é realizado mediante a noção de "comprometimento enunciativo" ("prise en charge énonciative", PCE), que é nossa principal entrada para a análise de um corpus constituído por nove livros didáticos de filosofia. Buscamos, assim, saber como os autores se comprometem com seus discursos nos livros didáticos, a fim de responder à seguinte questão de pesquisa: "Que representações se faz da filosofia e de seu ensino, segundo os discursos dos livros didáticos franceses e brasileiros?". As análises linguísticas são divididas em comprometimento enunciativo máximo (PCE+) e comprometimento enunciativo mínimo (PCE-). O apagamento enunciativo, noção conexa àquela de PCE, assim como um conjunto de categorias oriundas da linguística da enunciação, são mobilizados nessa análise. Em um último momento de nossa pesquisa, propomos algumas interpretações que visam a dar conta das representações sociais concernentes à filosofia e ao seu ensino, identificáveis através da análise dos livros didáticos. Podemos dizer, grosso modo, que essas represetações sociais se devem, por um lado, à estabilidade do ensino da filosofia no sistema escolar francês e, por outro lado, à sua instabilidade no sistema escolar brasileiro.
|
162 |
Vers un prototype de traduction automatique contrôlée français/arabe appliquée aux domaines à sécurité critique / Towards a machine translation prototype for controlled french to controlled arabic applied to security critical domainsBeddar, Mohand 30 April 2013 (has links)
La présente recherche propose un modèle de traduction automatique français-arabe contrôlée appliquée aux domaines à sécurité critique. C’est une recherche transverse qui traite à la fois des langues contrôlées et de la traduction automatique français-arabe, deux concepts intimement liés. Dans une situation de crise où la communication doit jouer pleinement son rôle, et dans une mondialisation croissante où plusieurs langues cohabitent, notre recherche montre que l’association de ces deux concepts est plus que nécessaire. Nul ne peut contester aujourd’hui la place prépondérante qu’occupe la sécurité dans le quotidien des personnes et les enjeux qu’elle représente au sein des sociétés modernes. Ces sociétés davantage complexes et interconnectées manifestent une vulnérabilité flagrante qui les oblige à repenser leurs moyens d’organisation et de protection dont les systèmes de communication. La communication langagière à l’aide de systèmes informatisés est l’une des formes de communication la plus souvent utilisée pour le transfert des connaissances nécessaires à l’accomplissement des tâches et le déroulement des diverses actions. Toutefois, et contrairement à une idée bien ancrée qui tend à associer les risques d’une mauvaise communication à l’oral uniquement, l’usage de la langue écrite peut lui aussi comporter des risques. En effet des messages mal écrits peuvent conduire à de réelles catastrophes et à des conséquences irréversibles notamment dans des domaines jugés sensibles tels que les domaines à sécurité critique. C’est dans ce contexte que s’inscrit notre recherche. Cette thèse est une approche novatrice dans les domaines des langues contrôlées et de la traduction automatique. Elle définit avec précision, en s’appuyant sur une analyse microsystémique de la langue et un travail en intension sur le corpus, des normes pour la rédaction de protocoles de sécurité et d’alertes ainsi que leur traduction automatique vers l’arabe. Elle apporte en effet des notions nouvelles à travers plusieurs procédés normatifs intervenant non seulement dans le processus de contrôle mais également dans le processus de traduction. Le système de traduction automatique français-arabe TACCT (Traduction Automatique Contrôlée Centre Tesnière) mis au point dans cette thèse est un système à base de règles linguistiques qui repose sur un modèle syntaxico-sémantique isomorphique issu des analyses intra- et interlangues entre le français et l’arabe. Il introduit de nouveaux concepts notamment celui des macrostructures miroir contrôlées, où la syntaxe et la sémantique des langues source et cible sont représentées au même niveau. / The result of our research is a proposal for a controlled French to Arabic machine translation model, applied to security critical domains. This cross-disciplinary research study covers controlled languages and French to Arabic machine translation, two intimately related concepts. In a situation of crisis where communication must play its full role, and in the context of increasing globalisation where many languages coexist, our research findings show that the combination of these two concepts is sorely needed. No one can deny today the predominant role played by security in people’s daily life and the significant challenges it presents in modern societies. These more and more complex and interconnected societies present evident vulnerabilities that force them to rethink their means of protection and in particular that of their communication systems. Language communication with computerised systems is one of the most widely used forms of communication for the transfer of knowledge required in carrying out and completing tasks and in the good conduct of various activities. However, and contrary to an entrenched idea that tends to associate the risk of poor communication only with oral transmission, the use of written language can also be subject to risk. Indeed, a protocol or an alert which is badly formulated can provoke serious accidents due to misunderstanding, in particular during a crisis and under stress. It is in this context that our research has been undertaken. Our thesis proposes an innovative approach in the fields of controlled language and machine translation in which, relying on a microsystemic analysis of the language and a study of the corpus in intension, precise standards are defined for writing and translating protocols and security alerts written in French automatically into Arabic. Indeed, new concepts are introduced by means of several normative methods involved not only in the controlling process but also in the machine translation process. The French to Arabic machine translation system TACCT (Traduction Automatique Contrôlée Centre Tesnière) developed during our research is a rule-based system based on an isomorphic syntactic and semantic model stemming from intra- and interlanguage analysis between French and Arabic. It introduces new concepts including controlled mirror macrostructures, where the syntax and semantics of the source and target languages are represented at the same level.
|
163 |
Les manuels de philosophie en France et au Brésil : une analyse du discours contrastive de la prise en charge énonciative / Os livros didáticos de filosofia na França e no Brasil : uma análise do discurso contrastiva do comprometimento enunciativo / Philosophy textbooks in France and Brazil : a contrastive discourse analysis of enunciative undertakingSardá, Daniela Nienkötter 13 November 2015 (has links)
Cette thèse en analyse du discours a pour objectif l'analyse comparative du genre discursif « manuel scolaire de philosophie » dans deux communautés ethnolinguistiques différentes : la France et le Brésil. Cet examen est réalisé moyennant la notion de « prise en charge énonciative » (PCE), qui est notre principale entrée pour l'analyse d'un corpus constitué de neuf manuels scolaires de philosophie. Nous cherchons ainsi à savoir comment les auteurs prennent en charge leurs discours dans les manuels, afin de répondre à la question de recherche suivante : « Quelles sont les représentations que l'on se fait de la philosophie et de son enseignement, suivant les discours des manuels français et brésiliens ? ». Les analyses linguistiques sont divisées en prise en charge énonciative maximale (PCE+) et prise en charge énonciative minimale (PCE-). L'effacement énonciatif, notion connexe à celle de PCE, ainsi qu'un ensemble de catégories issues de la linguistique de l'énonciation, sont mobilisés dans cette analyse. Dans un dernier temps de notre recherche, nous proposons quelques interprétations qui visent à rendre compte des représentations sociales concernant la philosophie et son enseignement, repérables à travers l'analyse des manuels scolaires. Nous pouvons dire grosso modo que ces représentations sociales tiennent, d'une part, à la stabilité de l'enseignement de la philosophie dans le système scolaire français et, d'autre part, à son instabilité dans le système scolaire brésilien. / This thesis in discourse analysis aims to analyse comparatively the discursive genre "philosophy textbook" in two different ethnolinguistic communities: France and Brazil. The investigation is realized using the notion of "enunciative undertaking" ("prise en change énonciative", PCE), which is our main entry point for analysing a corpus constituted by nine philosophy textbooks. We seek to know how the authors undertake their discourses in the textbooks, in order to answer the following research question: "What are the representations that one has of philosophy and its teaching, according to the philosophy textbooks' discourses?". The linguistic analyses are divided into maximal enunciative undertaking (PCE+) and minimal enunciative undertaking (PCE-). Enunciative erasing, a correlative notion of that of PCE, as well as a set of categories that stem from enunciative linguistics, are used in this analysis. At the end of our research, we propose some interpretations that seek to take into account social representations concerning philosophy and its teaching, recognisable through textbook analysis. Roughly speaking, these social representations are due, on the one hand, to the stability of philosophy teaching in the French school system and, on the other hand, to the instability of the Brazilian school system. / Esta tese em análise do discurso tem por objetivo a análise comparativa do gênero discursivo "livro didático de filosofia" em duas comunidades etnolinguísticas diferentes: a França e o Brasil. Esse exame é realizado mediante a noção de "comprometimento enunciativo" ("prise en charge énonciative", PCE), que é nossa principal entrada para a análise de um corpus constituído por nove livros didáticos de filosofia. Buscamos, assim, saber como os autores se comprometem com seus discursos nos livros didáticos, a fim de responder à seguinte questão de pesquisa: "Que representações se faz da filosofia e de seu ensino, segundo os discursos dos livros didáticos franceses e brasileiros?". As análises linguísticas são divididas em comprometimento enunciativo máximo (PCE+) e comprometimento enunciativo mínimo (PCE-). O apagamento enunciativo, noção conexa àquela de PCE, assim como um conjunto de categorias oriundas da linguística da enunciação, são mobilizados nessa análise. Em um último momento de nossa pesquisa, propomos algumas interpretações que visam a dar conta das representações sociais concernentes à filosofia e ao seu ensino, identificáveis através da análise dos livros didáticos. Podemos dizer, grosso modo, que essas represetações sociais se devem, por um lado, à estabilidade do ensino da filosofia no sistema escolar francês e, por outro lado, à sua instabilidade no sistema escolar brasileiro.
|
164 |
L'énoncé averbal en allemand et en kabyle (berbère) / Non-verbal utterance in German and Kabyle (Berber)Bouzidi, Said 10 July 2015 (has links)
Cette étude compare le fonctionnement de l’énoncé averbal (EAV) en kabyle et en allemand, en prenant comme cadre théorique la triade sémantico-logique établie par Zemb (1978), i. e. le thème (ce dont on parle), le rhème (ce qu’on en dit) et le phème (lieu d’articulation de la modalisation et de la négation) appliquée par Behr et Quintin (1996) et Behr (2013) à la catégorisation des EAV de l’allemand. Nous postulons que chaque langue dispose de moyens morphosyntaxiques, contextuelles et situationnelles contribuant à la réalisation d’EAV et que ces moyens sont plus étendus en kabyle. Nous supposons qu’il existe des structures sémantico-logiques uniques qui pourraient s’exprimer à travers des structures morphosyntaxiques variées. Nous supposons enfin que les EAV réalisent toutes les modalités, disposent de moyens morphologiques et/ ou contextuels permettant de les localiser dans le cadre temporel. Parmi les résultats, nous avons constaté que les EAV sont plus fréquents en kabyle grâce aux structures prédicatives grammaticalisées, sauf l’EAV représentant une continuité syntaxique avec le segment de gauche dont la fréquence en allemand est due au scrambling. Au niveau syntaxique, la pré-/postposition du thème par rapport au rhème obéit à des contraintes liées à la langue, i. e. l’état du nom en kabyle et la définitude du GN en allemand ; des contraintes propres à l’EAV se manifestent dans la prédilection pour l’ordre rhème-thème en allemand. Les EAV expriment toutes les modalités, ils sont situés dans le temps par les circonstants, certains démonstratifs ou le contexte, et les nominalisations en tant que rhème existentiel expriment l’aspectualité télique et atélique. / The study compares the functioning of non-verbal utterances in German and Kabyle (Berber) using the Zemb’s (1978) semantico-logical triad as a theoretical framework, i.e. the theme (what is being talked about), the rheme (what is said about the theme) and the phème (place of articulation of modalisation and negation), applied by Behr and Quintin (1996) and Behr (2013) to categorisation of German non-verbal utterances. We posit that each language has morphosyntactic, contextual and situational means allowing the construction of non-verbal utterances and that these means are more extensive in Kabyle.We also hypothesise that there are unique semantico-logical structures which could be expressed through varied morphosyntactical structures. Finally, we presume that non-verbal utterances express all the modalities; they have morphological and/ or contextual possibilities which locate them within the temporal framework. We have observed, among other results, that the frequency of non-verbal utterances is higher in Kabyle due to grammaticalized predicative structures, except for those depending syntactically on a main sentence, which could be explained by the scrambling-process. At the syntactic level, the pre-/postposition of the rheme in relation to the theme is subject to language specific constraints, i.e. changes in the noun state in Kabyle, the determination and definiteness in German; constraints concerning non-verbal utterances appear in the preference of the rheme-theme order in German. Non-verbal utterances express all modalities; they are located in time by circumstances, by some demonstratives or by the context, and nominalisations as existential rheme express telic and atelic aspectuality.
|
165 |
Les passages régis par les verbes d’imminence assimilés ou apparentés et leurs traductions en français dans l’œuvre de Rachid El-Daïf / The passages governed by assimilated or related imminent verbs and their translations into French in the work of Rachid El-DaïfSylla, Moctar 27 June 2017 (has links)
Cette recherche porte sur les verbes d’imminence assimilés ou apparentés dans l’oeuvre de Rachid EL-DAÏF et leur traduction en français. Nous avons procédé à l’analyse de ces verbes en arabe ancien et moderne, ainsi qu’en français, dans une perspective contrastive afin de relever les similitudes et les différences entre les deux langues. Nous avons étudié les verbes d’imminence dans la première partie, les verbes de souhait ou de probabilité dans l’expression de la modalité dans la deuxième, les verbes inchoatifs dans la troisième, l’analyse du verbe pouvoir et de son équivalent devoir en français dans la quatrième, l’exposant temporel kâna à la forme préfixée dans la cinquième partie. / Our research concerns assimilated or related imminent verbs in the work of Rachid EL-DAÏF and their translation into French. We analyzed these verbs in ancient and modern Arabic, as well as in French, in a contrasting perspective in order to identify the similarities and differences between the two languages. We have studied the verbs of imminence in the first part, the verbs of desire or probability in the expression of the modality in the second, the verbs in the third, the verb power and its equivalent duty in French in the fourth, the temporal exponent kana to the form prefixed in the fifth part.
|
166 |
Les manuels de philosophie en France et au Brésil : une analyse du discours contrastive de la prise en charge énonciative / Os livros didáticos de filosofia na França e no Brasil : uma análise do discurso contrastiva do comprometimento enunciativo / Philosophy textbooks in France and Brazil : a contrastive discourse analysis of enunciative undertakingSardá, Daniela Nienkötter 13 November 2015 (has links)
Cette thèse en analyse du discours a pour objectif l'analyse comparative du genre discursif « manuel scolaire de philosophie » dans deux communautés ethnolinguistiques différentes : la France et le Brésil. Cet examen est réalisé moyennant la notion de « prise en charge énonciative » (PCE), qui est notre principale entrée pour l'analyse d'un corpus constitué de neuf manuels scolaires de philosophie. Nous cherchons ainsi à savoir comment les auteurs prennent en charge leurs discours dans les manuels, afin de répondre à la question de recherche suivante : « Quelles sont les représentations que l'on se fait de la philosophie et de son enseignement, suivant les discours des manuels français et brésiliens ? ». Les analyses linguistiques sont divisées en prise en charge énonciative maximale (PCE+) et prise en charge énonciative minimale (PCE-). L'effacement énonciatif, notion connexe à celle de PCE, ainsi qu'un ensemble de catégories issues de la linguistique de l'énonciation, sont mobilisés dans cette analyse. Dans un dernier temps de notre recherche, nous proposons quelques interprétations qui visent à rendre compte des représentations sociales concernant la philosophie et son enseignement, repérables à travers l'analyse des manuels scolaires. Nous pouvons dire grosso modo que ces représentations sociales tiennent, d'une part, à la stabilité de l'enseignement de la philosophie dans le système scolaire français et, d'autre part, à son instabilité dans le système scolaire brésilien. / This thesis in discourse analysis aims to analyse comparatively the discursive genre "philosophy textbook" in two different ethnolinguistic communities: France and Brazil. The investigation is realized using the notion of "enunciative undertaking" ("prise en change énonciative", PCE), which is our main entry point for analysing a corpus constituted by nine philosophy textbooks. We seek to know how the authors undertake their discourses in the textbooks, in order to answer the following research question: "What are the representations that one has of philosophy and its teaching, according to the philosophy textbooks' discourses?". The linguistic analyses are divided into maximal enunciative undertaking (PCE+) and minimal enunciative undertaking (PCE-). Enunciative erasing, a correlative notion of that of PCE, as well as a set of categories that stem from enunciative linguistics, are used in this analysis. At the end of our research, we propose some interpretations that seek to take into account social representations concerning philosophy and its teaching, recognisable through textbook analysis. Roughly speaking, these social representations are due, on the one hand, to the stability of philosophy teaching in the French school system and, on the other hand, to the instability of the Brazilian school system. / Esta tese em análise do discurso tem por objetivo a análise comparativa do gênero discursivo "livro didático de filosofia" em duas comunidades etnolinguísticas diferentes: a França e o Brasil. Esse exame é realizado mediante a noção de "comprometimento enunciativo" ("prise en charge énonciative", PCE), que é nossa principal entrada para a análise de um corpus constituído por nove livros didáticos de filosofia. Buscamos, assim, saber como os autores se comprometem com seus discursos nos livros didáticos, a fim de responder à seguinte questão de pesquisa: "Que representações se faz da filosofia e de seu ensino, segundo os discursos dos livros didáticos franceses e brasileiros?". As análises linguísticas são divididas em comprometimento enunciativo máximo (PCE+) e comprometimento enunciativo mínimo (PCE-). O apagamento enunciativo, noção conexa àquela de PCE, assim como um conjunto de categorias oriundas da linguística da enunciação, são mobilizados nessa análise. Em um último momento de nossa pesquisa, propomos algumas interpretações que visam a dar conta das representações sociais concernentes à filosofia e ao seu ensino, identificáveis através da análise dos livros didáticos. Podemos dizer, grosso modo, que essas represetações sociais se devem, por um lado, à estabilidade do ensino da filosofia no sistema escolar francês e, por outro lado, à sua instabilidade no sistema escolar brasileiro.
|
167 |
Genèse et système des marqueurs TMA en créole mauricien et en créole haïtien / Genesis and system of TMA markers in Mauritian Creole and Haitian CreoleFon Sing, Guillaume 30 November 2010 (has links)
Cette thèse porte sur les marqueurs de temps, de mode et d’aspect [TMA] dans deux créoles français : le mauricien et le haïtien. Deux objectifs sont visés : 1] apporter des arguments pour soutenir l’idée du caractère non exceptionnel des langues créoles et 2] mettre en lumière les différences constrastives du marquage TMA entre les systèmes verbaux des deux créoles. Premièrement, nous remettons en question le concept de « Creole Specific Reanalysis » [Detges 2000] en discutant de l’opposition entre deux mécanismes importants du changement linguistique que sont la grammaticalisation et la réanalyse et nous menons une étude diachronique sur les marqueurs TMA en créole mauricien à partir d’un corpus de textes anciens. Par son exploitation systématique, ce travail permet d’arriver à une description de l’émergence et du développement du système verbal TMA en mauricien. Deuxièmement, nous faisons une étude comparative synchronique des systèmes des marqueurs TMA du mauricien et du haïtien en nous appuyant sur un cadre théorique général de la temporalité et à partir de données contemporaines, issues entre autres d’une enquête suivant le questionnaire de Dahl [1985]. Nous présentons les éléments communs et ceux qui différencient les marqueurs TMA des deux créoles en raison de leurs fonctions communicatives et de leurs sémantismes dans leurs emplois et usages respectifs. / This study concerns the tense, mood and aspect [TMA] markers in two French Creoles: Mauritian and Haitian. The objectives of this doctoral thesis are twofold : 1] provide arguments to support the idea that Creole languages are non-exceptional and 2] highlight the contrastive differences of TMA marking between the verbal systems of the two creoles. First, we question the concept of "Creole Specific Reanalysis" [Detges 2000] by discussing the opposition between two important mechanisms in language change : grammaticalization and reanalysis, and we conduct a diachronical study on TMA markers in Mauritian Creole based on a corpus of old texts. Through its systematic exploitation, this work describes the emergence and the development of the TMA verbal system in this Creole. Secondly, a comparative analysis of the synchronic systems of TMA markers in Mauritian and Haitian is done, based on a general theoretical framework on Temporality and on contemporary data, resulting inter alia from a survey using Dahl’s [1985] questionnaire. The study presents the common elements and those that differentiate the TMA markers in the two Creoles because of their semantics and the communicative functions they fulfill.
|
168 |
Etude de la concession dans une perspective contrastive français - vietnamien à partir de corpus oraux / Research of the concession from a contrastive perspective French - Vietnamese from oral corporaDo, Thi Thu Trang 16 December 2016 (has links)
Cette thèse étudie l'expression de la concession l'oral dans une perspective contrastive français - vietnamien. A partir d'un corpus d'émissions radiophoniques en français et ensuivant trois approches complémentaires - linguistique, logique et interactionnelle -, le fonctionnement et les caractéristiques des concessions ont été analysés afin de les classer par catégories et d'en proposer un modèle d'expression. Les concessions en vietnamien ont été étudiées à partir de données homologues afin de mettre en évidence les similitudes et les différences. / The aim of this PhD is a linguistic analysis of the concessive clause in a contrastive French/Vietnamese perspective based on a corpus of radio programs. Three complementary approaches (linguistic, logical and interactional) are used to define the functions and the properties of concessive clauses in French as in Vietnamese in order to observe the similarities and the differences toward a modelling.
|
169 |
Apprentissage discriminant des modèles continus en traduction automatique / Discriminative Training Procedure for Continuous-Space Translation ModelsDo, Quoc khanh 31 March 2016 (has links)
Durant ces dernières années, les architectures de réseaux de neurones (RN) ont été appliquées avec succès à de nombreuses applications en Traitement Automatique de Langues (TAL), comme par exemple en Reconnaissance Automatique de la Parole (RAP) ainsi qu'en Traduction Automatique (TA).Pour la tâche de modélisation statique de la langue, ces modèles considèrent les unités linguistiques (c'est-à-dire des mots et des segments) à travers leurs projections dans un espace continu (multi-dimensionnel), et la distribution de probabilité à estimer est une fonction de ces projections.Ainsi connus sous le nom de "modèles continus" (MC), la particularité de ces derniers se trouve dans l'exploitation de la représentation continue qui peut être considérée comme une solution au problème de données creuses rencontré lors de l'utilisation des modèles discrets conventionnels.Dans le cadre de la TA, ces techniques ont été appliquées dans les modèles de langue neuronaux (MLN) utilisés dans les systèmes de TA, et dans les modèles continus de traduction (MCT).L'utilisation de ces modèles se sont traduit par d'importantes et significatives améliorations des performances des systèmes de TA. Ils sont néanmoins très coûteux lors des phrases d'apprentissage et d'inférence, notamment pour les systèmes ayant un grand vocabulaire.Afin de surmonter ce problème, l'architecture SOUL (pour "Structured Output Layer" en anglais) et l'algorithme NCE (pour "Noise Contrastive Estimation", ou l'estimation contrastive bruitée) ont été proposés: le premier modifie la structure standard de la couche de sortie, alors que le second cherche à approximer l'estimation du maximum de vraisemblance (MV) par une méthode d’échantillonnage.Toutes ces approches partagent le même critère d'estimation qui est la log-vraisemblance; pourtant son utilisation mène à une incohérence entre la fonction objectif définie pour l'estimation des modèles, et la manière dont ces modèles seront utilisés dans les systèmes de TA.Cette dissertation vise à concevoir de nouvelles procédures d'entraînement des MC, afin de surmonter ces problèmes.Les contributions principales se trouvent dans l'investigation et l'évaluation des méthodes d'entraînement efficaces pour MC qui visent à: (i) réduire le temps total de l'entraînement, et (ii) améliorer l'efficacité de ces modèles lors de leur utilisation dans les systèmes de TA.D'un côté, le coût d'entraînement et d'inférence peut être réduit (en utilisant l'architecture SOUL ou l'algorithme NCE), ou la convergence peut être accélérée.La dissertation présente une analyse empirique de ces approches pour des tâches de traduction automatique à grande échelle.D'un autre côté, nous proposons un cadre d'apprentissage discriminant qui optimise la performance du système entier ayant incorporé un modèle continu.Les résultats expérimentaux montrent que ce cadre d'entraînement est efficace pour l'apprentissage ainsi que pour l'adaptation des MC au sein des systèmes de TA, ce qui ouvre de nouvelles perspectives prometteuses. / Over the past few years, neural network (NN) architectures have been successfully applied to many Natural Language Processing (NLP) applications, such as Automatic Speech Recognition (ASR) and Statistical Machine Translation (SMT).For the language modeling task, these models consider linguistic units (i.e words and phrases) through their projections into a continuous (multi-dimensional) space, and the estimated distribution is a function of these projections. Also qualified continuous-space models (CSMs), their peculiarity hence lies in this exploitation of a continuous representation that can be seen as an attempt to address the sparsity issue of the conventional discrete models. In the context of SMT, these echniques have been applied on neural network-based language models (NNLMs) included in SMT systems, and oncontinuous-space translation models (CSTMs). These models have led to significant and consistent gains in the SMT performance, but are also considered as very expensive in training and inference, especially for systems involving large vocabularies. To overcome this issue, Structured Output Layer (SOUL) and Noise Contrastive Estimation (NCE) have been proposed; the former modifies the standard structure on vocabulary words, while the latter approximates the maximum-likelihood estimation (MLE) by a sampling method. All these approaches share the same estimation criterion which is the MLE ; however using this procedure results in an inconsistency between theobjective function defined for parameter stimation and the way models are used in the SMT application. The work presented in this dissertation aims to design new performance-oriented and global training procedures for CSMs to overcome these issues. The main contributions lie in the investigation and evaluation of efficient training methods for (large-vocabulary) CSMs which aim~:(a) to reduce the total training cost, and (b) to improve the efficiency of these models when used within the SMT application. On the one hand, the training and inference cost can be reduced (using the SOUL structure or the NCE algorithm), or by reducing the number of iterations via a faster convergence. This thesis provides an empirical analysis of these solutions on different large-scale SMT tasks. On the other hand, we propose a discriminative training framework which optimizes the performance of the whole system containing the CSM as a component model. The experimental results show that this framework is efficient to both train and adapt CSM within SMT systems, opening promising research perspectives.
|
170 |
Caractérisation différentielle de forums de discussion sur le VIH en vietnamien et en français : Éléments pour la fouille comportementale du web social / Differential characterization of discussion forums on HIV in Vietnamese and French : Elements for behaviour mining on the social webHô Dinh, Océane 22 December 2017 (has links)
Les discours normés que produisent les institutions sont concurrencés par les discours informels ou faiblement formalisés issus du web social. La démocratisation de la prise de parole redistribue l’autorité en matière de connaissance et modifie les processus de construction des savoirs. Ces discours spontanés sont accessibles par tous et dans des volumes exponentiels, ce qui offre aux sciences humaines et sociales de nouvelles possibilités d’exploration. Pourtant elles manquent encore de méthodologies pour appréhender ces données complexes et encore peu décrites. L’objectif de la thèse est de montrer dans quelle mesure les discours du web social peuvent compléter les discours institutionnels. Nous y développons une méthodologie de collecte et d’analyse adaptée aux spécificités des discours natifs du numérique (massivité, anonymat, volatilité, caractéristiques structurelles, etc.). Nous portons notre attention sur les forums de discussion comme environnements d’élaboration de ces discours et appliquons la méthodologie développée à une problématique sociale définie : celle de l’épidémie du VIH/SIDA au Viêt Nam. Ce terrain applicatif recouvre plusieurs enjeux de société : sanitaire et social, évolutions des moeurs, concurrence des discours. L’étude est complétée par l’analyse d’un corpus comparable de langue française, relevant des mêmes thématique, genre et discours que le corpus vietnamien, de manière à mettre en évidence les spécificités de contextes socioculturels distincts. / The standard discourse produced by official organisations is confronted with the unofficial or informal discourse of the social web. Empowering people to express themselves results in a new balance of authority, when it comes to knowledge and changes the way people learn. Social web discourse is available to each and everyone and its size is growing fast, which opens up new fields for both humanities and social sciences to investigate. The latter, however, are not equipped to engage with such complex and little-analysed data. The aim of this dissertation is to investigate how far social web discourse can help supplement official discourse. In it we set out a method to collect and analyse data that is in line with the characteristics of a digital environment, namely data size, anonymity, transience, structure. We focus on forums, where such discourse is built, and test our method on a specific social issue, ie the HIV/AIDS epidemic in Vietnam. This field of investigation encompasses several related questions that have to do with health, society, the evolution of morals, the mismatch between different kinds of discourse. Our study is also grounded in the analysis of a comparable French corpus dealing with the same topic, whose genre and discourse characteristics are equivalent to those of the Vietnamese one: this two-pronged research highlights the specific features of different socio-cultural environments.
|
Page generated in 0.0611 seconds