1 |
Amélioration des systèmes de traduction par analyse linguistique et thématique : Application à la traduction depuis l'arabeGahbiche-Braham, Souhir 30 September 2013 (has links) (PDF)
La traduction automatique des documents est considérée comme l'une des tâches les plus difficiles en traitement automatique des langues et de la parole. Les particularités linguistiques de certaines langues, comme la langue arabe, rendent la tâche de traduction automatique plus difficile. Notre objectif dans cette thèse est d'améliorer les systèmes de traduction de l'arabe vers le français et vers l'anglais. Nous proposons donc une étude détaillée sur ces systèmes. Les principales recherches portent à la fois sur la construction de corpus parallèles, le prétraitement de l'arabe et sur l'adaptation des modèles de traduction et de langue.Tout d'abord, un corpus comparable journalistique a été exploré pour en extraire automatiquement un corpus parallèle. Ensuite, différentes approches d'adaptation du modèle de traduction sont exploitées, soit en utilisant le corpus parallèle extrait automatiquement soit en utilisant un corpus parallèle construit automatiquement.Nous démontrons que l'adaptation des données du système de traduction permet d'améliorer la traduction. Un texte en arabe doit être prétraité avant de le traduire et ceci à cause du caractère agglutinatif de la langue arabe. Nous présentons notre outil de segmentation de l'arabe, SAPA (Segmentor and Part-of-speech tagger for Arabic), indépendant de toute ressource externe et permettant de réduire les temps de calcul. Cet outil permet de prédire simultanément l'étiquette morpho-syntaxique ainsi que les proclitiques (conjonctions, prépositions, etc.) pour chaque mot, ensuite de séparer les proclitiques du lemme (ou mot de base). Nous décrivons également dans cette thèse notre outil de détection des entités nommées, NERAr (Named Entity Recognition for Arabic), et nous examions l'impact de l'intégration de la détection des entités nommées dans la tâche de prétraitement et la pré-traduction de ces entités nommées en utilisant des dictionnaires bilingues. Nous présentons par la suite plusieurs méthodes pour l'adaptation thématique des modèles de traduction et de langue expérimentées sur une application réelle contenant un corpus constitué d'un ensemble de phrases multicatégoriques.Ces expériences ouvrent des perspectives importantes de recherche comme par exemple la combinaison de plusieurs systèmes lors de la traduction pour l'adaptation thématique. Il serait également intéressant d'effectuer une adaptation temporelle des modèles de traduction et de langue. Finalement, les systèmes de traduction améliorés arabe-français et arabe-anglais sont intégrés dans une plateforme d'analyse multimédia et montrent une amélioration des performances par rapport aux systèmes de traduction de base.
|
2 |
Amélioration des systèmes de traduction par analyse linguistique et thématique : application à la traduction depuis l'arabe / Improvements for Machine Translation Systems Using Linguistic and Thematic Analysis : an Application to the Translation from ArabicGahbiche-Braham, Souhir 30 September 2013 (has links)
La traduction automatique des documents est considérée comme l’une des tâches les plus difficiles en traitement automatique des langues et de la parole. Les particularités linguistiques de certaines langues, comme la langue arabe, rendent la tâche de traduction automatique plus difficile. Notre objectif dans cette thèse est d'améliorer les systèmes de traduction de l'arabe vers le français et vers l'anglais. Nous proposons donc une étude détaillée sur ces systèmes. Les principales recherches portent à la fois sur la construction de corpus parallèles, le prétraitement de l'arabe et sur l'adaptation des modèles de traduction et de langue.Tout d'abord, un corpus comparable journalistique a été exploré pour en extraire automatiquement un corpus parallèle. Ensuite, différentes approches d’adaptation du modèle de traduction sont exploitées, soit en utilisant le corpus parallèle extrait automatiquement soit en utilisant un corpus parallèle construit automatiquement.Nous démontrons que l'adaptation des données du système de traduction permet d'améliorer la traduction. Un texte en arabe doit être prétraité avant de le traduire et ceci à cause du caractère agglutinatif de la langue arabe. Nous présentons notre outil de segmentation de l'arabe, SAPA (Segmentor and Part-of-speech tagger for Arabic), indépendant de toute ressource externe et permettant de réduire les temps de calcul. Cet outil permet de prédire simultanément l’étiquette morpho-syntaxique ainsi que les proclitiques (conjonctions, prépositions, etc.) pour chaque mot, ensuite de séparer les proclitiques du lemme (ou mot de base). Nous décrivons également dans cette thèse notre outil de détection des entités nommées, NERAr (Named Entity Recognition for Arabic), et nous examions l'impact de l'intégration de la détection des entités nommées dans la tâche de prétraitement et la pré-traduction de ces entités nommées en utilisant des dictionnaires bilingues. Nous présentons par la suite plusieurs méthodes pour l'adaptation thématique des modèles de traduction et de langue expérimentées sur une application réelle contenant un corpus constitué d’un ensemble de phrases multicatégoriques.Ces expériences ouvrent des perspectives importantes de recherche comme par exemple la combinaison de plusieurs systèmes lors de la traduction pour l'adaptation thématique. Il serait également intéressant d'effectuer une adaptation temporelle des modèles de traduction et de langue. Finalement, les systèmes de traduction améliorés arabe-français et arabe-anglais sont intégrés dans une plateforme d'analyse multimédia et montrent une amélioration des performances par rapport aux systèmes de traduction de base. / Machine Translation is one of the most difficult tasks in natural language and speech processing. The linguistic peculiarities of some languages makes the machine translation task more difficult. In this thesis, we present a detailed study of machine translation systems from arabic to french and to english.Our principle researches carry on building parallel corpora, arabic preprocessing and adapting translation and language models. We propose a method for automatic extraction of parallel news corpora from a comparable corpora. Two approaches for translation model adaptation are explored using whether parallel corpora extracted automatically or parallel corpora constructed automatically. We demonstrate that adapting data used to build machine translation system improves translation.Arabic texts have to be preprocessed before machine translation and this because of the agglutinative character of arabic language. A prepocessing tool for arabic, SAPA (Segmentor and Part-of-speech tagger for Arabic), much faster than the state of the art tools and totally independant of any other external resource was developed. This tool predicts simultaneously morphosyntactic tags and proclitics (conjunctions, prepositions, etc.) for every word, then splits off words into lemma and proclitics.We describe also in this thesis, our named entity recognition tool for arabic, NERAr, and we focus on the impact of integrating named entity recognition in the preprocessing task. We used bilingual dictionaries to propose translations of the detected named entities. We present then many approaches to adapt thematically translation and language models using a corpora consists of a set of multicategoric sentences.These experiments open important research perspectives such as combining many systems when translating. It would be interesting also to focus on a temporal adaptation of translation and language models.Finally, improved machine translation systems from arabic to french and english are integrated in a multimedia platform analysis and shows improvements compared to basic machine translation systems.
|
3 |
Propositions pour l'enseignement du subjonctif aux adultes arabophones : Application aux étudiants des universités syriennesYoussef, Natalia 17 December 2012 (has links) (PDF)
Vu la difficulté de l'apprentissage du mode subjonctif et de son emploi pour les apprenants adultes arabophones, Nous proposons, dans le cadre de notre recherche, une nouvelle méthodologie de l'enseignement du mode subjonctif du français basée sur la théorie du temps et de l'aspect de GOSSELIN. Cette théorie explique la relation temporelle entre l'intervalle de référence du verbe employé au subjonctif et l'intervalle d'énonciation dans une proposition indépendante et la relation temporelle entre l'intervalle de référence du verbe de la subordonnée employé au subjonctif et l'intervalle de référence du verbe de la principale dans une phrase complexe. Cette manière d'expliquer la relation temporelle facilite la compréhension de l'emploi du subjonctif dans une proposition indépendante ainsi que dans une proposition subordonnée. Elle explique également le choix du mode dans une proposition subordonnée ainsi que l'alternance des modes dans la même structure.Cette nouvelle méthodologie est fondée sur une étude comparative du système verbal du français et de celui de l'arabe et sur une étude comparative du subjonctif du français et de celui de l'arabe. Ces études nous ont permis de formuler nos hypothèses concernant les difficultés de l'apprentissage du mode subjonctif pour les apprenants adultes arabophones dus à deux phénomènes : la généralisation des règles et l'interférence de la langue maternelle (l'arabe). Ainsi nous avons proposé deux questionnaires destinés l'un à un public arabophone (syrien) ayant un niveau avancé en français et l'autre à un public arabophone (syrien) ayant un niveau moyen en français. Les résultats obtenus ont justifié nos hypothèses. Nous avons également fait une étude critique, concernant le mode subjonctif, de certains manuels de FLE et d'une méthode de grammaire FLE enseignés à l'université de Damas en Syrie. Cette étude nous a permis d'identifier les deux problèmes susmentionnés dans ces manuels. En effet, cette recherche comporte également une nouvelle méthodologie de l'explication de la grammaire arabe adressée à un public francophone. L'application de la théorie du temps et de l'aspect de GOSSELIN nous a permis d'expliquer l'emploi du subjonctif en arabe et d'observer la relation temporelle au sein d'une phrase complexe arabe comportant un verbe employé au subjonctif, d'où l'originalité de cette théorie.
|
4 |
Les contacts hispano-marocains et le phénomène de l'emprunt linguistique: le cas de TangerChebaa, Abdelouahid January 1998 (has links)
Doctorat en philosophie et lettres / info:eu-repo/semantics/nonPublished
|
5 |
Il faut et on peut construire des systèmes de commerce électronique à interface en langue naturelle restreints (et multilingues) en utilisant des méthodes orientées vers les sous-langages et le contenuDaoud, Daoud 20 September 2006 (has links) (PDF)
Aucun système de commerce électronique opérationnel n'est capable de traiter en ligne des requêtes d'utilisateurs exprimées en langue naturelle spontanée. Certains systèmes évitent le problème difficile du développement et du support d'une interface en langue naturelle en simplifiant le type d'interaction de l'utilisateur, par l'utilisation de formulaires à remplir ou d'un langage naturel contrôlé. D'autres systèmes ont cherché mais échoué à offrir une interface en langue naturelle spontanée, parce qu'ils utilisaient des techniques de TALN inadaptées.<br />Le but de cette thèse est de montrer qu'il est nécessaire et possible de construrie des systèmes de commerce électronique à interface en langue naturelle restreints (et multilingues) en utilisant des méthodes orientées vers les sous-langages et le contenu. L'analyse du sous-langage et l'intégration de méthodes orientées vers le contenu augmentent en effet l'exactitude et la robustesse du traitement de façon décisive.<br />Pour vérifier cela, nous avons construit un système expérimental, CATS, comme "preuve de concept". C'est un système de petites annonces en langue naturelle (actuellement l'arabe) basé sur les SMS destiné à mettre en contact des personnes désirant vendre ou acheter des voitures d'occasion, de l'immobilier, etc. Pour analyser le sous-langage très particulier de ces petites annonces en SMS, nous sommes partis d'un corpus web de messages de ce type (mais pas en SMS) pour construire un système de base couvrant l'occasion automobile et l'immobilier en Jordanie. Ce premier système a été déployé, ce qui nous a permis de collecter un corpus réel de SMS "spontanés" dans ces domaines, et d'ajuster finement CATS à ces domaines.<br />Le traitement sémantique étant nécessaire, nous avons défini CRL-cats, un langage de représentation du contenu très simple, mais suffisant pour exprimer le contenu de telles petites annonces. Nous avons écrit l'extracteur de contenu dans le langage spécialisé pour la programmation linguisitique EnCo, dans lequel nous avions déjà écrit le premier "enconvertisseur" arabe-UNL. Ce langage étant d'assez bas niveau, et n'offant aucune aide à la programmation modulaire, nous avons développé une méthodologie qui facilite l'écriture d'enconvertisseurs aussi bien que d'extracteurs de contenu, et permet un codage systématique et efficace.<br />La génération des réponses est basée sur une reconnaissance de patrons sémantiques, différents selon qu'il s'agit d'une annonce de recherche ("look for") ou d'offre ("sell"), et sur un mécanisme de raisonnement, de sorte qu'on peut traiter les situations "sans réponse". À la différence d'autres systèmes expérimentaux, CATS a été conçu dès le départ pour être un "système de production". Il est actuellement déployé en Jordanie par le plus grand opérateur de téléphonie mobile (Fastlink), qui lui a d'abord fait passer des tests sévères. Le test de l'extracteur de contenu sur du texte réel et bruité a donné une f-mesure de 90%. Le temps de réponse moyen est d'environ 10 à 30 secondes à une heure de pointe (10 annonces par minute).
|
6 |
Le traitement automatique de l’arabe dialectalisé : aspects méthodologiques et algorithmiques / Automatic processing of dialectal Arabic : methodological and algorithmic aspectsSaadane, Houda 14 December 2015 (has links)
L'auteur n'a pas fourni de résumé français. / L'auteur n'a pas fourni de résumé anglais.
|
7 |
Propositions pour l'enseignement du subjonctif aux adultes arabophones : Application aux étudiants des universités syriennes / Propositions for teaching the subjunctif for Arabic adults : Application on Syrien universities studentsYoussef, Natalia 17 December 2012 (has links)
Vu la difficulté de l’apprentissage du mode subjonctif et de son emploi pour les apprenants adultes arabophones, Nous proposons, dans le cadre de notre recherche, une nouvelle méthodologie de l’enseignement du mode subjonctif du français basée sur la théorie du temps et de l’aspect de GOSSELIN. Cette théorie explique la relation temporelle entre l’intervalle de référence du verbe employé au subjonctif et l’intervalle d’énonciation dans une proposition indépendante et la relation temporelle entre l’intervalle de référence du verbe de la subordonnée employé au subjonctif et l’intervalle de référence du verbe de la principale dans une phrase complexe. Cette manière d’expliquer la relation temporelle facilite la compréhension de l’emploi du subjonctif dans une proposition indépendante ainsi que dans une proposition subordonnée. Elle explique également le choix du mode dans une proposition subordonnée ainsi que l’alternance des modes dans la même structure.Cette nouvelle méthodologie est fondée sur une étude comparative du système verbal du français et de celui de l’arabe et sur une étude comparative du subjonctif du français et de celui de l’arabe. Ces études nous ont permis de formuler nos hypothèses concernant les difficultés de l’apprentissage du mode subjonctif pour les apprenants adultes arabophones dus à deux phénomènes : la généralisation des règles et l’interférence de la langue maternelle (l’arabe). Ainsi nous avons proposé deux questionnaires destinés l’un à un public arabophone (syrien) ayant un niveau avancé en français et l’autre à un public arabophone (syrien) ayant un niveau moyen en français. Les résultats obtenus ont justifié nos hypothèses. Nous avons également fait une étude critique, concernant le mode subjonctif, de certains manuels de FLE et d’une méthode de grammaire FLE enseignés à l’université de Damas en Syrie. Cette étude nous a permis d’identifier les deux problèmes susmentionnés dans ces manuels. En effet, cette recherche comporte également une nouvelle méthodologie de l’explication de la grammaire arabe adressée à un public francophone. L’application de la théorie du temps et de l’aspect de GOSSELIN nous a permis d’expliquer l’emploi du subjonctif en arabe et d’observer la relation temporelle au sein d’une phrase complexe arabe comportant un verbe employé au subjonctif, d’où l’originalité de cette théorie. / The difficulty of the French subjunctive mood’s learning and use for Arabic adult learners led us in our research to offer a new learning methodology based on GOSSELIN’s theory of Tense and Aspect.This theory explains the temporal relationship between the reference interval of the verb used in subjunctive and the enunciation interval in a independent clause, and the temporal relationship between the reference interval of the subordinate clause’s verb used in subjunctive and the reference interval of the verb used in the main clause in a compound sentence. This way to explain the temporal relationship makes the understanding of the subjunctive use in an independent or subordinate clause easier. This method also explains the mood’s choice in a subordinate clause as well as the mood’s alternation in the same structure.This new methodology is based on a comparative study between the French verbal systems and the Arabic one. It is also based one a comparative study between the French subjunctive mood and the Arabic one. These studies have allowed us to formulate two hypotheses reasons of the difficulties that Arabic adult’s learners face while learning the subjunctive mood: the generalization of rules and the mother tongue’s interference (Arabic). In order to confirm our hypotheses we proposed two questionnaires. The first one addressed to an Arabic (Syrian) audience with an advanced French level. The second one addressed to an Arabic (Syrian) audience with an intermediate French level. The results confirmed positively our hypotheses. We also led a critical study about the subjunctive mood from some FLE manuals and a grammatical FLE method taught at Damascus University in Syria. The conclusion of this study allowed us to identify in this methods the two problems stated earlier.Indeed, this research also includes a new methodology for explaining Arabic grammar for French learners. The application of GOSSELIN’s theory of Tense and Aspect allowed us to explain the use of the subjunctive in Arabic. As well as to observe the time relationship within a complex Arabic sentence including a verb used to the subjunctive. This shows the originality of this theory.
|
8 |
La diglossie et son influence sur la production langagière arabe : Étude théorique et pratique à partir de copies d’examen et d’un extrait télévisé / Diglossia and its influence on Arabic language production : Practical study based on exam papers and a television extractShahin, Fadi 26 November 2014 (has links)
Cette thèse est une étude de terrain portant sur la diglossie et la production langagière de l’arabe.Depuis l’article de Ferguson (1959), de nombreux travaux sont apparus, très souvent pour critiquer la vision dichotomique proposée par cet auteur.Après avoir retracé l’histoire de la langue arabe de ses origines à nos jours, nous avons étudié les travaux réalisés par les arabophones sur leur langue. Les linguistes arabophones, de l’époque médiévale jusqu’à la Naḥda, ont-Ils été conscients de la situation diglossique ? Partant de cette étude, nous avons voulu démontrer à travers deux corpus, l’un écrit, l’autre oral, l’étendue de l’influence de la variété basse (dialectale) sur la variété haute (littérale) dans la production langagière de la langue arabe. Dans cette perspective, nous avons utilisé des copies d’étudiants de différents niveaux, débutants, intermédiaires et avancés. Pour l’étude de l’oral, nous nous sommes appuyés sur un corpus médiatique.Peut-On faire usage d’une variété sans subir l’interférence de la seconde ? Telle est la question à laquelle nous tentons de répondre dans cette thèse. / This thesis is a field study on diglossia and Arabic language production. Since the article by Ferguson (1959), numerous studies have appeared, often criticizing the dichotomous vision proposed by this author.After tracing the history of the Arabic language from its origins to the present day, we have studied the works of Arabic-Speakers on their language. From medieval times until the Naḥda, were Arabic-Speaking linguists aware of the diglossic situation?Using this historical perspective as a point of departure, we wanted to demonstrate the extent of the influence of the low variety (vernacular) on the high variety (literary) in Arabic language production through two sets of language production, one written and one oral. With this in mind, we used exam papers of students of different levels: beginner, intermediate and advanced. For the study of the oral, we relied on a television extract.Can we make use of one variety without being subjected to interference from the second? This is the question that we attempt to address in this thesis.
|
9 |
Les quadriconsonantiques dans le lexique de l'arabeBachmar, Karim 25 November 2011 (has links) (PDF)
La thèse se répartit en deux tomes. Les quadriconsonantiques forment deux groupes de radicaux distincts, à savoir : les radicaux de forme ABAB et les radicaux de forme ABCD. L'analyse de ces radicaux, en appliquant la TME (Théorie, Matrice, Etymon) élaborée par G. Bohas, permet de définir leur fonctionnement aux plans sémantique, sémantico phonétique et structurel. La première partie Tome 1 analyse les quadriconsonantiques de forme ABAB. La deuxième partie Tome 2 est consacrée aux quadriconsonantiques de forme ABCD.Concernant les radicaux ABAB, dont la structure est issue d'un redoublement de l'unique étymon AB, le travail d'analyse va plus s'orienter sur la sémantique. Il est démontré que le redoublement ne s'accompagne pas d'une modification sémantique systématique, contrairement à ce que l'on observe dans les parlers d'orient et d'occident.La deuxième partie de la thèse, Tome 2, dans les mêmes conditions que précédemment, étudie les radicaux ABCD dans le cadre de la TME en prenant en compte la contrainte phonétique formulée par Angoujard (1997), notée : CPA. L'objectif est de déterminer leur mode de fonctionnement tant sur le plan structurel que sur le plan sémantico phonétique. L'étude de ces radicaux ABCD ne se limite pas uniquement à montrer le fonctionnement structurel des radicaux mais établit une relation entre la TME de Bohas et la CPA d'Angoujard.
|
Page generated in 0.0424 seconds