Global ETD Search

1	Intégration de ressources lexicales riches dans un analyseur syntaxique probabiliste / Integration of lexical resources in a probabilistic parser Sigogne, Anthony 03 December 2012 (has links) Cette thèse porte sur l'intégration de ressources lexicales et syntaxiques du français dans deux tâches fondamentales du Traitement Automatique des Langues [TAL] que sont l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste. Dans ce mémoire, nous utilisons des données lexicales et syntaxiques créées par des processus automatiques ou par des linguistes afin de donner une réponse à deux problématiques que nous décrivons succinctement ci-dessous : la dispersion des données et la segmentation automatique des textes. Grâce à des algorithmes d'analyse syntaxique de plus en plus évolués, les performances actuelles des analyseurs sont de plus en plus élevées, et ce pour de nombreuses langues dont le français. Cependant, il existe plusieurs problèmes inhérents aux formalismes mathématiques permettant de modéliser statistiquement cette tâche (grammaire, modèles discriminants,...). La dispersion des données est l'un de ces problèmes, et est causée principalement par la faible taille des corpus annotés disponibles pour la langue. La dispersion représente la difficulté d'estimer la probabilité de phénomènes syntaxiques apparaissant dans les textes à analyser mais qui sont rares ou absents du corpus ayant servi à l'apprentissage des analyseurs. De plus, il est prouvé que la dispersion est en partie un problème lexical, car plus la flexion d'une langue est importante, moins les phénomènes lexicaux sont représentés dans les corpus annotés. Notre première problématique repose donc sur l'atténuation de l'effet négatif de la dispersion lexicale des données sur les performances des analyseurs. Dans cette optique, nous nous sommes intéressé à une méthode appelée regroupement lexical, et qui consiste à regrouper les mots du corpus et des textes en classes. Ces classes réduisent le nombre de mots inconnus et donc le nombre de phénomènes syntaxiques rares ou inconnus, liés au lexique, des textes à analyser. Notre objectif est donc de proposer des regroupements lexicaux à partir d'informations tirées des lexiques syntaxiques du français, et d'observer leur impact sur les performances d'analyseurs syntaxiques. Par ailleurs, la plupart des évaluations concernant l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste ont été réalisées avec une segmentation parfaite du texte, car identique à celle du corpus évalué. Or, dans les cas réels d'application, la segmentation d'un texte est très rarement disponible et les segmenteurs automatiques actuels sont loin de proposer une segmentation de bonne qualité, et ce, à cause de la présence de nombreuses unités multi-mots (mots composés, entités nommées,...). Dans ce mémoire, nous nous focalisons sur les unités multi-mots dites continues qui forment des unités lexicales auxquelles on peut associer une étiquette morpho-syntaxique, et que nous appelons mots composés. Par exemple, cordon bleu est un nom composé, et tout à fait un adverbe composé. Nous pouvons assimiler la tâche de repérage des mots composés à celle de la segmentation du texte. Notre deuxième problématique portera donc sur la segmentation automatique des textes français et son impact sur les performances des processus automatiques. Pour ce faire, nous nous sommes penché sur une approche consistant à coupler, dans un même modèle probabiliste, la reconnaissance des mots composés et une autre tâche automatique. Dans notre cas, il peut s'agir de l'analyse syntaxique ou de l'étiquetage morpho-syntaxique. La reconnaissance des mots composés est donc réalisée au sein du processus probabiliste et non plus dans une phase préalable. Notre objectif est donc de proposer des stratégies innovantes permettant d'intégrer des ressources de mots composés dans deux processus probabilistes combinant l'étiquetage ou l'analyse à la segmentation du texte / This thesis focuses on the integration of lexical and syntactic resources of French in two fundamental tasks of Natural Language Processing [NLP], that are probabilistic part-of-speech tagging and probabilistic parsing. In the case of French, there are a lot of lexical and syntactic data created by automatic processes or by linguists. In addition, a number of experiments have shown interest to use such resources in processes such as tagging or parsing, since they can significantly improve system performances. In this paper, we use these resources to give an answer to two problems that we describe briefly below : data sparseness and automatic segmentation of texts. Through more and more sophisticated parsing algorithms, parsing accuracy is becoming higher for many languages including French. However, there are several problems inherent in mathematical formalisms that statistically model the task (grammar, discriminant models,...). Data sparseness is one of those problems, and is mainly caused by the small size of annotated corpora available for the language. Data sparseness is the difficulty of estimating the probability of syntactic phenomena, appearing in the texts to be analyzed, that are rare or absent from the corpus used for learning parsers. Moreover, it is proved that spars ness is partly a lexical problem, because the richer the morphology of a language is, the sparser the lexicons built from a Treebank will be for that language. Our first problem is therefore based on mitigating the negative impact of lexical data sparseness on parsing performance. To this end, we were interested in a method called word clustering that consists in grouping words of corpus and texts into clusters. These clusters reduce the number of unknown words, and therefore the number of rare or unknown syntactic phenomena, related to the lexicon, in texts to be analyzed. Our goal is to propose word clustering methods based on syntactic information from French lexicons, and observe their impact on parsers accuracy. Furthermore, most evaluations about probabilistic tagging and parsing were performed with a perfect segmentation of the text, as identical to the evaluated corpus. But in real cases of application, the segmentation of a text is rarely available and automatic segmentation tools fall short of proposing a high quality segmentation, because of the presence of many multi-word units (compound words, named entities,...). In this paper, we focus on continuous multi-word units, called compound words, that form lexical units which we can associate a part-of-speech tag. We may see the task of searching compound words as text segmentation. Our second issue will therefore focus on automatic segmentation of French texts and its impact on the performance of automatic processes. In order to do this, we focused on an approach of coupling, in a unique probabilistic model, the recognition of compound words and another task. In our case, it may be parsing or tagging. Recognition of compound words is performed within the probabilistic process rather than in a preliminary phase. Our goal is to propose innovative strategies for integrating resources of compound words in both processes combining probabilistic tagging, or parsing, and text segmentation Analyse syntaxique Étiquetage morpho-syntaxique Lexiques Hybridation Dispersion des données Segmentation automatique Parsing Part-Of-Speech Tagging Lexicons Hybridisation Segmentation Data sparseness
2	Intégration de ressources lexicales riches dans un analyseur syntaxique probabiliste Sigogne, Anthony 03 December 2012 (has links) (PDF) Cette thèse porte sur l'intégration de ressources lexicales et syntaxiques du français dans deux tâches fondamentales du Traitement Automatique des Langues [TAL] que sont l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste. Dans ce mémoire, nous utilisons des données lexicales et syntaxiques créées par des processus automatiques ou par des linguistes afin de donner une réponse à deux problématiques que nous décrivons succinctement ci-dessous : la dispersion des données et la segmentation automatique des textes. Grâce à des algorithmes d'analyse syntaxique de plus en plus évolués, les performances actuelles des analyseurs sont de plus en plus élevées, et ce pour de nombreuses langues dont le français. Cependant, il existe plusieurs problèmes inhérents aux formalismes mathématiques permettant de modéliser statistiquement cette tâche (grammaire, modèles discriminants,...). La dispersion des données est l'un de ces problèmes, et est causée principalement par la faible taille des corpus annotés disponibles pour la langue. La dispersion représente la difficulté d'estimer la probabilité de phénomènes syntaxiques apparaissant dans les textes à analyser mais qui sont rares ou absents du corpus ayant servi à l'apprentissage des analyseurs. De plus, il est prouvé que la dispersion est en partie un problème lexical, car plus la flexion d'une langue est importante, moins les phénomènes lexicaux sont représentés dans les corpus annotés. Notre première problématique repose donc sur l'atténuation de l'effet négatif de la dispersion lexicale des données sur les performances des analyseurs. Dans cette optique, nous nous sommes intéressé à une méthode appelée regroupement lexical, et qui consiste à regrouper les mots du corpus et des textes en classes. Ces classes réduisent le nombre de mots inconnus et donc le nombre de phénomènes syntaxiques rares ou inconnus, liés au lexique, des textes à analyser. Notre objectif est donc de proposer des regroupements lexicaux à partir d'informations tirées des lexiques syntaxiques du français, et d'observer leur impact sur les performances d'analyseurs syntaxiques. Par ailleurs, la plupart des évaluations concernant l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste ont été réalisées avec une segmentation parfaite du texte, car identique à celle du corpus évalué. Or, dans les cas réels d'application, la segmentation d'un texte est très rarement disponible et les segmenteurs automatiques actuels sont loin de proposer une segmentation de bonne qualité, et ce, à cause de la présence de nombreuses unités multi-mots (mots composés, entités nommées,...). Dans ce mémoire, nous nous focalisons sur les unités multi-mots dites continues qui forment des unités lexicales auxquelles on peut associer une étiquette morpho-syntaxique, et que nous appelons mots composés. Par exemple, cordon bleu est un nom composé, et tout à fait un adverbe composé. Nous pouvons assimiler la tâche de repérage des mots composés à celle de la segmentation du texte. Notre deuxième problématique portera donc sur la segmentation automatique des textes français et son impact sur les performances des processus automatiques. Pour ce faire, nous nous sommes penché sur une approche consistant à coupler, dans un même modèle probabiliste, la reconnaissance des mots composés et une autre tâche automatique. Dans notre cas, il peut s'agir de l'analyse syntaxique ou de l'étiquetage morpho-syntaxique. La reconnaissance des mots composés est donc réalisée au sein du processus probabiliste et non plus dans une phase préalable. Notre objectif est donc de proposer des stratégies innovantes permettant d'intégrer des ressources de mots composés dans deux processus probabilistes combinant l'étiquetage ou l'analyse à la segmentation du texte [INFO:INFO_OH] Computer Science/Other Analyse syntaxique Étiquetage morpho-syntaxique Lexiques Hybridation Dispersion des données Segmentation automatique
3	Excom‑2 : plateforme d’annotation automatique de catégories sémantiques : conception, modélisation et réalisation informatique : applications à la catégorisation des citations en arabe et en français / Excom-2 : a cross-language platform for automatic annotations according to semantic points of view : example of treatment : quotations categorization in Arabic and Frensh Alrahabi, Al Moatasem 29 January 2010 (has links) Nous proposons une plateforme d’annotation sémantique, appelée « EXCOM-2 ». Basée sur la méthode de l’ « Exploration Contextuelle », elle permet, à travers une diversité de langues, de procéder à des annotations automatiques de segments textuels par l'analyse des formes de surface dans leur contexte. Les textes sont traités selon des « points de vue » discursifs dont les valeurs sont organisées dans une « carte sémantique ». L’annotation se base sur un ensemble de règles linguistiques, écrites par un analyste, qui permettent d’identifier les représentations textuelles sous-jacentes aux différentes catégories de la carte. Le système offre, à travers deux types d’interfaces (développeur ou utilisateur), une chaîne de traitements automatiques de textes qui comprend la segmentation, l’annotation et d’autres fonctionnalités de post-traitement. Les documents annotés peuvent être utilisés, par exemple, pour des systèmes de recherche d’information, de veille, de classification ou de résumé automatique. Comme exemple d'application, nous proposons un système d'identification et de catégorisation automatiques du discours rapporté en arabe et en français. / We propose a platform for semantic annotation, called “EXCOM-2”. Based on the “Contextual Exploration” method, it enables, across a great range of languages, to perform automatic annotations of textual segments by analyzing surface forms in their context. Texts are approached through discursive “points of view”, of which values are organized into a “semantic map”. The annotation is based on a set of linguistic rules, manually constructed by an analyst, and that enables to automatically identify the textual representations underlying the different semantic categories of the map. The system provides through two sorts of user-friendly interfaces (analyst or end-user) a complete pipeline of automatic text processing which consists of segmentation, annotation and other post-processing functionalities. Annotated documents can be used, for instance, for information retrieval systems, classification or automatic summarization. As example, we propose an analysis of the linguistic markers of the enunciative modalities in direct reported speech, in a multilingual framework concerning Arabic and French. Annotations discursives Plate-forme d'annotation automatique Exploration contextuelle Excom Discours rapporté Carte semantique Segmentation automatique Multilinguisme (arabe, francais) Excom Multilingualism Semantic annotation
4	Segmentation automatique de la fibrose pulmonaire sur images de tomodensitométrie en radio-oncologie Fréchette, Nicolas 08 1900 (has links) La fibrose pulmonaire est une maladie pulmonaire interstitielle caractérisée par une production irréversible de tissus conjonctifs. Le pronostic de la maladie est plus faible que celui de plusieurs cancers. Dans les dernières années, cette pathologie a été identifiée comme un risque de complication suite à des traitements de radiothérapie. Développer une toxicité post-radique peut compromettre les bénéfices de la radiothérapie, ce qui fait de la fibrose pulmonaire une contre-indication relative. Localiser manuellement la présence de fibrose sur des images de tomodensitométrie (CT) est un problème difficile pouvant nécessiter l’intervention de plusieurs experts pour un seul patient. L’objectif de ce projet est de segmenter automatiquement la fibrose pulmonaire sur des images CT. Des réseaux de neurones complètement convolutifs ont été développés et implémentés pour effectuer une assignation automatique de tissus pulmonaires. Sur une coupe axiale donnée en entrée, l’assignation est réalisée pour l’ensemble des voxels pulmonaires en une seule inférence. L’optimisation des paramètres a été réalisée dans des contextes d’apprentissage supervisé et semi-supervisé en minimisant des variantes de l’entropie croisée entre les prédictions et des annotations manuelles d’experts. Les données utilisées consistent en des images CT haute résolution ainsi que des délinéations réalisées par des radiologistes et des radio-oncologues. Les cartes de segmentation prédites ont été comparées par rapport à des segmentations manuelles afin de valider les tissus assignés par les réseaux convolutifs. Les résultats obtenus suggèrent que des applications en radio-oncologie sont envisageables, telles que le dépistage de la fibrose avant la planification de traitements et l’évaluation de la progression de la fibrose pendant et suivant les traitements de radiothérapie. / Pulmonary fibrosis is an interstitial lung disease characterized by an irreversible production of scarring tissue. Pulmonary fibrosis has a particularly poor prognosis, with a mean survival after diagnosis lower than many cancers. This pathology was recently identified as a risk for complication following radiation therapy treatments. Pulmonary toxicity can lead to severe conditions that compromise the benefits provided by radiation therapy, making pulmonary fibrosis a relative contraindication to treatments. Manual segmentation of fibrosis on computed tomography (CT) images is a difficult task that can involve many experts for a single patient. The aim of this project is to perform automatic segmentation of pulmonary fibrosis on CT images. Fully convolutional neural networks were developed and implemented to automatically assign lung tissues. For an input CT slice, every lung voxel is assigned a tissue in a single inference. Parameters optimization was performed in a supervised and semi-supervised manner by minimizing variants of the cross-entropy between the prediction and manual annotations produced by experts. The dataset employed consists of high resolution CT scans and delineations made by radiologists and radiation oncologists. Predicted segmentation maps were compared with manual segmentations to validate the tissues assigned by the convolutional networks. Results suggest that radiation oncology applications could be developed. Possible applications include pulmonary fibrosis screening prior to treatment planning and assessment of fibrosis progression during and post-treatment. Segmentation automatique Fibrose pulmonaire Réseaux de neurones Apprentissage machine Automatic segmentation Pulmonary fibrosis Neural networks Machine learning
5	Unsupervised word discovery for computational language documentation / Découverte non-supervisée de mots pour outiller la linguistique de terrain Godard, Pierre 16 April 2019 (has links) La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante. / Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method. Apprentissage non-supervisé Segmentation automatique en mots Alignement bilingue Modèles bayésiens Langues peu dotées Unsupervised learning Automatic word segmentation Bilingual alignment Bayesian models Low-resource languages
6	Etude de la méthode de Boltzmann sur réseau pour la segmentation d'anévrismes cérébraux / Study of the lattice Boltzmann method application to cerebral aneurysm segmentation Wang, Yan 25 July 2014 (has links) L'anévrisme cérébral est une région fragile de la paroi d'un vaisseau sanguin dans le cerveau, qui peut se rompre et provoquer des saignements importants et des accidents vasculaires cérébraux. La segmentation de l'anévrisme cérébral est une étape primordiale pour l'aide au diagnostic, le traitement et la planification chirurgicale. Malheureusement, la segmentation manuelle prend encore une part importante dans l'angiographie clinique et elle est devenue couteuse en temps de traitement étant donné la gigantesque quantité de données générées par les systèmes d'imagerie médicale. Les méthodes de segmentation automatique d'image constituent un moyen essentiel pour faciliter et accélérer l'examen clinique et pour réduire l'interaction manuelle et la variabilité inter-opérateurs. L'objectif principal de ce travail de thèse est de développer des méthodes automatiques pour la segmentation et la mesure des anévrismes. Le présent travail de thèse est constitué de trois parties principales. La première partie concerne la segmentation des anévrismes géants qui contiennent à la fois la lumière et le thrombus. La méthode consiste d'abord à extraire la lumière et le thrombus en utilisant une procédure en deux étapes, puis à affiner la forme du thrombus à l'aide de la méthode des courbes de niveaux. Dans cette partie, la méthode proposée est également comparée à la segmentation manuelle, démontrant sa bonne précision. La deuxième partie concerne une approche LBM pour la segmentation des vaisseaux dans des images 2D+t et de l'anévrisme cérébral dans les images en 3D. La dernière partie étudie un modèle de segmentation 4D en considérant les images 3D+t comme un hypervolume 4D et en utilisant un réseau LBM D4Q81, dans lequel le temps est considéré de la même manière que les trois autres dimensions pour la définition des directions de mouvement des particules dans la LBM, considérant les données 3D+t comme un hypervolume 4D et en utilisant un réseau LBM D4Q81. Des expériences sont réalisées sur des images synthétiques d'hypercube 4D et d'hypersphere 4D. La valeur de Dice sur l'image de l'hypercube avec et sans bruit montre que la méthode proposée est prometteuse pour la segmentation 4D et le débruitage. / Cerebral aneurysm is a fragile area on the wall of a blood vessel in the brain, which can rupture and cause major bleeding and cerebrovascular accident. The segmentation of cerebral aneurysm is a primordial step for diagnosis assistance, treatment and surgery planning. Unfortunately, manual segmentation is still an important part in clinical angiography but has become a burden given the huge amount of data generated by medical imaging systems. Automatic image segmentation techniques provides an essential way to easy and speed up clinical examinations, reduce the amount of manual interaction and lower inter operator variability. The main purpose of this PhD work is to develop automatic methods for cerebral aneurysm segmentation and measurement. The present work consists of three main parts. The first part deals with giant aneurysm segmentation containing lumen and thrombus. The methodology consists of first extracting the lumen and thrombus using a two-step procedure based on the LBM, and then refining the shape of the thrombus using level set technique. In this part the proposed method is also compared with manual segmentation, demonstrating its good segmentation accuracy. The second part concerns a LBM approach to vessel segmentation in 2D+t images and to cerebral aneurysm segmentation in 3D medical images through introducing a LBM D3Q27 model, which allows achieving a good segmentation and high robustness to noise. The last part investigates a true 4D segmentation model by considering the 3D+t data as a 4D hypervolume and using a D4Q81 lattice in LBM where time is considered in the same manner as for other three dimensions for the definition of particle moving directions in the LBM model. Imagerie médicale Angiographie Anévrisme cérébral Segmentation de thrombus Méthode de Boltzman sur réseau Détection de mouvement Segmentation 4D Segmentation automatique d'image Medical Imaging Angiography Cerebral aneurysm Aneurysm segmentation Thrombus segmentation Maticce Boltzman method Movement detection 4D segmentation Automatic image segmentation 616.075 407 2
7	Contributions à l'étude et à la reconnaissance automatique de la parole en Fongbe / Contributions to the study of automatic speech recognitionon Fongbe Laleye, Frejus Adissa Akintola 10 December 2016 (has links) L'une des difficultés d'une langue peu dotée est l'inexistence des services liés aux technologies du traitement de l'écrit et de l'oral. Dans cette thèse, nous avons affronté la problématique de l'étude acoustique de la parole isolée et de la parole continue en Fongbe dans le cadre de la reconnaissance automatique de la parole. La complexité tonale de l'oral et la récente convention de l'écriture du Fongbe nous ont conduit à étudier le Fongbe sur toute la chaîne de la reconnaissance automatique de la parole. En plus des ressources linguistiques collectées (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour permettre la construction des algorithmes, nous avons proposé une recette complète d'algorithmes (incluant des algorithmes de classification et de reconnaissance de phonèmes isolés et de segmentation de la parole continue en syllabe), basés sur une étude acoustique des différents sons, pour le traitement automatique du Fongbe. Dans ce manuscrit, nous avons aussi présenté une méthodologie de développement de modèles accoustiques et de modèles du langage pour faciliter la reconnaissance automatique de la parole en Fongbe. Dans cette étude, il a été proposé et évalué une modélisation acoustique à base de graphèmes (vu que le Fongbe ne dispose pas encore de dictionnaire phonétique) et aussi l'impact de la prononciation tonale sur la performance d'un système RAP en Fongbe. Enfin, les ressources écrites et orales collectées pour le Fongbe ainsi que les résultats expérimentaux obtenus pour chaque aspect de la chaîne de RAP en Fongbe valident le potentiel des méthodes et algorithmes que nous avons proposés. / One of the difficulties of an unresourced language is the lack of technology services in the speech and text processing. In this thesis, we faced the problematic of an acoustical study of the isolated and continous speech in Fongbe as part of the speech recognition. Tonal complexity of the oral and the recent agreement of writing the Fongbe led us to study the Fongbe throughout the chain of an automatic speech recognition. In addition to the collected linguistic resources (vocabularies, large text and speech corpus, pronunciation dictionaries) for building the algorithms, we proposed a complete recipe of algorithms (including algorithms of classification and recognition of isolated phonemes and segmentation of continuous speech into syllable), based on an acoustic study of the different sounds, for Fongbe automatic processing. In this manuscript, we also presented a methodology for developing acoustic models and language models to facilitate speech recognition in Fongbe. In this study, it was proposed and evaluated an acoustic modeling based on grapheme (since the Fongbe don't have phonetic dictionary) and also the impact of tonal pronunciation on the performance of a Fongbe ASR system. Finally, the written and oral resources collected for Fongbe and experimental results obtained for each aspect of an ASR chain in Fongbe validate the potential of the methods and algorithms that we proposed. Fongbe Reconnaissance automatique de la parole Segmentation automatique de la parole Entropie de Rényi Modélisation acoustique graphémique Modélisation du langage Fusion de décisions Multi-classification DBN Logique floue Fongbe Automatic speech recognition Automatic speech segmentation Rényi entropy Graphem-based acoustical modeling Language modeling Fusion of decisions Multiclass classification DBN Fuzzy logic

1

Page generated in 0.2736 seconds