• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 2
  • Tagged with
  • 11
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Traitement bio-inspiré de la parole pour système de reconnaissance vocale

Loiselle, Stéphane January 2010 (has links)
Cette thèse présente un traitement inspiré du fonctionnement du système auditif pour améliorer la reconnaissance vocale. Pour y parvenir, le signal de la parole est filtré par un banc de filtres et compressé pour en produire une représentation auditive. L'innovation de l'approche proposée se situe dans l'extraction des éléments acoustiques (formants, transitions et onsets ) à partir de la représentation obtenue. En effet, une combinaison de détecteurs composés de neurones à décharges permet de révéler la présence de ces éléments et génère ainsi une séquence d'événements pour caractériser le contenu du signal. Dans le but d'évaluer la performance du traitement présenté, la séquence d'événements est adaptée à un système de reconnaissance vocale conventionnel, pour une tâche de reconnaissance de chiffres isolés prononcés en anglais. Pour ces tests, la séquence d'événements agit alors comme une sélection de trames automatique pour la génération des observations (coefficients cepstraux). En comparant les résultats de la reconnaissance du prototype et du système de reconnaissance original, on remarque que les deux systèmes reconnaissent très bien les chiffres prononcés dans des conditions optimales et que le système original est légèrement plus performant. Par contre, la différence observée au niveau des taux de reconnaissance diminue lorsqu'une réverbération vient affecter les données à reconnaître et les performances de l'approche proposée parviennent à dépasser celles du système de référence. De plus, la sélection de trames automatique offre de meilleures performances dans des conditions bruitées. Enfin, l'approche proposée se base sur des caractéristiques dans le temps en fonction de la nature du signal, permet une sélection plus intelligente des données qui se traduit en une parcimonie temporelle, présente un potentiel fort intéressant pour la reconnaissance vocale sous conditions adverses et utilise une détection des caractéristiques qui peut être utilisée comme séquence d'impulsions compatible avec les réseaux de neurones à décharges.
2

ABX-discriminability measures and applications / Mesures de discriminabilité ABX et applications

Schatz, Thomas 29 September 2016 (has links)
Cette thèse est, au départ, une contribution indirecte au problème de la modélisation de l'acquisition des catégories phonétiques chez l'enfant. Les modèles computationnels déjà proposés n'ont encore jamais été testés de manière systématique pour déterminer s'ils sont réellement à même de rendre compte d'une partie conséquente des observations empiriques disponibles. Nous développons une approche permettant une évaluation systématique des modèles sur la base de Mesures de Discriminabilité ABX. Nous montrons l'intérêt de notre approche en l'appliquant à deux problèmes reliés: la traitement des catégories phonétiques à la naissance et à l'âge adulte. La prochaine étape sera bien sûr d'appliquer notre approche aux modèles d'acquisition des catégories phonétiques.L'intérêt des Mesures de Discriminabilité ABX ne se restreint pas au cas particulier de l'évaluation des modèles de traitement des catégories phonétiques. Elle sont utiles dans l'étude de signaux autre que la parole et de catégories autres que les catégories phonétiques, ainsi que dans le cadre de champs disciplinaires autres que les sciences cognitives, comme l'ingénierie, l'exploration des données ou l'intelligence artificielle par exemple. Nous le justifions en étudiant les propriétés de ces mesures dans un cadre abstrait général et en présentant trois grandes familles d'applications: l'évaluation de la capacité de systèmes opérant en l'absence de supervision explicite à représenter une structure catégorielle; la formulation de modèles computationnels simples du comportement dans des tâches de discrimination; la définition de mesures descriptives pour des représentations associées à des données catégorielles. / This thesis constitutes an indirect contribution to the problem of modeling phonetic category acquisition in infancy. Some specific computational models of phonetic category acquisition have been proposed, but they were never tested extensively nor compared quantitatively to see whether they were really able to account for a sizable portion of the available empirical observations. In this thesis, we introduce ABX-Discriminability Measures and we develop a methodology based on these measures that allows to perform such a systematic evaluation. We demonstrate the interest of our framework by applying it to the evaluation of models for two related problems: phonetic category processing at birth and in adulthood. The next step, applying our framework to models of phonetic category acquisition, is left for future work.The interest of ABX-Discriminability Measures is not restricted to the particular problem of evaluating models of phonetic category processing in humans. We argue that their interest generalizes to the study of other signals than speech and other category structures than phonetic categories, as well as to other research fields than cognitive science, like low-resource engineering, data mining and artificial intelligence for example. To make this point, we study the properties of these measures in a general abstract framework and we detail the rationale for three broad family of potential applications: evaluating systems operating without explicit supervision in their ability to represent a category structure; providing simple computational models of behavior in discrimination tasks; providing descriptive measurements for representations of categorical data.
3

Corps, gestes, perceptions : Interrelations, articulations et poétiques de l'espace instrumental, acoustique et électro-acoustique / Body, gestures, perceptions : Interrelationships, joints and poetic of the instrumental, acoustic and electro-acoustic space

Suarez Cifuentes, Marco 23 March 2017 (has links)
Pas de résumé disponible. / Pas de résumé disponible.
4

D’un orchestre vide à une mise en pratique orale des langues étrangères avec le karaoké : de nouvelles utilisations de la chanson populaire dans l’apprentissage dans l’enseignement

Blili, Leïla January 2017 (has links)
Cette étude a pour but d’explorer l’utilisation du karaoké instrument didactique de l’apprentissage des langues étrangères dans les pratiques orales. Chevrot et Malderez (1999), Detey (2005), Wachs (2011) évoquent la pertinence d’une sensibilisation phonétique de la langue étrangère cible. Jolly (1976) et Lum (2001) indiquent que le karaoké forme un lien entre l’individu et la culture. Förnas (1994), Hakki Erten (2015), Rengifo (2009) voient dans le karaoké un support didactique pour les langues étrangères. Pour ce faire notre posture de chercheure se fonde, pro parte, à partir de travaux de recherches sur l’impact des cultures populaires, et plus particulièrement de la chanson populaire, sur la cognition de l’individu. La collecte de données a été effectuée auprès de deux groupes francophones d’apprenants d’anglais langue étrangère, l’un en France en avant-dernière année de l’enseignement secondaire et l’autre au Québec en première année de l’enseignement supérieur. Chacun des deux groupes est composé d’une quinzaine de participants. Cette recherche exploratoire de type qualitatif se fonde sur les médiations entre l’apprenant et l’instrument ainsi que le sentiment d’efficacité suscité lorsqu’ils utilisent l’instrument karaoké. Les données ont été récoltées au Québec et en France à partir du rapport des apprenants à la langue anglaise, du rapport à la chanson populaire anglophone des apprenants, comment l’apprenant voit et vit son apprentissage avec le karaoké et leur motivation par rapport à l’utilisation de la chanson populaire via le karaoké et par rapport à la façon dont il est utilisé. Pour ce faire nous avons utilisé deux outils de collecte : l’observation non participante des deux groupes de participants et trois questionnaires à remplir par les apprenants. Cette recherche a permis de constater que les participants ont admis un sentiment d’efficacité à l’issue des trois séances karaoké. Nous considérons le potentiel didactique de l’instrument karaoké comme étant en vérification.
5

Transformation automatique de la parole - Etude des transformations acoustiques

Mesbahi, Larbi 28 October 2010 (has links) (PDF)
Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique.
6

Perception catégorielle et perception allophonique: incidences de l'âge, du niveau de lecture et des couplages entre prédispositions phonétiques

Bogliotti, Caroline 18 May 2005 (has links) (PDF)
Ce travail avait pour objectif d'évaluer la perception catégorielle de la parole (PC) et les liens qu'elle entretient avec l'apprentissage de la lecture et les difficultés de cet apprentissage. Les études ont porté sur des continua de voisement (VOT) et de lieu d'articulation (transitions de F2 et F3). Trois critères ont été utilisés pour évaluer la PC : la perception catégorielle relative, l'effet de frontière phonémique et la précision catégorielle. Cinq études ont été effectuées, 3 sur le voisement (études 1, 2 et 3), 1 sur le lieu d'articulation (étude 4) et 1 sur voisement et lieu (étude 5). L'étude 1, dans laquelle ont été suivis de 6 à 8 ans des enfants qui étaient non lecteurs à 6 ans, a permis de relever un effet de l'âge et/ou de l'apprentissage de la lecture sur la PC. L'effet du niveau de lecture sur la PC a été également relevé dans l'étude 2, qui a permis de constater que des dyslexiques de 10 ans, comparativement à des normolecteurs de même âge, présentaient un déficit de PC, et plus spécifiquement un mode de perception allophonique. L'étude 3 a en plus mis en relief le fait que le déficit de PC était persistant, étant donné qu'il a été observé chez des dyslexiques relativement âgés (17 ans). Les travaux sur le trait de voisement suggèrent que la perception allophonique résulterait d'un déficit de couplage entre prédispositions phonétiques au cours du développement perceptif. Nous avons confirmé cette hypothèse pour le trait de lieu d'articulation dans l'étude 4, qui a porté sur des adultes. Dans la dernière étude, nous avons proposé à des dyslexiques de 8 à 10 ans des entraînements qui avaient pour objectif de « corriger » leur déficit de perception allophonique. Cette tentative a échoué, ce qui indique que ce déficit est résistant à la remédiation. Ces résultats suggèrent que la perception allophonique serait à l'origine des difficultés de lecture des dyslexiques, ce mode de perception entravant l'établissement des correspondances graphèmes-phonèmes, condition sine qua non de l'apprentissage de la lecture.
7

Étude des changements phonétiques et syntaxiques intervenus dans le parler de Bagdad depuis les années 1980 / Study of phonetic and syntactic changes in the talk of Baghdad since the 1980’s

Al-Shams, Noor 07 December 2016 (has links)
Cette étude montre l'effet sociolinguistique de l’arabe dialectal d' Al-'aCz:amîyah sur l’arabe dialectal des Irakiens déplacés au niveau phonologique et syntaxique de la langue. Les Irakiens déplacés sont ceux qui sont arrivés au quartier d' Al-'aCz:amîyah, depuis les années quatre-vingt jusqu’ à nos jours. L'étude propose d’élucider la relation qui lie les variables sociolinguistiques au comportement linguistique des intervenants, objet de notre étude, en choisissant trois variables phonologiques et une variable syntaxique, en fonction des trois variables sociales du sexe, de l'âge et de l'éducation. L'échantillon de l'étude comprend 113 informateurs. Ces informateurs sont considérés comme étant un échantillon représentatif des Irakiens déplacés et des habitants d'origine d’Al-'aCz:amîyah. La méthode d'analyse quantitative est utilisée pour examiner et interpréter les données collectées. Le logiciel SPSS, Progiciel de statistique pour les sciences sociales, a été utilisé pour nous aider à traiter les données et évaluer l'importance de cette variation linguistique. La présente étude est structurée en quatre chapitres. Le premier chapitre est consacré à discuter le contexte sociolinguistique. La méthodologie de cette étude est abordée dans le deuxième chapitre où nous présentons les démarches suivies dans notre étude. Dans le chapitre trois et quatre, nous essayons de décrire comment les caractéristiques linguistiques de l’arabe dialectal des Irakiens déplacés se chevauchent et subissent des interactions avec les caractéristiques de l’arabe dialectal d’Al-'aCz:amîyah, et comment ces dialectes subissent des influences réciproques dans une période donnée. Ainsi, pour pouvoir comparer les deux populations celle de d’Al-'aCz:amîyah et celle des Irakiens déplacés, nous les séparons en deux chapitres. Dans le troisième chapitre, les résultats statistiques qui sont affichés et interprétés montrent les changements phonétiques et syntaxiques intervenus dans le parler arabe des habitants originaires, et dans le quatrième chapitre, les résultats affichent les changements phonétiques et syntaxiques intervenus dans le parler arabe des habitants déplacés. / This study reveals the sociolinguistic effect of Al-'aCz:amîyah dialect on Iraqi displaced’s dialect in the phonological and syntactic level of language. Iraqis displaced are those who have come to d' Al-'aCz:amîyah neighborhood since the 1980s to the present day. The study shows the relationship which links the sociolinguistic variables to the linguistic behavior by choosing four phonological variables and one syntactic variable as far as the three social variables of sex, age and education are concerned. The sample of the study includes 113 informants. These informants are considered the representative sample of the Iraqis displaced and the original inhabitants of d'Al-'aCz:amîyah. The quantitative analysis method is employed to analyze and interpret the data collected. The SPSS (StatisticalPackage for the Social Sciences) software can be used to help us process the data and assess the significance of this linguistic variation. The present study is structured in four chapters: the first is devoted to discuss the sociolinguistic context. The methodology of this study was discussed in the second chapter where we present our own way that we use in our study. In chapter three and four , we try to describe how the linguistic features of the Arabic dialect of displacedIraqis overlap and undergo interactions with the features of the Arabic dialect of Al-'aCz:amîyah, how these dialects undergo reciprocal influences within a specified time limit. So to compare the two population that of Al-'aCz:amîyah and that of the Iraqis displaced, we divid them into two chapters: in the first, statistical results that are displayed and interpreted show the phonetic and syntactic changes in local dialect of the original inhabitants. While in the second chapter, these results indicate the phonic and the syntactic changes in the local dialect of the Iraqis displaced
8

Formes articulatoires et formes phonologiques : le cas de la liaison

Grosson, Céline 14 December 2011 (has links)
Les résultats obtenus en psycholinguistique via des études perceptives sur le traitement de la consonne de liaison montrent que le traitement de ce phénomène complexe n’est qu’imparfaitement prédit par les différentes théories phonologiques dans lesquelles il a été intégré de manière explicite. C’est pourquoi nous proposons dans cette thèse, qui s’inscrit dans une perspective résolument nouvelle, d’envisager la liaison du point de vue de la production et de la formaliser dans le cadre de la Phonologie articulatoire de Browman et Goldstein (1986). Ce modèle présente l’avantage d’une organisation directe entre phonologie et phonétique en utilisant une seule unité qui sert à la fois de primitive phonologique et d’unité d’action motrice dans la production de la parole : le geste articulatoire. Nous supposons que le statut phonologique de « segment flottant » proposé pour la consonne de liaison dans le cadre de la phonologie autosegmentale (Clements & Keyser, 1985 ; Encrevé 1988) puisse trouver un corrélat au niveau articulatoire et puisse être observé et mesuré expérimentalement. L’analyse qui vient à l’appui de cette hypothèse compare la consonne de liaison avec la consonne initiale de mot dans des contextes vocaliques identiques au moyen de mesures électro-palatographiques. Nos résultats suggèrent que la consonne de liaison est soumise à une modification quantitative des caractéristiques dynamiques qui lui sont associés. Les mouvements des articulateurs ainsi que les relations entre les gestes consonantique et vocalique sont ré-échelonnés en fonction de la position qu’occupe la consonne de manière graduelle. / Perceptual studies in the field of psycholinguistics on the processing of the liaison consonant have shown that this complex phenomenon is not perfectly predicted by the different phonological theories in which it has been explicitly integrated. In this thesis, we propose to investigate liaison from a totally new perspective, that is from a production point of view, and to formalise this phenomenon in the framework of Browman and Goldstein (1986)’s Articulatory Phonology. This model is advantageous as it provides a direct connection between phonology and phonetics where only one unit is used both as a phonological primitive and as a unit of motor action in speech production, that is articulatory gesture. In the Framework of autosegmental phonology (Clements & Keyser, 1985 ; Encrevé 1988), the phonological status of the liaison consonant is considered to be a floating segment. In this thesis, we hypothesise that there is a correlate at the articulatory level that can be observed and experimentally measured. This hypothesis is tested by comparing the liaison consonant with the word-initial consonant in identical vowel contexts by using electro-palatographical measurements.Results suggest that the liaison consonant is subjected to a quantitative modification of the dynamic caracteristics which are associated with it. The articulator movements, as well as the relations between consonant and vowel gestures, are gradually re-scaled according to the consonant position.
9

Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain / Collecting, Transcribing, Analyzing : Machine-Assisted Linguistic Fieldwork

Gauthier, Elodie 30 March 2018 (has links)
Depuis quelques décennies, de nombreux scientifiques alertent au sujet de la disparition des langues qui ne cesse de s'accélérer.Face au déclin alarmant du patrimoine linguistique mondial, il est urgent d'agir afin de permettre aux linguistes de terrain, a minima, de documenter les langues en leur fournissant des outils de collecte innovants et, si possible, de leur permettre de décrire ces langues grâce au traitement des données assisté par ordinateur.C'est ce que propose ce travail, en se concentrant sur trois axes majeurs du métier de linguiste de terrain : la collecte, la transcription et l'analyse.Les enregistrements audio sont primordiaux, puisqu'ils constituent le matériau source, le point de départ du travail de description. De plus, tel un instantané, ils représentent un objet précieux pour la documentation de la langue. Cependant, les outils actuels d'enregistrement n'offrent pas au linguiste la possibilité d'être efficace dans son travail et l'ensemble des appareils qu'il doit utiliser (enregistreur, ordinateur, microphone, etc.) peut devenir encombrant.Ainsi, nous avons développé LIG-AIKUMA, une application mobile de collecte de parole innovante, qui permet d'effectuer des enregistrements directement exploitables par les moteurs de reconnaissance automatique de la parole (RAP). Les fonctionnalités implémentées permettent d'enregistrer différents types de discours (parole spontanée, parole élicitée, parole lue) et de partager les enregistrements avec les locuteurs. L'application permet, en outre, la construction de corpus alignés << parole source (peu dotée)-parole cible (bien dotée) >>, << parole-image >>, << parole-vidéo >> qui présentent un intérêt fort pour les technologies de la parole, notamment pour l'apprentissage non supervisé.Bien que la collecte ait été menée de façon efficace, l'exploitation (de la transcription jusqu'à la glose, en passant par la traduction) de la totalité de ces enregistrements est impossible, tant la tâche est fastidieuse et chronophage.Afin de compléter l'aide apportée aux linguistes, nous proposons d'utiliser des techniques de traitement automatique de la langue pour lui permettre de tirer partie de la totalité de ses données collectées. Parmi celles-ci, la RAP peut être utilisée pour produire des transcriptions, d'une qualité satisfaisante, de ses enregistrements.Une fois les transcriptions obtenues, le linguiste peut s'adonner à l'analyse de ses données. Afin qu'il puisse procéder à l'étude de l'ensemble de ses corpus, nous considérons l'usage des méthodes d'alignement forcé. Nous démontrons que de telles techniques peuvent conduire à des analyses linguistiques fines. En retour, nous montrons que la modélisation de ces observations peut mener à des améliorations des systèmes de RAP. / In the last few decades, many scientists were concerned with the fast extinction of languages. Faced with this alarming decline of the world's linguistic heritage, action is urgently needed to enable fieldwork linguists, at least, to document languages by providing them innovative collection tools and to enable them to describe these languages. Machine assistance might be interesting to help them in such a task.This is what we propose in this work, focusing on three pillars of the linguistic fieldwork: collection, transcription and analysis.Recordings are essential, since they are the source material, the starting point of the descriptive work. Speech recording is also a valuable object for the documentation of the language.The growing proliferation of smartphones and other interactive voice mobile devices offer new opportunities for fieldwork linguists and researchers in language documentation. Field recordings should also include ethnolinguistic material which is particularly valuable to document traditions and way of living. However, large data collections require well organized repositories to access the content, with efficient file naming and metadata conventions.Thus, we have developed LIG-AIKUMA, a free Android app running on various mobile phones and tablets. The app aims to record speech for language documentation, over an innovative way.It includes a smart generation and handling of speaker metadata as well as respeaking and parallel audio data mapping.LIG-AIKUMA proposes a range of different speech collection modes (recording, respeaking, translation and elicitation) and offers the possibility to share recordings between users. Through these modes, parallel corpora are built such as "under-resourced speech - well-resourced speech", "speech - image", "speech - video", which are also of a great interest for speech technologies, especially for unsupervised learning.After the data collection step, the fieldwork linguist transcribes these data. Nonetheless, it can not be done -currently- on the whole collection, since the task is tedious and time-consuming.We propose to use automatic techniques to help the fieldwork linguist to take advantage of all his speech collection. Along these lines, automatic speech recognition (ASR) is a way to produce transcripts of the recordings, with a decent quality.Once the transcripts are obtained (and corrected), the linguist can analyze his data. In order to analyze the whole collection collected, we consider the use of forced alignment methods. We demonstrate that such techniques can lead to fine evaluation of linguistic features. In return, we show that modeling specific features may lead to improvements of the ASR systems.
10

Approche hybride pour la reconnaissance automatique de la parole en langue arabe / Hybrid approach for automatic speech recognition for the Arabic language

Masmoudi Dammak, Abir 21 September 2016 (has links)
Le développement d'un système de reconnaissance de la parole exige la disponibilité d'une grande quantité de ressources à savoir, grands corpus de texte et de parole, un dictionnaire de prononciation. Néanmoins, ces ressources ne sont pas disponibles directement pour des dialectes arabes. De ce fait, le développement d'un SRAP pour les dialectes arabes se heurte à de multiples difficultés à savoir, l’'abence de grandes quantités de ressources et l'absence d’'une orthographe standard vu que ces dialectes sont parlés et non écrit. Dans cette perspective, les travaux de cette thèse s’intègrent dans le cadre du développement d’un SRAP pour le dialecte tunisien. Une première partie des contributions consiste à développer une variante de CODA (Conventional Orthography for Arabic Dialectal) pour le dialecte tunisien. En fait, cette convention est conçue dans le but de fournir une description détaillée des directives appliquées au dialecte tunisien. Compte tenu des lignes directives de CODA, nous avons constitué notre corpus nommé TARIC : Corpus de l’interaction des chemins de fer de l’arabe tunisien dans le domaine de la SNCFT. Outre ces ressources, le dictionnaire de prononciation s’impose d’une manière indispensable pour le développement d’un SRAP. À ce propos, dans la deuxième partie des contributions, nous visons la création d’un système nommé conversion (Graphème-Phonème) G2P qui permet de générer automatiquement ce dictionnaire phonétique. Toutes ces ressources décrites avant sont utilisées pour adapter un SRAP pour le MSA du laboratoire LIUM au dialecte tunisien dans le domaine de la SNCFT. L’évaluation de notre système donné lieu WER de 22,6% sur l’ensemble de test. / The development of a speech recognition system requires the availability of a large amount of resources namely, large corpora of text and speech, a dictionary of pronunciation. Nevertheless, these resources are not available directly for Arabic dialects. As a result, the development of a SRAP for Arabic dialects is fraught with many difficulties, namely the lack of large amounts of resources and the absence of a standard spelling as these dialects are spoken and not written. In this perspective, the work of this thesis is part of the development of a SRAP for the Tunisian dialect. A first part of the contributions consists in developing a variant of CODA (Conventional Orthography for Arabic Dialectal) for the Tunisian dialect. In fact, this convention is designed to provide a detailed description of the guidelines applied to the Tunisian dialect. Given the guidelines of CODA, we have created our corpus TARIC: Corpus of the interaction of the railways of the Tunisian Arab in the field of SNCFT. In addition to these resources, the pronunciation dictionary is indispensable for the development of a peech recognition system. In this regard, in the second part of the contributions, we aim at the creation of a system called conversion(Grapheme-Phonème) G2P which allows to automatically generate this phonetic dictionary. All these resources described before are used to adapt a SRAP for the MSA of the LIUM laboratory to the Tunisian dialect in the field of SNCFT. The evaluation of our system gave rise to WER of 22.6% on the test set.

Page generated in 0.0956 seconds