L'objectif de ce travail est l'amélioration des performances des algorithmes de suivi des formants. Ce travail commence par l'analyse des différentes techniques classiques utilisées dans le suivi automatique des formants et d'autres méthodes très récentes. Cette analyse nous a permis de constater que l'estimation automatique des formants reste délicate malgré l'emploi de diverses techniques souvent complexes. Malgré l'importance du rôle joué par les fréquences des formants pour la perception et le traitement de la parole, on constate que les bases de données de référence sont très rares surtout en langue arabe. Comme ces bases sont nécessaires à l'évaluation quantitative des techniques automatiques de suivi des formants, nous avons enregistré et étiqueté une base de données en langue arabe de 200 phrases prononcées par 5 locutrices et 5 locuteurs. Cette base a été étiquetée phonétiquement à l'aide de la version arabe du logiciel WinSnoori et aussi en termes des trois premiers formants. Cette base de données n'a pas d'équivalent pour la langue arabe. Suite à ce travail, nous avons élaboré une méthode de suivi de formants par crêtes de Fourier (maxima de spectrogramme) en utilisant comme contrainte de suivi le calcul de centre de gravité de la combinaison des fréquences candidates pour chaque formant. Vu les limites de la transformée de Fourier fenêtrée, nous avons étendu nos recherches à la transformée en ondelette c'est-à-dire s'étendre de l'analyse monorésolution à l'analyse multirésolution. Nous avons implémenté alors une première approche basée sur la détection des crêtes d'ondelette qui sont les maxima du scalogramme en testant trois types d'ondelettes complexes qui sont : Morlet Complexe, Shanon et Frequency B-Spline. Les résultats fournis par cette approche à chaque instant sont ensuite traités de manière à obtenir des trajectoires régulières en utilisant un algorithme de programmation dynamique combiné avec le filtrage de Kalman. Afin d'évaluer quantitativement ce nouvel algorithme de suivi de formants nous avons fait plusieurs tests avec différents locuteurs (masculins et féminins). Nous avons calculé la différence moyenne absolue et l'écart type de suivi estimé par notre méthode en prenant les signaux étiquetés issus de la base élaborée comme référence tout en mettant l'utilité de notre base de données étiquetées manuellement. Nous avons tout d'abord fait des tests sur la voyelle /a/ précédée chaque fois d'une consonne. Ensuite, nous avons testé l'algorithme sur les différentes voyelles courtes et longues. Les résultats de suivi ont été ensuite comparés à ceux des méthodes crêtes de Fourier et d'analyse LPC mise en œuvre dans le logiciel (Praat). Les résultats de ces différents test montrent que dans le cas des locuteurs masculins, les résultats des deux nouvelles approches sont meilleurs que ceux de la méthode LPC de Mustafa Kamran et ceux de Praat même si elles présentent souvent quelques erreurs sur F3. Elles sont aussi très proches de la méthode par détection de crêtes de Fourier utilisant le calcul de centre de gravité.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00836717 |
Date | 19 February 2013 |
Creators | Jemaa, Imen |
Publisher | Université de Lorraine |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds