1 |
Reconnaissance automatique de la parole non nativeTien Ping, Tan 03 July 2008 (has links) (PDF)
Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est souvent difficile et peu réaliste pour représenter toutes les origines des locuteurs. <br />Dans cette thèse, nous proposons des approches pour adapter les modèles acoustiques et de prononciation sous différentes conditions de ressource pour les locuteurs non natifs. Un travail préliminaire sur l'identification d'accent a également proposé.<br />Ce travail de thèse repose sur le concept de modélisation acoustique translingue qui permet de représenter les locuteurs non natifs dans un espace multilingue sans utiliser (ou en utilisant très peu) de parole non native. Une approche hybride d'interpolation et de fusion est proposée pour l'adaptation des modèles en langue cible en utilisant une collection de modèles acoustiques multilingues. L'approche proposée est également utile pour la modélisation du contexte de prononciation. Si, en revanche, des corpus multilingues sont disponibles, des méthodes d'interpolation peuvent être utilisées pour l'adaptation à la parole non native. Deux d'entre elles sont proposées pour une adaptation supervisée et peuvent être employées avec seulement quelques phrases non natives.<br />En ce qui concerne la modélisation de la prononciation, deux approches existantes (l'une fondée sur la modification du dictionnaire de prononciation, l'autre fondée sur la définition d'un score de prononciation utilisé dans une phase de re-scoring) sont revisitées dans cette thèse et adaptées pour fonctionner sur une quantité de données limitée. Une nouvelle approche de groupement de locuteurs selon leurs habitudes de prononciation, est également présentée : nous l'appelons « analyse de prononciation latente ». Cette approche se révèle également utile pour améliorer le modèle de prononciation pour la reconnaissance automatique de la parole non native.<br />Enfin, une méthode d'identification d'accent est proposée. Elle nécessite une petite quantité de parole non native pour créer les modèles d'accents. Ceci est rendu possible en utilisant la capacité de généralisation des arbres de décision et en utilisant des ressources multilingues pour augmenter la performance du modèle d'accent.
|
2 |
Parole d'homme – Parole de clone<br />Vers une machine parlante anthropomorphique : Données et modèles en production de paroleBadin, Pierre 18 April 2002 (has links) (PDF)
La parole, un signal biologique de communication<br />Le signal de parole est un signal destiné à la communication orale entre humains, et donc à encoder des messages linguistiques. Il possède un certain nombre de propriétés qui en font un type de signal très particulier. C'est un signal produit par un système biologique, l'appareil phonatoire humain, et qui reflète donc les propriétés biomécaniques des articulateurs. C'est un signal audiovisuel, puisqu'il fait simultanément intervenir le son et l'image du visage du locuteur, pour ne pas mentionner le toucher. C'est un signal redondant, aussi bien au niveau du son qu'au niveau de la complémentarité entre les canaux acoustiques et visuels, ce qui lui confère des qualités de robustesse indispensables à un signal de communication. Son degré de redondance est adaptable en fonction des conditions environnementales de bruit et de la quantité d'information contenue dans le message à transmettre (liée en particulier au degré de prédictibilité). Cette adaptabilité en fait un signal très variable.<br />Ainsi, le signal de parole est extrêmement complexe du point de vue de sa structure, mais cette complexité peut être lue et interprétée plus facilement si l'on fait référence aux gestes des articulateurs qui l'ont produit. Les mécanismes de production de parole font intervenir la coordination des gestes des différents articulateurs – mâchoire, langue et lèvres – qui modulent la forme du conduit vocal et du visage au cours du temps ; les sources d'excitation acoustiques générées par l'écoulement de l'air issu des poumons à travers le conduit vocal sont alors filtrées par les résonances de ce conduit et finalement rayonnées vers l'extérieur. Depuis mon arrivée à l'ICP en 1979, mon travail de recherche a été essentiellement consacré, selon une approche anthropomorphique, à modéliser les signaux de parole en tant que conséquences de ces mécanismes biomécaniques et aéroacoustiques qui se produisent dans le conduit vocal humain.<br /><br />Données, modèles, et tête parlante audiovisuelle<br />Notre principale approche en modélisation consiste à développer des modèles fonctionnels à partir de données expérimentales, et, dans une moindre mesure, à mettre en œuvre des modèles physiques basés sur des théories pré-établies, en les confrontant aux données. Ainsi, dans tous les cas, modèles et données jouent des rôles fondamentaux et complémentaires.<br /><br />Données acoustiques et articulatoires – dispositifs expérimentaux. Nous avons utilisé ou développé un certain nombre de techniques expérimentales de mesure de paramètres liés à la production de la parole : banc de mesure de la fonction de transfert acoustique du conduit vocal, masque pneumotachométrique pour la mesure de l'écoulement et des pressions de l'air dans le conduit vocal, cinéradiographie et articulographie électromagnétique pour l'étude du mouvement, imagerie IRM pour la caractérisation tridimensionnelle des articulateurs, vidéo pour les mesures tridimensionnelles de lèvres et de visage. Un ensemble précieux de données articulatoires et acoustiques complémentaires a ainsi été recueilli, sur quelques sujets de référence prononçant, dans des conditions maîtrisées, les mêmes corpus représentatifs de l'ensemble des articulations de la langue. Cette démarche orientée sujet offre ainsi la possibilité de disposer, pour le même phénomène (un sujet et une articulation), de données qui ne peuvent être acquises qu'avec des dispositifs expérimentaux impossibles à mettre en œuvre au cours d'une même expérience, comme par exemple la cinéradiographie et le masque pneumo¬tachographique.<br /><br />Modèles articulatoires et acoustiques. <br />Nous avons ainsi développé des modèles articulatoires linéaires de conduit vocal, de langue ou de velum, médiosagittaux ou tridimensionnels, pilotés par les degrés de liberté articulatoires extraits par analyse en composantes linéaires des données. Des degrés de liberté tout à fait similaires ont pu être identifiés pour les différents locuteurs, même si ces locuteurs utilisent des stratégies de contrôle parfois assez différentes. La décomposition selon ces degrés de liberté des gestes articulatoires présents dans certaines séquences Voyelle – Consonne – Voyelle (VCV) a dévoilé des stratégies de compensation entre articulateurs qui n'auraient pas été lisibles directement sur les contours sagittaux bruts. Des stratégies de synergies entre langue et mâchoire ont également pu être mises en évidence. Par ailleurs, nous avons mis en œuvre un ensemble de modèles d'écoulement d'air, de sources acoustiques de voisement et de bruit de friction, et de propagation et rayonnement acoustique dans les domaines temporels et/ou fréquentiels. Nous avons ainsi pu étudier la coordination précise des gestes glotte / constriction orale nécessaire à la production des consonnes fricatives, en liaison avec les interactions entre sources et conduit vocal.<br /><br />Tête parlante audiovisuelle et synthèse articulatoire<br />Nous avons intégré les modèles mentionnés ci-dessus dans un robot articulatoire anthropomorphique : une tête parlante. Cette tête parlante est donc contrôlée par des paramètres articulatoires supra-laryngés qui pilotent le modèle articulatoire et par des paramètres de contrôle glottique qui déterminent les sources acoustiques en interaction avec le conduit vocal ; elle est finalement capable de fournir un signal audio-visuel de parole cohérent. Nous avons par ailleurs développé des procédures d'inversion, basées sur le concept de robotique de la parole, qui nous ont permis de reconstruire avec une bonne fiabilité les trajectoires des paramètres de contrôle articulatoire à partir de l'acoustique, même si ce problème d'inversion est un problème mal posé a priori. Nous avons ainsi pu réaliser une synthèse articulatoire de séquences VCV contenant les fricatives du français.<br /><br />Perspectives<br />D'un côté, il sera nécessaire de poursuivre le développement et l'amélioration des différents modèles qui constituent la tête parlante. D'autre part, le temps est venu de nous tourner de manière plus approfondie dans le cadre du développement des STIC (Sciences et Technologies de l'Information et de la Communication) et du 6e Programme cadre européen de recherche et de développement technologique européen, vers des applications comme la synthèse articulatoire audiovisuelle, les clones pour les télécommunications, ou encore l'aide à l'apprentissage des langues. <br /><br />Données et modèles en production de parole<br />Le développement de la tête parlante continuera à être basé sur des données expérimentales, l'objectif étant de modéliser tous les articulateurs, afin de générer des fonctions d'aire tridimensionnelles complètes. L'approche de modélisation linéaire sera conservée, en explorant ses limites, mais sans exclure des modèles locaux non-linéaires capables de prendre en compte la déformation des organes qui entrent en contact les uns avec les autres. Cette approche orientée sujet sera par ailleurs étendue à plusieurs locuteurs afin de comparer les stratégies individuelles, et d'en tirer des principes plus généraux. La nécessaire normalisation inter-sujets sera explorée à deux niveaux : conformation anatomique, et stratégies de synergie / compensation articulatoires. Les modèles aérodynamiques et acoustiques devront être développés pour prendre en compte les modes transversaux nécessaires pour les consonnes fricatives, le couplage avec les cavités nasales pour les voyelles et consonnes nasales, et la génération des bruits de relâchement pour les consonnes occlusives. Par ailleurs, nous explorerons les degrés de liberté des articulateurs en relation avec l'anatomie, et nous déterminerons les espaces de réalisation des différents phonèmes sous forme d'espaces de réalisation de cibles spatio-temporelles aux niveaux articulatoire, géométrique, aérodynamique, et acoustique, pour différentes conditions d'élocution, ce qui nous permettra d'aborder l'étude de la variabilité de la parole.<br /><br />Têtes parlantes et applications<br />Un certain nombre d'applications des têtes parlantes peuvent être envisagées. L'un des intérêt de la tête parlante réside dans la possibilité de réalité augmentée qu'elle offre : en affichant la peau et certains articulateurs de manière semi-transparente, ou en utilisant des techniques d'écorché, il est possible de montrer des articulateurs cachés dans des conditions normales d'élocution. L'apprentissage de la prononciation des langues étrangères pourrait bénéficier de ces propriétés : en effet montrer à un apprenant les mouvements articulatoires qu'il doit effectuer pour produire un son fait partie des stratégies pédagogiques intéressantes ; il sera donc nécessaire d'évaluer la tête parlante à ce niveau, en déterminant les modes de présentation les plus efficaces. De manière similaire, nous envisageons d'utiliser la tête parlante dans le cadre de la réhabilitation des déficients auditifs. Par ailleurs, la tête parlante et l'ensemble des données articulatoires et acoustiques qui ont été progressivement accumulées permettent d'envisager le développement d'un système de synthèse articulatoire audiovisuelle à partir du texte. Enfin, dans le domaine des télécommunications, il sera possible à tout locuteur auquel un clone aura été adapté à partir d'un clone générique d'intervenir dans une visioconférence par l'intermédiaire de ce clone, avec les avantages d'une réduction considérable de la bande passante nécessaire à l'image et d'une représentation complète tridimensionnelle de la tête du locuteur.
|
3 |
Reconnaissance automatique de la parole pour des langues peu dotéesLe, Viet Bac 01 June 2006 (has links) (PDF)
Dans la plupart des langues peu dotées, les services liés aux technologies du traitement de l'oral sont inexistants. L'originalité de mon travail de thèse vient de la volonté d'aborder ces langues pour lesquelles peu ou pas de ressources nécessaires pour la reconnaissance automatique de la parole sont disponibles. Ce manuscrit présente notre méthodologie qui vise à développer et adapter rapidement un système de reconnaissance automatique de la parole continue pour une nouvelle langue peu dotée. <br />La nature statistique des approches nécessite de disposer d'une grande quantité de ressources (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour le développement d'un système de reconnaissance automatique de la parole continue à grand vocabulaire. Ces ressources ne sont cependant pas disponibles directement pour des langues peu dotées. Par conséquent, une première façon d'accélérer la portabilité des systèmes de reconnaissance vocale vers une nouvelle langue est de développer une méthodologie permettant une collecte rapide et facilitée de ressources écrites et orales. Dans ce travail, nous proposons tout d'abord des solutions pour résoudre les difficultés principales de récupération et de traitement des ressources textuelles spécifiques aux langues peu dotées : recueil d'un vocabulaire, collecte de documents à partir de l'Internet, normalisation de textes, segmentation de textes, filtrage. Une boîte à outils générique « open source » nommée CLIPS-Text-Tk a notamment été développée pour faciliter le portage des outils de traitement de corpus textuels vers une nouvelle langue.<br />Ensuite, la plus grande partie de notre travail de thèse concerne la construction rapide de modèles acoustiques pour une langue peu dotée. Nous proposons des concepts et des méthodes d'estimation de similarités entre unités phonémiques (phonème, polyphone, groupe de polyphones, ...). Ces mesures de similarité sont ensuite utilisées pour la portabilité et l'adaptation rapide des modèles acoustiques multilingues indépendant et dépendant du contexte vers une nouvelle langue peu dotée. Pour les langues peu dotées qui ne disposent pas encore de dictionnaire phonétique, une modélisation acoustique à base de graphèmes est aussi proposée et évaluée.<br />Enfin, les ressources écrites et orales collectées pour le vietnamien et le khmer ainsi que les résultats expérimentaux obtenus par nos systèmes de reconnaissance automatique de la parole en vietnamien et en khmer sont présentés et valident le potentiel des méthodes que nous avons proposées.
|
4 |
Contributions à la Reconnaissance Automatique de la Parole Non Native / Contributions to non-native automatic speech recognitionBouselmi, Ghazi 12 November 2008 (has links)
La RAP non native souffre encore d'une chute significative de précision. Cette dégradation est due aux erreurs d'accent et de prononciation que produisent les locuteurs non natifs. Les recherches que nous avons entreprises ont pour but d'atténuer l'impact des accents non natifs sur les performances des systèmes de RAP. Nous avons proposé une nouvelle approche pour la modélisation de prononciation non native permettant de prendre en compte plusieurs accents étrangers. Cette approche automatique utilise un corpus de parole non native et deux ensembles de modèles acoustiques: le premier ensemble représente l'accent canonique de la langue cible et le deuxième représente l'accent étranger. Les modèles acoustiques du premier ensemble sont modifiés par l'ajout de nouveaux chemins d'états HMM. Nous avons proposé une nouvelle approche pour la détection de la langue maternelle basée sur la détection de séquences discriminantes de phonèmes. Par ailleurs, nous avons proposé une approche de modélisation de prononciation non native multi-accent permettant de prendre en compte plusieurs accents étrangers simultanément. D'autre part, nous avons proposé l'utilisation de contraintes graphémiques. Nous avons conçu une approche automatique pour la detection des contraintes graphémiques et leur prise en compte pour l'approche de RAP non native. Vu que notre méthode de modélisation de prononciation augmente la complexité des modèles acoustiques, nous avons étudié les approches de calcul rapide de vraisemblance pour les GMM. En outre, Nous avons proposé trois nouvelles approches efficaces dont le but est l'accélération du calcul de vraisemblance sans dégradation de la précision. / Automatic speech recognition systems are still vulnerable to non native accents. Their precision drastically drops as non native speakers commit acoustic and pronunciation errors. We have proposed a new approach for non native ASR based on pronunciation modelling. This approach uses a non native speech corpus and two sets of acoustic models: the first set stands for the canoncial target language accent and the second stands for the non native accent. It is an automated approach that associates, to each phoneme from the first set of models, one or several non native pronunciations each expressed as a sequence of phonemes from the second set of models. These pronunciations are taken into account through adding new HMM paths to the models of each phoneme from the first set of models. We have developed a new approach for the automatic detection of the mother tong of non native speakers. This approach is based on the detection of discriminative phoneme sequences, and is used as a first step of the ASP process. As opposed to origin detection, we have proposed a multi-accent non native pronunciation modeling approach that takes into account several foreign accents. Besides, we have developed an approach of automatic phoneme-grapheme alignment in order to take into account the graphemic constraints within the non native pronunciation modeling. The gaol of this procedure is the sharpen the pronunciation modeling and enhance the ASR accuracy. We have studied some fast likelihood computation techinques, and we have proposed three novel appraoches that aim at enhancing likelihood computation speed without harming ASR precision.
|
5 |
L'analyse factorielle pour la modélisation acoustique des systèmes de reconnaissance de la paroleBouallegue, Mohamed 16 December 2013 (has links) (PDF)
Dans cette thèse, nous proposons d'utiliser des techniques fondées sur l'analyse factorielle pour la modélisation acoustique pour le traitement automatique de la parole, notamment pour la Reconnaissance Automatique de la parole. Nous nous sommes, dans un premier temps, intéressés à la réduction de l'empreinte mémoire des modèles acoustiques. Notre méthode à base d'analyse factorielle a démontré une capacité de mutualisation des paramètres des modèles acoustiques, tout en maintenant des performances similaires à celles des modèles de base. La modélisation proposée nous conduit à décomposer l'ensemble des paramètres des modèles acoustiques en sous-ensembles de paramètres indépendants, ce qui permet une grande flexibilité pour d'éventuelles adaptations (locuteurs, genre, nouvelles tâches).Dans les modélisations actuelles, un état d'un Modèle de Markov Caché (MMC) est représenté par un mélange de Gaussiennes (GMM : Gaussian Mixture Model). Nous proposons, comme alternative, une représentation vectorielle des états : les fac- teur d'états. Ces facteur d'états nous permettent de mesurer efficacement la similarité entre les états des MMC au moyen d'une distance euclidienne, par exemple. Grâce à cette représenation vectorielle, nous proposons une méthode simple et efficace pour la construction de modèles acoustiques avec des états partagés. Cette procédure s'avère encore plus efficace dans le cas de langues peu ou très peu dotées en ressouces et enconnaissances linguistiques. Enfin, nos efforts se sont portés sur la robustesse des systèmes de reconnaissance de la parole face aux variabilités acoustiques, et plus particulièrement celles générées par l'environnement. Nous nous sommes intéressés, dans nos différentes expérimentations, à la variabilité locuteur, à la variabilité canal et au bruit additif. Grâce à notre approche s'appuyant sur l'analyse factorielle, nous avons démontré la possibilité de modéliser ces différents types de variabilité acoustique nuisible comme une composante additive dans le domaine cepstral. Nous soustrayons cette composante des vecteurs cepstraux pour annuler son effet pénalisant pour la reconnaissance de la parole
|
6 |
Etude articulatoire et acoustique des fricatives sibilantesToda, Martine 13 June 2009 (has links) (PDF)
L'objectif de cette thèse est de décrire de manière analytique le spectre du bruit de friction en mettant en évidence l'affiliation des pics spectraux aux cavités du conduit vocal, par le biais de la modélisation acoustique et avec l'aide des données IRM de 7 langues [30 locuteurs]. Les résultats sont les suivants : 1. La dispersion des sibilantes dans l'espace articulatoire dépend du système phonologique [contrastes [+/- antérieur], [+/- distribué], ou les deux]. En français [+/- antérieur], 7 locuteurs], la variation inter-individuelle est importante. 2. Cette variation est due à deux variantes articulatoires du /ʃ/ : (a) plutôt apical, comportant une cavité sublinguale, accompagné de protrusion labiale, et semblable au /ʂ/ polonais ; et [b] palatalisé, mettant en œuvre le bombement du dos de la langue, comparable au /ɕ/ polonais. L'équivalence acoustique des deux variantes est démontrée par une simulation acoustique systématique. 3. En polonais, où la différence articulatoire est phonémique, /ʂ/ est caractérisé par un pic ultra-bas [1,5-1,8 kHz], affilié à la cavité antérieure, d'après la simulation acoustique à l'aide de fonction d'aire réelles de deux locuteurs. 4. Les données articulatoires présentent systématiquement une constriction dentale étroite. D'après la modélisation acoustique, la protrusion labiale aurait comme effet d'abaisser la fréquence d'un formant affilié spécifiquement à la cavité labiale. En somme, la présence de deux constrictions étroites linguale et dentale rend possible le contrôle quasi indépendant d'au moins deux résonances. Cette spécificité garantit aux sibilantes un bruit distinctif qui permet d'expliquer la richesse de leurs inventaires
|
7 |
Automatic Music Transcription based on Prior Knowledge from Musical Acoustics. Application to the repertoires of the Marovany zither of Madagascar / Transcription automatique de musique basé sur des connaissances a prior issues de l'Acoustique Musicale. Application aux répertoires de la cithare marovany de MadagascarCazau, Dorian 12 October 2015 (has links)
L’ethnomusicologie est l’étude de la musique en mettant l’accent sur les aspects culturels, sociaux, matériels, cognitifs et/ou biologiques. Ce sujet de thèse, motivé par Pr. Marc Chemillier, ethnomusicologue au laboratoire CAMS-EHESS, traite du développement d’un système automatique de transcription dédié aux répertoires de musique de la cithare marovany de Madagascar. Ces répertoires sont transmis oralement, résultant d’un processus de mémorisation/ transformation de motifs musicaux de base. Ces motifs sont un patrimoine culturel important du pays, et évoluent en permanence sous l’influence d’autres pratiques et genres musicaux. Les études ethnomusicologiques actuelles visent à comprendre l’évolution du répertoire traditionnel, et de préserver ce patrimoine. Pour servir cette cause, notre travail consiste à fournir des outils informatiques d’analyse musicale pour organiser et structurer des enregistrements audio de cet instrument. La transcription automatique de musique consiste à estimer les notes d’un enregistrement à travers les trois attributs : temps de début, hauteur et durée de note. Notre travail sur cette thématique repose sur l’incorporation de connaissances musicales a priori dans les systèmes informatiques. Une première étape de cette thèse fût donc de générer cette connaissance et de la formaliser en vue de cette incorporation. Cette connaissance explorer les caractéristiques multi-modales du signal musical, incluant le timbre, le langage musical et les techniques de jeu. La recherche effectée dans cette thèse se distingue en deux axes : un premier plus appliqué, consistant à développer un système de transcription de musique dédié à la marovany, et un second plus fondamental, consistant à fournir une analyse plus approfondie des contributions de la connaissance dans la transcription automatique de musique. Notre premier axe de recherche requiert une précision de transcription très bonne (c.a.d. une F-measure supérieure à 95 % avec des tolérances d’erreur standardes) pour faire office de supports analytiques dans des études musicologiques. Pour cela, nous utilisons une technologie de captation multicanale appliquée aux instruments à cordes pincées. Les systèmes développés à partir de cette technologie utilisent un capteur par corde, permettant de décomposer un signal polyphonique en une somme de signaux monophoniques respectifs à chaque corde, ce qui simplifie grandement la tâche de transcription. Différents types de capteurs (optiques, piézoélectriques, électromagnétiques) ont été testés. Après expérimentation, les capteurs piézoélectriques, bien qu’invasifs, se sont avérés avoir les meilleurs rapports signal-sur-bruit et séparabilité inter-capteurs. Cette technologie a aussi permis le développement d’une base de données dite “ground truth" (vérité de terrain), indispensable pour l’évaluation quantitative des systèmes de transcription de musique. Notre second axe de recherche propose des investigations plus approfondies concernant l’incorporation de connaissance a priori dans les systèmes automatiques de transcription de musique. Deux méthodes statistiques ont été utilisées comme socle théorique, à savoir le PLCA (Probabilistic Latent Component Analysis) pour l’estimation multi-pitch et le HMM (Hidden Markov Models). / Ethnomusicology is the study of musics around the world that emphasize their cultural, social, material, cognitive and/or biological. This PhD sub- ject, initiated by Pr. Marc CHEMILLIER, ethnomusicolog at the laboratory CAMS-EHESS, deals with the development of an automatic transcription system dedicated to the repertoires of the traditional marovany zither from Madagascar. These repertoires are orally transmitted, resulting from a pro- cess of memorization/transformation of original base musical motives. These motives represent an important culture patrimony, and are evolving contin- ually under the inuences of other musical practices and genres mainly due to globalization. Current ethnomusicological studies aim at understanding the evolution of the traditional repertoire through the transformation of its original base motives, and preserving this patrimony. Our objectives serve this cause by providing computational tools of musical analysis to organize and structure audio recordings of this instrument. Automatic Music Transcription (AMT) consists in automatically estimating the notes in a recording, through three attributes: onset time, duration and pitch. On the long range, AMT systems, with the purpose of retrieving meaningful information from complex audio, could be used in a variety of user scenarios such as searching and organizing music collections with barely any human labor. One common denominator of our diferent approaches to the task of AMT lays in the use of explicit music-related prior knowledge in our computational systems. A step of this PhD thesis was then to develop tools to generate automatically this information. We chose not to restrict ourselves to a speciprior knowledge class, and rather explore the multi-modal characteristics of musical signals, including both timbre (i.e. modeling of the generic \morphological" features of the sound related to the physics of an instrument, e.g. intermodulation, sympathetic resonances, inharmonicity) and musicological (e.g. harmonic transition, playing dynamics, tempo and rhythm) classes. This prior knowledge can then be used in com- putational systems of transcriptions. The research work on AMT performed in this PhD can be divided into a more \applied research" (axis 1), with the development of ready-to-use operational transcription tools meeting the cur- rent needs of ethnomusicologs to get reliable automatic transcriptions, and a more \basic research" (axis 2), providing deeper insight into the functioning of these tools. Our axis of research requires a transcription accuracy high enough 1 (i.e. average F-measure superior to 95 % with standard error tolerances) to provide analytical supports for musicological studies. Despite a large enthusiasm for AMT challenges, and several audio-to-MIDI converters available commercially, perfect polyphonic AMT systems are out of reach of today's al- gorithms. In this PhD, we explore the use of multichannel capturing sensory systems for AMT of several acoustic plucked string instruments, including the following traditional African zithers: the marovany (Madagascar), the Mvet (Cameroun), the N'Goni (Mali). These systems use multiple string- dependent sensors to retrieve discriminatingly some physical features of their vibrations. For the AMT task, such a system has an obvious advantage in this application, as it allows breaking down a polyphonic musical signal into the sum of monophonic signals respective to each string.
|
8 |
Capteur ultrasonore multiélément dédié à la caractérisation quantitative haute résolution / Multielement ultrasound sensor dedicated to high resolution quantitative characterisationMeignen, Pierre-Antoine 05 December 2016 (has links)
Les travaux présentés dans cette thèse s’appliquent à la caractérisation de propriétés mécaniques par la microscopie acoustique. Ils décrivent un capteur focalisé innovant qui autorise à la fois une topographie et une imagerie quantitative d’un matériau élastique. L’innovation consiste en la séparation des différents modes de propagation d’un matériau excité par une sonde focalisée multiélément. La mesure par temps de vol de la vitesse de propagation des modes de surfaces de matériaux élastiques et anisotropes offre une possibilité de quantification du module caractérisant l’élasticité : le module de Young. Le dimensionnement de la sonde multiélément qui est décrit ici est rendu possible grâce au développement d’un modèle de champs acoustiques permettant d’anticiper le champ rayonné par chaque élément. Un deuxième modèle traitant de l’étude temporel des signaux reçus par la sonde focalisée est aussi présenté pour vérifier le comportement discriminant de la sonde des différentes ondes pouvant se propager. La mesure de propriétés mécaniques par la sonde focalisée est appliquée à différents échantillons et propose des résultats cohérents avec une grande sensibilité. La possibilité de réaliser des images de propriétés mécaniques est ainsi démontrée. D’abord adaptée pour des fréquences de l’ordre de la trentaine de mégahertz, cette sonde possède un nombre limité d’éléments pour assurer une simplicité de conception et de fabrication permettant par la suite une miniaturisation du capteur pour atteindre des fréquences proches du gigahertz. / The work presented in this thesis is applied to the characterization of mechanical properties by acoustic microscopy. It describes an innovative focused sensor that enables both topography and quantitative imaging of an elastic material. The innovation consists in the separation of the different propagation modes of a material excited by a focused multielement probe. Measuring the surface mode propagation velocity of elastic and anisotropic materials thanks to their time of flight provides a possibility of quantifying the module characterizing the elasticity: the Young's modulus. The dimensions of the multielement probe are described here and rely on an acoustic field model developed to anticipate the field radiated by each element. A second model studies the temporal behaviour of the focused probe and also verifies the discrimination of the different waves that propagate. The measurement of mechanical properties by the multielement probe is applied to different samples and provides consistent results with high sensitivity. The ability to produce images of mechanical properties is thus demonstrated. First suitable for frequencies near thirty megahertz, this sensor has a limited number of elements to ensure a simplicity of design and manufacture for a subsequent miniaturization of the sensor to achieve frequencies near the gigahertz.
|
9 |
Etude articulatoire et acoustique des fricatives sibilantes / Articulatory and acoustic study of sibilant fricativesToda, Martine 13 June 2009 (has links)
L’objectif de cette thèse est de décrire de manière analytique le spectre du bruit de friction en mettant en évidence l’affiliation des pics spectraux aux cavités du conduit vocal, par le biais de la modélisation acoustique et avec l’aide des données IRM de 7 langues [30 locuteurs]. Les résultats sont les suivants : 1. La dispersion des sibilantes dans l’espace articulatoire dépend du système phonologique [contrastes [+/- antérieur], [+/- distribué], ou les deux]. En français [+/- antérieur], 7 locuteurs], la variation inter-individuelle est importante. 2. Cette variation est due à deux variantes articulatoires du /ʃ/ : (a) plutôt apical, comportant une cavité sublinguale, accompagné de protrusion labiale, et semblable au /ʂ/ polonais ; et [b] palatalisé, mettant en œuvre le bombement du dos de la langue, comparable au /ɕ/ polonais. L’équivalence acoustique des deux variantes est démontrée par une simulation acoustique systématique. 3. En polonais, où la différence articulatoire est phonémique, /ʂ/ est caractérisé par un pic ultra-bas [1,5-1,8 kHz], affilié à la cavité antérieure, d’après la simulation acoustique à l’aide de fonction d’aire réelles de deux locuteurs. 4. Les données articulatoires présentent systématiquement une constriction dentale étroite. D’après la modélisation acoustique, la protrusion labiale aurait comme effet d’abaisser la fréquence d’un formant affilié spécifiquement à la cavité labiale. En somme, la présence de deux constrictions étroites linguale et dentale rend possible le contrôle quasi indépendant d’au moins deux résonances. Cette spécificité garantit aux sibilantes un bruit distinctif qui permet d’expliquer la richesse de leurs inventaires / The aim of this study is to analytically describe the frication noise spectrum in terms of formant affiliation to vocal tract cavities. The high-resolution, teeth-inserted MRI data of sibilants in 7 languages [30 subjects in total] as well as 1D and 3D acoustic modeling are involved. The results are summarized as follows: 1. Sibilants’ dispersion within the articulatory space depends on the language’s phonemic inventory [with contrasts involving [+/- anterior], [+/- distributed], or both features]. A large amount of inter-speaker variation [7 subjects] is observed in French /s/ and /ʃ/ contrasted by [+/- anterior]]. 2. This variation is due to two articulatory variants of the French /ʃ/ : [a] apical, with a sublingual cavity, and protruded lips, like Polish /ʂ/ ; [b] palatalized, with a domed tongue dorsum, like Polish /ɕ/. Systematic acoustic modeling provides evidences about their acoustic equivalence. 3. In Polish, where /ʂ/ and /ɕ/ are contrastive, a super-low peak [1.5 – 1.8 kHz] characterizes the former. The acoustic modeling results using realistic area functions of two subjects show that this peak is affiliated to the front oral cavity. 4. The articulatory data show a systematic narrow constriction at the teeth in all of the examined sibilants. Acoustic modeling shows that lip protrusion results in lowering the formant affiliated specifically to the lip cavity. To conclude, the narrow tongue and teeth constrictions in sibilants allow the speaker to control quasi independently
|
10 |
L’analyse factorielle pour la modélisation acoustique des systèmes de reconnaissance de la parole / Factor analysis for acoustic modeling of speech recognition systemsBouallegue, Mohamed 16 December 2013 (has links)
Dans cette thèse, nous proposons d’utiliser des techniques fondées sur l’analyse factorielle pour la modélisation acoustique pour le traitement automatique de la parole, notamment pour la Reconnaissance Automatique de la parole. Nous nous sommes, dans un premier temps, intéressés à la réduction de l’empreinte mémoire des modèles acoustiques. Notre méthode à base d’analyse factorielle a démontré une capacité de mutualisation des paramètres des modèles acoustiques, tout en maintenant des performances similaires à celles des modèles de base. La modélisation proposée nous conduit à décomposer l’ensemble des paramètres des modèles acoustiques en sous-ensembles de paramètres indépendants, ce qui permet une grande flexibilité pour d’éventuelles adaptations (locuteurs, genre, nouvelles tâches).Dans les modélisations actuelles, un état d’un Modèle de Markov Caché (MMC) est représenté par un mélange de Gaussiennes (GMM : Gaussian Mixture Model). Nous proposons, comme alternative, une représentation vectorielle des états : les fac- teur d’états. Ces facteur d’états nous permettent de mesurer efficacement la similarité entre les états des MMC au moyen d’une distance euclidienne, par exemple. Grâce à cette représenation vectorielle, nous proposons une méthode simple et efficace pour la construction de modèles acoustiques avec des états partagés. Cette procédure s’avère encore plus efficace dans le cas de langues peu ou très peu dotées en ressouces et enconnaissances linguistiques. Enfin, nos efforts se sont portés sur la robustesse des systèmes de reconnaissance de la parole face aux variabilités acoustiques, et plus particulièrement celles générées par l’environnement. Nous nous sommes intéressés, dans nos différentes expérimentations, à la variabilité locuteur, à la variabilité canal et au bruit additif. Grâce à notre approche s’appuyant sur l’analyse factorielle, nous avons démontré la possibilité de modéliser ces différents types de variabilité acoustique nuisible comme une composante additive dans le domaine cepstral. Nous soustrayons cette composante des vecteurs cepstraux pour annuler son effet pénalisant pour la reconnaissance de la parole / In this thesis, we propose to use techniques based on factor analysis to build acoustic models for automatic speech processing, especially Automatic Speech Recognition (ASR). Frstly, we were interested in reducing the footprint memory of acoustic models. Our factor analysis-based method demonstrated that it is possible to pool the parameters of acoustic models and still maintain performance similar to the one obtained with the baseline models. The proposed modeling leads us to deconstruct the ensemble of the acoustic model parameters into independent parameter sub-sets, which allow a great flexibility for particular adaptations (speakers, genre, new tasks etc.). With current modeling techniques, the state of a Hidden Markov Model (HMM) is represented by a combination of Gaussians (GMM : Gaussian Mixture Model). We propose as an alternative a vector representation of states : the factors of states. These factors of states enable us to accurately measure the similarity between the states of the HMM by means of an euclidean distance for example. Using this vector represen- tation, we propose a simple and effective method for building acoustic models with shared states. This procedure is even more effective when applied to under-resourced languages. Finally, we concentrated our efforts on the robustness of the speech recognition sys- tems to acoustic variabilities, particularly those generated by the environment. In our various experiments, we examined speaker variability, channel variability and additive noise. Through our factor analysis-based approach, we demonstrated the possibility of modeling these different types of acoustic variability as an additive component in the cepstral domain. By compensation of this component from the cepstral vectors, we are able to cancel out the harmful effect it has on speech recognition
|
Page generated in 0.1155 seconds