• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 1
  • 1
  • Tagged with
  • 11
  • 11
  • 6
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Objectivation du micro-endommagement dans le tissu osseux trabéculaire par une méthode d'acousto-élasticité dynamique : répétabilité et sensibilité de la mesure des paramètres non linéaires élastiques / Trabecular bone tissue microdamage objectivation using an acousto-elastic testing method : repetability and sensitivity of the nonlinear elstic parameters measurements

Moreschi, Hélène 05 June 2012 (has links)
La problématique du vieillissement pathologique du tissu osseux (ostéoporose) est un enjeu important de santé publique. La densité minérale osseuse est considérée comme un des facteurs principaux affectant cette dégénérescence tissulaire, sans toutefois expliquer complètement le risque fracturaire. L’accumulation du micro-endommagement en lien avec cette pathologie présente un nouvel angle d’investigation intéressant. Dans ce contexte, une méthode d’acousto-élasticité dynamique (DAET) associant une onde acoustique basse fréquence et des impulsions ultrasonores a été développée au laboratoire pour la quantification du micro-endommagement dans l’os trabéculaire. La DAET permet de mesurer les non-linéarités élastiques et dissipatives, respectivement associées aux variations de temps de vol et d’amplitude des impulsions pour différents états de contrainte basse fréquence auxquels est soumis le tissu osseux.Ce travail a consisté à étudier la sensibilité et la reproductibilité de l’approche DAET à détecter/quantifier in vitro le niveau de micro-endommagement -natif ou induit mécaniquement par fatigue en compression- dans des échantillons osseux trabéculaires issus de calcanéums humains. De forts niveaux de non-linéarités acoustiques ont toujours été corrélés à une densité de micro-endommagements importante (analyse histologique). La présence de microbulles d’air (fortement non linéaires) et l’apparition d’un phénomène de conditionnement des échantillons par l’onde acoustique basse-fréquence ont tempéré la reproductibilité de l’approche DAET. Cette difficulté ne remet toutefois pas en cause la pertinence de cette méthode dans le cadre d’une application in vivo de la mesure DAET. / Bone tissue pathological aging (osteoporosis) is an important public health issue. Bone mineral density (BMD) is considered as a major factor of the bone tissue strength, but does not fully explain the fracture risk. The accumulation of microdamage in connection with this disease open up an interesting perspective of investigation. In this context, a dynamic acoustoelastic testing (DAET) method associating a low frequency acoustic wave and ultrasonic pulses was developed in the laboratory to quantify microdamage in trabecular bone.The purpose of this work was to assess the sensitivity and the reproducibility of the DAET approach to monitor in vitro (either native or mechanically induced fatigue) microdamagein trabecular samples extracted from human calcanei.High levels of acoustic nonlinearities were always correlated with a high density of microdamage (histological analysis). Nevertheless, the presence of highly nonlinear air bubbles and conditioning effects induced by the low-frequency wave moderated the DAET reproducibility.This difficulty, however, does not question the relevance of this method for in vivo DAET application.
2

Recherche du rôle des intervenants et de leurs interactions pour la structuration de documents audiovisuels

Bigot, Benjamin 06 July 2011 (has links) (PDF)
Nous présentons un système de structuration automatique d'enregistrements audiovisuels s'appuyant sur des informations non lexicales caractéristiques des rôles des intervenants et de leurs interactions. Dans une première étape, nous proposons une méthode de détection et de caractérisation de séquences temporelles, nommée " zones d'interaction ", susceptibles de correspondre à des conversations. La seconde étape de notre système réalise une reconnaissance du rôle des intervenants : présentateur, journaliste et autre. Notre contribution au domaine de la reconnaissance automatique du rôle se distingue en reposant sur l'hypothèse selon laquelle les rôles des intervenants sont accessibles à travers des paramètres " bas-niveau " inscrits d'une part dans l'organisation temporelle des tours de parole des intervenants, dans les environnements acoustiques dans lesquels ils apparaissent, ainsi que dans plusieurs paramètres prosodiques (intonation et débit). Dans une dernière étape, nous combinons l'information du rôle des intervenants à la connaissance des séquences d'interaction afin de produire deux niveaux de description du contenu des documents. Le premier niveau de description segmente les enregistrements en zones de 4 types : informations, entretiens, transition et intermède. Un second niveau de description classe les zones d'interaction orales en 4 catégories : débat, interview, chronique et relais. Chaque étape du système est validée par une grand nombre d'expériences menées sur le corpus du projet EPAC et celui de la campagne d'évaluation ESTER.
3

Contribution de l'analyse du signal vocal à la détection de l'état de somnolence et du niveau de charge mentale / Contribution of the analysis of speech signal to the detection of drowsiness and mental load level

Boyer, Stanislas 20 June 2016 (has links)
Les exigences opérationnelles du métier de pilote sont susceptibles d'engendrer de la somnolence et des niveaux de charge mentale inadéquats (i.e., trop faible ou trop élevé) au cours des vols. Les dettes de sommeil et les perturbations circadiennes liées à divers facteurs (e.g., longues périodes de services, horaires de travail irrégulier, etc.) demandent aux pilotes de repousser sans cesse leurs limites biologiques. Par ailleurs, la charge de travail mental des pilotes présente de fortes variations au cours d'un vol : élevée au cours des phases critiques (i.e., décollage et atterrissage), elle devient très réduite pendant les phases de croisière. Lorsque la charge mentale devient trop élevée ou, à l'inverse, trop faible, les performances se dégradent et des erreurs de pilotage peuvent apparaître. La mise en oeuvre de méthodes de détection de l'état de somnolence et du niveau de charge mentale en temps quasi réel est un défi majeur pour le suivi et le contrôle de l'activité de pilotage. L'objectif de la thèse est de déterminer si la voix humaine peut permettre de détecter d'une part, l'état de somnolence et d'autre part, le niveau de charge mentale d'un individu. Dans une première étude, la voix de participants a été enregistrée lors d'une tâche de lecture avant et après une nuit de privation totale de sommeil (PTS). Les variations de l'état de somnolence consécutives à la PTS ont été évaluées au moyen de mesures auto-évaluatives et électrophysiologiques (ÉlectroEncéphaloGraphie [EEG] et Potentiels Évoqués [PEs]). Les résultats ont montré une variation significative après la PTS de plusieurs paramètres acoustiques liés : (a) à l'amplitude des impulsions glottiques (fréquence de modulation d'amplitude), (b) à la forme du signal acoustique (longueur euclidienne du signal et ses caractéristiques associées) et (c) au spectre du signal des voyelles (rapport harmonique sur bruit, fréquence du second formant, coefficient d'asymétrie, centre de gravité spectral, différences d'énergie, pente spectrale et coefficients cepstraux à échelle Mel). La plupart des caractéristiques spectrales ont montré une sensibilité différente à la privation de sommeil en fonction du type de voyelles. Des corrélations significatives ont été mises en évidence entre plusieurs paramètres acoustiques et plusieurs indicateurs objectifs (EEG et PEs) de l'état de somnolence. Dans une seconde étude, le signal vocal a été enregistré durant une tâche de rappel de listes de mots. La difficulté de la tâche était manipulée en faisant varier le nombre de mots dans chaque liste (i.e., entre un et sept, correspondant à sept conditions de charge mentale). Le diamètre pupillaire - qui est un indicateur objectif pertinent du niveau de charge mentale - a été mesuré simultanément avec l'enregistrement de la voix afin d'attester de la variation du niveau de charge mentale durant la tâche expérimentale. Les résultats ont montré que des paramètres acoustiques classiques (fréquence fondamentale et son écart type, shimmer, nombre de périodes et rapport harmonique sur bruit) et originaux (fréquence de modulation d'amplitude et variations à court-terme de la longueur euclidienne du signal) ont été particulièrement sensibles aux variations de la charge mentale. Les variations de ces paramètres acoustiques étaient corrélées à celles du diamètre pupillaire. L'ensemble des résultats suggère que les paramètres acoustiques de la voix humaine identifiés lors des expérimentations pourraient représenter des indicateurs pertinents pour la détection de l'état de somnolence et du niveau de charge mentale d'un individu. Les résultats ouvrent de nombreuses perspectives de recherche et d'applications dans le domaine de la sécurité des transports, notamment dans le secteur aéronautique. / Operational requirements of aircraft pilots may cause drowsiness and inadequate mental load levels (i.e., too low or too high) during flights. Sleep debts and circadian disruptions linked to various factors (e.g., long working periods, irregular work schedules, etc.) require pilots to challenge their biological limits. Moreover, pilots' mental workload exhibits strong fluctuations during flights: higher during critical phases (i.e., takeoff and landing), it becomes very low during cruising phases. When the mental load becomes too high or, conversely, too low, performance decreases and flight errors may manifest. Implementation of detection methods of drowsiness and mental load levels in near real time is a major challenge for monitoring and controlling flight activity. The aim of this thesis is therefore to determine if the human voice can serve to detect on one hand the drowsiness and on the other hand the mental load level of an individual. In a first study, the voice of participants was recorded during a reading task before and after a night of total sleep deprivation (TSD). Drowsiness variations linked to TSD were assessed using self-evaluative and electrophysiological measures (ElectroEncephaloGraphy [EEG] and Evoked Potentials [EPs]). Results showed significant variations after the TSD in many acoustic features related to: (a) the amplitude of the glottal pulses (amplitude modulation frequency), (b) the shape of the acoustic wave (Euclidean length of the signal and its associated features) and (3) the spectrum of the vowel signal (harmonic-to-noise ratio, second formant frequency, skewness, spectral center of gravity, energy differences, spectral tilt and Mel-frequency cepstral coefficients). Most spectral features showed different sensitivity to sleep deprivation depending on the vowel type. Significant correlations were found between several acoustic features and several objective indicators (EEG and PEs) of drowsiness. In a second study, voices were recorded during a task featuring word-list recall. The difficulty of the task was manipulated by varying the number of words in each list (i.e., between one and seven, corresponding to seven mental load conditions). Evoked pupillary response - known to be a useful proxy of mental load - was recorded simultaneously with speech to attest variations in mental load level during the experimental task. Results showed that classical features (fundamental frequency and its standard deviation, shimmer, number of periods and harmonic-to-noise ratio) and original features (amplitude modulation frequency and short-term variation in digital amplitude length) were particularly sensitive to variations in mental load. Variations in these acoustic features were correlated to those of the pupil size. Results suggest that the acoustic features of the human voice identified during these experiments could represent relevant indicators for the detection of drowsiness and mental load levels of an individual. Findings open up many research and applications perspectives in the field of transport safety, particularly in the aeronautical sector.
4

Analyse de l’environnement sonore pour le maintien à domicile et la reconnaissance d’activités de la vie courante, des personnes âgées / Sound analysis oh the environment for healthcare and recognition of daily life activities for the elderly

Robin, Maxime 17 April 2018 (has links)
L’âge moyen de la population française et européenne augmente, cette constatation apporte de nouveaux enjeux techniques et sociétaux, les personnes âgées étant les personnes les plus fragiles et les plus vulnérables, notamment du point de vue des accidents domestiques et en particulier des chutes. C’est pourquoi de nombreux projets d’aide aux personnes âgées : techniques, universitaires et commerciaux ont vu le jour ces dernières années. Ce travail de thèse a été effectué sous convention Cifre, conjointement entre l’entreprise KRG Corporate et le laboratoire BMBI (Biomécanique et Bio-ingénierie) de l’UTC (Université de technologie de Compiègne). Elle a pour objet de proposer un capteur de reconnaissance de sons et des activités de la vie courante, dans le but d’étoffer et d’améliorer le système de télé-assistance déjà commercialisé par la société. Plusieurs méthodes de reconnaissance de parole ou de reconnaissance du locuteur ont déjà été éprouvées dans le domaine de la reconnaissance de sons, entre autres les techniques : GMM (Modèle de mélange gaussien–Gaussian Mixture Model), SVM-GSL (Machine à vecteurs de support, GMM-super-vecteur à noyau linéaire – Support vector machine GMM Supervector Linear kernel) et HMM (Modèle de Markov caché – Hidden Markov Model). De la même manière, nous nous sommes proposés d’utiliser les i-vecteurs pour la reconnaissance de sons. Les i-vecteurs sont utilisés notamment en reconnaissance de locuteur, et ont révolutionné ce domaine récemment. Puis nous avons élargi notre spectre, et utilisé l’apprentissage profond (Deep Learning) qui donne actuellement de très bon résultats en classification tous domaines confondus. Nous les avons tout d’abord utilisés en renfort des i-vecteurs, puis nous les avons utilisés comme système de classification exclusif. Les méthodes précédemment évoquées ont également été testées en conditions bruités puis réelles. Ces différentes expérimentations nous ont permis d’obtenir des taux de reconnaissance très satisfaisants, les réseaux de neurones en renfort des i-vecteurs et les réseaux de neurones seuls étant les systèmes ayant la meilleure précision, avec une amélioration très significative par rapport aux différents systèmes issus de la reconnaissance de parole et de locuteur. / The average age of the French and European population is increasing; this observation brings new technical and societal challenges. Older people are the most fragile and vulnerable, especially in terms of domestic accidents and specifically falls. This is why many elderly people care projects : technical, academic and commercial have seen the light of day in recent years. This thesis work wasc arried out under Cifre agreement, jointly between the company KRG Corporate and the BMBI laboratory (Biomechanics and Bioengineering) of the UTC (Université of Technologie of Compiègne). Its purpose is to offer a sensor for sound recognition and everyday activities, with the aim of expanding and improving the tele-assistance system already marketed by the company. Several speech recognition or speaker recognition methods have already been proven in the field of sound recognition, including GMM (Modèle de mélange gaussien – Gaussian Mixture Model), SVM-GSL (Machine à vecteurs de support, GMM-super-vecteur à noyau linéaire – Support vector machine GMM Supervector Linear kernel) and HMM (Modèle de Markov caché – Hidden Markov Model). In the same way, we proposed to use i-vectors for sound recognition. I-Vectors are used in particular in speaker recognition, and have revolutionized this field recently. Then we broadened our spectrum, and used Deep Learning, which currently gives very good results in classification across all domains. We first used them to reinforce the i-vectors, then we used them as our exclusive classification system. The methods mentioned above were also tested under noisy and then real conditions. These different experiments gaves us very satisfactory recognition rates, with neural networks as reinforcement for i-vectors and neural networks alone being the most accurate systems, with a very significant improvement compared to the various speech and speaker recognition systems.
5

Détection et Reconnaissance des Sons pour la Surveillance Médicale

Istrate, Dan 16 December 2003 (has links) (PDF)
Depuis quelques années se développe le concept général d'espace perceptif ou salle intelligente qui répond de diverses façons aux besoins, demandes, attentes des acteurs humains. Les espaces perceptifs traitent des signaux de parole, des signaux vidéo, les données de l'environnement, la localisation des personnes, le suivi et la reconnaissance des gestes, etc. Ce travail de thèse se situe à la frontière entre les espaces perceptifs et la télémédecine qui a récemment évolué vers la télésurveillance des malades, le télédiagnostic, etc. La télésurveillance est notamment utilisée pour suivre l'évolution de personnes à risques (maladies chroniques ou personnes exposées à des situations critiques). Cela peut être à domicile (personnes âgées) ou dans un environnement professionnel dangereux. L'analyse et l'extraction des informations du son est un aspect important des espaces perceptifs pour la télésurveillance médicale. Dans ce contexte, cette thèse analyse et propose des solutions aux problématiques spécifiques au traitement du son dans les espaces perceptifs plus particulièrement pour la télésurveillance médicale. Parmi ces problématiques la classification automatique de sons de la vie courante a été très peu explorée jusqu'à aujourd'hui. Dans ce travail, un système d'analyse sonore en deux étapes est proposé pour éviter d'analyser un flux audio continu. Le rôle de la détection des événements sonores est d'extraire du bruit environnemental les signaux à identifier. Appliquée en même temps sur un ensemble de capteurs sonores répartis dans l'appartement, elle permet également une première localisation de la source sonore. Les algorithmes issus de l'état de l'art se montrant insuffisamment efficaces dans nos conditions, de nouveaux algorithmes mieux adaptés aux signaux impulsionnels, comme ceux utilisant la transformée en ondelettes sont proposés. Pour la classification des sons proprement dite, l'utilisation de techniques issues de la reconnaissance automatique de la parole est d?abord envisagée. Ces techniques sont ensuite enrichies par l'ajout de paramètres acoustiques mieux adaptés, parmi lesquels ceux issus de la transformée en ondelettes et de la détection de signaux musicaux. Les performances de la classification sont aussi évaluées dans le bruit et une solution de pré-traitement est présentée. Les problématiques liées au couplage entre la détection et la classification, ainsi que le problème de l'évaluation d'un tel système sont aussi abordées dans ce travail. En fin de manuscrit, l?évolution vers un système de reconnaissance de «sons clés», inspirée de la reconnaissance de mots clés en parole, est ébauchée. Une implémentation en temps réel des algorithmes proposés a été réalisée pour l'application de télésurveillance médicale et est en cours de validation dans l'appartement test disponible pour le projet. Certains résultats expérimentaux présentés dans le document proviennent directement de cet appartement test.
6

Caractérisation de la voix de l'enfant sourd appareillé et implanté cochléaire : approches acoustique et perceptuelle et proposition de modélisation / Characterizing the voice of the fitted and cochlear implanted deaf children : acoustic and perceptive approaches with a view to modelling

Guerrero Lopez, Harold Andrés 19 March 2010 (has links)
Cette thèse propose une analyse comparative acoustique et perceptive de la voix d’un effectif statistiquement fiable d’enfants sourds appareillés et implantés cochléaires. Peu de paramètres diffèrent de manière significative entre le groupe d’enfants sourds ayant été appareillés et implantés avant l’âge de trois ans, et le groupe d’enfants entendants. L’ensemble de résultats indiquent que la voix des enfants de notre étude ne présente pas les caractéristiques traditionnellement retenues pour déterminer la voix pathologique. Par ailleurs, les caractéristiques de la voix des enfants implantés cochléaires sont sensiblement comparables à celles des enfants entendants. Fort de ces résultats expérimentaux, nous avons proposé un modèle « vibro-acoustique » de la régulation de la voix des enfants sourds « oralisés », et développé un simulateur numérique de la boucle audio-phonatoire. / This dissertation presents an acoustic and perceptive comparative analysis of the voice in a reliable size group of fitted and cochlear implanted deaf children. There are very few significantly different parameters between fitted and implanted children before three years old and normal children. Results do not confirm that hearing-impaired children’s voices of our study are pathological. Furthermore, characteristics of cochlear implanted voices are nearly comparable to normal children’s voices. As a consequence of these results, we propose a « vibro-acoustic model » and a software of voice control mechanism in deaf children.
7

Genre et voix en arabe libanais : le cas des femmes avec un oedème de Reinke / Gender and voice in Lebanese Arabic : a study on women with Reinke’s edema

Matar Zein, Nayla 19 November 2015 (has links)
Objectif : Les femmes avec œdème de Reinke (FR) sont souvent prises pour des hommes au téléphone. Ainsi, leurs voix masculines sont intéressantes pour l’étude des stéréotypes de genre dans la voix. L’objectif de cette étude est de vérifier leur plainte dans un cadre expérimental et de rechercher les paramètres acoustiques utilisés dans l’identification du genre en se basant sur leurs voix.Matériel et Méthode : Une étude d’auto-évaluation met en évidence la perception qu’ont les FR de leurs voix. Une étude de production compare les paramètres acoustiques de voyelles et de phrases produites par 10 FR avec ceux des productions de 10 femmes et de 10 hommes aux voix normales (FN et HN). Un jury naïf évalue le genre vocal des FR, FN et HN. Résultats : Les FR s’auto-évaluent comme ayant une voix masculine et une personnalité féminine. Les paramètres acoustiques qui permettent de distinguer les voix des FR sont liés à la fréquence fondamentale, à la pente spectrale, au ratio des harmoniques par rapport au bruit et à la complexité de l’enveloppe spectrale. Le jury naïf, surtout les femmes, jugent les voix des FR comme « sûrement masculines » plus souvent qu’elles ne jugent les voix des FN quelle que soit la production vocale. Conclusions : Les auditeurs et surtout les auditrices évaluent les FR comme ayant une voix « sûrement masculine » par rapport aux FN. Ce classement est corrélé à la F0 ainsi qu’à des paramètres acoustiques liés à la qualité vocale : CPP, H1H2, HNR05, HNR15 et HNR25. Ces nouvelles informations contribuent à la compréhension de la perception du genre dans la voix et pourraient guider la réhabilitation des personnes se plaignant d’ambiguïté du genre vocal. / Purpose: Women with Reinke’s edema (RW) are often identified as men over the phone. For this reason, their masculine sounding voice is interesting for the study of gender stereotypes. The study’s objective is to verify their complaint and to understand the cues used in gender identification based on their voices.Methods: We verified, through a self-evaluation study, the perception of their own voice by RW. We compared the acoustic parameters of vowels and sentences produced by 10 RW to those produced by 10 men (NM) and 10 women (NW) with normal voices in Lebanese Arabic. We conducted two perception studies for the evaluation of RW, NM and NW voices by naïve listeners. Results: RW self-evaluated their voice as being masculine and their personality as being feminine. The acoustic parameters distinguishing RW voices concern pitch, spectral slope, harmonicity of the voicing signal and complexity of the spectral envelop. Naïve listeners (especially women) rate RW voices as “surely masculine” more often than they rate NW voices even in sentences. Conclusions: Listeners (especially women) rate RW’s gender as “surely masculine” more often than NW. These incorrect gender ratings are correlated with acoustic measures of voice quality. The most contributing parameters to gender perception are: F0, CPP, H1H2, HNR05, HNR15, and HNR25. This new data contributes to the understanding of the perception of gender in voice and will guide the rehabilitation plan of patients complaining of an ambiguous voice.
8

Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Hacine-Gharbi, Abdenour 09 December 2012 (has links) (PDF)
L'objectif de cette thèse est de proposer des solutions et améliorations de performance à certains problèmes de sélection des paramètres acoustiques pertinents dans le cadre de la reconnaissance de la parole. Ainsi, notre première contribution consiste à proposer une nouvelle méthode de sélection de paramètres pertinents fondée sur un développement exact de la redondance entre une caractéristique et les caractéristiques précédemment sélectionnées par un algorithme de recherche séquentielle ascendante. Le problème de l'estimation des densités de probabilités d'ordre supérieur est résolu par la troncature du développement théorique de cette redondance à des ordres acceptables. En outre, nous avons proposé un critère d'arrêt qui permet de fixer le nombre de caractéristiques sélectionnées en fonction de l'information mutuelle approximée à l'itération j de l'algorithme de recherche. Cependant l'estimation de l'information mutuelle est difficile puisque sa définition dépend des densités de probabilités des variables (paramètres) dans lesquelles le type de ces distributions est inconnu et leurs estimations sont effectuées sur un ensemble d'échantillons finis. Une approche pour l'estimation de ces distributions est basée sur la méthode de l'histogramme. Cette méthode exige un bon choix du nombre de bins (cellules de l'histogramme). Ainsi, on a proposé également une nouvelle formule de calcul du nombre de bins permettant de minimiser le biais de l'estimateur de l'entropie et de l'information mutuelle. Ce nouvel estimateur a été validé sur des données simulées et des données de parole. Plus particulièrement cet estimateur a été appliqué dans la sélection des paramètres MFCC statiques et dynamiques les plus pertinents pour une tâche de reconnaissance des mots connectés de la base Aurora2.
9

Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems / Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole

Tomashenko, Natalia 01 December 2017 (has links)
Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire. / Differences between training and testing conditions may significantly degrade recognition accuracy in automatic speech recognition (ASR) systems. Adaptation is an efficient way to reduce the mismatch between models and data from a particular speaker or channel. There are two dominant types of acoustic models (AMs) used in ASR: Gaussian mixture models (GMMs) and deep neural networks (DNNs). The GMM hidden Markov model (GMM-HMM) approach has been one of the most common technique in ASR systems for many decades. Speaker adaptation is very effective for these AMs and various adaptation techniques have been developed for them. On the other hand, DNN-HMM AMs have recently achieved big advances and outperformed GMM-HMM models for various ASR tasks. However, speaker adaptation is still very challenging for these AMs. Many adaptation algorithms that work well for GMMs systems cannot be easily applied to DNNs because of the different nature of these models. The main purpose of this thesis is to develop a method for efficient transfer of adaptation algorithms from the GMM framework to DNN models. A novel approach for speaker adaptation of DNN AMs is proposed and investigated. The idea of this approach is based on using so-called GMM-derived features as input to a DNN. The proposed technique provides a general framework for transferring adaptation algorithms, developed for GMMs, to DNN adaptation. It is explored for various state-of-the-art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them.
10

Caractérisation de la voix de l'enfant sourd appareillé et implanté cochléaire: approches acoustique et perceptuelle et proposition de modélisation

Guerrero López, Harold Andrés 19 March 2010 (has links) (PDF)
Cette thèse propose une analyse comparative acoustique et perceptive de la voix d'un effectif statistiquement fiable d'enfants sourds appareillés et implantés cochléaires. Peu de paramètres diffèrent de manière significative entre le groupe d'enfants sourds ayant été appareillés et implantés avant l'âge de trois ans, et le groupe d'enfants entendants. L'ensemble de résultats indiquent que la voix des enfants de notre étude ne présente pas les caractéristiques traditionnellement retenues pour déterminer la voix pathologique. Par ailleurs, les caractéristiques de la voix des enfants implantés cochléaires sont sensiblement comparables à celles des enfants entendants. Fort de ces résultats expérimentaux, nous avons proposé un modèle " vibro-acoustique " de la régulation de la voix des enfants sourds " oralisés ", et développé un simulateur numérique de la boucle audio-phonatoire.

Page generated in 0.0908 seconds