Spelling suggestions: "subject:"parole."" "subject:"carole.""
151 |
中美假釋制度比較探究 = A comparative study of Chinese and American parole system / Comparative study of Chinese and American parole system張笑然 January 2018 (has links)
University of Macau / Faculty of Law
|
152 |
Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixteServan, Christophe 10 December 2008 (has links) (PDF)
Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique " de qualité " appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels.
|
153 |
Contributions à la reconnaissance automatique de la parole non-nativeBouselmi, Ghazi 12 November 2008 (has links) (PDF)
Le travail présenté dans cette thèse s'inscrit dans le cadre de la RAP non native. Les recherches que nous avons entreprises ont pour but d'aténuer l'impact des accents non natifs sur les performances des systèmes de RAP. Nous avons proposé une nouvelle approche pour la modélisation des prononciations non natives permettant de prendre en compte plusieurs accents étrangers. Cette approche automatique utilise un corpus de parole non native et deus ensembles de modèles acoustiques: le premier ensemble représente l'accent canonique de la langue cible et le deuxième représente l'accent étranger. Les modèles acoustiques du premier ensemble sont modifiés par l'ajout de nouveaux chemins d'états HMM. Cette approche nécessite la connaissance a priori de la langue d'origine des locuteurs. A cet égard, nous avons proposé une nouvelle approche pour la détection de la langue maternelle basée sur la détection des séquences discriminantes de phonèmes.
|
154 |
Le rôle de la vision dans la perception et la production de la parole : étude des voyelles orales du français québécois produites et perçues par des adultes voyants et aveuglesDupont, Sophie January 2006 (has links) (PDF)
La vue des articulateurs que sont notamment la mâchoire et les lèvres, sans indice acoustique, permet de reconnaître bon nombre de phonèmes et dénote l'importance de la vision dans la perception de la parole. Plusieurs travaux ont par ailleurs mis en exergue le lien étroit unissant perception et production de la parole. La cécité constitue un paradigme de recherche privilégié pour étudier le rôle de la vision dans ces mécanismes de la parole. Nous avons donc choisi d'étudier la perception auditive et les caractéristiques acoustiques des
productions des 11 voyelles orales du français québécois [i y u e ø o ε œ ɔ a α] en position tenue isolée de 6 adultes présentant une cécité totale et congénitale et de 6 adultes non-voyants. Une étude exploratoire du mouvement anticipatoire de constriction des lèvres lors de la production de séquences [iCny] a également été menée auprès de 2 sujets par groupe. Nos objectifs ont consisté à décrire acoustiquement la perception des traits d'aperture, de lieu d'articulation et d'arrondissement des voyelles par les participants, à présenter l'organisation articulatori-acoustique et acoustico-auditive des voyelles qu'ils ont produites et à détailler le décours temporel de leur coarticulation labiale anticipante. Notre méthodologie a impliqué des tests d'identification et de discrimination de voyelles synthétisées, des enregistrements acoustiques de productions de voyelles en position tenue isolée dans 2 conditions (en présence de bruit blanc de façon à réduire la rétroaction auditive, et en condition normale, sans bruit perturbateur) et des enregistrements audio-visuels de données géométriques des lèvres. Nous n'avons pas pu observer de différences majeures entre les deux groupes de sujets. Par contre, des tendances ont pu être observées lors de la description de leur perception; pour certains contrastes d'aperture, les sujets aveugles ont présenté des frontières catégorielles de moindre valeur, des pentes Probit généralement inférieures et des pics de discrimination supérieurs. Beaucoup de variabilité inter-individuelle a été observée dans les productions des sujets, mais peu de différences inter-groupes ont été observées. De façon générale, l'AVS des sujets aveugles était inférieur à celui des voyants et ce, dans les deux conditions de bruit. Les données géométriques des lèvres des deux groupes de sujets concordent bien avec les principes établis du Modèle d'expansion du mouvement relatif à la planification motrice de la constriction labiale; les sujets aveugles présentent cependant des pentes légèrement plus faibles que celles des sujets voyants. Des recherches doivent être poursuivies auprès des populations enfant et adulte, voyante et aveugle, afin de mettre en lumière de façon plus précise le rôle de la vision dans les mécanismes de production et de perception de la parole. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Vision, Cécité, Perception de la parole, Production de la parole, Acoustique, Articulatoire, Voyelles, Coarticulation.
|
155 |
Effets accoustiques et articulatoires de perturbations labiales sur la parole des enfants et des adultesAubin, Jérôme January 2006 (has links) (PDF)
Cette étude porte sur les compensations articulatoires occasionnées par une perturbation artificielle de la parole. Un tube inséré entre les lèvres de quatre locuteurs enfants et quatre adultes a servi de perturbation labiale lors de la production des voyelles [i], [y] et [u] du français québécois. Des données acoustiques et articulatoires (imagerie par ultrasonographie) ont été récoltées lors de la production de ces voyelles dans trois conditions: normale préperturbation, perturbée, et normale postperturbation. L'efficacité des compensations articulatoires effectuées a été évaluée sur la base de critères perceptifs. Les stratégies de compensation les plus efficaces ont été comparées à celles issues de simulations sur le modèle articulatoire VLAM à l'aide d'une nouvelle méthode d'analyse des tracés linguaux. Les résultats indiquent que les enfants ont été aussi compétents que les adultes puisque tous les sujets ont été capables de produire des voyelles en condition perturbée de qualité égale ou supérieure à celles en condition préperturbation pour au moins une des trois perturbations. Cependant, aucun locuteur n'a été capable de faire de compensation totale pour toutes les perturbations, indiquant que l'articulation compensatoire semble être de nature sélective, gouvernée par des contraintes articulatoires propres à chaque locuteur. Également, une compensation efficace des paramètres acoustiques F1, F2 et F3 ne semble pas être nécessaire pour effectuer une bonne compensation sur le plan perceptif. Les observations entre les données perceptives et les données acoustiques de production suggèrent que la fréquence fondamentale joue un rôle dans la qualité des voyelles. Le paramètre acoustique F1 est celui décrivant le mieux la cible perceptive pour [u], tandis que la valeur de F2 semble faire partie des critères déterminant la qualité optimale pour les voyelles [i] et [y]. L'articulation compensatoire paraît être un phénomène se développant en synchronie avec les productions langagières de l'enfant. L'étude de ce phénomène vient préciser d'avantage l'objectif du locuteur dans le processus de production de la parole. En regard aux donnés de production de la présente étude, la tâche du locuteur semble être à la fois de nature articulatoire et acoustique, tout en étant guidée prioritairement par des critères acoustico-perceptifs. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Parole, Perturbation, Articulation, Ultrasons, Enfants.
|
156 |
Étude du rôle de la rétroaction auditive dans la production et la perception de la prosodie de l'interrogation chez des sourds postlinguistiques implantésGiroux, Marilyn 05 1900 (has links) (PDF)
La théorie du contrôle moteur de la parole par buts auditifs de Perkell soutient que la rétroaction auditive jouerait un rôle important lors de l'acquisition du langage en permettant la construction d'un modèle interne de la relation entre articulation et résultat acoustique. Une fois mature, ce modèle serait maintenu à jour grâce à l'audition, qui permettrait d'ajuster la production de la parole afin d'en assurer l'intelligibilité. De plus, il fournirait des commandes motrices (feedforward commands) permettant la production de la parole sans que le locuteur ait constamment à se fier à son audition. Or, les personnes sourdes postlinguistiques profondes ne peuvent plus se fier à la rétroaction auditive pour maintenir à jour leur modèle interne. Par ailleurs, les implants cochléaires ne permettraient pas une bonne perception des paramètres suprasegmentaux (qui composent la prosodie). La perception de ces paramètres étant touchée, la représentation interne serait affectée. Qui plus est, ces paramètres seraient, dans la parole, ceux qui se dégradent le plus rapidement en l'absence de rétroaction auditive. Ce mémoire a donc pour but, d'une part, d'observer les capacités de production des paramètres prosodiques par des sourds porteurs d'implant cochléaire, tant avec leur implant en marche qu'avec leur implant éteint; d'autre part, d'évaluer leurs capacités de perception des indices prosodiques; enfin, d'établir un lien entre les capacités de production et de perception de ces locuteurs en ce qui a trait à la prosodie. Des énoncés interrogatifs et assertifs non marqués linguistiquement ont été produits par trois participants sourds et trois participants contrôles, puis évalués par des auditeurs. Les mêmes énoncés, enregistrés par un homme puis manipulés pour obtenir des courbes intonatives assertives et interrogatives, servaient de corpus à un test de perception. Ces tests ont montré que les participants sourds, tant en condition d'implant éteint qu'en condition d'implant en marche, produisaient plus de variations de fréquence fondamentale et des segments plus longs que les locuteurs contrôles. Leurs énoncés interrogatifs étaient moins bien évalués par les auditeurs que ceux des locuteurs contrôles. Au test de perception, les sourds ont, dans l'ensemble du test, obtenu de moins bons résultats que les participants contrôles. Ceux ayant reçu les moins bonnes évaluations de leurs énoncés produits sont aussi ceux qui ont le moins bien réussi au test de perception. Dans l'ensemble, ces résultats corroborent le postulat de la théorie du contrôle moteur par buts auditifs qui veut que l'audition joue un rôle important dans la parole.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : surdité postlinguistique, audition, implant cochléaire, prosodie, rétroaction auditive, théorie du contrôle moteur de la parole par buts auditifs de Perkell
|
157 |
Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue françaiseLe Maguer, Sébastien 05 July 2013 (has links) (PDF)
Les travaux présentés dans cette thèse se situent dans le cadre de la synthèse de la parole à partir du texte et, plus précisément, dans le cadre de la synthèse paramétrique utilisant des règles statistiques. Nous nous intéressons à l'influence des descripteurs linguistiques utilisés pour caractériser un signal de parole sur la modélisation effectuée dans le système de synthèse statistique HTS. Pour cela, deux méthodologies d'évaluation objective sont présentées. La première repose sur une modélisation de l'espace acoustique, généré par HTS par des mélanges gaussiens (GMM). En utilisant ensuite un ensemble de signaux de parole de référence, il est possible de comparer les GMM entre eux et ainsi les espaces acoustiques générés par les différentes configurations de HTS. La seconde méthodologie proposée repose sur le calcul de distances entre trames acoustiques appariées pour pouvoir évaluer la modélisation effectuée par HTS de manière plus locale. Cette seconde méthodologie permet de compléter les diverses analyses en contrôlant notamment les ensembles de données générées et évaluées. Les résultats obtenus selon ces deux méthodologies, et confirmés par des évaluations subjectives, indiquent que l'utilisation d'un ensemble complexe de descripteurs linguistiques n'aboutit pas nécessairement à une meilleure modélisation et peut s'avérer contre-productif sur la qualité du signal de synthèse produit.
|
158 |
Adaptive Sinusoidal Models for Speech with Applications in Speech Modifications and Audio Analysis / Modèles adaptifs sinusoïdaux de parole avec des applications sur la modification de la parole et l'analyse audioKafentzis, George 20 June 2014 (has links)
La modélisation sinusoïdale est une des méthodes les plus largement utilisés paramétriques pour la parole et le traitement des signaux audio. Inspiré par le récemment introduit Modèle aQHM et Modèle aHM, nous la vue d’ensemble de la théorie de l’ adaptation sinusoïdale modélisation et nous proposons un modèle nommé la Modèle eaQHM, qui est un non modèle paramétrique de mesure d’ajuster les amplitudes et les phases instantanées de ses fonctions de base aux caractéristiques variant dans le temps de sous-jacents du signal de parole, ainsi atténuer significativement la dite hypothèse de stationnarité locale. Le eaQHM est montré à surperformer aQHM dans l’analyse et la resynthèse de la parole voisée. Sur la base de la eaQHM , un système hybride d’analyse / synthèse de la parole est présenté (eaQHNM), et aussi d’ une version hybride de l’ aHM (aHNM). En outre, nous présentons la motivation pour une représentation pleine bande de la parole en utilisant le eaQHM, c’est, représentant toutes les parties du discours comme haute résolution des sinusoıdes AM-FM. Les expériences montrent que l’adaptation et la quasi-harmonicité est suffisante pour fournir une qualité de transparence dans la parole non voisée resynthèse. La pleine bande analyse eaQHM et système de synthèse est présenté à côté, ce qui surpasse l’état de l’art des systèmes, hybride ou pleine bande, dans la reconstruction de la parole, offrant une qualité transparente confirmé par des évaluations objectives et subjectives. En ce qui concerne les applications, le eaQHM et l’ aHM sont appliquées sur les modifications de la parole (de temps et pas mise à l’échelle). Les modifications qui en résultent sont de haute qualité, et suivent des règles très simples, par rapport à d’autres systèmes de modification état de l’art. Les résultats montrent que harmonicité est préféré au quasi- harmonicité de modifications de la parole du fait de la simplicité de la représentation intégrée. En outre, la pleine bande eaQHM est appliquée sur le problème de la modélisation des signaux audio, et en particulier d’instrument de musique retentit. Le eaQHM est évaluée et comparée à des systèmes à la pointe de la technologie, et leur est montré surpasser en termes de qualité de resynthèse, représentant avec succès l’attaque , transitoire, et une partie stationnaire d’un son d’instruments de musique. Enfin, une autre application est suggéré, à savoir l’analyse et la classification des discours émouvant. Le eaQHM est appliqué sur l’analyse des discours émouvant, offrant à ses paramètres instantanés comme des caractéristiques qui peuvent être utilisés dans la reconnaissance et la quantification vectorielle à base classification du contenu émotionnel de la parole. Bien que les modèles sinusoidaux sont pas couramment utilisés dans ces tâches, les résultats sont prometteurs. / Sinusoidal Modeling is one of the most widely used parametric methods for speech and audio signal processing. The accurate estimation of sinusoidal parameters (amplitudes, frequencies, and phases) is a critical task for close representation of the analyzed signal. In this thesis, based on recent advances in sinusoidal analysis, we propose high resolution adaptive sinusoidal models for analysis, synthesis, and modifications systems of speech. Our goal is to provide systems that represent speech in a highly accurate and compact way. Inspired by the recently introduced adaptive Quasi-Harmonic Model (aQHM) and adaptive Harmonic Model (aHM), we overview the theory of adaptive Sinusoidal Modeling and we propose a model named the extended adaptive Quasi-Harmonic Model (eaQHM), which is a non-parametric model able to adjust the instantaneous amplitudes and phases of its basis functions to the underlying time-varying characteristics of the speech signal, thus significantly alleviating the so-called local stationarity hypothesis. The eaQHM is shown to outperform aQHM in analysis and resynthesis of voiced speech. Based on the eaQHM, a hybrid analysis/synthesis system of speech is presented (eaQHNM), along with a hybrid version of the aHM (aHNM). Moreover, we present motivation for a full-band representation of speech using the eaQHM, that is, representing all parts of speech as high resolution AM-FM sinusoids. Experiments show that adaptation and quasi-harmonicity is sufficient to provide transparent quality in unvoiced speech resynthesis. The full-band eaQHM analysis and synthesis system is presented next, which outperforms state-of-the-art systems, hybrid or full-band, in speech reconstruction, providing transparent quality confirmed by objective and subjective evaluations. Regarding applications, the eaQHM and the aHM are applied on speech modifications (time and pitch scaling). The resulting modifications are of high quality, and follow very simple rules, compared to other state-of-the-art modification systems. Results show that harmonicity is preferred over quasi-harmonicity in speech modifications due to the embedded simplicity of representation. Moreover, the full-band eaQHM is applied on the problem of modeling audio signals, and specifically of musical instrument sounds. The eaQHM is evaluated and compared to state-of-the-art systems, and is shown to outperform them in terms of resynthesis quality, successfully representing the attack, transient, and stationary part of a musical instrument sound. Finally, another application is suggested, namely the analysis and classification of emotional speech. The eaQHM is applied on the analysis of emotional speech, providing its instantaneous parameters as features that can be used in recognition and Vector-Quantization-based classification of the emotional content of speech. Although the sinusoidal models are not commonly used in such tasks, results are promising.
|
159 |
Risk Management vs. Reintegration: A Review of Parole Decisions for Women Incarcerated In Canada In the Early 2000sLauzon, Jessica 29 March 2021 (has links)
For now several years, many researchers have emphasized the importance and effectiveness of parole in the reintegration process of offenders, especially in reducing recidivism rates. A review of the existing literature revealed that, although little was known about conditional release decision-making in general, there was a flagrant lack of scientific knowledge pertaining to conditional release decisions regarding women offenders incarcerated in Canada. Using a constructionist theoretical framework and qualitative thematic analysis, this research aimed to understand which “factors” were documented by the Parole Board of Canada’s (PBC) Board members in their written parole decisions for federally incarcerated women in Canada who were serving a sentence of five years or more, between 2005 and 2015. The findings ultimately showed that, despite the implementation of more stringent government policies based on risk management, the PBC’s Board members seem to have retained their concern of promoting the reintegration of women offenders in their parole decisions. The analysis revealed that the Board members have indeed continued to place great emphasis on the women’s potential for change through a discretionary assessment of their dynamic factors. This seemingly more reintegrative vision nevertheless remains marked by the risk management approach, which raises questions about the way Board members interpret and evaluate the specific needs of the women and their potential for reintegration.
|
160 |
Évaluation de la parole dysarthrique : Apport du traitement automatique de la parole face à l’expertise humaine / Evaluation of deviant zones in pathological speech : contribution of the automatic speech processing against the Human expertiseLaaridh, Imed 17 February 2017 (has links)
La dysarthrie est un trouble de la parole affectant la réalisation motrice de la parole causée par des lésions du système nerveux central ou périphérique. Elle peut être liée à différentes pathologies : la maladie de Parkinson, la Sclérose Latérale Amyotrophique(SLA), un Accident Vasculaire Cérébral (AVC), etc. Plusieurs travaux de recherche ont porté sur la caractérisation des altérations liées à chaque pathologie afin de les regrouper dans des classes de dysarthrie. La classification la plus répandue est celle établie parF. L. Darley comportant 6 classes en 1969, (complétée par deux classes supplémentaires en 2005)Actuellement, l’évaluation perceptive (à l’oreille) reste le standard utilisé dans lapratique clinique pour le diagnostique et le suivi thérapeutique des patients. Cette approcheest néanmoins reconnue comme étant subjective, non reproductible et coûteuseen temps. Ces limites la rendent inadaptée à l’évaluation de larges corpus (dans le cadred’études phonétiques par exemple) ou pour le suivi longitudinal de l’évolution des patientsdysarthriques.Face à ces limites, les professionnels expriment constamment leur besoin de méthodesobjectives d’évaluation de la parole dysarthrique. Les outils de Traitement Automatiquede la Parole (TAP) ont été rapidement considérés comme des solutions potentiellespour répondre à cette demande.Le travail présenté dans ce rapport s’inscrit dans ce cadre et étudie l’apport quepeuvent avoir ces outils dans l’évaluation de la parole dysarthrique, et plus généralementpathologique.Dans ce travail, une approche pour la détection automatique des phonèmes anormauxdans la parole dysarthrique est proposée et son comportement est analysé surdifférents corpus comportant différentes pathologies, classes dysarthriques, niveaux desévérité de la maladie et styles de parole. Contrairement à la majorité des approchesproposées dans la littérature permettant des évaluations de la qualité globale de la parole(évaluation de la sévérité, intelligibilité, etc.), l’approche proposée se focalise surle niveau phonème dans le but d’atteindre une meilleure caractérisation de la dysarthrieet de permettre un feed-back plus précis et utile pour l’utilisateur (clinicien, phonéticien,patient). L’approche s’articule autours de deux phases essentielles : (1) unepremière phase d’alignement automatique de la parole au niveau phonème (2) uneclassification de ces phonèmes en deux classes : phonèmes normaux et anormaux. L’évaluation de l’annotation réalisée par le système par rapport à une évaluationperceptive d’un expert humain considérée comme ”référence“ montre des résultats trèsencourageants et confirme la capacité de l’approche à detecter les anomalies au niveauphonème. L’approche s’est aussi révélée capable de capter l’évolution de la sévéritéde la dysarthrie suggérant une potentielle application lors du suivi longitudinal despatients ou pour la prédiction automatique de la sévérité de leur dysarthrie.Aussi, l’analyse du comportement de l’outil d’alignement automatique de la paroleface à la parole dysarthrique a révélé des comportements dépendants des pathologieset des classes dysarthriques ainsi que des différences entre les catégories phonétiques.De plus, un effet important du style de parole (parole lue et spontanée) a été constatésur les comportements de l’outil d’alignement de la parole et de l’approche de détectionautomatique d’anomalies.Finalement, les résultats d’une campagne d’évaluation de l’approche de détectiond’anomalies par un jury d’experts sont présentés et discutés permettant une mise enavant des points forts et des limites du système. / Dysarthria is a speech disorder resulting from neurological impairments of the speechmotor control. It can be caused by different pathologies (Parkinson’s disease, AmyotrophicLateral Sclerosis - ALS, etc.) and affects different levels of speech production (respiratory,laryngeal and supra-laryngeal). The majority of research work dedicated tothe study of dysarthric speech relies on perceptual analyses. The most known study, byF. L. Darley in 1969, led to the organization and the classification of dysarthria within 6classes (completed with 2 additional classes in 2005).Nowadays, perceptual evaluation is still the most used method in clinical practicefor the diagnosis and the therapeutic monitoring of patients. However, this method isknown to be subjective, non reproductive and time-consuming. These limitations makeit inadequate for the evaluation of large corpora (in case of phonetic studies) or forthe follow-up of the progression of the condition of dysarthric patients. In order toovercome these limitations, professionals have been expressing their need of objectivemethods for the evaluation of disordered speech and automatic speech processing hasbeen early seen as a potential solution.The work presented in this document falls within this framework and studies thecontributions that these tools can have in the evaluation of dysarthric, and more generallypathological speech.In this work, an automatic approach for the detection of abnormal phones in dysarthricspeech is proposed and its behavior is analyzed on different speech corpora containingdifferent pathologies, dysarthric classes, dysarthria severity levels and speechstyles (read and spontaneous speech). Unlike the majority of the automatic methodsproposed in the literature that provide a global evaluation of the speech on generalitems such as dysarthria severity, intelligibility, etc., our proposed method focuses onthe phone level aiming to achieve a better characterization of dysarthria effects and toprovide a precise and useful feedback to the potential users (clinicians, phoneticians,patients). This method consists on two essential phases : (1) an automatic phone alignmentof the speech (2) an automatic classification of the resulting phones in two classes :normal and abnormal phones.When compared to an annotation of phone anomalies provided by a human expertconsidered to be the ”gold standard“, the approach showed encouraging results andproved to be able to detect anomalies on the phone level. The approach was also able to capture the evolution of the severity of the dysarthria suggesting a potential relevanceand use in the longitudinal follow-up of dysarthric patients or for the automatic predictionof their intelligibility or the severity of their dysarthria.Also, the automatic phone alignment precision was found to be dependent on the severity,the pathology, the class of the dysarthria and the phonetic category of each phone.Furthermore, the speech style was found to have an interesting effect on the behaviorsof both automatic phone alignment and anomaly detection.Finally, the results of an evaluation campaign conducted by a jury of experts on theannotations provided by the proposed approach are presented and discussed in orderto draw a panel of the strengths and limitations of the system.
|
Page generated in 0.029 seconds