341 |
Reconnaissance automatique de la parole non nativeTien Ping, Tan 03 July 2008 (has links) (PDF)
Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est souvent difficile et peu réaliste pour représenter toutes les origines des locuteurs. <br />Dans cette thèse, nous proposons des approches pour adapter les modèles acoustiques et de prononciation sous différentes conditions de ressource pour les locuteurs non natifs. Un travail préliminaire sur l'identification d'accent a également proposé.<br />Ce travail de thèse repose sur le concept de modélisation acoustique translingue qui permet de représenter les locuteurs non natifs dans un espace multilingue sans utiliser (ou en utilisant très peu) de parole non native. Une approche hybride d'interpolation et de fusion est proposée pour l'adaptation des modèles en langue cible en utilisant une collection de modèles acoustiques multilingues. L'approche proposée est également utile pour la modélisation du contexte de prononciation. Si, en revanche, des corpus multilingues sont disponibles, des méthodes d'interpolation peuvent être utilisées pour l'adaptation à la parole non native. Deux d'entre elles sont proposées pour une adaptation supervisée et peuvent être employées avec seulement quelques phrases non natives.<br />En ce qui concerne la modélisation de la prononciation, deux approches existantes (l'une fondée sur la modification du dictionnaire de prononciation, l'autre fondée sur la définition d'un score de prononciation utilisé dans une phase de re-scoring) sont revisitées dans cette thèse et adaptées pour fonctionner sur une quantité de données limitée. Une nouvelle approche de groupement de locuteurs selon leurs habitudes de prononciation, est également présentée : nous l'appelons « analyse de prononciation latente ». Cette approche se révèle également utile pour améliorer le modèle de prononciation pour la reconnaissance automatique de la parole non native.<br />Enfin, une méthode d'identification d'accent est proposée. Elle nécessite une petite quantité de parole non native pour créer les modèles d'accents. Ceci est rendu possible en utilisant la capacité de généralisation des arbres de décision et en utilisant des ressources multilingues pour augmenter la performance du modèle d'accent.
|
342 |
Exploration visuelle d'environnement intérieur par détection et modélisation d'objets saillantsCottret, Maxime 26 October 2007 (has links) (PDF)
Un robot compagnon doit comprendre le lieu de vie de l'homme pour satisfaire une requête telle que "Va chercher un verre dans la cuisine" avec un haut niveau d'autonomie. Pour cela, le robot doit acquérir un ensemble de représentations adaptées aux différentes tâches à effectuer. Dans cette thèse, nous proposons d'apprendre en ligne un modèle d'apparence de structures locales qui pourront être nommées par l'utilisateur. Cela permettra ensuite de caractériser un lieu topologique (ex: la cuisine) par un ensemble de structures locales ou d'objets s'y trouvant (réfrigérateur, cafetière, evier, ...). Pour découvrir ces structures locales, nous proposons une approche cognitive, exploitant des processus visuels pré-attentif et attentif, mis en oeuvre à partir d'un système sensoriel multi-focal. Le processus pré-attentif a pour rôle la détection de zones d'intérêt, supposées contenir des informations visuelles discriminantes: basé sur le modèle de 'saillance' de Itti et Koch, il détecte ces zones dans une carte de saillance, construite à partir d'images acquises avec une caméra large champ; une zone détectée est ensuite suivie sur quelques images afin d'estimer grossièrement la taille et la position 3D de la structure locale de l'environnement qui lui correspond. Le processus attentif se focalise sur la zone d'intérêt: le but est de caractériser chaque structure locale, par un modèle d'apparence sous la forme de mémoires associatives vues-patches-aspects. De chaque image sont extraits des points d'intérêt, caractérisés par un descripteur d'apparence local. Après cette phase d'exploration, l'homme peut annoter le modèle en segmentant les structures locales en objets, en nommant ces objets et en les regroupant dans des zones (cuisine&). Ce modèle d'apparence sera ensuite exploité pour la reconnaissance et la localisation grossière des objets et des lieux perçus par le robot
|
343 |
Diagnostic des systèmes à changement de régime de fonctionnementDomlan, Elom Ayih 06 October 2006 (has links) (PDF)
Les systèmes à commutation représentent une classe particulière de systèmes hybrides. Ils sont décrits par plusieurs modèles de fonctionnement et chaque modèle, définissant un mode du système, est actif sous certaines conditions opératoires particulières. Lorsque la loi de commutation régissant le passage d'un modèle de fonctionnement à l'autre est parfaitement connue, il est aisé de manipuler de tels systèmes car le mode actif peut être connu à chaque instant. Par contre, dans la situation où aucune information n'est disponible sur l'évolution de la loi de commutation, il est plus ardu de procéder au diagnostic ou encore de synthétiser une loi de commande sur ces systèmes. Il est abordé ici le problème de la reconnaissance du mode actif sur la base d'observations de l'entrée et de la sortie du système. L'identification des paramètres de la loi de commutation est ensuite étudiée sous l'hypothèse de la connaissance de la structure de la loi de commutation.
|
344 |
Méthodologie de passage d'un modèle CAO vers un modèle FAO pour des pièces aéronautiques:Prototype logiciel dans le cadre du projet USIQUICKDerigent, William 28 November 2005 (has links) (PDF)
L'automatisation de la chaîne CFAO nécessite la « transformation » du modèle CAO (Conception Assistée par Ordinateur), issu de la conception, en un modèle FAO (Fabrication Assistée par Ordinateur), adapté aux tâches de préparation à la fabrication (détermination des posages, génération des gammes et calcul des trajectoires outils). Notre travail, réalisé dans le cadre du projet RNTL USIQUICK, a pour objectif de proposer une méthodologie de transformation permettant d'aboutir à un modèle FAO dédié à l'usinage 5axes de pièces aéronautiques. <br />En regard de cette problématique, la première partie de ce mémoire présente un état de l'art des différentes méthodes de transformation de modèles par reconnaissance d'entités et met en évidence l'inadéquation de celles-ci aux pièces aéronautiques. Nous proposons alors d'élaborer pour les tâches de préparation à la fabrication un modèle FAO s'appuyant directement sur le modèle CAO B-Rep, auquel sont ajoutées des informations relatives aux possibilités d'usinages des différentes faces le constituant. Chaque face enrichie du modèle est alors considérée comme une entité d'usinage dite « élémentaire ». <br />Pour aboutir à ce modèle FAO, nous proposons une méthodologie de transformation composée d'une vue statique (modèle de données) et d'une vue dynamique (processus de transformation). La deuxième partie du mémoire présente la vue statique. Elle s'appuie sur le modèle des données nécessaires au processus de transformation obtenu à l'aide de la méthodologie VIM (Viewpoint Integration Modelling). La vue dynamique, présentée dans la troisième partie, est constituée de deux étapes de traitements : la première dite étape « d'enrichissement » complète le modèle CAO par des attributs géométriques et technologiques, la seconde dite étape « d'analyse d'usinabilité » traite ce modèle enrichi afin d'adjoindre aux faces des informations d'usinage. Elle aboutit finalement au modèle FAO composé d'entités élémentaires.<br />Pour finir, nous validons, dans la dernière partie, les spécifications proposées par le développement et la mise en œuvre d'un démonstrateur sous CATIAV5®. Nous présentons les résultats obtenus sur quelques pièces aéronautiques.
|
345 |
Apprentissage d'un vocabulaire symbolique pour la détection d'objets dans une imageGadat, Sebastien 17 December 2004 (has links) (PDF)
Nous étudions le problème fondamental de la sélection de variables descriptives d'un signal, sélection dédiée à divers traitements comme la classification d'objets dans une image. Nous définissons dans un premier temps une loi de probabilités sur les variables descriptives du signal et utilisons un algorithme de descente de gradient, exact puis stochastique pour identifier la bonne distribution de probabilités sur ces variables. Nous donnons alors diverses applications à la classification d'objets (chiffres manuscrits, détection de visages, de spam, ...).<br /> Dans un second temps, nous implémentons un algorithme de diffusion réfléchie sur l'espace des probabilités puis de diffusion réfléchie avec sauts pour permettre plus facilement de faire évoluer l'espace des variables, ainsi que la probabilité apprise. Cette seconde approche nécessite un effort particulier au niveau des simulations stochastiques, qui sont alors étudiées le plus clairement possible.<br />Nous concluons par quelques expériences dans les mêmes domaines que précédemment.
|
346 |
Les transformations du management des établissements de santé et leur impact sur la santé au travail : l'enjeu de la reconnaissance des dynamiques de don. Étude d'un centre de soins de suite et d'une clinique privée malades de "gestionnite"Grevin, Anouk 07 December 2011 (has links) (PDF)
L'objectif de cette thèse est d'étudier l'impact sur le travail du tournant gestionnaire des établissements de santé et d'identifier les conditions organisationnelles et managériales favorables à la santé au travail. Elle associe une entrée à un niveau micro par l'analyse du travail et la prise en compte des contraintes provenant à un niveau macro de la montée de la régulation externe dans le champ de la santé. Elle mobilise une approche par le don et considère la reconnaissance comme le signal que la part de don contenue dans le travail a bien été vue et reçue comme telle par l'organisation, faute de quoi l'engagement dans une relation sans réciprocité tend à s'épuiser. Elle met en évidence le lien entre le bien-être au travail et l'existence d'espaces de discussion permettant la régulation locale du travail et l'expression de la reconnaissance, ainsi que le rôle du cadre de proximité dans l'animation de ces espaces. La thèse s'appuie sur deux recherches-intervention ethnographiques dans un centre de soins de suite associatif et une clinique privée engagés dans une hyperactivité gestionnaire. Les deux études confirment que le mal-être au travail peut être lu comme un malaise du don et soulignent l'enjeu de la reconnaissance des dynamiques de don. Elles mettent en évidence le rôle fondamental du management, tant des cadres de proximité que des directions, afin que les outils de gestion ne se substituent pas à la relation et au dialogue mais s'accompagnent d'espaces de reconnaissance du don qui soutiennent l'engagement et la coopération.
|
347 |
L'accès au lexique dans la perception audiovisuelle et visuelle de la paroleFort, Mathilde 05 December 2011 (has links) (PDF)
En situation de perception audiovisuelle de la parole (i.e., lorsque deux interlocuteurs communiquent face à face) et lorsque le signal acoustique est bruité, l'intelligibilité des sons produits par un locuteur est augmentée lorsque son visage en mouvement est visible. L'objectif des travaux présentés ici est de déterminer si cette capacité à " lire sur les lèvres " nous est utile seulement pour augmenter l'intelligibilité de certains sons de parole (i.e., niveau de traitement pré-lexical) ou également pour accéder au sens des mots (i.e., niveau de traitement lexical). Chez l'adulte, nos résultats indiquent que l'information visuelle participe à l'activation des représentations lexicales en présence d'une information auditive bruitée (Etude 1 et 2). Voir le geste articulatoire correspondant à la première syllabe d'un mot constitue une information suffisante pour contacter les représentations lexicales, en l'absence de toute information auditive (Etude 3 et 4). Les résultats obtenus chez l'enfant suggèrent néanmoins que jusque l'âge de 10 ans, l'information visuelle serait uniquement décodée à un niveau pré-lexical (Etude 5).
|
348 |
Découverte de motifs variables dans les grandes volumes de données audio.Muscariello, Armando 25 January 2011 (has links) (PDF)
Découverte de motifs variables dans les grandes volumes de données audio. Les données audio, comme les documents oraux ou télévisés ou les données radio, sont composées par de nombreux sequences variables qui se répètent. La découverte de l'emplacement de ces répétitions, ci-après dénommé motifs, aide à déduire les propriétés structurelles de données acoustiques, ce qui facilite l'accès à la partie pertinente des données, et qui permets de résumér des grands documents par un ensemble de quelques éléments particuliers. Cette thèse détails nos efforts dans la conception et la mise en oeuvre d'une architecture non supervisée de découverte de motifs, et montres son applicabilité dans une tâche de decouverte des mots et des segments peu variables comme des chansons. En ce qui concerne la méthodologie, la découverte est réalisée d'une manière totalement non supervisée, ce qui signifie que aucune connaissance acoustiques ou linguistiques sur les données est fournie. Notre solution est basée sur l'intégration d'une technique de traitement de données séquentielle qui exploits la répétitivité local du motifs réel, et une variante segmentale de l'alignement temporel dynamique. En s'appuyant sur cette architecture, une technique pour la comparaison de sequences basée sur leurs matrices d autosimilarité de est introduite, pour améliorer la robustesse à la variabilité du signal de parole. En outre, l'applicabilité du système est démontrée sur une tâche de découverte de chansons sur plusieurs jours de flux audio. Pour adapter le système à cette tâche, des techniques pour accélérer le temps de calcul sont mises en oeuvre, basées sur le sous-échantillonnage des séquences.
|
349 |
Utilisation des coefficients de régression linéaire par maximum de vraisemblance comme paramètres pour la reconnaissance automatique du locuteurFerràs Font, Marc 10 July 2009 (has links) (PDF)
The goal of this thesis is to find new and efficient features for speaker recognition. We are mostly concerned with the use of the Maximum-Likelihood Linear Regression (MLLR) family of adaptation techniques as features in speaker recognition systems. MLLR transformcoefficients are able to capture speaker cues after adaptation of a speaker-independent model using speech data. The resulting supervectors are high-dimensional and no underlying model guiding its generation is assumed a priori, becoming suitable for SVM for classification. This thesis brings some contributions to the speaker recognition field by proposing new approaches to feature extraction and studying existing ones via experimentation on large corpora: 1. We propose a compact yet efficient system, MLLR-SVM, which tackles the issues of transcript- and language-dependency of the standard MLLR-SVM approach by using single-class Constrained MLLR (CMLLR) adaptation transforms together with Speaker Adaptive Training (SAT) of a Universal Background Model (UBM). 1- When less data samples than dimensions are available. 2- We propose several alternative representations of CMLLR transformcoefficients based on the singular value and symmetric/skew-symmetric decompositions of transform matrices. 3- We develop a novel framework for feature-level inter-session variability compensation based on compensation of CMLLR transform supervectors via Nuisance Attribute Projection (NAP). 4- We perform a comprehensive experimental study of multi-class (C)MLLR-SVM systems alongmultiple axes including front-end, type of transform, type fmodel,model training and number of transforms. 5- We compare CMLLR and MLLR transform matrices based on an analysis of properties of their singular values. 6- We propose the use of lattice-basedMLLR as away to copewith erroneous transcripts in MLLR-SVMsystems using phonemic acoustic models.
|
350 |
Identification nommée du locuteur : exploitation conjointe du signal sonore et de sa transcriptionJousse, Vincent 04 May 2011 (has links) (PDF)
Le traitement automatique de la parole est un domaine qui englobe un grand nombre de travaux : de la reconnaissance automatique du locuteur à la détection des entités nommées en passant par la transcription en mots du signal audio. Les techniques de traitement automatique de la parole permettent d'extraire nombre d'informations des documents audio (réunions, émissions, etc.) comme la transcription, certaines annotations (le type d'émission, les lieux cités, etc.) ou encore des informations relatives aux locuteurs (changement de locuteur, genre du locuteur). Toutes ces informations peuvent être exploitées par des techniques d'indexation automatique qui vont permettre d'indexer de grandes collections de documents. Les travaux présentés dans cette thèse s'intéressent à l'indexation automatique de locuteurs dans des documents audio en français. Plus précisément nous cherchons à identifier les différentes interventions d'un locuteur ainsi qu'à les nommer par leur prénom et leur nom. Ce processus est connu sous le nom d'identification nommée du locuteur (INL). La particularité de ces travaux réside dans l'utilisation conjointe du signal audio et de sa transcription en mots pour nommer les locuteurs d'un document. Le prénom et le nom de chacun des locuteurs est extrait du document lui même (de sa transcription enrichie plus exactement), avant d'être affecté à un des locuteurs du document. Nous commençons par rappeler le contexte et les précédents travaux réalisés sur l'INL avant de présenter Milesin, le système développé lors de cette thèse. L'apport de ces travaux réside tout d'abord dans l'utilisation d'un détecteur automatique d'entités nommées (LIA_NE) pour extraire les couples prénom / nom de la transcription. Ensuite, ils s'appuient sur la théorie des fonctions de croyance pour réaliser l'affectation aux locuteurs du document et prennent ainsi en compte les différents conflits qui peuvent apparaître. Pour finir, un algorithme optimal d'affectation est proposé. Ce système obtient un taux d'erreur compris entre 12 et 20 % sur des transcriptions de référence (réalisées manuellement) en fonction du corpus utilisé. Nous présentons ensuite les avancées réalisées et les limites mises en avant par ces travaux. Nous proposons notamment une première étude de l'impact de l'utilisation de transcriptions entièrement automatiques sur Milesin.
|
Page generated in 0.0301 seconds