Spelling suggestions: "subject:"indo""
631 |
Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquéeLarcher, Anthony 24 September 2009 (has links) (PDF)
La vérification automatique du locuteur est une tâche de classification qui vise à confirmer ou infirmer l'identité d'un individu d'après une étude des caractéristiques spécifiques de sa voix. L'intégration de systèmes de vérification du locuteur sur des appareils embarqués impose de respecter deux types de contraintes, liées à cet environnement : - les contraintes matérielles, qui limitent fortement les ressources disponibles en termes de mémoire de stockage et de puissance de calcul disponibles ; - les contraintes ergonomiques, qui limitent la durée et le nombre des sessions d'entraînement ainsi que la durée des sessions de test. En reconnaissance du locuteur, la structure temporelle du signal de parole n'est pas exploitée par les approches état-de-l'art. Nous proposons d'utiliser cette information, à travers l'utilisation de mots de passe personnels, afin de compenser le manque de données d'apprentissage et de test. Une première étude nous a permis d'évaluer l'influence de la dépendance au texte sur l'approche état-de-l'art GMM/UBM (Gaussian Mixture Model/ Universal Background Model). Nous avons montré qu'une contrainte lexicale imposée à cette approche, généralement utilisée pour la reconnaissance du locuteur indépendante du texte, permet de réduire de près de 30% (en relatif) le taux d'erreurs obtenu dans le cas où les imposteurs ne connaissent pas le mot de passe des clients. Dans ce document, nous présentons une architecture acoustique spécifique qui permet d'exploiter à moindre coût la structure temporelle des mots de passe choisis par les clients. Cette architecture hiérarchique à trois niveaux permet une spécialisation progressive des modèles acoustiques. Un modèle générique représente l'ensemble de l'espace acoustique. Chaque locuteur est représenté par une mixture de Gaussiennes qui dérive du modèle du monde générique du premier niveau. Le troisième niveau de notre architecture est formé de modèles de Markov semi-continus (SCHMM), qui permettent de modéliser la structure temporelle des mots de passe tout en intégrant l'information spécifique au locuteur, modélisée par le modèle GMM du deuxième niveau. Chaque état du modèle SCHMM d'un mot de passe est estimé, relativement au modèle indépendant du texte de ce locuteur, par adaptation des paramètres de poids des distributions Gaussiennes de ce GMM. Cette prise en compte de la structure temporelle des mots de passe permet de réduire de 60% le taux d'égales erreurs obtenu lorsque les imposteurs prononcent un énoncé différent du mot de passe des clients. Pour renforcer la modélisation de la structure temporelle des mots de passe, nous proposons d'intégrer une information issue d'un processus externe au sein de notre architecture acoustique hiérarchique. Des points de synchronisation forts, extraits du signal de parole, sont utilisés pour contraindre l'apprentissage des modèles de mots de passe durant la phase d'enrôlement. Les points de synchronisation obtenus lors de la phase de test, selon le même procédé, permettent de contraindre le décodage Viterbi utilisé, afin de faire correspondre la structure de la séquence avec celle du modèle testé. Cette approche a été évaluée sur la base de données audio-vidéo MyIdea grâce à une information issue d'un alignement phonétique. Nous avons montré que l'ajout d'une contrainte de synchronisation au sein de notre approche acoustique permet de dégrader les scores imposteurs et ainsi de diminuer le taux d'égales erreurs de 20% (en relatif) dans le cas où les imposteurs ignorent le mot de passe des clients tout en assurant des performances équivalentes à celles des approches état-de-l'art dans le cas où les imposteurs connaissent les mots de passe. L'usage de la modalité vidéo nous apparaît difficilement conciliable avec la limitation des ressources imposée par le contexte embarqué. Nous avons proposé un traitement simple du flux vidéo, respectant ces contraintes, qui n'a cependant pas permis d'extraire une information pertinente. L'usage d'une modalité supplémentaire permettrait néanmoins d'utiliser les différentes informations structurelles pour déjouer d'éventuelles impostures par play-back. Ce travail ouvre ainsi de nombreuses perspectives, relatives à l'utilisation d'information structurelle dans le cadre de la vérification du locuteur et aux approches de reconnaissance du locuteur assistée par la modalité vidéo
|
632 |
Communication silencieuse: conversion de la parole chuchotée en parole claireTran, Viet-Anh 28 January 2010 (has links) (PDF)
La parole silencieuse ou murmurée est définie comme la production articulée de sons, avec très peu de vibration des cordes vocales dans le cas du chuchotement, et aucune vibration dans le cas du murmure, produite par les mouvements et les interactions des organes de la parole tels que la langue, le voile du palais, les lèvres, etc., dans le but d'éviter d'être entendue par plusieurs personnes. La parole silencieuse ou murmurée est utilisée généralement pour la communication privée et confidentielle ou peut être employée par les personnes présentant un handicap laryngé et qui ne peuvent pas parler normalement. Cependant, il est difficile d'employer directement la parole silencieuse (murmurée) pour la communication face à face ou avec un téléphone portable parce que le contenu linguistique et l'information paralinguistique dans le message prononcé sont dégradés fortement quand le locuteur murmure ou chuchote. Une piste récente de recherche est donc celle de la conversion de la parole silencieuse (ou murmurée) en voix claire afin d'avoir une voix plus intelligible et plus naturelle. Avec une telle conversion, des applications potentielles telles que la téléphonie silencieuse " ou des systèmes d'aides robustes pour les handicaps laryngés deviendraient envisageables. Notre travail dans cette thèse se concentre donc sur cette piste.
|
633 |
Méthodologie de conception système à base de plateformes reconfigurables et programmablesGhali, Khemaies 01 March 2005 (has links) (PDF)
Les travaux présentés dans ce mémoire concernent l'exploration de l'espace de conception des architectures SOC pour des applications orientées télécommunication. L'évolution importante des semi-conducteurs a permis l'implémentation de systèmes complets sur une puce. Cette implémentation a été rendue possible par des méthodologies de conception basées sur la réutilisation des composants existants (IP - Intellectual Property) qui, combinées ensemble, constituent le système. La différentiation des systèmes est obtenue par l'ajout d'IP propriétaires rattachées au système. L'apport des technologies classiques basées sur le modèle en Y (Y-chart) et les techniques de co-design se sont avérées insuffisantes dès lors que ces IPs initialement sous forme dure (hard IP) donc non modifiables ont étés proposées dans leur version paramétrable (Soft IP), pour garantir un meilleur dimensionnement du système. En effet, la modularité des IPs soft par leurs paramétrisations, créent un espace d'exploration qui s'avère extrêmement important et donc inexploitable par des techniques de conception ad hoc ou interactives. Le problème posé est l'optimisation mathématique des paramètres de l'ensemble des IPs soft constituant le SOC. Ce problème multidimensionnel en performance est aggravé, dans le cadre des SOC pour systèmes embarqués, par la prise en compte de la consommation d'énergie et de la surface en silicium. Le problème devient alors une optimisation multiobjectifs. Cette thèse propose une résolution de ce problème en plusieurs étapes : Dans une première étape, des techniques d'exploration pour le dimensionnement d'IP de processeur SuperScalair sont proposées. Ces techniques tiennent compte de trois critères: performance, consommation d'énergie et surface en silicium. Les résultats obtenus par des benchmarks multimédia "MiBench" de taille significative résultent dans un sous ensemble optimal au sens de Pareto, permettant de sélectionner une ou plusieurs solutions efficaces pour les applications cibles. La seconde étape est une extension du cadre précédent par couplage de l'exploration multiobjectifs avec une implémentation matérielle sur circuits FPGA. Elle permet alors une exploration avec matériel dans la boucle. Le principe poursuivi, à l'inverse des explorations effectuées à des niveaux d'abstraction élevés (SystemC), est qu'une exploration est d'autant plus efficace que les valeurs injectées à l'algorithme d'exploration sont proches de la réalité. L'autre aspect est que l'exploration par simulation des SOC reste problématique, ceci étant dû aux temps prohibitifs de la simulation et que l'exécution directe est toujours plus rapide, donc permet des explorations larges et réalistes. Cette approche est appliquée au processeur LEON v2.0 de l' ESA sur des circuits Xilinx Virtex-II qui, de par leur reconfigurabilité, permet le chargement de nouvelles configurations lors de l'exploration. Enfin, l'importance des SOC mixtes analogiques/numériques, nous a poussés à nous intéresser à l'optimisation des circuits analogiques et ce, sur le même principe, mais en utilisant des circuits FPAA (Field Programmable Analog Array) qui permettent la conception et l'implémentation d'applications sur circuits analogiques re-programmables. Cette possibilité permet de répondre à une fonctionnalité donnée en testant et explorant de nombreuses configurations, en les implémentant physiquement dans un circuit programmable et cela à moindre coût. La thèse conclut sur les perspectives pouvant découler des contributions de ce travail sur les méthodologies de conception de SOC dans les environnements SOPC.
|
634 |
Composition sémantique pour la langue oraleDuvert, Frédéric 10 November 2010 (has links) (PDF)
La thèse présentée ici a pour but de proposer des systèmes de détection, de composition de constituants sémantiques et d'interprétation dans la compréhension de la langue naturelle parlée. Cette compréhension se base sur un système de reconnaissance automatique de la parole qui traduit les signaux oraux en énoncés utilisables par la machine. Le signal de la parole, ainsi transcrit, comporte un ensemble d'erreurs liées aux erreurs de reconnaissance (bruits, parasites, mauvaise prononciation...). L'interprétation de cet énoncé est d'autant plus difficile qu'il est issu d'un discours parlé, soumis à la disfluence du discours, aux auto-corrections... L'énoncé est de plus agrammatical, car le discours parlé lui-même est agrammatical. L'application de méthodes d'analyses grammaticales ne produit pas de bons résultats d'interprétation, sur des textes issus de transcriptions de la parole. L'utilisation de méthodes d'analyses syntaxiques profondes est à éviter. De ce fait, une analyse superficielle est envisagée. Un des premiers objectifs est de proposer une représentation du sens. Il s'agit de considérer des ontologies afin de conceptualiser le monde que l'on décrit. On peut exprimer les composants sémantiques en logique du premier ordre avec des prédicats. Dans les travaux décrits ici, nous représentons les éléments sémantiques par des frames (FrameNet ). Les structures de frames sont hiérarchisées, et sont des fragments de connaissances auxquels on peut insérer, fusionner ou inférer d'autres fragments de connaissances. Les structures de frames sont dérivables en formules logiques. Nous proposons un système de compréhension de la parole à partir de règles logiques avec le support d'une ontologie, afin de pouvoir créer des liens à partir de composants sémantiques. Puis, nous avons mené une étude sur la découverte des supports syntaxiques des relations sémantiques. Nous proposons une expérience de composition sémantique afin d'enrichir les composants sémantiques de base. Enfin, nous présentons un système de détection de lambda-expression pour mettre en hypothèse les relations à trouver à travers le discours
|
635 |
Vers la notion d'agent énactif virtuel : Application à l'approche dynamique évolutionnaireManac'H, Kristen 10 January 2011 (has links) (PDF)
Cette thèse s'appuie sur le paradigme de l'énaction pour aborder la modélisation de l'autonomie d'entités artificielles. Dans un contexte d'interaction entre des humains et des entités autonomes en réalité virtuelle, les propriétés comportementales résultantes d'une autonomie constitutive pourraient favoriser la créativité et l'engagement en proposant à l'utilisateur un compromis entre surprise et régularité. La première partie de cette thèse est une proposition théorique qui mène à une définition d'agents virtuels situés dits énactifs, à travers des propriétés internes, liées au fonctionnement de l'agent, et des propriétés externes, liées au comportement de l'agent. Nous nous inscrivons dans une approche dynamique évolutionnaire, qui utilise conjointement des CTRNN et des méthodes évolutionnaires. Nous considérons, parmi les propriétés externes, la capacité à enrichir un comportement par l'interaction comme un point dur. Nous proposons une démarche pour obtenir un apprentissage à l'échelle ontogénétique qui reflète l'histoire particulière des interactions de l'agent avec l'environnement en utilisant un guidage. La deuxième partie est une tentative d'implémentation issue de cette réflexion à travers trois expériences. La conclusion de ce mémoire présente un bilan critique des résultats et de notre démarche, qui illustre la difficulté de la manipulation d'un système autonome. Nous avons montré des limites de l'approche évolutionnaire dans un tel contexte. Les perspectives tiennent compte de la nécessité à faire des compromis entre complexité comportementale et autonomie constitutive. Nous discutons également de l'exploitation potentielle de ce travail en réalité virtuelle.
|
636 |
Une approche neuro-dynamique de conception des processus d'auto-organisationAlecu, Lucian 30 June 2011 (has links) (PDF)
Dans ce manuscrit nous proposons une architecture neuronale d'inspiration corticale, capable de développer un traitement émergent de type auto-organisation. Afin d'implémenter cette architecture neuronale de manière distribuée, nous utilisons le modèle de champs neuronaux dynamiques, un formalisme mathématique générique conçu pour modéliser la compétition des activités neuronales au niveau cortical mésoscopique. Pour analyser en détail les propriétés dynamiques des modèles de référence de ce formalisme, nous proposons un critère formel et un instrument d'évaluation, capable d'examiner et de quantifier le comportement dynamique d'un champ neuronal quelconque dans différents contextes de stimulation. Si cet instrument nous permet de mettre en évidence les avantages pratiques de ces modèles, il nous révèle aussi l'incapacité de ces modèles à conduire l'implantation des processus d'auto-organisation (implémenté par l'architecture décrite) vers des résultats satisfaisants. Ces résultats nous amènent à proposer une alternative aux modèles classiques de champs, basée sur un mécanisme de rétro-inhibition, qui implémente un processus local de régulation neuronale. Grâce à ce mécanisme, le nouveau modèle de champ réussit à implémenter avec succès le processus d'auto-organisation décrit par l'architecture proposée d'inspiration corticale. De plus, une analyse détaillée confirme que ce formalisme garde les caractéristiques dynamiques exhibées par les modèles classiques de champs neuronaux. Ces résultats ouvrent la perspective de développement des architectures de calcul neuronal de traitement d'information pour la conception des solutions logicielles ou robotiques bio-inspirées.
|
637 |
Modélisation de la coarticulation en Langue des Signes Française pour la diffusion automatique d'informations en gare ferroviaire à l'aide d'un signeur virtuelSegouat, Jérémie 15 December 2010 (has links) (PDF)
Le cadre de nos recherches est la diffusion d'informations en Langue des Signes Française via un signeur virtuel, par combinaison de segments d'énoncés préenregistrés. Notre étude porte sur une proposition de modèle de coarticulation pour ce système de diffusion. Le phénomène de coarticulation est encore très peu étudié dans le domaine des langues des signes : en puisant dans différents domaines (langues vocales, gestes) nous proposons une définition de ce qu'est la coarticulation en langue des signes, et nous présentons une méthodologie d'analyse de ce phénomène, en nous focalisant sur les configurations des mains et la direction du regard. Nous détaillons les différents aspects de la création et de l'annotation de corpus, et de l'analyse de ces annotations. Des calculs statistiques quantitatifs et qualitatifs nous permettent de proposer un modèle de coarticulation, basé sur des relâchements et des tensions de configurations des mains. Nous proposons et mettons en oeuvre une méthodologie d'évaluation de notre modèle. Enfin nous proposons des perspectives autour des utilisations potentielles de ce modèle pour des recherches en traitement d'image et en animation de personnages 3d s'exprimant en langue des signes française.
|
638 |
Étude radiométrique d'un système de projection immersive grand-public pour des applications de réalité mixteDehos, Julien 02 December 2010 (has links) (PDF)
Le système Catopsys est un système projecteur-miroir-caméra à placer dans une pièce d'habitation quelconque. Il constitue un moyen abordable (coût, installation, utilisation) de réaliser toutes sortes d'applications de réalité mixte immersives. L'objectif de cette thèse est d'étudier et d'optimiser la chaîne de traitement radiométrique mise en oeuvre à travers ce système. Tout d'abord, les perturbations radiométriques de la caméra sont étudiées puis une méthode de correction, applicable au système Catopsys, est mise au point. Ceci permet, de façon relativement fidèle, d'acquérir l'environnement réel et d'estimer les perturbations issues du projecteur et de la pièce. L'influence du projecteur et de la pièce, utilisée comme écran de projection, sur l'image visible par l'utilisateur, est ensuite étudiée. Une méthode de compensation de la projection, permettant de rendre l'image visible plus proche de l'image voulue, est proposée. Après une étude de la géométrie du système Catopsys, des méthodes de simulation d'éclairage spécifiques, dérivées de la méthode de lancer de rayons, sont proposées. Enfin, les possibilités fournies par le système pour des applications de réalité mixte ainsi que leur intégration dans la chaîne de traitement sont étudiées. Les travaux réalisés dans le cadre de cette thèse ont permis de participer à la mise au point du système Catopsys, d'étudier la faisabilité de différentes fonctionnalités et d'en réaliser certaines. Ils ont également donné lieu à la publication de plusieurs papiers (une conférence internationale, une revue nationale, une conférence nationale).
|
639 |
Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisinsQamar, Ali Mustafa 19 November 2010 (has links) (PDF)
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleurs. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. gCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé.
|
640 |
Détection de dérivation de textePoulard, Fabien 24 March 2011 (has links) (PDF)
L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identification des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la définition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle mulitidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse.
|
Page generated in 0.0538 seconds