Global ETD Search

551	Adaptation thématique non supervisée d'un système de reconnaissance automatique de la parole Lecorvé, Gwénolé 24 November 2010 (has links) (PDF) Les systèmes actuels de reconnaissance automatique de la parole (RAP) reposent sur un modèle de langue (ML) qui les aide à déterminer les hypothèses de transcription les plus probables. Pour cela, le ML recense des probabilités de courtes séquences de mots, appelées n-grammes, fondées sur un vocabulaire fini. Ces ML et vocabulaire sont estimés une fois pour toutes à partir d'un vaste corpus de textes traitant de sujets variés. En conséquence, les systèmes actuels souffrent d'un manque de spécificité lorsqu'il s'agit de transcrire des documents thématiquement marqués. Pour pallier ce problème, nous proposons un nouveau processus d'adaptation thématique non supervisée du ML et du vocabulaire. Sur la base d'une première transcription automatique d'un document audio, ce processus consiste à récupérer sur Internet des textes du même thème que le document, textes à partir desquels nous réestimons le ML et enrichissons le vocabulaire. Ces composants adaptés servent alors à produire une nouvelle transcription dont la qualité est espérée meilleure. Ce processus est particulièrement original car il se préserve de toute connaissance a priori sur les éventuels thèmes des documents à transcrire et il intègre des techniques de traitement automatique des langues. De plus, nous apportons des contributions pour chaque étape du processus. Tout d'abord, étant donnée la transcription initiale d'un document audio, nous avons aménagé le critère tf-idf , issu du domaine de la recherche d'information, aux spécificités de l'oral afin de caractériser le thème du document par des mots-clés extraits automatiquement. Via un moteur de recherche sur Internet, ces mots-clés nous permettent de récupérer des pages Web que nous filtrons afin d'assurer leur cohérence thématique avec le document audio. Ensuite, nous avons proposé une nouvelle technique de réestimation thématique du ML. En extrayant des mots et séquences de mots spécifiques au thème considéré à partir des corpora Web, nous utilisons le cadre de l'adaptation par minimum d'information discriminante pour ne modifier que les probabilités des n-grammes propres au thème, laissant les autres probabilités inchangées. Enfin, nous montrons également que les corpora extraits du Web peuvent servir à repérer des mots hors vocabulaire spécifiques aux thèmes. Nous proposons une technique originale qui permet d'apprendre ces nouveaux mots au système et, notamment, de les intégrer dans le ML en déterminant automatiquement dans quels n-grammes ils sont susceptibles d'apparaître. Pour cela, chaque nouveau mot est assimilé à d'autres, déjà connus du système, avec lesquels il partage une relation paradigmatique. Nos expériences, menées sur des émissions d'actualités radiodiffusées, montrent que l'ensemble de ces traitements aboutit à des améliorations significatives du taux de reconnaissance d'un système de RAP. reconnaissance automatique de la parole modélisation statistique du langage traitement automatique des langues adaptation thématique adaptation non supervisée
552	Reconnaissance de structures bidimensionnelles : Application aux expressions mathématiques manuscrites en-ligne Awal, Ahmad-Montaser 12 November 2010 (has links) (PDF) Les travaux présentés dans le cadre de cette thèse portent sur l'étude, la conception, le développement et le test d'un système de reconnaissance de structures manuscrites bidimensionnelles. Le système proposé se base sur une architecture globale qui considère le problème de reconnaissance en tant qu'optimisation simultanée de la segmentation, de la reconnaissance de symboles, et de l'interprétation. Le premier cadre d'applications a été celui d'un système de reconnaissance d'expressions mathématiques manuscrites. La difficulté du problème se situe aux trois niveaux évoqués. La segmentation est complexe du fait de la grande liberté de composition d'une expression, avec notamment la possibilité de symboles multi-traits non séquentiels ; la reconnaissance doit affronter un nombre élevé de classes et en particulier, gérer les situations de formes non-apprises ; l'interprétation peut-être ambiguë du fait du positionnement spatial approximatif. La solution proposée repose sur la minimisation d'une fonction de coût global qui met en compétition des coûts de reconnaissance et des coûts structurels pour explorer un vaste espace de solutions. Les résultats obtenus sont très compétitifs et prometteurs comparés à ceux de la littérature. Nous avons finalement montré la généricité de notre approche en l'adaptant à la reconnaissance d'un autre type de langage 2D, celui des représentations graphiques de type organigramme. Reconnaissance de formes écriture manuscrite langages bidimensionnels expressions mathématiques analyse structurelle analyse syntaxique évaluation
553	Conception et mise en œuvre d'algorithmes de vision temps-réel pour la vidéo surveillance intelligente Ghorayeb, Hicham 12 September 2007 (has links) (PDF) Notre objectif est d'étudier les algorithmes de vision utilisés aux différents niveaux dans une chaîne de traitement vidéo intelligente. On a prototypé une chaîne de traitement générique dédiée à l'analyse du contenu du flux vidéo. En se basant sur cette chaîne de traitement, on a développé une application de détection et de suivi de piétons. Cette application est une partie intégrante du projet PUVAME. Cette chaîne de traitement générique est composée de plusieurs étapes: détection, classification et suivi d'objets. D'autres étapes de plus haut niveau sont envisagées comme la reconnaissance d'actions, l'identification, la description sémantique ainsi que la fusion des données de plusieurs caméras. On s'est intéressé aux deux premières étapes. On a exploré des algorithmes de segmentation du fond dans un flux vidéo avec caméra fixe. On a implémenté et comparé des algorithmes basés sur la modélisation adaptative du fond. On a aussi exploré la détection visuelle d'objets basée sur l'apprentissage automatique en utilisant la technique du boosting. Cependant, On a développé une librairie intitulée LibAdaBoost qui servira comme un environnement de prototypage d'algorithmes d'apprentissage automatique. On a prototypé la technique du boosting au sein de cette librairie. On a distribué LibAdaBoost sous la licence LGPL. Cette librairie est unique avec les fonctionnalités qu'elle offre. On a exploré l'utilisation des cartes graphiques pour l'accélération des algorithmes de vision. On a effectué le portage du détecteur visuel d'objets basé sur un classifieur généré par le boosting pour qu'il s'exécute sur le processeur graphique. On était les premiers à effectuer ce portage. On a trouvé que l'architecture du processeur graphique est la mieux adaptée pour ce genre d'algorithmes. La chaîne de traitement a été implémentée et intégrée à l'environnement RTMaps. On a évalué ces algorithmes sur des scénarios bien définis. Ces scénarios ont été définis dans le cadre de PUVAME. [MATH] Mathematics Vidéo surveillance Boosting Reconnaissance automatique des formes Système de transport intelligent Apprentissage automatique Détection objet en mouvement méthode Monte Carlo
554	Reconnaissance d'accords à partir de signaux audio par l'utilisation de gabarits théoriques Oudre, Laurent 03 November 2010 (has links) (PDF) Cette thèse s'inscrit dans le cadre du traitement du signal musical, en se focalisant plus particulièrement sur la transcription automatique de signaux audio en accords. En effet, depuis une dizaine d'années, de nombreux travaux visent à représenter les signaux musicaux de la façon la plus compacte et pertinente possible, par exemple dans un but d'indexation ou de recherche par similarité. La transcription en accords constitue une façon simple et robuste d'extraire l'information harmonique et rythmique des chansons et peut notamment être utilisée par les musiciens pour rejouer les morceaux. Nous proposons deux approches pour la reconnaissance automatique d'accords à partir de signaux audio, qui offrent la particularité de se baser uniquement sur des gabarits d'accords théoriques, c'est à dire sur la définition des accords. En particulier, nos systèmes ne nécessitent ni connaissance particulière sur l'harmonie du morceau, ni apprentissage. Notre première approche est déterministe, et repose sur l'utilisation conjointe de gabarits d'accords théoriques, de mesures d'ajustement et de post-traitement par filtrage. On extrait tout d'abord des vecteurs de chroma du signal musical, qui sont ensuite comparés aux gabarits d'accords grâce à plusieurs mesures d'ajustement. Le critère de reconnaissance ainsi formé est ensuite filtré, afin de prendre en compte l'aspect temporel de la tâche. L'accord finalement détecté sur chaque trame est celui minimisant le critère de reconnaissance. Cette méthode a notamment été présentée lors d'une évaluation internationale (MIREX 2009) et a obtenu des résultats très honorables. Notre seconde approche est probabiliste, et réutilise certains éléments présents dans notre méthode déterministe. En faisant un parallèle entre les mesures d'ajustement utilisées dans l'approche déterministe et des modèles de probabilité, on peut définir un cadre probabiliste pour la reconnaissance d'accords. Dans ce cadre, les probabilités de chaque accord dans le morceau sont évaluées grâce à un algorithme Espérance-Maximisation (EM). Il en résulte la détection, pour chaque chanson, d'un vocabulaire d'accords adapté, qui permet l'obtention d'une meilleure transcription en accords. Cette méthode est comparée à de nombreux systèmes de l'état de l'art, grâce à plusieurs corpus et plusieurs métriques, qui permettent une évaluation complète des différents aspects de la tâche. reconnaissance d'accords traitement du signal musical recherche d'information musicale
555	Vision par ordinateur pour la reconnaissance des gestes: analyse et modélisation stochastique du geste dans l'interaction musicale Manitsaris, Sotiris 18 March 2010 (has links) (PDF) Cette thèse présente un système prototype de vision par ordinateur pour la reconnaissance des gestes dans l'interaction entre le pianiste et l'instrument. La vision par ordinateur est la seule technologie permettant la reconnaissance des gestes, sans interférence entre le pianiste et son instrument, et à un faible coût. Le système propose deux approches pour la reconnaissance : a) l'approche statique, ou reconnaissance des doigtés, et b) l'approche dynamique, extension de l'approche statique. La reconnaissance statique s'applique à chaque image de la vidéo. Elle repose sur l'analyse et l'interprétation des caractéristiques de l'image, en les comparant avec le modèle déterministe du geste. La reconnaissance dynamique s'applique à un ensemble de séquences d'images vidéo. Elle se base sur l'analyse et la modélisation stochastique du geste, à l'aide de Modèles de Markov Cachés. Cette méthode peut être étendue à d'autres champs d'application tels que le suivi de personnes en perte d'autonomie à domicile, la valorisation du patrimoine culturel, l'étude du comportement humain ou encore l'interaction homme-machine. vision par ordinateur modélisation reconnaissance geste signal vidéo Modèles de Markov Cachés interaction musicale
556	Apprentissage incrémental de systèmes d'inférence floue : application à la reconnaissance de gestes manuscrits Almaksour, Abdullah 29 July 2011 (has links) (PDF) Nous présentons dans cette thèse une nouvelle méthode pour la conception de moteurs de reconnaissance personnalisables et auto-évolutifs. La contribution majeure de cette thèse consiste à proposer une approche incrémentale pour l'apprentissage de classifieurs basés sur les systèmes d'inférence floue de type Takagi-Sugeno d'ordre 1. Cette approche comprend, d'une part, une adaptation des paramètres linéaires associés aux conclusions des règles en utilisant la méthode des moindres carrés récursive, et, d'autre part, un apprentissage incrémental des prémisses de ces règles afin de modifier les fonctions d'appartenance suivant l'évolution de la densité des données dans l'espace de classification. La méthode proposée, Evolve++, résout les problèmes d'instabilité d'apprentissage incrémental de ce type de systèmes grâce à un paradigme global d'apprentissage où les prémisses et les conclusions sont apprises en synergie et non de façon indépendante. La performance de ce système a été démontrée sur des bancs d'essai connus, en mettant en évidence notamment sa capacité d'apprentissage à la volée de nouvelles classes. Dans le contexte applicatif de la reconnaissance de gestes manuscrits, ce système permet de s'adapter en continue aux styles d'écriture (personnalisation des symboles) et aux nouveaux besoins des utilisateurs (introduction à la volée des nouveaux symboles). Dans ce domaine, une autre contribution a été d'accélérer l'apprentissage de nouveaux symboles par la synthèse automatique de données artificielles. La technique de synthèse repose sur la théorie Sigma-lognormal qui propose un nouvel espace de représentation des tracés manuscrits basé sur un modèle neuromusculaire du mécanisme d'écriture. L'application de déformations sur le profil Sigma-lognormal permet d'obtenir des tracés manuscrits synthétiques qui sont réalistes et proches de la déformation humaine. L'utilisation de ces tracés synthétiques dans notre système accélère l'apprentissage et améliore de façon significative sa performance globale. [INFO:INFO_LG] Computer Science/Learning Apprentissage incrémental système d'inférence floue reconnaissance de tracés manuscrits
557	Descripteurs couleur locaux invariants aux conditions d'acquisition Song, Xiaohu 08 December 2011 (has links) (PDF) La mise au point de descripteurs locaux discriminants est aujourd'hui une priorité dans de nombreuses applications comme la reconnaissance d'objets, le suivi d'objets, la reconstruction 3D ou l'estimation de mouvement. La problématique réside dans le fait que ces descripteurs doivent être invariants aux conditions d'acquisition tout en conservant un pouvoir discriminant important. Dans ce contexte, nous nous sommes intéressés à l'invariance des descripteurs locaux de la littérature. Nous les avons notamment catégorisés en fonction des hypothèses sur lesquelles repose leur invariance. Ensuite, nous avons proposé des descripteurs locaux qui exploitent l'information de couleur dans les images. Nous avons montré que cette information peut être très pertinente lorsqu'elle est combinée à une information spatiale, à condition que son degré d'invariance soit contrôlé et adapté aux applications considérées. Ainsi, nous avons proposé un ensemble de descripteurs locaux couleur avec des degrés d'invariance différents. Ainsi, nous introduisons tout d'abord deux nouveaux descripteurs qui caractérisent les distributions spatiales des couleurs dans les régions analysées. L'idée originale consiste à appliquer des transformations affines entre les coordonnées spatiales des pixels et leurs coordonnées couleur. En effet, chaque pixel étant caractérisé par 5 valeurs, 2 coordonnées spatiales xy dans l'image et 3 composantes couleur RVB, nous proposons de rechercher une transformation affine qui permet de transformer les coordonnées xy de tous les pixels de la région concernée en coordonnées RVB de ces pixels. Nous montrons que l'application de cette transformation aux coordonnées xy fournit des coordonnées dans l'espace RVB qui a un double avantage. D'une part, les coordonnées d'un seul pixel dépendent à la fois de toutes les couleurs présentes dans la région mais aussi de leur répartition spatiale. Quelques coordonnées permettent donc de résumer efficacement le contenu de la région. D'autre part, ces coordonnées présente une invariance totale à toute transformation affine appliquée dans l'espace image 2D(invariance géométrique) et comme elles sont homogènes à des coordonnées couleur, nous pouvons leur procurer une invariance photométrique en leur appliquant des transformations affines particulières. Nous montrons que le degré d'invariance peut être contrôlé en fonction des besoins de l'application. Ces coordonnées nous permettent de définir le descripteur IVC (Image Vers Couleur). De manière similaire, nous évaluons une transformation affine de l'espace couleur à l'espace image et appliquons cette transformation aux coordonnées couleur. Les coordonnées obtenues par cette transformation sont invariantes à toute transformation affine appliquée dans l'espace couleur, elles présentent donc un degré d'invariance élevé aux variations photométriques. Ces coordonnées nous permettent de constituer le descripteur CVI (Couleur Vers Image). Nous montrons que ces deux descripteurs fournissent de très bons résultats dans le cadre de la reconnaissance d'objet et présentent une telle complémentarité que le descripteur obtenu par concaténation de IVC et CVI fournit de meilleurs résultats que la plupart des descripteurs couleur parus dans la littérature. Ensuite, nous proposons un descripteur qui présente un degré d'invariance plus élevé que les deux précédents puisqu'il n'est pas sensible aux transformations non-linéaires des couleurs modélisées par des fonctions croissantes appliquées indépendamment sur chaque composante couleur. Pour cela, nous exploitons les mesures de rang des pixels dans les images. De plus, nous utilisons les corrélations entre mesures de rang obtenues pour différentes composantes couleur. Ceci nous a permis de proposer un descripteur lui aussi très compact qui présente un degré d'invariance photométrique assez élevé. Enfin, nous abordons le problème de la caractérisation locale d'images par auto-similarités Descripteurs locaux Reconnaissance d'objets Invariants Transformations affines Pouvoir discriminant IVC CVI Mesures de rang Mesures de similarités
558	Recherche de motifs dans des images : apport des graphes plans Samuel, Emilie 06 June 2011 (has links) (PDF) La reconnaissance de formes s'intéresse à la détection automatique de motifs dans des données d'entrée, afin de pouvoir, par exemple, les classer en catégories. La matière première de ces techniques est bien souvent l'image numérique. Cette dernière, dans sa forme la plus courante, est codée sous la forme d'une matrice de pixels. Néanmoins, la question du développement de représentations plus riches se pose. Ainsi, la structuration de l'information contenue dans l'image devrait permettre la mise en évidence des différents objets représentés, et des liens les unissant. C'est pourquoi nous proposons de modéliser les images numériques sous forme de graphes, pour leur richesse et expressivité d'une part, et pour exploiter les résultats de la théorie des graphes en reconnaissance de formes d'autre part. Nous développons pour cela une méthode d'extraction de graphes plans à partir d'images, basée sur le respect de la sémantique. Nous montrons que nous pouvons, étant donné un graphe, reconstruire avec perte limitée l'image d'origine. Par la suite, nous introduisons les graphes plans à trous, graphes dont les faces peuvent être visibles ou invisibles. Leur justification trouve sa place dans la recherche de motifs notamment, pour laquelle les éléments constituant l'arrière-plan d'une image ne doivent pas être retrouvés. En dirigeant notre attention sur la planarité de ces graphes, nous proposons des algorithmes polynomiaux d'isomorphisme de graphes plans et de motifs ; nous traitons également leur équivalence, qui se trouve être un isomorphisme aux faces invisibles près [INFO:INFO_OH] Computer Science/Other Graphes plans Isomorphisme de graphes Appariements de graphes Représentation structurée d'images Reconnaissance de formes Classification d'images
559	Mécanismes d'apprentissage pour expliquer la rapidité, la sélectivité et l'invariance des réponses dans le cortex visuel Masquelier, Timothée 15 February 2008 (has links) (PDF) Dans cette thèse je propose plusieurs mécanismes de plasticité synaptique qui pourraient expliquer la rapidité, la sélectivité et l'invariance des réponses neuronales dans le cortex visuel. Leur plausibilité biologique est discutée. J'expose également les résultats d'une expérience de psychophysique pertinente, qui montrent que la familiarité peut accélérer les traitements visuels. Au delà de ces résultats propres au système visuel, les travaux présentés ici créditent l'hypothèse de l'utilisation des dates de spikes pour encoder, décoder, et traiter l'information dans le cerveau – c'est la théorie dite du ‘codage temporel'. Dans un tel cadre, la Spike Timing Dependent Plasticity pourrait jouer un rôle clef, en détectant des patterns de spikes répétitifs et en permettant d'y répondre de plus en plus rapidement. [SDV] Life Sciences vision reconnaissance d'objets catégorisation visuelle ultra-rapide apprentissage codage temporel neurones impulsionnels Spike Timing Dependent Plasticity (STDP)
560	Le simulateur d'accouchement BirthSIM : un outil complet pour la formation sans risque en obstétrique Moreau, Richard 05 December 2007 (has links) (PDF) Du fait que les complications liées à l'utilisation d'instruments obstétriques proviennent d'un problème de formation des jeunes obstétriciens et sages-femmes, nous proposons le simulateur d'accouchement BirthSIM comme un outil pour acquérir une première expérience obstétrique. En effet, un simulateur offre à l'équipe médicale une formation sans risque afin de compléter la formation traditionnelle en salle d'accouchement.<br /><br />Le simulateur BirthSIM se compose de mannequins anthropomorphes pour assurer la continuité avec la salle d'accouchement. Pour reproduire les forces mises en jeu, un vérin pneumatique commandé par un servodistributeur est asservi en position et en effort afin de simuler différents accouchements. Pour évaluer le geste obstétrique celui-ci est décomposé en deux étapes : la pose des forceps et le geste d'extraction. Pour analyser la pose des forceps, ces derniers ont été instrumentés avec des capteurs de position à six degrés de liberté, puis des méthodes d'analyse des gestes ont été développées pour évaluer objectivement la répétabilité des opérateurs, leur erreur et le taux de similarité de leur geste par rapport à un geste de référence. Concernant le geste d'extraction, un capteur de force placé au niveau du cou foetal enregistre la force exercée par l'opérateur. Une fonction d'évaluation regroupe les paramètres liés à cette extraction<br />(force maximal, travail, etc.) afin d'obtenir un indice de performance du geste.<br /><br />Enfin, l'interface de visualisation du simulateur permet aux opérateurs de voir un geste habituellement réalisé en aveugle car prenant place à l'intérieur du bassin maternel. Une méthode d'apprentissage sans risque du geste obstétrique est proposée à l'équipe médicale. En<br />utilisant les méthodes d'évaluation développées, la progression de la technique des obstétriciens formés sur le simulateur BirthSIM est quantifiée. Les résultats obtenus confirment et complètent les résultats disparates trouvés dans la littérature et attestent de l'intérêt d'un simulateur. Robotique médicale Simulateurs médicaux Modélisation Commande en effort et en position Reconnaissance et analyse de geste Apprentissage Instrumentation

Search results