• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 974
  • 348
  • 116
  • 15
  • 10
  • 8
  • 4
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 1558
  • 759
  • 275
  • 260
  • 241
  • 235
  • 231
  • 170
  • 165
  • 155
  • 151
  • 150
  • 141
  • 132
  • 124
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
691

Modélisation et reconnaissance active d'objets 3D de forme libre par vision en robotique

Trujillo-Romero, Felipe De Jesus 10 December 2008 (has links) (PDF)
Cette thèse concerne la robotique au service de l'Homme. Un robot compagnon de l'Homme devra manipuler des objets 3D courants (bouteille, verre...), reconnus et localisés à partir de données acquises depuis des capteurs embarqués sur le robot. Nous exploitons la Vision, monoculaire ou stéréo. Pour traiter de la manipulation à partir de données visuelles, il faut au préalable construire deux représentations pour chaque objet : un modèle géométrique 3D, indispensable pour contrôler la saisie, et un modèle d'apparence visuelle, nécessaire pour la reconnaissance. Cette thèse traite donc de l'apprentissage de ces représentations, puis propose une approche active de reconnaissance d'objets depuis des images acquises par les caméras embarquées. La modélisation est traitée sur un objet 3D isolé posé sur une table, ; nous exploitons des données 3D acquises depuis un capteur stéréo monté sur un bras manipulateur; le capteur est déplacé par le bras autour de l'objet pour acquérir N images, exploitées pour construire un modèle de type maillage triangulaire. Nous proposons d'abord une approche originale de recalage des vues partielles de l'objet, fondée sur des informations de pseudo-couleur générées à partir des points 3D acquis sur l'objet à apprendre ; puis une méthode simple et rapide, fondée sur la paramétrisation sphérique, est proposée pour construire un maillage triangulaire à partir des vues recalées fusionnées dans un nuage de points 3D. Pour la reconnaissance active, nous exploitons une simple caméra. L'apprentissage du modèle d'apparence pour chaque objet, se fait aussi en déplaçant ce capteur autour de l'objet isolé posé sur une table. Ce modèle est donc fait de plusieurs vues ; dans chacune, (1) la silhouette de l'objet est extraite par un contour actif, puis (2) plusieurs descripteurs sont extraits, globaux (couleur, signature de la silhouette, shape context calculés) ou locaux (points d'intérêt, couleur ou shape context dans des régions). Pendant la reconnaissance, la scène peut contenir un objet isolé, ou plusieurs en vrac, avec éventuellement des objets non appris ; nous proposons une approche active, approche incrémentale qui met à jour un ensemble de probabilités P(Obji), i=1 à N+1 si N objets ont été appris ; les objets inconnus sont affectés à la classe N+1 ; P(Obji) donne la probabilité qu'un objet de la classe i soit présent dans la scène. A chaque étape la meilleure position du capteur est sélectionnée en exploitant la maximisation de l'information mutuelle. De nombreux résultats en images de synthèse ou en images réelles ont permis de valider cette approche.
692

Reconnaissance d'objets en vision artificielle : application à la reconnaissance de piétons

Leyrit, Laetitia 22 November 2010 (has links) (PDF)
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe GRAVIR (1) du LASMEA (2) au sein de l'équipe ComSee (3) qui se consacre à la vision par ordinateur. Ces travaux s'inscrivent dans le cadre d'un projet de l'Agence Nationale pour la Recherche s'intitulant " Logiciels d'Observation des Vulnérables ". Son but est de concevoir des logiciels détectant des piétons en danger et d'améliorer ainsi la sécurité routière. Ma thèse a pour but de détecter et de reconnaître les piétons dans les images. Celles-ci proviennent d'une caméra embarquée dans un véhicule circulant en milieu urbain. Ce cahier des charges implique de nombreuses contraintes. Il faut notamment obtenir un système fonctionnant en temps réel pour être capable de détecter les piétons avant un éventuel impact. De plus, ces piétons peuvent être sujets à de nombreuses variations (taille, type de vêtements...), ce qui rend la tâche de reconnaissance d'autant plus ardue. La caméra étant mobile, aucune information ne pourra être extraite du fond. Dans ma thèse, nous mettons en oeuvre différentes méthodes de vision par ordinateur, toutes basées apprentissage, qui permettent de répondre à ces attentes. Le problème se traite en deux phases. Dans un premier temps, une étape de traitement hors ligne nous permet de concevoir une méthode valide pour reconnaître des piétons. Nous faisons appel à une base d'apprentissage. Tout d'abord, un descripteur d'images est employé pour extraire des informations des images.Puis, à partir de ces informations, un classifieur est entraîné à différencier les piétons des autres objets. Nous proposons l'utilisation de trois descripteurs (ondelettes de Haar, histogrammes de gradients et descripteur binaire). Pour la classification, nous avons recours à un algorithme de Boosting (AdaBoost) et à des méthodes à noyaux (SVM, RVM, moindres carrés). Chaque méthode a été paramétrée, testée et validée, tant au niveau description d'images que classification.La meilleure association de toutes ces méthodes est également recherchée. Dans un second temps, nous développons un système embarqué temps réel, qui soit capable de détecter les piétons avant une éventuelle collision. Nous exploitons directement des images brutes en provenance de la caméra et ajoutons un module pour segmenter l'image, afin de pouvoir intégrer les méthodes de description et classification précédentes et ainsi répondre à la problématique initiale.1. acronyme de " Groupe d'Automatique, VIsion et Robotique ".2. acronyme de " LAboratoire des Sciences et Matériaux Et d'Automatique ".3. acronyme de " Computers that See ".
693

Upper body tracking and Gesture recognition for Human-Machine Interaction

Renna, I. 11 May 2012 (has links) (PDF)
Les robots sont des agents artificiels qui peuvent agir dans le monde des humains grâce aux capacités de perception. Dans un contexte d'interaction homme-robot, les humains et les robots partagent le même espace de communication. En effet, les robots compagnons sont censés communiquer avec les humains d'une manière naturelle et intuitive: l'une des façons les plus naturelles est basée sur les gestes et les mouvements réactifs du corps. Pour rendre cette interaction la plus conviviale possible, un robot compagnon doit, donc, être doté d'une ou plusieurs capacités lui permettant de percevoir, de reconnaître et de réagir aux gestes humains. Cette thèse a été focalisée sur la conception et le développement d'un système de reconnaissance gestuelle dans un contexte d'interaction homme-robot. Ce système comprend un algorithme de suivi permettant de connaître la position du corps lors des mouvements et un module de niveau supérieur qui reconnaît les gestes effectués par des utilisateurs humains. De nouvelles contributions ont été apportées dans les deux sujets. Tout d'abord, une nouvelle approche est proposée pour le suivi visuel des membres du haut du corps. L'analyse du mouvement du corps humain est difficile, en raison du nombre important de degrés de liberté de l'objet articulé qui modélise la partie supérieure du corps. Pour contourner la complexité de calcul, chaque membre est suivi avec un filtre particulaire à recuit simulé et les différents filtres interagissent grâce à la propagation de croyance. Le corps humain en 3D est ainsi qualifié comme un modèle graphique dans lequel les relations entre les parties du corps sont représentées par des distributions de probabilité conditionnelles. Le problème d'estimation de la pose est donc formulé comme une inférence probabiliste sur un modèle graphique, où les variables aléatoires correspondent aux paramètres des membres individuels (position et orientation) et les messages de propagation de croyance assurent la cohérence entre les membres. Deuxièmement, nous proposons un cadre permettant la détection et la reconnaissance des gestes emblématiques. La question la plus difficile dans la reconnaissance des gestes est de trouver de bonnes caractéristiques avec un pouvoir discriminant (faire la distinction entre différents gestes) et une bonne robustesse à la variabilité intrinsèque des gestes (le contexte dans lequel les gestes sont exprimés, la morphologie de la personne, le point de vue, etc). Dans ce travail, nous proposons un nouveau modèle de normalisation de la cinématique du bras reflétant à la fois l'activité musculaire et l'apparence du bras quand un geste est effectué. Les signaux obtenus sont d'abord segmentés et ensuite analysés par deux techniques d'apprentissage : les chaînes de Markov cachées et les Support Vector Machine. Les deux méthodes sont comparées dans une tâche de reconnaissance de 5 classes de gestes emblématiques. Les deux systèmes présentent de bonnes performances avec une base de données de formation minimaliste quels que soient l'anthropométrie, le sexe, l'âge ou la pose de l'acteur par rapport au système de détection. Le travail présenté ici a été réalisé dans le cadre d'une thèse de doctorat en co-tutelle entre l'Université "Pierre et Marie Curie" (ISIR laboratoire, Paris) et l'Université de Gênes (IIT - Tera département) et a été labelisée par l'Université Franco-Italienne.
694

Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées

Seng, Sopheap 01 March 2010 (has links) (PDF)
Ce travail de thèse porte sur la reconnaissance automatique de la parole des langues peu dotées et ayant un système d'écriture sans séparation explicite entre les mots. La spécificité des langues traitées dans notre contexte d'étude nécessite la segmentation automatique en mots pour rendre la modélisation du langage n-gramme applicable. Alors que le manque de données textuelles a un impact sur la performance des modèles de langage, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour tenter de pallier les problèmes, nos recherches sont axées principalement sur la modélisation du langage, et en particulier sur le choix des unités lexicales et sous-lexicales, utilisées par les systèmes de reconnaissance. Nous expérimentons l'utilisation des multiples unités au niveau des modèles du langage et au niveau des sorties de systèmes de reconnaissance. Nous validons ces approches de modélisation à base des multiples unités sur les systèmes de reconnaissance pour un groupe de langues peu dotées : le khmer, le vietnamien, le thaï et le laotien.
695

Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes

Gaidon, Adrien 25 October 2012 (has links) (PDF)
Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes.
696

Etude du traitement visuel précoce des objets par la méthode de l'amorçage infraliminaire

Buchot, Romain 03 April 2014 (has links) (PDF)
Trois hypothèses principales existent quant aux indices locaux du contour étant les plus informatifs pour le processus de structuration de la forme, et permettant l'identification visuelle des objets : les angles et les indices de tridimensionnalité (Biederman, 1987 ; Boucart et al, 1995), les éléments mi-segments (Kennedy & Domander, 1985, Singh & Fulvio, 2005), et l'interaction entre le type de fragmentation et le degré de spécificité de la forme globale (Panis & Wagemans, 2009). L'objectif de ce travail consiste donc à confronter ces trois hypothèses, en tentant de déterminer par ailleurs le niveau (conscient ou non conscient) auquel s'opèrent la détection et le traitement de ces indices. Les paradigmes d'amorçage supra et infraliminaire sont employés. Des dessins d'objets fragmentés selon deux modes (angles et indices de tridimensionnalité versus éléments mi-segments) sont insérés en tant qu'amorce, précédant une image cible du même objet, elle-même fragmentée et présentant des zones de contours strictement identiques ou complémentaires à l'amorce. Aucune des quatre expériences proposées ne met en évidence un effet " qualitatif " du type de fragmentation. En revanche, certaines conditions temporelles permettent un effet d'amorçage de type lié à la quantité de contour présenté. Nos résultats confirment l'ambiguïté émergeant de la littérature relative aux zones de contours les plus informatives, et semblent conforter la nécessité d'un haut degré d'automaticité des processus impliqués dans la perspective de mettre en évidence des effets d'amorçage perceptif
697

Unmanned aerial vehicles and weapons of mass destruction a lethal combination? /

Renehan, Jeffrey N. January 1900 (has links)
Thesis--School of Advanced Airpower Studies, 1996. / Shipping list no.: 1998-0921-M. "August 1997." Includes bibliographical references. Also available via Internet from the Air University Press web site. Address as of 11/3/03: http://aupress.au.af.mil/SAAS%5FTheses/Renehan/renehen.pdf; current access is available via PURL.
698

Visual Observation of Human Emotions / L'observation visuelle des émotions humaines

Jain, Varun 30 March 2015 (has links)
Cette thèse a pour sujet le développement de méthodes et de techniques permettant d'inférer l'état affectif d'une personne à partir d'informations visuelles. Plus précisement, nous nous intéressons à l'analyse d'expressions du visage, puisque le visage est la partie la mieux visible du corps, et que l'expression du visage est la manifestation la plus évidente de l'affect. Nous étudions différentes théories psychologiques concernant affect et émotions, et différentes facons de représenter et de classifier les émotions d'une part et la relation entre expression du visage et émotion sousjacente d'autre part. Nous présentons les dérivées Gaussiennes multi-échelle en tant que descripteur dímages pour l'estimation de la pose de la tête, pour la détection de sourire, puis aussi pour la mesure de l'affect. Nous utilisons l'analyse en composantes principales pour la réduction de la dimensionalité, et les machines à support de vecteur pour la classification et la regression. Nous appliquons cette même architecture, simple et efficace, aux différents problèmes que sont l'estimation de la pose de tête, la détection de sourire, et la mesure d'affect. Nous montrons que non seulement les dérivées Gaussiennes multi-échelle ont une performance supérieure aux populaires filtres de Gabor, mais qu'elles sont également moins coûteuses en calculs. Lors de nos expérimentations nous avons constaté que dans le cas d'un éclairage partiel du visage les dérivées Gaussiennes multi-échelle ne fournissent pas une description d'image suffisamment discriminante. Pour résoudre ce problème nous combinons des dérivées Gaussiennes avec des histogrammes locaux de type LBP (Local Binary Pattern). Avec cette combinaison nous obtenons des résultats à la hauteur de l'état de l'art pour la détection de sourire dans le base d'images GENKI qui comporte des images de personnes trouvées «dans la nature» sur internet, et avec la difficile «extended YaleB database». Pour la classification dans la reconnaissance de visage nous utilisons un apprentissage métrique avec comme mesure de similarité une distance de Minkowski. Nous obtenons le résultat que les normes L1 and L2 ne fournissent pas toujours la distance optimale; cet optimum est souvent obtenu avec une norme Lp où p n'est pas entier. Finalement, nous développons un système multi-modal pour la détection de dépressions nerveuses, avec en entrée des informations audio et vidéo. Pour la détection de mouvements intra-faciaux dans les données vidéo nous utilisons de descripteurs de type LBP-TOP (Local Binary Patterns -Three Orthogonal Planes), alors que nous utilisons des trajectoires denses pour les mouvements plus globaux, par exemple de la tête ou des épaules. Nous avons trouvé que les descripteurs LBP-TOP encodés avec des vecteurs de Fisher suffisent pour dépasser la performance de la méthode de reférence dans la compétition «Audio Visual Emotion Challenge (AVEC) 2014». Nous disposons donc d'une technique effective pour l'evaluation de l'état dépressif, technique qui peut aisement être étendue à d'autres formes d'émotions qui varient lentement, comme l'humeur (mood an Anglais). / In this thesis we focus on the development of methods and techniques to infer affect from visual information. We focus on facial expression analysis since the face is one of the least occluded parts of the body and facial expressions are one of the most visible manifestations of affect. We explore the different psychological theories on affect and emotion, different ways to represent and classify emotions and the relationship between facial expressions and underlying emotions. We present the use of multiscale Gaussian derivatives as an image descriptor for head pose estimation, smile detection before using it for affect sensing. Principal Component Analysis is used for dimensionality reduction while Support Vector Machines are used for classification and regression. We are able to employ the same, simple and effective architecture for head pose estimation, smile detection and affect sensing. We also demonstrate that not only do multiscale Gaussian derivatives perform better than the popular Gabor Filters but are also computationally less expensive to compute. While performing these experiments we discovered that multiscale Gaussian derivatives do not provide an appropriately discriminative image description when the face is only partly illuminated. We overcome this problem by combining Gaussian derivatives with Local Binary Pattern (LBP) histograms. This combination helps us achieve state-of-the-art results for smile detection on the benchmark GENKI database which contains images of people in the "wild" collected from the internet. We use the same description method for face recognition on the CMU-PIE database and the challenging extended YaleB database and our results compare well with the state-of-the-art. In the case of face recognition we use metric learning for classification, adopting the Minkowski distance as the similarity measure. We find that L1 and L2 norms are not always the optimum distance metrics and the optimum is often an Lp norm where p is not an integer. Lastly we develop a multi-modal system for depression estimation with audio and video information as input. We use Local Binary Patterns -Three Orthogonal Planes (LBP-TOP) features to capture intra-facial movements in the videos and dense trajectories for macro movements such as the movement of the head and shoulders. These video features along with Low Level Descriptor (LLD) audio features are encoded using Fisher Vectors and finally a Support Vector Machine is used for regression. We discover that the LBP-TOP features encoded with Fisher Vectors alone are enough to outperform the baseline method on the Audio Visual Emotion Challenge (AVEC) 2014 database. We thereby present an effective technique for depression estimation which can be easily extended for other slowly varying aspects of emotions such as mood.
699

Exploiting resources from closely-related languages for automatic speech recognition in low-resource languages from Malaysia / Utilisation de ressources dans une langue proche pour la reconnaissance automatique de la parole pour les langues peu dotées de Malaisie

Samson Juan, Sarah Flora 09 July 2015 (has links)
Les langues en Malaisie meurent à un rythme alarmant. A l'heure actuelle, 15 langues sont en danger alors que deux langues se sont éteintes récemment. Une des méthodes pour sauvegarder les langues est de les documenter, mais c'est une tâche fastidieuse lorsque celle-ci est effectuée manuellement.Un système de reconnaissance automatique de la parole (RAP) serait utile pour accélérer le processus de documentation de ressources orales. Cependant, la construction des systèmes de RAP pour une langue cible nécessite une grande quantité de données d'apprentissage comme le suggèrent les techniques actuelles de l'état de l'art, fondées sur des approches empiriques. Par conséquent, il existe de nombreux défis à relever pour construire des systèmes de transcription pour les langues qui possèdent des quantités de données limitées.L'objectif principal de cette thèse est d'étudier les effets de l'utilisation de données de langues étroitement liées, pour construire un système de RAP pour les langues à faibles ressources en Malaisie. Des études antérieures ont montré que les méthodes inter-lingues et multilingues pourraient améliorer les performances des systèmes de RAP à faibles ressources. Dans cette thèse, nous essayons de répondre à plusieurs questions concernant ces approches: comment savons-nous si une langue est utile ou non dans un processus d'apprentissage trans-lingue ? Comment la relation entre la langue source et la langue cible influence les performances de la reconnaissance de la parole ? La simple mise en commun (pooling) des données d'une langue est-elle une approche optimale ?Notre cas d'étude est l'iban, une langue peu dotée de l'île de Bornéo. Nous étudions les effets de l'utilisation des données du malais, une langue locale dominante qui est proche de l'iban, pour développer un système de RAP pour l'iban, sous différentes contraintes de ressources. Nous proposons plusieurs approches pour adapter les données du malais afin obtenir des modèles de prononciation et des modèles acoustiques pour l'iban.Comme la contruction d'un dictionnaire de prononciation à partir de zéro nécessite des ressources humaines importantes, nous avons développé une approche semi-supervisée pour construire rapidement un dictionnaire de prononciation pour l'iban. Celui-ci est fondé sur des techniques d'amorçage, pour améliorer la correspondance entre les données du malais et de l'iban.Pour augmenter la performance des modèles acoustiques à faibles ressources, nous avons exploré deux techniques de modélisation : les modèles de mélanges gaussiens à sous-espaces (SGMM) et les réseaux de neurones profonds (DNN). Nous avons proposé, dans ce cadre, des méthodes de transfert translingue pour la modélisation acoustique permettant de tirer profit d'une grande quantité de langues “proches” de la langue cible d'intérêt. Les résultats montrent que l'utilisation de données du malais est bénéfique pour augmenter les performances des systèmes de RAP de l'iban. Par ailleurs, nous avons également adapté les modèles SGMM et DNN au cas spécifique de la transcription automatique de la parole non native (très présente en Malaisie). Nous avons proposé une approche fine de fusion pour obtenir un SGMM multi-accent optimal. En outre, nous avons développé un modèle DNN spécifique pour la parole accentuée. Les deux approches permettent des améliorations significatives de la précision du système de RAP. De notre étude, nous observons que les modèles SGMM et, de façon plus surprenante, les modèles DNN sont très performants sur des jeux de données d'apprentissage en quantité limités. / Languages in Malaysia are dying in an alarming rate. As of today, 15 languages are in danger while two languages are extinct. One of the methods to save languages is by documenting languages, but it is a tedious task when performed manually.Automatic Speech Recognition (ASR) system could be a tool to help speed up the process of documenting speeches from the native speakers. However, building ASR systems for a target language requires a large amount of training data as current state-of-the-art techniques are based on empirical approach. Hence, there are many challenges in building ASR for languages that have limited data available.The main aim of this thesis is to investigate the effects of using data from closely-related languages to build ASR for low-resource languages in Malaysia. Past studies have shown that cross-lingual and multilingual methods could improve performance of low-resource ASR. In this thesis, we try to answer several questions concerning these approaches: How do we know which language is beneficial for our low-resource language? How does the relationship between source and target languages influence speech recognition performance? Is pooling language data an optimal approach for multilingual strategy?Our case study is Iban, an under-resourced language spoken in Borneo island. We study the effects of using data from Malay, a local dominant language which is close to Iban, for developing Iban ASR under different resource constraints. We have proposed several approaches to adapt Malay data to obtain pronunciation and acoustic models for Iban speech.Building a pronunciation dictionary from scratch is time consuming, as one needs to properly define the sound units of each word in a vocabulary. We developed a semi-supervised approach to quickly build a pronunciation dictionary for Iban. It was based on bootstrapping techniques for improving Malay data to match Iban pronunciations.To increase the performance of low-resource acoustic models we explored two acoustic modelling techniques, the Subspace Gaussian Mixture Models (SGMM) and Deep Neural Networks (DNN). We performed cross-lingual strategies using both frameworks for adapting out-of-language data to Iban speech. Results show that using Malay data is beneficial for increasing the performance of Iban ASR. We also tested SGMM and DNN to improve low-resource non-native ASR. We proposed a fine merging strategy for obtaining an optimal multi-accent SGMM. In addition, we developed an accent-specific DNN using native speech data. After applying both methods, we obtained significant improvements in ASR accuracy. From our study, we observe that using SGMM and DNN for cross-lingual strategy is effective when training data is very limited.
700

Reconnaissance de scènes multimodale embarquée / Embedded multimodal scene recognition

Blachon, David 29 February 2016 (has links)
Contexte : Cette thèse se déroule dans les contextes de l'intelligence ambiante et de la reconnaissance de scène (sur mobile). Historiquement, le projet vient de l'entreprise ST-Ericsson. Il émane d'un besoin de développer et intégrer un "serveur de contexte" sur smartphone capable d'estimer et de fournir des informations de contexte pour les applications tierces qui le demandent. Un exemple d'utilisation consiste en une réunion de travail où le téléphone sonne~; grâce à la reconnaissance de la scène, le téléphone peut automatiquement réagir et adapter son comportement, par exemple en activant le mode vibreur pour ne pas déranger.Les principaux problèmes de la thèse sont les suivants : d'abord, proposer une définition de ce qu'est une scène et des exemples de scènes pertinents pour l'application industrielle ; ensuite, faire l'acquisition d'un corpus de données à exploiter par des approches d'apprentissage automatique~; enfin, proposer des solutions algorithmiques au problème de la reconnaissance de scène.Collecte de données : Aucune des bases de données existantes ne remplit les critères fixés (longs enregistrements continus, composés de plusieurs sources de données synchronisées dont l'audio, avec des annotations pertinentes).Par conséquent, j'ai développé une application Android pour la collecte de données. L'application est appelée RecordMe et a été testé avec succès sur plus de 10 appareils. L'application a été utilisée pour 2 campagnes différentes, incluant la collecte de scènes. Cela se traduit par plus de 500 heures enregistrées par plus de 25 bénévoles, répartis principalement dans la région de Grenoble, mais aussi à l'étranger (Dublin, Singapour, Budapest). Pour faire face au problème de protection de la vie privée et de sécurité des données, des mesures ont été mises en place dans le protocole et l'application de collecte. Par exemple, le son n'est pas sauvegardé, mes des coefficients MFCCs sont enregistrés.Définition de scène : L'étude des travaux existants liés à la tâche de reconnaissance de scène, et l'analyse des annotations fournies par les bénévoles lors de la collecte de données, ont permis de proposer une définition d'une scène. Elle est définie comme la généralisation d'une situation, composée d'un lieu et une action effectuée par une seule personne (le propriétaire du smartphone). Des exemples de scènes incluent les moyens de transport, la réunion de travail, ou le déplacement à pied dans la rue. La notion de composition permet de décrire la scène avec plusieurs types d'informations. Cependant, la définition est encore trop générique, et elle pourrait être complétée par des informations additionnelles, intégrée à la définition comme de nouveaux éléments de la composition.Algorithmique : J'ai réalisé plusieurs expériences impliquant des techniques d'apprentissage automatique supervisées et non non-supervisées. La partie supervisée consiste en de la classification. La méthode est commune~: trouver des descripteurs des données pertinents grâce à l'utilisation d'une méthode de sélection d'attribut ; puis, entraîner et tester plusieurs classifieurs (arbres de décisions et forêt d'arbres décisionnels ; GMM ; HMM, et DNN). Également, j'ai proposé un système à 2 étages composé de classifieurs formés pour identifier les concepts intermédiaires et dont les prédictions sont fusionnées afin d'estimer la scène la plus probable. Les expérimentations non-supervisées visent à extraire des informations à partir des données. Ainsi, j'ai appliqué un algorithme de regroupement hiérarchique ascendant, basé sur l'algorithme EM, sur les données d'accélération et acoustiques considérées séparément et ensemble. L'un des résultats est la distinction des données d'accélération en groupes basés sur la quantité d'agitation. / Context: This PhD takes place in the contexts of Ambient Intelligence and (Mobile) Context/Scene Awareness. Historically, the project comes from the company ST-Ericsson. The project was depicted as a need to develop and embed a “context server” on the smartphone that would get and provide context information to applications that would require it. One use case was given for illustration: when someone is involved in a meeting and receives a call, then thanks to the understanding of the current scene (meet at work), the smartphone is able to automatically act and, in this case, switch to vibrate mode in order not to disturb the meeting. The main problems consist of i) proposing a definition of what is a scene and what examples of scenes would suit the use case, ii) acquiring a corpus of data to be exploited with machine learning based approaches, and iii) propose algorithmic solutions to the problem of scene recognition.Data collection: After a review of existing databases, it appeared that none fitted the criteria I fixed (long continuous records, multi-sources synchronized records necessarily including audio, relevant labels). Hence, I developed an Android application for collecting data. The application is called RecordMe and has been successfully tested on 10+ devices, running Android 2.3 and 4.0 OS versions. It has been used for 3 different campaigns including the one for scenes. This results in 500+ hours recorded, 25+ volunteers were involved, mostly in Grenoble area but abroad also (Dublin, Singapore, Budapest). The application and the collection protocol both include features for protecting volunteers privacy: for instance, raw audio is not saved, instead MFCCs are saved; sensitive strings (GPS coordinates, device ids) are hashed on the phone.Scene definition: The study of existing works related to the task of scene recognition, along with the analysis of the annotations provided by the volunteers during the data collection, allowed me to propose a definition of a scene. It is defined as a generalisation of a situation, composed of a place and an action performed by one person (the smartphone owner). Examples of scenes include taking a transportation, being involved in a work meeting, walking in the street. The composition allows to get different kinds of information to provide on the current scene. However, the definition is still too generic, and I think that it might be completed with additionnal information, integrated as new elements of the composition.Algorithmics: I have performed experiments involving machine learning techniques, both supervised and unsupervised. The supervised one is about classification. The method is quite standard: find relevant descriptors of the data through the use of an attribute selection method. Then train and test several classifiers (in my case, there were J48 and Random Forest trees ; GMM ; HMM ; and DNN). Also, I have tried a 2-stage system composed of a first step of classifiers trained to identify intermediate concepts and whose predictions are merged in order to estimate the most likely scene. The unsupervised part of the work aimed at extracting information from the data, in an unsupervised way. For this purpose, I applied a bottom-up hierarchical clustering, based on the EM algorithm on acceleration and audio data, taken separately and together. One of the results is the distinction of acceleration into groups based on the amount of agitation.

Page generated in 0.0619 seconds