• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 249
  • 134
  • 32
  • Tagged with
  • 438
  • 438
  • 245
  • 210
  • 178
  • 153
  • 138
  • 108
  • 103
  • 94
  • 86
  • 84
  • 82
  • 79
  • 77
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
191

Synchronisation et coordination interpersonnelle dans l'interaction Homme-robot / Synchrony and Interpersonal coordination in Human Robot interaction

Hasnain, Syed Khursheed 10 July 2014 (has links)
As robots start moving closer to our social and daily lives, issues of agency and social behavior become more important. However, despite noticeable advances in Human Robot Interaction (HRI), the developed technologies induce two major drawbacks : (i) HRI are highly demanding, (ii) humans have to adapt their way of thinking to the potential and limitations of the Robot. Thereby, HRI induce an important cognitive load which question the acceptability of the future robots. Consequently, we can address the question of understanding and mastering the development of pleasant yet efficient human-robot interactions which increase self- esteem, engagement (or pleasure), and efficacy of the human when interacting with the machine.In this race for more user-friendly HRI systems (robotic companion, intelligent objects etc.), working on the technical features (the design of appearance and superficial traits of behavior) can contribute to some partial solutions for punctual or short-term interactions. For instance, a major focus of interest has been put on the expressiveness and the appearance of robots and avatars. Yet, these approaches have neglected the importance of understanding the dynamics of interactions.In our opinion, intuitive communication refers to the ability of the robot to detect the crucial signals of the interaction and use them to adapt one's dynamics to the other's behavior. In fact, this central issue is highly dependent on the robot's capabilities to sense the human world and interact with it in a way that emulates human-human interactions.In early communication among humans, synchrony was found to be a funda- mental mechanism relying on very low-level sensory-motor networks, inducing the synchronization of inter-individual neural populations from sensory flows (vision, audition, or touch). Synchrony is caused by the interaction but also sustains the interaction itself in a circular way, as promoted by the enaction approach. Consequently, to become a partner in a working together scenario, the machine can obtain a minimal level of autonomy and adaptation by predicting the rhythmic structure of the interaction to build reinforcement signals to adapt the robot behavior as it can maintain the interest of the human in more long-term interactions.More precisely, as we are aiming for more “intuitive” and “natural” HRI, we took advantages of recent discoveries in low-level human interactions and studied Unintentional Synchronizations during rhythmic human robot interactions. We argue that exploiting natural stability and adaptability properties of unintentional synchronizations and rhythmic activities in human-human interactions can solve several of the acceptability problems of HRIs, and allow rethinking the current approaches to design them. / As robots start moving closer to our social and daily lives, issues of agency and social behavior become more important. However, despite noticeable advances in Human Robot Interaction (HRI), the developed technologies induce two major drawbacks : (i) HRI are highly demanding, (ii) humans have to adapt their way of thinking to the potential and limitations of the Robot. Thereby, HRI induce an important cognitive load which question the acceptability of the future robots. Consequently, we can address the question of understanding and mastering the development of pleasant yet efficient human-robot interactions which increase self- esteem, engagement (or pleasure), and efficacy of the human when interacting with the machine.In this race for more user-friendly HRI systems (robotic companion, intelligent objects etc.), working on the technical features (the design of appearance and superficial traits of behavior) can contribute to some partial solutions for punctual or short-term interactions. For instance, a major focus of interest has been put on the expressiveness and the appearance of robots and avatars. Yet, these approaches have neglected the importance of understanding the dynamics of interactions.In our opinion, intuitive communication refers to the ability of the robot to detect the crucial signals of the interaction and use them to adapt one's dynamics to the other's behavior. In fact, this central issue is highly dependent on the robot's capabilities to sense the human world and interact with it in a way that emulates human-human interactions.In early communication among humans, synchrony was found to be a funda- mental mechanism relying on very low-level sensory-motor networks, inducing the synchronization of inter-individual neural populations from sensory flows (vision, audition, or touch). Synchrony is caused by the interaction but also sustains the interaction itself in a circular way, as promoted by the enaction approach. Consequently, to become a partner in a working together scenario, the machine can obtain a minimal level of autonomy and adaptation by predicting the rhythmic structure of the interaction to build reinforcement signals to adapt the robot behavior as it can maintain the interest of the human in more long-term interactions.More precisely, as we are aiming for more “intuitive” and “natural” HRI, we took advantages of recent discoveries in low-level human interactions and studied Unintentional Synchronizations during rhythmic human robot interactions. We argue that exploiting natural stability and adaptability properties of unintentional synchronizations and rhythmic activities in human-human interactions can solve several of the acceptability problems of HRIs, and allow rethinking the current approaches to design them.
192

Improved training of generative models

Goyal, Anirudh 11 1900 (has links)
No description available.
193

Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole / Deep neural networks for source separation and noise-robust speech recognition

Aditya Arie Nugraha, . 05 December 2017 (has links)
Dans cette thèse, nous traitons le problème de la séparation de sources audio multicanale par réseaux de neurones profonds (deep neural networks, DNNs). Notre approche se base sur le cadre classique de séparation par algorithme espérance-maximisation (EM) basé sur un modèle gaussien multicanal, dans lequel les sources sont caractérisées par leurs spectres de puissance à court terme et leurs matrices de covariance spatiales. Nous explorons et optimisons l'usage des DNNs pour estimer ces paramètres spectraux et spatiaux. À partir des paramètres estimés, nous calculons un filtre de Wiener multicanal variant dans le temps pour séparer chaque source. Nous étudions en détail l'impact de plusieurs choix de conception pour les DNNs spectraux et spatiaux. Nous considérons plusieurs fonctions de coût, représentations temps-fréquence, architectures, et tailles d'ensembles d'apprentissage. Ces fonctions de coût incluent en particulier une nouvelle fonction liée à la tâche pour les DNNs spectraux: le rapport signal-à-distorsion. Nous présentons aussi une formule d'estimation pondérée des paramètres spatiaux, qui généralise la formulation EM exacte. Sur une tâche de séparation de voix chantée, nos systèmes sont remarquablement proches de la méthode de l'état de l'art actuel et améliorent le rapport source-interférence de 2 dB. Sur une tâche de rehaussement de la parole, nos systèmes surpassent la formation de voies GEV-BAN de l'état de l'art de 14%, 7% et 1% relatifs en terme d'amélioration du taux d'erreur sur les mots sur des données à 6, 4 et 2 canaux respectivement / This thesis addresses the problem of multichannel audio source separation by exploiting deep neural networks (DNNs). We build upon the classical expectation-maximization (EM) based source separation framework employing a multichannel Gaussian model, in which the sources are characterized by their power spectral densities and their source spatial covariance matrices. We explore and optimize the use of DNNs for estimating these spectral and spatial parameters. Employing the estimated source parameters, we then derive a time-varying multichannel Wiener filter for the separation of each source. We extensively study the impact of various design choices for the spectral and spatial DNNs. We consider different cost functions, time-frequency representations, architectures, and training data sizes. Those cost functions notably include a newly proposed task-oriented signal-to-distortion ratio cost function for spectral DNNs. Furthermore, we present a weighted spatial parameter estimation formula, which generalizes the corresponding exact EM formulation. On a singing-voice separation task, our systems perform remarkably close to the current state-of-the-art method and provide up to 2 dB improvement of the source-to-interference ratio. On a speech enhancement task, our systems outperforms the state-of-the-art GEV-BAN beamformer by 14%, 7%, and 1% relative word error rate improvement on 6-channel, 4-channel, and 2-channel data, respectively
194

Apprentissage par renforcement développemental / Developmental reinforcement learning

Zimmer, Matthieu 15 January 2018 (has links)
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur / Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
195

Approches jointes texte/image pour la compréhension multimodale de documents / Text/image joint approaches for multimodal understanding of documents

Delecraz, Sébastien 10 December 2018 (has links)
Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes. / The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions.
196

Méthodologie de détection et d'identification des défauts multiples dans les systèmes complexes à partir d'évènements discrets et de réseaux de neurones : applications aux aérogénérateurs / Detection methodology and identify multiple faults in complex systems from discrete events and neural networks : applications for wind turbines

Toma, Samuel 08 September 2014 (has links)
L'étude présentée dans ce mémoire concerne le diagnostic des machines électriques à l'aide d'une association innovante entre la modélisation à évènements discrets, la Simulation Comparative et Concurrente (SCC) et les Réseaux de Neurones Artificiels (RNAs). Le diagnostic des machines électriques est effectué à partir d'une analyse temporelle des signaux statoriques et rotoriques à l'aide de réseaux de neurones de type Feed-Forward. Afin de comparer les différentes configurations de ces réseaux de neurones, l'approche proposée dans ce document utilise la simulation comparative et concurrente implémentée grâce au formalisme à évènements discrets DEVS (Discrete EVent system Specification). L'intégration des algorithmes de la SCC et des RNAs au sein du formalisme DEVS a été effectuée de manière générique et indépendamment du simulateur en développent des extensions et une librairie de modèles dans l'environnement de modélisation et de simulation à évènements discrets DEVSimPy. L'application de cette nouvelle solution pour le diagnostic des machines électriques permet de détecter les défauts à partir d'une architecture logiciel facilement portable sur des systèmes embarqués de type FPGA. / This thesis deals with the time-domain analysis of the electrical machines fault diagnosis due to early short-circuits detection in both stator and rotor windings. It also introduces to the Discrete EVent system Specification (DEVS) a generic solution to enable concurrent and comparative simulations (CCS). The DEVS-based CCS is an extension introduced using an aspect-oriented programming (AOP) to interact with the classic DEVS simulator. A new DEVS-based artificial neural network (ANN) is also introduced with a separation between learning and calculation models. The DEVS-based CCS is validated on the proposed ANN DEVS library inside the DEVSimPy environment. The concurrent ANN contributes in the time-domains analysis for the electrical machine fault diagnosis. This new method is based on data coming directly from the sensors without any computation but with a new dedicated preprocessing technique. Later, some enhancements are brought to the artificial neural network based on a new multistage architecture reducing the training time and errors compared to the single ANN. The new architecture and techniques has been validated on real data sixteen non-destructive windings faults analysis and localization.
197

Strategic management and machine learning : in search of companies' financial performance optimization in the digital age / Management stratégique et intelligence artificielle : une nouvelle approche pour l'optimisation de la performance à l'heure du digital

Medrouk, Samir 28 November 2018 (has links)
Cette recherche a pour objectif clé de créer un modèle conceptuel et numérique, basé sur le machine learning, permettant aux académiques et praticiens de repenser le management stratégique mais aussi de prédire l’évolution de la performance organisationnelle (e.g., la profitabilité) en fonction de la variation des facteurs organisationnels étudiés (alignement stratégique, capacités stratégiques).Cette thèse compare et intègre deux approches conceptuelles (approche par les ressources et la théorie de la contingence) et deux approches analytiques (linéaire et non linéaire).Le modèle développé appelé MSM (Modèle de Management Stratégique) est basé sur les données recueillies auprès de 239 hauts dirigeants, les résultats montrent que le MSM capture la non-linéarité (complexité) de l’organisation et offre une bonne capacité de prédiction des performances de l’entreprise basée sur les variables du MSM. De plus, les résultats suggèrent que les approches basées sur les ressources et la contingence devraient être considérées comme complémentaires plutôt que comme des approches concurrentes. / A key goal for this dissertation has been to create a conceptual and numerical model based on machine learning that allows leaders and scholars to reimagine strategic management, and predict the evolution of organizational performance (e.g., profitability) based on the variation of the considered organizational factors (strategic alignment, strategic capabilities).This dissertation compares and integrates two conceptual (resource-based and contingency-based), and two analytical (linear and nonlinear) approaches.The model developed called MSM (Model of Strategic Management) was validated using the data gathered from 239 senior executives, the results showed that MSM captures the organization nonlinearity (complexity) and offers a good prediction capability of firm performance based on the MSM variables. Also, the results suggest that resource-based and contingency-based should be viewed as complementary instead of competing approaches.
198

Analyse d'images pour l'identification multi-organes d'espèces végétales / Image analysis for multi-organ of plant species identification

Bertrand, Sarah 10 December 2018 (has links)
Cette thèse s’inscrit dans le cadre de l’ANR ReVeRIES dont l’objectif est d’utiliser les technologies mobiles pour aider l’homme à mieux connaître son environnement et notamment les végétaux qui l’entourent. Plus précisément, le projet ReVeRIES s’appuie sur une application mobile, nommée Folia développée dans le cadre du projet ANR ReVeS, capable de reconnaître les espèces d’arbres et arbustes à partir de photos de leurs feuilles. Ce prototype se différencie des autres outils car il est capable de simuler le comportement du botaniste. Dans le contexte du projet ReVeRIES, nous nous proposons d’aller beaucoup plus loin en développant de nouveaux aspects : la reconnaissance multimodale d’espèces, l’apprentissage par le jeu et les sciences citoyennes. L’objet de cette thèse porte sur le premier de ces trois aspects, à savoir l’analyse d’images d’organes de végétaux en vue de l’identification.Plus précisément, nous considérons les principaux arbres et arbustes, endémiques ou exotiques, que l’on trouve en France métropolitaine. L’objectif de cette thèse est d’étendre l’algorithme de reconnaissance en prenant en compte d’autres organes que la feuille. Cette multi-modalité est en effet essentielle si nous souhaitons que l’utilisateur apprenne et s’entraîne aux différentes méthodes de reconnaissance, pour lesquelles les botanistes utilisent la variété des organes (i.e. les feuilles, les fleurs, les fruits et les écorces). La méthode utilisée par Folia pour la reconnaissance des feuilles étant dédiée, car simulant le botaniste, ne peut s’appliquer directement aux autres organes. Ainsi, de nouveaux verrous se posent, tant au niveau dutraitement des images qu’au niveau de la fusion de données.Une première partie de la thèse a été consacrée à la mise en place de méthodes de traitement d’images pour l’identification des espèces végétales. C’est l’identification des espèces d’arbres à partir d’images d’écorces qui a été étudiée en premier. Les descripteurs développés prennent en compte la structure de l’écorce en s’inspirant des critères utilisés par les botanistes. Les fruits et les fleurs ont nécessité une étape de segmentation avant leur description. Une nouvelle méthode de segmentation réalisable sur smartphone a été développée pour fonctionner sur la grande variabilité des fleurs et des fruits. Enfin, des descripteurs ont été extraits sur les fruits et les fleurs après l’étape de segmentation. Nous avons décidé de ne pas faire de séparation entre les fleurs et les fruits car nous avons montré qu’un utilisateur novice en botanique ne sait pas toujours faire la différence entre ces deux organes sur des arbres dits «d’ornement» (non fruitiers). Pour les fruits et les fleurs, la prédiction n’est pas seulement faite sur les espèces mais aussi sur les genres et les familles, groupes botaniques traduisant d’une similarité entre ces organes.Une deuxième partie de la thèse traite de la combinaison des descripteurs des différents organes que sont les feuilles, les écorces, les fruits et les fleurs. En plus des méthodes de combinaison basiques, nous proposons de prendre en compte la confusion entre les espèces, ainsi que les prédictions d’appartenance aux taxons botaniques supérieurs à l’espèce.Enfin, un chapitre d’ouverture est consacré au traitement de ces images par des réseaux de neurones à convolutions. En effet, le Deep-Learning est de plus en plus utilisé en traitement d’images, notamment appliqué aux organes végétaux. Nous proposons dans ce contexte de visualiser les filtres de convolution extrayant de l’information, afin de faire le lien entre lesinformations extraites par ces réseaux et les éléments botaniques. / This thesis is part of the ANR ReVeRIES, which aims to use mobile technologies to help people better understand their environment and in particular the plants that surround them. More precisely, the ReVeRIES project is based on a mobile application called Folia developed as part of the ANR ReVeS project and capable of recognising tree and shrub species based on photos of their leaves. This prototype differs from other tools in that it is able to simulate the behaviour of the botanist. In the context of the ReVeRIES project, we propose to go much further by developing new aspects: multimodal species recognition, learning through play and citizen science. The purpose of this thesis is to focus on the first of these three aspects, namelythe analysis of images of plant organs for identification.More precisely, we consider the main trees and shrubs, endemic or exotic, found in metropolitan France. The objective of this thesis is to extend the recognition algorithm by taking into account other organs in addition to the leaf. This multi-modality is indeed essential if we want the user to learn and practice the different methods of recognition for which botanists use the variety of organs (i.e. leaves, flowers, fruits and bark). The method used by Folia for leaf recognition being dedicated, because simulating the work of a botanist on the leaf, cannot be applied directly to other organs. Thus, new challenges are emerging, both in terms of image processing and data fusion.The first part of the thesis was devoted to the implementation of image processing methods for the identification of plant species. The identification of tree species from bark images was the first to be studied. The descriptors developed take into account the structure of the bark inspired from the criteria used by botanists. Fruits and flowers required a segmentation step before their description. A new segmentation method that can be used on smartphones has been developed to work in spite of the high variability of flowers and fruits. Finally, descriptors were extracted on fruits and flowers after the segmentation step. We decided not to separate flowers and fruits because we showed that a user new to botany does not always know the difference between these two organs on so-called "ornamental" trees (not fruit trees). For fruits and flowers, prediction is not only made on their species but also on their genus and family, botanical groups reflecting a similarity between these organs.The second part of the thesis deals with the combination of descriptors of the different organs: leaves, bark, fruits and flowers. In addition to basic combination methods, we propose to consider the confusion between species, as well as predictions of affiliations in botanical taxa higher than the species.Finally, an opening chapter is devoted to the processing of these images by convolutional neural networks. Indeed, Deep Learning is increasingly used in image processing, particularly for plant organs. In this context, we propose to visualize the learned convolution filters extracting information, in order to make the link between the information extracted by these networks and botanical elements.
199

Reconfigurable hardware acceleration of CNNs on FPGA-based smart cameras / Architectures reconfigurables pour l’accélération des CNNs. Applications sur cameras intelligentes à base de FPGAs

Abdelouahab, Kamel 11 December 2018 (has links)
Les Réseaux de Neurones Convolutifs profonds (CNNs) ont connu un large succès au cours de la dernière décennie, devenant un standard de la vision par ordinateur. Ce succès s’est fait au détriment d’un large coût de calcul, où le déploiement des CNNs reste une tâche ardue surtout sous des contraintes de temps réel.Afin de rendre ce déploiement possible, la littérature exploite le parallélisme important de ces algorithmes, ce qui nécessite l’utilisation de plate-formes matérielles dédiées. Dans les environnements soumis à des contraintes de consommations énergétiques, tels que les nœuds des caméras intelligentes, les cœurs de traitement à base de FPGAs sont reconnus comme des solutions de choix pour accélérer les applications de vision par ordinateur. Ceci est d’autant plus vrai pour les CNNs, où les traitements se font naturellement sur un flot de données, rendant les architectures matérielles à base de FPGA d’autant plus pertinentes. Dans ce contexte, cette thèse aborde les problématiques liées à l’implémentation des CNNs sur FPGAs. En particulier, ces travaux visent à améliorer l’efficacité des implantations grâce à deux principales stratégies d’optimisation; la première explore le modèle et les paramètres des CNNs, tandis que la seconde se concentre sur les architectures matérielles adaptées au FPGA. / Deep Convolutional Neural Networks (CNNs) have become a de-facto standard in computer vision. This success came at the price of a high computational cost, making the implementation of CNNs, under real-time constraints, a challenging task.To address this challenge, the literature exploits the large amount of parallelism exhibited by these algorithms, motivating the use of dedicated hardware platforms. In power-constrained environments, such as smart camera nodes, FPGA-based processing cores are known to be adequate solutions in accelerating computer vision applications. This is especially true for CNN workloads, which have a streaming nature that suits well to reconfigurable hardware architectures.In this context, the following thesis addresses the problems of CNN mapping on FPGAs. In Particular, it aims at improving the efficiency of CNN implementations through two main optimization strategies; The first one focuses on the CNN model and parameters while the second one considers the hardware architecture and the fine-grain building blocks.
200

Towards non-conventional face recognition : shadow removal and heterogeneous scenario / Vers la reconnaissance faciale non conventionnelle : suppression des ombres et scénario hétérogène

Zhang, Wuming 17 July 2017 (has links)
Ces dernières années, la biométrie a fait l’objet d’une grande attention en raison du besoin sans cesse croissant d’authentification d’identité, notamment pour sécuriser de plus en plus d’applications enlignes. Parmi divers traits biométriques, le visage offre des avantages compétitifs sur les autres, e.g., les empreintes digitales ou l’iris, car il est naturel, non-intrusif et facilement acceptable par les humains. Aujourd’hui, les techniques conventionnelles de reconnaissance faciale ont atteint une performance quasi-parfaite dans un environnement fortement contraint où la pose, l’éclairage, l’expression faciale et d’autres sources de variation sont sévèrement contrôlées. Cependant, ces approches sont souvent confinées aux domaines d’application limités parce que les environnements d’imagerie non-idéaux sont très fréquents dans les cas pratiques. Pour relever ces défis d’une manière adaptative, cette thèse porte sur le problème de reconnaissance faciale non contrôlée, dans lequel les images faciales présentent plus de variabilités sur les éclairages. Par ailleurs, une autre question essentielle vise à profiter des informations limitées de 3D pour collaborer avec les techniques basées sur 2D dans un système de reconnaissance faciale hétérogène. Pour traiter les diverses conditions d’éclairage, nous construisons explicitement un modèle de réflectance en caractérisant l’interaction entre la surface de la peau, les sources d’éclairage et le capteur de la caméra pour élaborer une explication de la couleur du visage. A partir de ce modèle basé sur la physique, une représentation robuste aux variations d’éclairage, à savoir Chromaticity Invariant Image (CII), est proposée pour la reconstruction des images faciales couleurs réalistes et sans ombre. De plus, ce processus de la suppression de l’ombre en niveaux de couleur peut être combiné avec les techniques existantes sur la normalisation d’éclairage en niveaux de gris pour améliorer davantage la performance de reconnaissance faciale. Les résultats expérimentaux sur les bases de données de test standard, CMU-PIE et FRGC Ver2.0, démontrent la capacité de généralisation et la robustesse de notre approche contre les variations d’éclairage. En outre, nous étudions l’usage efficace et créatif des données 3D pour la reconnaissance faciale hétérogène. Dans un tel scénario asymétrique, un enrôlement combiné est réalisé en 2D et 3D alors que les images de requête pour la reconnaissance sont toujours les images faciales en 2D. A cette fin, deux Réseaux de Neurones Convolutifs (Convolutional Neural Networks, CNN) sont construits. Le premier CNN est formé pour extraire les descripteurs discriminants d’images 2D/3D pour un appariement hétérogène. Le deuxième CNN combine une structure codeur-décodeur, à savoir U-Net, et Conditional Generative Adversarial Network (CGAN), pour reconstruire l’image faciale en profondeur à partir de son homologue dans l’espace 2D. Plus particulièrement, les images reconstruites en profondeur peuvent être également transmise au premier CNN pour la reconnaissance faciale en 3D, apportant un schéma de fusion qui est bénéfique pour la performance en reconnaissance. Notre approche a été évaluée sur la base de données 2D/3D de FRGC. Les expérimentations ont démontré que notre approche permet d’obtenir des résultats comparables à ceux de l’état de l’art et qu’une amélioration significative a pu être obtenue à l’aide du schéma de fusion. / In recent years, biometrics have received substantial attention due to the evergrowing need for automatic individual authentication. Among various physiological biometric traits, face offers unmatched advantages over the others, such as fingerprints and iris, because it is natural, non-intrusive and easily understandable by humans. Nowadays conventional face recognition techniques have attained quasi-perfect performance in a highly constrained environment wherein poses, illuminations, expressions and other sources of variations are strictly controlled. However these approaches are always confined to restricted application fields because non-ideal imaging environments are frequently encountered in practical cases. To adaptively address these challenges, this dissertation focuses on this unconstrained face recognition problem, where face images exhibit more variability in illumination. Moreover, another major question is how to leverage limited 3D shape information to jointly work with 2D based techniques in a heterogeneous face recognition system. To deal with the problem of varying illuminations, we explicitly build the underlying reflectance model which characterizes interactions between skin surface, lighting source and camera sensor, and elaborate the formation of face color. With this physics-based image formation model involved, an illumination-robust representation, namely Chromaticity Invariant Image (CII), is proposed which can subsequently help reconstruct shadow-free and photo-realistic color face images. Due to the fact that this shadow removal process is achieved in color space, this approach could thus be combined with existing gray-scale level lighting normalization techniques to further improve face recognition performance. The experimental results on two benchmark databases, CMU-PIE and FRGC Ver2.0, demonstrate the generalization ability and robustness of our approach to lighting variations. We further explore the effective and creative use of 3D data in heterogeneous face recognition. In such a scenario, 3D face is merely available in the gallery set and not in the probe set, which one would encounter in real-world applications. Two Convolutional Neural Networks (CNN) are constructed for this purpose. The first CNN is trained to extract discriminative features of 2D/3D face images for direct heterogeneous comparison, while the second CNN combines an encoder-decoder structure, namely U-Net, and Conditional Generative Adversarial Network (CGAN) to reconstruct depth face image from its counterpart in 2D. Specifically, the recovered depth face images can be fed to the first CNN as well for 3D face recognition, leading to a fusion scheme which achieves gains in recognition performance. We have evaluated our approach extensively on the challenging FRGC 2D/3D benchmark database. The proposed method compares favorably to the state-of-the-art and show significant improvement with the fusion scheme.

Page generated in 0.1028 seconds