Global ETD Search

211	Processing and learning deep neural networks on chip / Traitement et apprentissage des réseaux de neurones profonds sur puce Boukli Hacene, Ghouthi 03 October 2019 (has links) Dans le domaine de l'apprentissage machine, les réseaux de neurones profonds sont devenus la référence incontournable pour un très grand nombre de problèmes. Ces systèmes sont constitués par un assemblage de couches, lesquelles réalisent des traitements élémentaires, paramétrés par un grand nombre de variables. À l'aide de données disponibles pendant une phase d'apprentissage, ces variables sont ajustées de façon à ce que le réseau de neurones réponde à la tâche donnée. Il est ensuite possible de traiter de nouvelles données. Si ces méthodes atteignent les performances à l'état de l'art dans bien des cas, ils reposent pour cela sur un très grand nombre de paramètres, et donc des complexités en mémoire et en calculs importantes. De fait, ils sont souvent peu adaptés à l'implémentation matérielle sur des systèmes contraints en ressources. Par ailleurs, l'apprentissage requiert de repasser sur les données d'entraînement plusieurs fois, et s'adapte donc difficilement à des scénarios où de nouvelles informations apparaissent au fil de l'eau. Dans cette thèse, nous nous intéressons dans un premier temps aux méthodes permettant de réduire l'impact en calculs et en mémoire des réseaux de neurones profonds. Nous proposons dans un second temps des techniques permettant d'effectuer l'apprentissage au fil de l'eau, dans un contexte embarqué. / In the field of machine learning, deep neural networks have become the inescapablereference for a very large number of problems. These systems are made of an assembly of layers,performing elementary operations, and using a large number of tunable variables. Using dataavailable during a learning phase, these variables are adjusted such that the neural networkaddresses the given task. It is then possible to process new data.To achieve state-of-the-art performance, in many cases these methods rely on a very largenumber of parameters, and thus large memory and computational costs. Therefore, they are oftennot very adapted to a hardware implementation on constrained resources systems. Moreover, thelearning process requires to reuse the training data several times, making it difficult to adapt toscenarios where new information appears on the fly.In this thesis, we are first interested in methods allowing to reduce the impact of computations andmemory required by deep neural networks. Secondly, we propose techniques for learning on thefly, in an embedded context. Apprentissage profond Compression des réseaux de neurones Vision par ordinateur Systèmes embarqués Deep learning Compression of neural networks Computer vision Embedded systems 004
212	Modélisation et apprentissage de relations spatiales pour la reconnaissance et l’interprétation d’images / Modeling and learning spatial relations for image recognition and understanding Clément, Michaël 26 September 2017 (has links) Ces dernières années, la quantité de données visuelles produites par divers types de capteurs est en augmentation permanente. L'interprétation et l'indexation automatique de telles données constituent des défis importants pour les domaines liés à la reconnaissance de formes et la vision par ordinateur. Dans ce contexte, la position relative des différents objets d'intérêt composant les images représente une information particulièrement importante pour interpréter leur contenu. Les relations spatiales sont en effet porteuses d'une sémantique riche, qui est fortement liée à la perception humaine. Les travaux de recherche présentés dans cette thèse proposent ainsi d'explorer différentes approches génériques de description de l'information spatiale, en vue de les intégrer dans des systèmes de reconnaissance et d'interprétation d'images de haut niveau. Tout d'abord, nous présentons une approche pour la description de configurations spatiales complexes, où les objets peuvent être imbriqués les uns dans les autres. Cette notion est formalisée par deux nouvelles relations spatiales, nommées enlacement et entrelacement. Nous proposons un modèle qui permet de décrire et de visualiser ces configurations avec une granularité directionnelle. Ce modèle est validé expérimentalement pour des applications en imagerie biomédicale, en télédétection et en analyse d'images de documents. Ensuite, nous présentons un cadre d'apprentissage de relations spatiales composites à partir d'ensembles d'images. Inspirée des approches par sacs de caractéristiques visuelles, cette stratégie permet de construire des vocabulaires de configurations spatiales apparaissant dans les images, à différentes échelles. Ces caractéristiques structurelles peuvent notamment être combinées avec des descriptions locales, conduisant ainsi à des représentations hybrides et complémentaires. Les résultats expérimentaux obtenus sur différentes bases d'images structurées permettent d'illustrer l'intérêt de cette approche pour la reconnaissance et la classification d'images. / In recent years, the amount of visual data produced by various types of sensors has been continuously increasing. The automatic interpretation and indexation of such data constitute an important challenge in the fields of pattern recognition and computer vision. In this context, the relative position of the different objects of interest depicted in images represents particularly important information for the interpretation of their content. Spatial relations indeed carry rich semantics that are strongly tied with human perception. The research work presented in this thesis thus proposes to explore different generic approaches to the description of spatial information, in order to integrate them in high-level image recognition and understanding systems. First, we present an approach for the description of complex spatial configurations, where objects can be imbricated in each other. This notion is formalized by two novel spatial relations, namely enlacement and interlacement. We propose a model to describe and to visualize these configurations with directional granularity. This model is experimentally validated for applications in biomedical imaging, remote sensing and document image analysis. Then, we present a framework for learning composite spatial relations from image datasets. Inspired by bags of visual features approaches, this strategy allows to build vocabularies of spatial configurations occurring across images, at different scales. These structural features can notably be combined with local descriptions, leading to hybrid and complementary representations. Experimental results obtained for different datasets of structured images highlight the interest of this approach for image recognition and classification tasks. Reconnaissance de formes Vision par ordinateur Relations spatiales Descripteurs de position relative Pattern recognition Computer vision Spatial relations Relative position descriptors 006.6072
213	Learning Image-to-Surface Correspondence / Apprentissage de Correspondances Image-Surface Guler, Riza Alp 08 March 2019 (has links) Cette thèse se concentre sur le développement demodèles de représentation dense d’objets 3-D àpartir d’images. L’objectif de ce travail estd’améliorer les modèles surfaciques 3-D fournispar les systèmes de vision par ordinateur, enutilisant de nouveaux éléments tirés des images,plutôt que les annotations habituellementutilisées, ou que les modèles basés sur unedivision de l’objet en différents parties.Des réseaux neuronaux convolutifs (CNNs) sontutilisés pour associer de manière dense les pixelsd’une image avec les coordonnées 3-D d’unmodèle de l’objet considéré. Cette méthodepermet de résoudre très simplement unemultitude de tâches de vision par ordinateur,telles que le transfert d’apparence, la localisationde repères ou la segmentation sémantique, enutilisant la correspondance entre une solution surle modèle surfacique 3-D et l’image 2-Dconsidérée. On démontre qu’une correspondancegéométrique entre un modèle 3-D et une imagepeut être établie pour le visage et le corpshumains. / This thesis addresses the task of establishing adense correspondence between an image and a 3Dobject template. We aim to bring vision systemscloser to a surface-based 3D understanding ofobjects by extracting information that iscomplementary to existing landmark- or partbasedrepresentations.We use convolutional neural networks (CNNs)to densely associate pixels with intrinsiccoordinates of 3D object templates. Through theestablished correspondences we effortlesslysolve a multitude of visual tasks, such asappearance transfer, landmark localization andsemantic segmentation by transferring solutionsfrom the template to an image. We show thatgeometric correspondence between an imageand a 3D model can be effectively inferred forboth the human face and the human body. Vision par ordinateur Apprentissage automatique Correspondances Dense Correspondances Image-Surface Computer Vision Machine Learning Dense Correspondence Image-To-Surface Correspondence
214	Suivi des piétons par fusion d'images infrarouges et visibles en scènes intérieures Grégoire, Vincent 11 April 2018 (has links) Ce projet a pour objectif d'étudier les aspects relatifs au suivi de piétons dans le projet MONNET. Pour ce faire, nous adoptons une approche hybride où le suivi est effectué indépendamment pour les images des caméras infrarouge et visible avant d'être combiné. Le suivi se fait à 3 niveaux : au niveau des blobs, au niveau des objets (groupe de blobs) et au niveau des objet fusionnés (détectés dans les deux images). De plus, une méthode robuste de gestion des occultations adaptée à l'environnement intérieur est utilisée pour assurer un suivi adéquat en présence de plusieurs piétons. TK 7.5 UL 2006 G819 Vision par ordinateur Surveillance électronique Caméras de surveillance Imagerie infrarouge Fusion multicapteurs
215	Estimation robuste et dynamique de la pose de la tête d'un conducteur en situation de simulation de conduite automobile par vision artificielle Prel, Florent 16 April 2018 (has links) La conduite automobile est une activité importante pour une grande proportion de la population. Des études épidémiologiques ont démontré que la conduite dans des contextes difficiles, comme franchir une intersection, céder le passage ou se joindre au trafic, pose un défi aux conducteurs âgés. Ces tâches cognitives impliquent toutes des comportements céphalo-oculaires complexes de même que des actions de recherche visuelle. L'objet de cette maitrise effectuée dans le cadre du réseau d'excellence Auto21, est de développer un outil permettant d'analyser le comportement céphalo-occulaire du conducteur en temps réel dans un environnement sécuritaire. Le système exploite la vision artificielle pour estimer en tout temps la pose (position et orientation) de la tête du sujet dans un simulateur de conduite automobile. Le conducteur dans le simulateur observe la route grâce à un écran de réalité virtuelle. Ce dernier est filmé par 3 caméras calibrées et synchronisées à 30 images par secondes. Le système calcule la pose de sa tête en temps réel en utilisant une méthode basée sur une détection de blobs combinée à une validation par matching stéréo. Pour estimer la pose de la tête, le système recherche la position des yeux et du nez dans chaque image et reconstruit un plan à partir de ces trois points par triangulation. Ce plan permet d'estimer la pose de la tête du conducteur. Cette maitrise a débuté en septembre 2007 et s'est terminée en mai 2009. Elle vise à poursuivre le travail qui avait été réalisé par Frederic Ntawiniga sur le même sujet. Ce travail a consisté en une étude des méthodes existantes pour détecter et suivre un visage en temps réel. Elle s'est poursuivie par une optimisation des conditions d'acquisition des images dans le système afin de faciliter les traitements subséquents, et s'est terminée par l'implémentation d'un nouvel algorithme visant à améliorer la précision et la robustesse de l'estimation de la pose de la tête du conducteur. TK 7.5 UL 2009 P924 Tête -- Mouvements -- Informatique Œil -- Mouvements -- Informatique Vision par ordinateur
216	Gestion des occultations en réalité augmentée : application au castelet électronique Fortin, Pierre-Alexandre 11 April 2018 (has links) La réalité augmentée (R.A.) est un domaine de recherche qui vise la combinaison d'environnements réels et virtuels en temps réel de façon à ce que ceux-ci semblent co-exister. De façon à obtenir un rendu réaliste, les interactions entre les deux environnements doivent être modélisées et gérées. Nous nous sommes intéressés à la gestion des occultations des objets virtuels par les objets réels. Cette gestion nécessite une acquisition d'informations 3D sur la scène réelle. Le projet du castelet électronique fournit un contexte applicatif approprié à cette étude. Deux approches d'acquisition sont présentées et analysées : une approche monoscopique basée sur une pré-modélisation approximative des objets réels et une approche stéréoscopique effectuant l'acquisition d'informations 3D en temps réel selon le point de vue TK 7.5 UL 2006 F742 Réalité augmentée Affichage tridimensionnel Vision par ordinateur Vues stéréoscopiques Temps réel (Informatique)
217	Méthode unifiée de suivi et d'asservissement visuels basée sur l'information mutuelle Dame, A. 23 December 2010 (has links) (PDF) Dans cette thèse, nous traitons les problèmes d'asservissement et de suivi visuel, qui sont essentiels dans le domaine de la vision robotique. Leur robustesse ainsi que leur précision deviennent des enjeux majeurs. Les techniques classiques sont principalement basées sur l'observation de primitives géométriques dans l'image. Ces primitives ne prennent néanmoins pas compte de toute l'information présente dans les images. C'est pour cette raison que de nouvelles approches, dites approches directes, ont vu le jour. Un inconvénient des méthodes directes actuelles vient du fait qu'elles sont centrées sur l'observation des intensités lumineuses des images qui sont fortement sensibles aux changements d'apparence qui peuvent survenir, par exemple, lors de modification de l'illumination ou occultation. Ceci a pour effet de rendre l'application de ces techniques limitée à des conditions nominales d'utilisation. Pour régler ce problème, nous proposons une solution qui n'est plus directement basée sur les intensités lumineuses mais sur l'information contenue dans les images. Nous montrons que la maximisation de cette information permet de créer une solution unifiée pour résoudre des tâches de suivi et d'asservissement visuel. De nombreuses expériences de suivi valident la robustesse et la précision de la technique proposée dans des applications variées en passant par le suivi de visages, la localisation, la construction de mosaïques et la réalité augmentée. La méthode d'asservissement visuel reposant sur l'information mutuelle est également validée à l'aide d'une plateforme contenant un robot cartésien à six degrés de liberté ainsi qu'un véhicule autonome non-holonome. Suivi visuel asservissement visuel information mutuelle entropie vision par ordinateur recalage d'images
218	Vision "fruste" revisitée : contribution à la vision dynamique des systèmes Bouchafa, Samia 22 November 2011 (has links) (PDF) Les travaux présentés dans le cadre de cette habilitation à diriger des recherches portent essentiellement sur l'analyse de scènes à partir de caméras mobiles avec pour application immédiate l'apport d'une vision par ordinateur efficace dans les systèmes d'aide à la conduite. L'idée initiale est que l'autonomie d'un système implique, ne serait-ce que pour raisons énergétiques, une faible variété d'opérateurs de perception, dont les algorithmes de vision. Les "primitives" extraites des images seront intrinsèquement robustes et stables vis-à-vis de perturbations variées. Elles doivent de plus anticiper, voire faciliter, un processus de décision à divers niveaux voulu systématique. Les lignes de niveaux répondent parfaitement à ces contraintes : on vérifie sans peine leur robustesse et leur abondance dans une image suggère et alimente un processus de décision cumulatif (manipulant un objet unique : l'histogramme). Nos efforts se sont alors concentrés sur deux aspects : 1) le premier concerne la définition d'une méthodologie cohérente dans laquelle un processus primaire d'extraction de lignes de niveaux est enrichi afin de permettre la construction de primitives plus complexes guidée par le modèle de déformation de l'image. Le nombre de composants donc la forme des primitives est fonction directe du nombre de variables caractérisant le mouvement (déformation) à déterminer. 2) Le second intéresse une méthode de décision cumulative unifiée permettant de traiter des thèmes applicatifs de complexité croissante. Nos travaux se déclinent alors en trois niveaux de cumul, chacun associé de manière réconfortante à un stade de l'analyse d'images. 1) Au plus bas niveau, nous retenons l'information binaire apparition/disparition d'une primitive dans le temps. La complexité se situe strictement sur l'axe temporel. Le cumul dans le temps nous permet ainsi de reconstruire la scène fixe et donc par soustraction du fond, l'image des objets mobiles. Les espaces de vote sont 1D et multiples, affectés à chaque primitive. 2) Le consensus se voudrait spatio-temporel au deuxième niveau pour identifier le mouvement. Il restera d'abord spatial en pratique pour raisons de complexité : des primitives voisines dans l'image s'associent pour former des "pré-objets" contraints exhibant ainsi des invariants exploitables : leur mouvement à instancier doit être cohérent. Le cumul s'opère donc cette fois selon un modèle de mouvement de la caméra. Les primitives votent pour la transformation globale qui les aurait conduites dans leur nouvelle position. L'espace de vote est commun à toutes les primitives et multidimensionnel (une dimension par paramètre de mouvement). 3) Au niveau le plus élevé, la sémantique accrue implique des hypothèses à la fois sur les primitives et sur l'origine du mouvement. Les primitives sont supposées appartenir à un même objet 3D (ex. un plan) présentant, pour un modèle de déplacement du capteur donné, une propriété caractéristique commune des vecteurs vitesse qui permet de l'extraire. Notamment, leurs amplitudes sont constantes le long de courbes image prédéfinies par leurs équations analytiques. Les primitives ne votent plus selon leur structure mais selon leur vitesse. Dans le cas d'une scène 3D approximée par un ensemble de plans et d'une caméra à mouvement majoritairement longitudinal, l'espace de vote (c-velocité) présente 2 dimensions : une pour la vitesse, l'autre pour le paramètre des courbes iso-vitesse. Chaque vitesse vote sur sa courbe. Les surfaces 3D émergent dans cet espace de vote comme courbes 2D connues (droites ou paraboles). Les thèmes applicatifs traités pour illustrer notre démarche sont de complexité croissante : détection et estimation du mouvement en caméra fixe, recalage d'images en caméra mobile (type de mouvement connu et profondeur des objets contrainte) puis estimation générale du mouvement propre et de la structure de la scène en caméras embarquées sur un véhicule mobile. Les résultats obtenus montrent comment un choix de primitives robustes associé à un processus de décision cumulatif permet la réutilisation des opérateurs dans tous les secteurs. Les systèmes proposés ont la particularité d'être compacts et cohérents, propriété recherchée dans les applications considérées. Vision par ordinateur analyse du mouvement 2D et 3D ego-mouvement extraction de primitives lignes de niveaux
219	Stabilité dynamique des véhicules légers tout-terrain. Nouvelles solutions. Application aux véhicules légers de type quad Bouton, Nicolas 25 November 2009 (has links) (PDF) La problématique de cette thèse réside dans l'étude et le maintien de la stabilité dynamique latérale des Véhicules Légers Tout Terrain (VLTT) évoluant en milieu naturel. Elle s'attache plus particulièrement au développement d'indicateurs de risque pour l'aide à la conduite ainsi qu'au développement de systèmes de sécurité actifs dédiés aux VLTT, avec comme cadre expérimental privilégié, l'application à la stabilité latérale des véhicules quadricyles à moteur communément appelés quads. Cette thèse propose des algorithmes de calcul d'un indicateur de risque et de commande globaux, exploitant trois domaines connexes de la robotique : la modélisation, l'observation et la commande. Un modèle dynamique, intégrant les glissements et le comportement du pilote, est d'abord proposé afin de caractériser le renversement latéral de l'engin au travers du calcul et de l'anticipation de Transfert de Charge Latéral (TCL). Des observateurs capables d'estimer en temps réel l'adhérence sont utilisés pour alimenter ce modèle. Enfin une loi commande prédictive permet d'assurer la stabilité latérale de l'engin, validée par de nombreuses expérimentations Quads Véhicules tout terrain Constructions -- Stabilité Vision artificielle (robotique) Vision par ordinateur
220	Suivi et catégorisation multi-objets par vision artificielle. Applications au suivi de personnes et de véhicules Bardet, François 30 October 2009 (has links) (PDF) Cette thèse présente une méthode de suivi et de classification conjoints en temps réel d'un nombre variable d'objets tels que des piétons et/ou des véhicules, sous conditions d'illumination variables au cours du temps. La méthode retenue entre dans le champ du suivi Multi-Objets par Filtre Particulaire, dont la clé de voûte est l'échantillonnage des particules. Nous examinons deux familles de filtres particulaires : les Filtres Particulaires Partitionnés, et les Filtres Particulaires par Chaîne de Markov (FP MCMC). Nous comparons ensuite leurs performances sur des données de synthèse. Les résultats obtenus montrent la supériorité du Filtre Particulaire MCMC. Un système de suivi et classification conjoints en temps réel d'un nombre variable d'ojets tels que des piétons et/ ou des véhicules, sous illumination variable, est ensuite présenté. La mesure est délivrée par une ou plusieurs caméras statiques. Nous avons délibérément choisi d'alimenter le filtre avec une observation pauvre, reposant uniquement sur une segmentation binaire avant-plan / arrière-plan basée sur un modèle de l'arrière-plan mis à jour en ligne à chaque image. Pour résister aux variations d'illumination, les ombres sont modélisées et le filtre est étendu afin de suivre conjointement le soleil et les objets. Les résultats de suivi et classification en temps réel sont présentés et discutés sur des séquences réelles et sur des séquences de synthèse, impliquant plusieurs catégories d'utilisateurs tels que des piétons, des voitures, des camionettes et des poids lourds. Vision artificielle (robotique) Vision par ordinateur Piétons Véhicules automobiles Markov Processus de Reconnaissance des formes (informatique) Analyse de scènes (informatique)

Search results