Global ETD Search

101	Algorithmes et analyses perceptuelles pour la navigation interactive basé image Chaurasia, Gaurav 18 February 2014 (has links) (PDF) Nous présentons une approche de rendu à base d'images qui permet, à partir de photos, de naviguer librement et générer des points de vue quelconques dans des scènes urbaines. Les approches précédentes se basent sur un modèle géométrique complet et précis de la scène. La qualité des résultats produits par ces méthodes se dégrade lorsque la géométrie est approximative. Dans cette thèse, nous proposons une approximation basée sur l'image pour compenser le manque de précision de la géométrie. Dans une première approche, nous utilisons une déformation discontinue des photos guidée par des cartes de profondeur quasi-denses, ce qui produit de meilleurs résultats que le plaquage de texture utilisé par les méthodes précédentes, en particulier lorsque la géométrie est imprécise. Cette approche nécessite quelques indications utilisateur pour identifier les bordures d'occlusion dans les photos. Nous proposons ensuite une méthode entièrement automatique basée sur la même idée de déformation d'image. Cette méthode permet de traiter des scènes plus complexes avec un plus grand nombre de photos. Nous évitons l'intervention utilisateur en sur-segmentant les images d'entrées pour former des superpixels. Nous déformons chaque superpixel indépendamment en utilisant l'information de profondeur clairsemée. Nous proposons également un algorithme de synthèse de profondeur approximative pour traiter les zones de l'image où la géométrie n'est pas disponible. Nous comparons nos résultats à de nombreuses approches récentes et montrons que notre méthode permet une navigation virtuelle libre. Nous avons aussi étudié les défauts du rendu à base d'images d'un point de vue perceptif. Dans une première études controlées, nous avons évalué la perception des distorsions de perspective produites lorsqu'une seule image est projetée sur une géométrie planaire. Les données obtenues lors de cette étude nous ont permis de développer un modèle quantitatif permettant de prédire les distorsions perçues en fonction des paramètres de capture et de visualisation. Dans une autre étude nous comparons les défauts visuels produits par des transitions d'images douces ou abruptes. Nous avons déduit de cette étude des conseils pour choisir le meilleur compromis entre les deux types de transition. Ces deux études ont motivé des choix de conception de nos algorithmes de rendu à base d'images. Enfin, nous démontrons l'utilisation de notre approche pour la thérapie cognitive, ce qui représente la première application de réalité virtuelle à base d'images. Notre méthode permet de réduire considérablement le coût de modélisation 3D d'une scène de réalité virtuelle tout en produisant des visites virtuelles très réalistes. [INFO:INFO_GR] Computer Science/Graphics Vision par ordinateur infographie rendu à base d'images reconstruction 3D perception réalité virtuelle
102	Apprentissage de Représentations Visuelles Profondes Goh, Hanlin 12 July 2013 (has links) (PDF) Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important. apprentissage profond classification d'images représentations visuelles hierarchiques
103	Processus ponctuels et algorithmes de coupure minimal de graphe appliqués à l'extraction d'objets 2D et 3D Gamal Eldin, Ahmed 24 October 2011 (has links) (PDF) L'objectif de cette thèse est de développer une nouvelle approche de détection d'objets 3D à partir d'une image 2D, prenant en compte les occultations et les phénomènes de perspective. Cette approche est fondée sur la théorie des processus ponctuels marqués, qui a fait ses preuves dans la solution de plusieurs problèmes en imagerie haute résolution. Le travail de la thèse est structuré en deux parties. <br> En première partie : nous proposons une nouvelle méthode probabiliste pour gérer les occultations et les effets de perspective. Le modèle proposé est fondé sur la simulation d'une scène 3D utilisant OpenGL sur une carte graphique (GPU). C'est une méthode orientée objet, intégrée dans le cadre d'un processus ponctuel marqué. Nous l'appliquons pour l'estimation de la taille d'une colonie de manchots, là où nous modélisons une colonie de manchots comme un nombre inconnu d'objets 3D. L'idée principale de l'approche proposée consiste à échantillonner certaines configurations candidat composé d'objets 3D s'appuyant sur le plan réel. Une densité de Gibbs est définie sur l'espace des configurations, qui prend en compte des informations a priori et sur les données. Pour une configuration proposée, la scène est projetée sur le plan image, et les configurations sont modifiées jusqu'à convergence. Pour évaluer une configuration proposée, nous mesurons la similarité entre l'image projetée de la configuration proposée et l'image réelle, définissant ainsi le terme d'attache aux données et l'a priori pénalisant les recouvrements entre objets. Nous avons introduit des modifications dans l'algorithme d'optimisation pour prendre en compte les nouvelles dépendances qui existent dans notre modèle 3D. <br> En deuxième partie : nous proposons une nouvelle méthode d'optimisation appelée "Naissances et Coupe multiples" ("Multiple Births and Cut" (MBC) en Anglais). Cette méthode combine à la fois la nouvelle méthode d'optimisation "Naissance et Mort multiples" (MBD) et les "Graph-Cut". Les méthodes MBC et MBD sont utilisées pour l'optimisation d'un processus ponctuel marqué. Nous avons comparé les algorithmes MBC et MBD montrant que les principaux avantages de notre algorithme nouvellement proposé sont la réduction du nombre de paramètres, la vitesse de convergence et de la qualité des résultats obtenus. Nous avons validé notre algorithme sur le problème de dénombrement des flamants roses dans une colonie. [STAT:AP] Statistics/Applications Détection d'objet multiple Naissances et Coupe multiples coupe minimale de graphe Naissance et mort multiple processus ponctuels marqués géométrie stochastique colonie de manchots colonie de flamant
104	Stéréophotométrie non-calibrée de surfaces non-Lambertiennes. Application à la reconstruction de surface de colonies microbiennes Kyrgyzova, Khrystyna 22 July 2014 (has links) (PDF) La thèse est dédiée au problème de la stéréophotométrie non-Lambertienne sans connaissance a priori sur les conditions d'illumination et son application aux images de boîte de Pétri. Pour obtenir une bonne reconstruction de surfaces non-Lambertiennes, il est proposé de traiter une séquence d'entrée en deux étapes: premièrement il faut supprimer les effets spéculaires et obtenir ainsi des images de surface 'pseudo-Lambertienne'. Ensuite dans une deuxième étape à partir de ces images une reconstruction stéréophotométrique Lambertienne sans aucune information préalable sur les directions d'illumination est effectuée. Dans ce travail nous proposons deux méthodes originales respectivement pour la suppression de spécularités et la reconstruction de surface sans information a priori. Les méthodes proposées sont appliquées pour la caractérisation des colonies microbiennes.La spécularités est un effet optique lié à la nature physique complexe des objets. Il est utile pour la perception humaine des objets 3D mais il gêne le processus de traitement automatique d'images. Pour pouvoir appliquer le modèle Lambertien à la stéréophotométrie, les spécularités doivent être supprimées des images d'entrée. Nous proposons donc une méthode originale pour la correction des zones spéculaires adaptée pour une reconstruction ultérieure. L'algorithme proposé est capable de détecter les spécularités comme des valeurs anormalement élevées d'intensité dans une image de la séquence d'entrée, et de les corriger en utilisant les informations des autres images de la séquence et une fonction de correction continue. Cette méthode permet de faire la suppression des spécularités en préservant toutes les autres particularités de distribution de lumière qui sont importantes pour la reconstruction de surface.Après nous proposons une technique de reconstruction stéréophotométrique de surface Lambertienne sans connaissance a priori sur l'illumination. Le modèle mis en œuvre consiste en quatre composantes, deux composantes (albédo et normales) permettent de d'écrire des propriétés de surface et deux autres (intensités des sources de lumière et leurs directions) décrivent illumination. L'algorithme proposé de reconstruction utilise le principe de l'optimisation alternée. Chaque composante du modèle est trouvée itérativement en fixant toutes les variables sauf une et en appliquant des contraintes de structures, valeurs et qualité pour la fonction d'optimisation. Un schéma original de résolution permet de séparer les différents types d'information inclus dans les images d'entrée. Grâce à cette factorisation de matrices, la reconstruction de surface est faite sans connaissance préalable sur les directions de lumière et les propriétés de l'objet reconstruit. L'applicabilité de l'algorithme est prouvée pour des donnés artificielles et des images de bases publiques pour lesquelles la vérité terrain sur les surfaces des objets est disponible.La dernière partie de la thèse est dédiée à l'application de la chaine complète proposée pour le traitement d'images de boîte de Pétri. Ces images sont obtenues en utilisant les sources de lumières complexes qui sont supposées être inconnues pour le processus de reconstruction. L'évaluation de surfaces de colonies microbiennes s'est révélée être une étape importante pour l'analyse visuelle et automatique des colonies. La chaine proposée est efficace pour ce type de données et permet de compléter les informations d'images par de la surface 3D. [SDV:BIO] Life Sciences/Biotechnology Stéréophotométrie Modèles de réflexion non-Lambertiens Suppression de spécularités Optimisation alternée sous contraintes
105	Indexation de la Vidéo Portée : Application à l'Étude Épidémiologique des Maladies Liées à l'Âge Karaman, Svebor 12 December 2011 (has links) (PDF) Le travail de recherche de cette thèse de doctorat s'inscrit dans le cadre du suivi médical des patients atteints de démences liées à l'âge à l'aide des caméras videos portées par les patients. L'idée est de fournir aux médecins un nouvel outil pour le diagnostic précoce de démences liées à l'âge telles que la maladie d'Alzheimer. Plus précisément, les Activités Instrumentales du Quotidien (IADL : Instrumental Activities of Daily Living en anglais) doivent être indexées automatiquement dans les vidéos enregistrées par un dispositif d'enregistrement portable. Ces vidéos présentent des caractéristiques spécifiques comme de forts mouvements ou de forts changements de luminosité. De plus, la tâche de reconnaissance visée est d'un très haut niveau sémantique. Dans ce contexte difficile, la première étape d'analyse est la définition d'un équivalent à la notion de " plan " dans les contenus vidéos édités. Nous avons ainsi développé une méthode pour le partitionnement d'une vidéo tournée en continu en termes de " points de vue " à partir du mouvement apparent. Pour la reconnaissance des IADL, nous avons développé une solution selon le formalisme des Modèles de Markov Cachés (MMC). Un MMC hiérarchique à deux niveaux a été introduit, modélisant les activités sémantiques ou des états intermédiaires. Un ensemble complexe de descripteurs (dynamiques, statiques, de bas niveau et de niveau intermédiaire) a été exploité et les espaces de description joints optimaux ont été identifiés expérimentalement. Dans le cadre de descripteurs de niveau intermédiaire pour la reconnaissance d'activités nous nous sommes particulièrement intéressés aux objets sémantiques que la personne manipule dans le champ de la caméra. Nous avons proposé un nouveau concept pour la description d'objets ou d'images faisant usage des descripteurs locaux (SURF) et de la structure topologique sous-jacente de graphes locaux. Une approche imbriquée pour la construction des graphes où la même scène peut être décrite par plusieurs niveaux de graphes avec un nombre de nœuds croissant a été introduite. Nous construisons ces graphes par une triangulation de Delaunay sur des points SURF, préservant ainsi les bonnes propriétés des descripteurs locaux c'est-à-dire leur invariance vis-à-vis de transformations affines dans le plan image telles qu'une rotation, une translation ou un changement d'échelle. Nous utilisons ces graphes descripteurs dans le cadre de l'approche Sacs-de-Mots-Visuels. Le problème de définition d'une distance, ou dissimilarité, entre les graphes pour la classification non supervisée et la reconnaissance est nécessairement soulevé. Nous proposons une mesure de dissimilarité par le Noyau Dépendant du Contexte (Context-Dependent Kernel : CDK) proposé par H. Sahbi et montrons sa relation avec la norme classique L2 lors de la comparaison de graphes triviaux (les points SURF). Pour la reconnaissance d'activités par MMC, les expériences sont conduites sur le premier corpus au monde de vidéos avec caméra portée destiné à l'observation des d'IADL et sur des bases de données publiques comme SIVAL et Caltech-101 pour la reconnaissance d'objets. Indexation vidéo Vidéo portée Modèles de Markov Cachés MMC Activités Instrumentales du Quotidien IADL Mots-Graphes Graph Words Triangulation de Delaunay Sacs-de-Mots-Visuels
106	Apprentissage machine pour la détection des objets Hussain, Sibt Ul 07 December 2011 (has links) (PDF) Le but de cette thèse est de développer des méthodes pratiques plus performantes pour la détection d'instances de classes d'objets de la vie quotidienne dans les images. Nous présentons une famille de détecteurs qui incorporent trois types d'indices visuelles performantes - histogrammes de gradients orientés (Histograms of Oriented Gradients, HOG), motifs locaux binaires (Local Binary Patterns, LBP) et motifs locaux ternaires (Local Ternary Patterns, LTP) - dans des méthodes de discrimination efficaces de type machine à vecteur de support latent (Latent SVM), sous deux régimes de réduction de dimension - moindres carrées partielles (Partial Least Squares, PLS) et sélection de variables par élagage de poids SVM (SVM Weight Truncation). Sur plusieurs jeux de données importantes, notamment ceux du PASCAL VOC2006 et VOC2007, INRIA Person et ETH Zurich, nous démontrons que nos méthodes améliorent l'état de l'art du domaine. Nos contributions principales sont : Nous étudions l'indice visuelle LTP pour la détection d'objets. Nous démontrons que sa performance est globalement mieux que celle des indices bien établies HOG et LBP parce qu'elle permet d'encoder à la fois la texture locale de l'objet et sa forme globale, tout en étant résistante aux variations d'éclairage. Grâce à ces atouts, LTP fonctionne aussi bien pour les classes qui sont caractérisées principalement par leurs structures que pour celles qui sont caractérisées par leurs textures. En plus, nous démontrons que les indices HOG, LBP et LTP sont bien complémentaires, de sorte qu'un jeux d'indices étendu qui intègre tous les trois améliore encore la performance. Les jeux d'indices visuelles performantes étant de dimension assez élevée, nous proposons deux méthodes de réduction de dimension afin d'améliorer leur vitesse et réduire leur utilisation de mémoire. La première, basée sur la projection moindres carrés partielles, diminue significativement le temps de formation des détecteurs linéaires, sans réduction de précision ni perte de vitesse d'exécution. La seconde, fondée sur la sélection de variables par l'élagage des poids du SVM, nous permet de réduire le nombre d'indices actives par un ordre de grandeur avec une réduction minime, voire même une petite augmentation, de la précision du détecteur. Malgré sa simplicité, cette méthode de sélection de variables surpasse toutes les autres approches que nous avons mis à l'essai. HOG) LTP) PLS)
107	Détection de changements entre vidéos aériennes avec trajectoires arbitraires Bourdis, Nicolas 24 May 2013 (has links) (PDF) Les activités basées sur l'exploitation de données vidéo se sont développées de manière fulgurante ces dernières années. En effet, non seulement avons-nous assisté à une démocratisation de certaines de ces activités, telles que la vidéo-surveillance, mais également à une diversification importante des applications opérationnelles (e.g. suivi de ressources naturelles, reconnaissance aérienne et bientôt satellite). Cependant, le volume de données vidéo généré est aujourd'hui astronomique et l'efficacité des activités correspondantes est limitée par le coût et la durée nécessaire à l'interprétation humaine de ces données vidéo. Par conséquent, l'analyse automatique de flux vidéos est devenue une problématique cruciale pour de nombreuses applications. Les travaux réalisés dans le cadre de cette thèse s'inscrivent dans ce contexte, et se concentrent plus spécifiquement sur l'analyse automatique de vidéos aériennes. En effet, outre le problème du volume de données, ce type de vidéos est particulièrement difficile à exploiter pour un analyste image, du fait des variations de points de vue, de l'étroitesse des champs de vue, de la mauvaise qualité des images, etc. Pour aborder ces difficultés, nous avons choisi de nous orienter vers un système semi-automatique permettant d'assister l'analyste image dans sa tâche, en suggérant des zones d'intérêt potentiel par détection de changements. Plus précisément, l'approche développée dans le cadre de cette thèse cherche à exploiter les données disponibles au maximum de leur potentiel, afin de minimiser l'effort requis pour l'utilisateur et de maximiser les performances de détection. Pour cela, nous effectuons une modélisation tridimensionnelle des apparences observées dans les vidéos de référence. Cette modélisation permet ensuite d'effectuer une détection en ligne des changements significatifs dans une nouvelle vidéo, en identifiant les déviations d'apparence par rapport aux modèles de référence. Des techniques spécifiques ont également été proposées pour effectuer l'estimation des paramètres d'acquisition ainsi que l'atténuation des effets de l'illumination. De plus, nous avons développé plusieurs techniques de consolidation permettant d'exploiter la connaissance a priori relative aux changements à détecter. L'intérêt de notre approche de détection de changements est démontré dans ce manuscrit de thèse, par la présentation des résultats issus de son évaluation minutieuse et systématique. Cette évaluation a été effectuée à l'aide de données réelles et synthétiques permettant d'analyser, d'une part la robustesse de l'approche par rapport à des perturbations réalistes (e.g. bruit, artefacts de compression, apparences et effets complexes, etc), et d'autre part la précision des résultats en conditions contrôlées. Détection de changements Masque de changements Données d'observation Vidéo aérienne Modélisation 3D d'apparence Quad-Tree augmenté Redondance Géo-localisation Interpolation de poses Asservissement visuel Atténuation de l'illumination Consolidation temporelle Lissage temporel Optimisation spatio-temporelle Propagation de croyance Binarisation Retour interactif de pertinence Descripteur de régions
108	Conception et évaluation d'un système transparent de capture de mouvements des mains pour l'interaction 3D temps réel en environnements virtuels Hernoux, Franck 07 December 2011 (has links) (PDF) Le but de cette thèse est de proposer et d'évaluer un système transparent de capture de mouvements des mains en temps réel pour permettre la réalisation d'interactions 3D en environnement virtuel (E.V.). Les outils tels que le clavier et la souris ne suffisent plus lorsque l'on travaille dans des E.V. 3D et les systèmes de capture de mouvements actuels ont l'inconvénient du coût et du port de matériel. Les systèmes basés sur des caméras et le traitement d'images comblent en partie ces lacunes, mais ne permettent pas encore une capture de mouvements 3D précise, efficace et temps réel. Notre système propose une solution à ce problème grâce à une caméra 3D. Nous avons implémenté des modalités qui permettent une interaction plus naturelle avec les objets et l'E.V. L'objectif de notre système est d'obtenir des performances au moins égales à celles d'outils couramment utilisés en réalité virtuelle tout en offrant une meilleure acceptabilité globale, mesurée sous l'angle de l'utilité, de l'utilisabilité et du sentiment d'immersion. Pour répondre à cet objectif, nous avons mené 3 études expérimentales impliquant plus de 100 participants. L'étude 1 a comparé, pour une tâche de sélection, la première version de notre système (basé sur une Camera 3D MESA SwissRanger) à une souris classique. L'expérimentation 2 est axée sur l'étude de la réalisation de tâches de manipulation d'objets (positionnement, orientation, redimensionnement) et de navigation en E.V. Pour cette étude, nous avons comparé la version améliorée de notre système (basée sur la Microsoft Kinect) à des gants de données associés à des capteurs magnétiques. La 3ème étude, complémentaire, porte sur l'évaluation de nouvelles modalités d'interaction, implémentées d'après les commentaires recueillis auprès des participants de la seconde étude. Capture de mouvements des mains interaction 3D interaction bi-manuelle périphérique transparent temps réel caméra 3D
109	Reconstruction multi-vues et texturation Aganj, Ehsan 11 December 2009 (has links) (PDF) Dans cette thèse, nous étudions les problèmes de reconstruction statique et dynamique à partir de vues multiples et texturation, en s'appuyant sur des applications réelles et pratiques. Nous proposons trois méthodes de reconstruction destinées à l'estimation d'une représentation d'une scène statique/dynamique à partir d'un ensemble d'images/vidéos. Nous considérons ensuite le problème de texturation multi-vues en se concentrant sur la qualité visuelle de rendu.. Multi-view reconstruction dynamic reconstruction stereovision sur- face reconstruction point cloud Delaunay triangulation Voronoi diagram medial axis transform cell complex minimum s-t cut simulated annealing visibility thin- plate spline texturing
110	Modélisation de l'apparence de régions pour la segmentation d'images basée modèle Chung, François 17 January 2011 (has links) (PDF) Cette thèse est consacrée à un nouveau modèle d'apparence pour la segmentation d'images basée modèle. Ce modèle, dénommé Multimodal Prior Appearance Model (MPAM), est construit à partir d'une classification EM de profils d'intensité combinée avec une méthode automatique pour déterminer le nombre de classes. Contrairement aux approches classiques basées ACP, les profils d'intensité sont classifiés pour chaque maillage et non pour chaque sommet. Tout d'abord, nous décrivons la construction du MPAM à partir d'un ensemble de maillages et d'images. La classification de profils d'intensité et la détermination du nombre de régions par un nouveau critère de sélection sont expliquées. Une régularisation spatiale pour lisser la classification est présentée et la projection de l'information d'apparence sur un maillage de référence est décrite. Ensuite, nous présentons une classification de type spectrale dont le but est d'optimiser la classification des profils pour la segmentation. La représentation de la similitude entre points de données dans l'espace spectral est expliquée. Des résultats comparatifs sur des profils d'intensité du foie à partir d'images tomodensitométriques montrent que notre approche surpasse les modèles basés ACP. Finalement, nous présentons des méthodes d'analyse pour les structures des membres inférieurs à partir d'images IRM. D'abord, notre technique pour créer des modèles spécifiques aux sujets pour des simulations cinématiques des membres inférieurs est décrite. Puis, la performance de modèles statistiques est comparée dans un contexte de segmentation des os lorsqu'un faible ensemble de données est disponible. [MATH:MATH_PR] Mathematics/Probability [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory modélisation de l'apparence classification non supervisée segmentation d'images basée modèle imagerie médicale foie membres inférieurs

Search results