• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Modélisation géométrique de scènes intérieures à partir de nuage de points / Geometric modeling of indoor scenes from acquired point data

Oesau, Sven 24 June 2015 (has links)
La modélisation géométrique et la sémantisation de scènes intérieures à partir d'échantillon de points et un sujet de recherche qui prend de plus en plus d'importance. Cependant, le traitement d'un ensemble volumineux de données est rendu difficile d'une part par le nombre élevé d'objets parasitant la scène et d'autre part par divers défauts d'acquisitions comme par exemple des données manquantes ou un échantillonnage de la scène non isotrope. Cette thèse s'intéresse de près à de nouvelles méthodes permettant de modéliser géométriquement un nuage de point non structuré et d’y donner de la sémantique. Dans le chapitre 2, nous présentons deux méthodes permettant de transformer le nuage de points en un ensemble de formes. Nous proposons en premier lieu une méthode d'extraction de lignes qui détecte des segments à partir d'une coupe horizontale du nuage de point initiale. Puis nous introduisons une méthode par croissance de régions qui détecte et renforce progressivement des régularités parmi les formes planaires. Dans la première partie du chapitre 3, nous proposons une méthode basée sur de l'analyse statistique afin de séparer de la structure de la scène les objets la parasitant. Dans la seconde partie, nous présentons une méthode d'apprentissage supervisé permettant de classifier des objets en fonction d'un ensemble de formes planaires. Nous introduisons dans le chapitre 4 une méthode permettant de modéliser géométriquement le volume d'une pièce (sans meubles). Une formulation énergétique est utilisée afin de labelliser les régions d’une partition générée à partir de formes élémentaires comme étant intérieur ou extérieur de manière robuste au bruit et aux données. / Geometric modeling and semantization of indoor scenes from sampled point data is an emerging research topic. Recent advances in acquisition technologies provide highly accurate laser scanners and low-cost handheld RGB-D cameras for real-time acquisition. However, the processing of large data sets is hampered by high amounts of clutter and various defects such as missing data, outliers and anisotropic sampling. This thesis investigates three novel methods for efficient geometric modeling and semantization from unstructured point data: Shape detection, classification and geometric modeling. Chapter 2 introduces two methods for abstracting the input point data with primitive shapes. First, we propose a line extraction method to detect wall segments from a horizontal cross-section of the input point cloud. Second, we introduce a region growing method that progressively detects and reinforces regularities of planar shapes. This method utilizes regularities common to man-made architecture, i.e. coplanarity, parallelism and orthogonality, to reduce complexity and improve data fitting in defect-laden data. Chapter 3 introduces a method based on statistical analysis for separating clutter from structure. We also contribute a supervised machine learning method for object classification based on sets of planar shapes. Chapter 4 introduces a method for 3D geometric modeling of indoor scenes. We first partition the space using primitive shapes detected from permanent structures. An energy formulation is then used to solve an inside/outside labeling of a space partitioning, the latter providing robustness to missing data and outliers.
2

Modeling and recognizing interactions between people, objects and scenes / Modélisation et reconnaissance des actions humaines dans les images

Delaitre, Vincent 07 April 2015 (has links)
Nous nous intéressons dans cette thèse à la modélisation des interactions entre personnes, objets et scènes. Nous montrons l’intérêt de combiner ces trois sources d’information pour améliorer la classification d’action et la compréhension automatique des scènes. Dans la première partie, nous cherchons à exploiter le contexte fourni par les objets et la scène pour améliorer la classification des actions humaines dans les photographies. Nous explorons différentes variantes du modèle dit de “bag-of-features” et proposons une méthode tirant avantage du contexte scénique. Nous proposons ensuite un nouveau modèle exploitant les objets pour la classification d’action basé sur des paires de détecteurs de parties du corps et/ou d’objet. Nous évaluons ces méthodes sur notre base de données d’images nouvellement collectée ainsi que sur trois autres jeux de données pour la classification d’action et obtenons des résultats proches de l’état de l’art. Dans la seconde partie de cette thèse, nous nous attaquons au problème inverse et cherchons à utiliser l’information contextuelle fournie par les personnes pour aider à la localisation des objets et à la compréhension des scènes. Nous collectons une nouvelle base de données de time-lapses comportant de nombreuses interactions entre personnes, objets et scènes. Nous développons une approche permettant de décrire une zone de l’image par la distribution des poses des personnes qui interagissent avec et nous utilisons cette représentation pour améliorer la localisation d’objets. De plus, nous démontrons qu’utiliser des informations provenant des personnes détectées peut améliorer plusieurs étapes de l’algorithme utilisé pour la compréhension des scènes d’intérieur. Pour finir, nous proposons des annotations 3D de notre base de time-lapses et montrons comment estimer l’espace utilisé par différentes classes d’objets dans une pièce. Pour résumer, les contributions de cette thèse sont les suivantes : (i) nous mettons au point des modèles pour la classification d’image tirant avantage du contexte scénique et des objets environnants et nous proposons une nouvelle base de données pour évaluer leurs performances, (ii) nous développons un nouveau modèle pour améliorer la localisation d’objet grâce à l’observation des acteurs humains interagissant avec une scène et nous le testons sur un nouveau jeu de vidéos comportant de nombreuses interactions entre personnes, objets et scènes, (iii) nous proposons la première méthode pour évaluer les volumes occupés par différentes classes d’objets dans une pièce, ce qui nous permet d’analyser les différentes étapes pour la compréhension automatique de scène d’intérieur et d’en identifier les principales sources d’erreurs. / In this thesis, we focus on modeling interactions between people, objects and scenes and show benefits of combining corresponding cues for improving both action classification and scene understanding. In the first part, we seek to exploit the scene and object context to improve action classification in still images. We explore alternative bag-of-features models and propose a method that takes advantage of the scene context. We then propose a new model exploiting the object context for action classification based on pairs of body part and object detectors. We evaluate our methods on our newly collected still image dataset as well as three other datasets for action classification and show performance close to the state of the art. In the second part of this thesis, we address the reverse problem and aim at using the contextual information provided by people to help object localization and scene understanding. We collect a new dataset of time-lapse videos involving people interacting with indoor scenes. We develop an approach to describe image regions by the distribution of human co-located poses and use this pose-based representation to improve object localization. We further demonstrate that people cues can improve several steps of existing pipelines for indoor scene understanding. Finally, we extend the annotation of our time-lapse dataset to 3D and show how to infer object labels for occupied 3D volumes of a scene. To summarize, the contributions of this thesis are the following: (i) we design action classification models for still images that take advantage of the scene and object context and we gather a new dataset to evaluate their performance, (ii) we develop a new model to improve object localization thanks to observations of people interacting with an indoor scene and test it on a new dataset centered on person, object and scene interactions, (iii) we propose the first method to evaluate the volumes occupied by different object classes in a room that allow us to analyze the current 3D scene understanding pipeline and identify its main source of errors.
3

Generative models : from data generation to representation learning

Zhang, Ruixiang 08 1900 (has links)
La modélisation générative est un domaine en pleine expansion dans l'apprentissage automatique, avec des modèles démontrant des capacités impressionnantes pour la synthèse de données en haute dimension à travers diverses modalités, y compris les images, le texte et l'audio. Cependant, des défis significatifs subsistent pour améliorer la qualité des échantillons et la contrôlabilité des modèles, ainsi que pour développer des méthodes plus principiées et efficaces pour apprendre des représentations de caractéristiques structurées avec des modèles génératifs. Cette thèse conduit une enquête complète en deux parties sur les frontières de la modélisation générative, en mettant l'accent sur l'amélioration de la qualité des échantillons et la manœuvrabilité, ainsi que sur l'apprentissage de représentations latentes de haute qualité. La première partie de la thèse propose de nouvelles techniques pour améliorer la qualité des échantillons et permettre un contrôle fin des modèles génératifs. Premièrement, une nouvelle perspective est introduite pour reformuler les réseaux antagonistes génératifs pré-entraînés comme des modèles basés sur l'énergie, permettant un échantillonnage plus efficace en exploitant à la fois le générateur et le discriminateur. Deuxièmement, un cadre théorique basé sur l'information est développé pour incorporer des biais inductifs explicites dans les modèles à variables latentes grâce aux réseaux bayésiens et à la théorie du goulot d'étranglement multivarié. Cela fournit une vision unifiée pour l'apprentissage de représentations structurées adaptées à différentes applications comme la modélisation multi-modale et l'équité algorithmique. La deuxième partie de la thèse se concentre sur l'apprentissage et l'extraction de caractéristiques de haute qualité des modèles génératifs de manière entièrement non supervisée. Premièrement, une approche basée sur l'énergie est présentée pour l'apprentissage non supervisé de représentations de scènes centrées sur l'objet avec une invariance de permutation. La compositionnalité de la fonction d'énergie permet également une manipulation contrôlable de la scène. Deuxièmement, des noyaux de Fisher neuronaux sont proposés pour extraire des représentations compactes et utiles des modèles génératifs pré-entraînés. Il est démontré que les approximations de rang faible du noyau de Fisher fournissent une technique d'extraction de représentation unifiée compétitive par rapport aux références courantes. Ensemble, ces contributions font progresser la modélisation générative et l'apprentissage de représentations sur des fronts complémentaires. Elles améliorent la qualité des échantillons et la manœuvrabilité grâce à de nouveaux objectifs d'entraînement et des techniques d'inférence. Elles permettent également d'extraire des caractéristiques latentes structurées des modèles génératifs en utilisant des perspectives théoriques basées sur l'information et le noyau neuronal. La thèse offre une enquête complète sur les défis interconnectés de la synthèse de données et de l'apprentissage de représentation pour les modèles génératifs modernes. / Generative modeling is a rapidly advancing field in machine learning, with models demonstrating impressive capabilities for high-dimensional data synthesis across modalities including images, text, and audio. However, significant challenges remain in enhancing sample quality and model controllability, as well as developing more principled and effective methods for learning structured feature representations with generative models. This dissertation conducts a comprehensive two-part investigation into pushing the frontiers of generative modeling, with a focus on improving sample quality and steerability, as well as enabling learning high-quality latent representations. The first part of the dissertation proposes novel techniques to boost sample quality and enable fine-grained control for generative models. First, a new perspective is introduced to reformulate pretrained generative adversarial networks as energy-based models, enabling more effective sampling leveraging both the generator and discriminator. Second, an information-theoretic framework is developed to incorporate explicit inductive biases into latent variable models through Bayesian networks and multivariate information bottleneck theory. This provides a unified view for learning structured representations catered to different applications like multi-modal modeling and algorithmic fairness. The second part of the dissertation focuses on learning and extracting high-quality features from generative models in a fully unsupervised manner. First, an energy-based approach is presented for unsupervised learning of object-centric scene representations with permutation invariance. Compositionality of the energy function also enables controllable scene manipulation. Second, neural fisher kernels are proposed to extract compact and useful representations from pretrained generative models. It is shown that low-rank approximations of the Fisher Kernel provide a unified representation extraction technique competitive with common baselines. Together, the contributions advance generative modeling and representation learning along complementary fronts. They improve sample quality and steerability through new training objectives and inference techniques. They also enable extracting structured latent features from generative models using information-theoretic and neural kernel perspectives. The thesis provides a comprehensive investigation into the interconnected challenges of data synthesis and representation learning for modern generative models.

Page generated in 0.1014 seconds