Spelling suggestions: "subject:"réseau dde neurones convolutionnels"" "subject:"réseau dde neurones convolutional""
1 |
Estimation de profondeur à partir d'images monoculaires par apprentissage profond / Depth estimation from monocular images by deep learningMoukari, Michel 01 July 2019 (has links)
La vision par ordinateur est une branche de l'intelligence artificielle dont le but est de permettre à une machine d'analyser, de traiter et de comprendre le contenu d'images numériques. La compréhension de scène en particulier est un enjeu majeur en vision par ordinateur. Elle passe par une caractérisation à la fois sémantique et structurelle de l'image, permettant d'une part d'en décrire le contenu et, d'autre part, d'en comprendre la géométrie. Cependant tandis que l'espace réel est de nature tridimensionnelle, l'image qui le représente, elle, est bidimensionnelle. Une partie de l'information 3D est donc perdue lors du processus de formation de l'image et il est d'autant plus complexe de décrire la géométrie d'une scène à partir d'images 2D de celle-ci.Il existe plusieurs manières de retrouver l'information de profondeur perdue lors de la formation de l'image. Dans cette thèse nous nous intéressons à l’estimation d'une carte de profondeur étant donné une seule image de la scène. Dans ce cas, l'information de profondeur correspond, pour chaque pixel, à la distance entre la caméra et l'objet représenté en ce pixel. L'estimation automatique d'une carte de distances de la scène à partir d'une image est en effet une brique algorithmique critique dans de très nombreux domaines, en particulier celui des véhicules autonomes (détection d’obstacles, aide à la navigation).Bien que le problème de l'estimation de profondeur à partir d'une seule image soit un problème difficile et intrinsèquement mal posé, nous savons que l'Homme peut apprécier les distances avec un seul œil. Cette capacité n'est pas innée mais acquise et elle est possible en grande partie grâce à l'identification d'indices reflétant la connaissance a priori des objets qui nous entourent. Par ailleurs, nous savons que des algorithmes d'apprentissage peuvent extraire ces indices directement depuis des images. Nous nous intéressons en particulier aux méthodes d’apprentissage statistique basées sur des réseaux de neurones profond qui ont récemment permis des percées majeures dans de nombreux domaines et nous étudions le cas de l'estimation de profondeur monoculaire. / Computer vision is a branch of artificial intelligence whose purpose is to enable a machine to analyze, process and understand the content of digital images. Scene understanding in particular is a major issue in computer vision. It goes through a semantic and structural characterization of the image, on one hand to describe its content and, on the other hand, to understand its geometry. However, while the real space is three-dimensional, the image representing it is two-dimensional. Part of the 3D information is thus lost during the process of image formation and it is therefore non trivial to describe the geometry of a scene from 2D images of it.There are several ways to retrieve the depth information lost in the image. In this thesis we are interested in estimating a depth map given a single image of the scene. In this case, the depth information corresponds, for each pixel, to the distance between the camera and the object represented in this pixel. The automatic estimation of a distance map of the scene from an image is indeed a critical algorithmic brick in a very large number of domains, in particular that of autonomous vehicles (obstacle detection, navigation aids).Although the problem of estimating depth from a single image is a difficult and inherently ill-posed problem, we know that humans can appreciate distances with one eye. This capacity is not innate but acquired and made possible mostly thanks to the identification of indices reflecting the prior knowledge of the surrounding objects. Moreover, we know that learning algorithms can extract these clues directly from images. We are particularly interested in statistical learning methods based on deep neural networks that have recently led to major breakthroughs in many fields and we are studying the case of the monocular depth estimation.
|
2 |
Reconnaissance de postures humaines par fusion de la silhouette et de l'ombre dans l'infrarougeGouiaa, Rafik 01 1900 (has links)
Les systèmes multicaméras utilisés pour la vidéosurveillance sont complexes, lourds et coûteux. Pour la surveillance d'une pièce, serait-il possible de les remplacer par un système beaucoup plus simple utilisant une seule caméra et une ou plusieurs sources lumineuses en misant sur les ombres projetées pour obtenir de l'information 3D ?
Malgré les résultats intéressants offerts par les systèmes multicaméras, la quantité d'information à traiter et leur complexité limitent grandement leur usage. Dans le même contexte, nous proposons de simplifier ces systèmes en remplaçant une caméra par une source lumineuse. En effet, une source lumineuse peut être vue comme une caméra qui génère une image d'ombre révélant l'objet qui bloque la lumière. Notre système sera composé par une seule caméra et une ou plusieurs sources lumineuses infrarouges (invisibles à l'oeil). Malgré les difficultés prévues quant à l'extraction de l'ombre et la déformation et l'occultation de l'ombre par des obstacles (murs, meubles...), les gains sont multiples en utilisant notre système. En effet, on peut éviter ainsi les problèmes de synchronisation et de calibrage de caméras et réduire le coût en remplaçant des caméras par de simples sources infrarouges.
Nous proposons deux approches différentes pour automatiser la reconnaissance de postures humaines. La première approche reconstruit la forme 3D d'une personne pour faire la reconnaissance de la posture en utilisant des descripteurs de forme. La deuxième approche combine directement l'information 2D (ombre+silhouette) pour faire la reconnaissance de postures.
Scientifiquement, nous cherchons à prouver que l'information offerte par une silhouette et l'ombre générée par une source lumineuse est suffisante pour permettre la reconnaissance de postures humaines élémentaires (p.ex. debout, assise, couchée, penchée, etc.).
Le système proposé peut être utilisé pour la vidéosurveillance d'endroits non encombrés tels qu'un corridor dans une résidence de personnes âgées (pour la détection des chutes p. ex.) ou d'une compagnie (pour la sécurité). Son faible coût permettrait un plus grand usage de la vidéosurveillance au bénéfice de la société. Au niveau scientifique, la démonstration théorique et pratique d'un tel système est originale et offre un grand potentiel pour la vidéosurveillance. / Human posture recognition (HPR) from video sequences is one of the major active
research areas of computer vision. It is one step of the global process of human activity
recognition (HAR) for behaviors analysis. Many HPR application systems have
been developed including video surveillance, human-machine interaction, and the video
retrieval. Generally, applications related to HPR can be achieved using mainly two
approaches : single camera or multi-cameras. Despite the interesting performance achieved
by multi-camera systems, their complexity and the huge information to be processed
greatly limit their widespread use for HPR.
The main goal of this thesis is to simplify the multi-camera system by replacing a
camera by a light source. In fact, a light source can be seen as a virtual camera, which
generates a cast shadow image representing the silhouette of the person that blocks the
light. Our system will consist of a single camera and one or more infrared light sources.
Despite some technical difficulties in cast shadow segmentation and cast shadow deformation
because of walls and furniture, different advantages can be achieved by using our
system. Indeed, we can avoid the synchronization and calibration problems of multiple
cameras, reducing the cost of the system and the amount of processed data by replacing
a camera by one light source.
We introduce two different approaches in order to automatically recognize human
postures. The first approach directly combines the person’s silhouette and cast shadow
information, and uses 2D silhouette descriptor in order to extract discriminative features
useful for HPR. The second approach is inspired from the shape from silhouette technique
to reconstruct the visual hull of the posture using a set of cast shadow silhouettes,
and extract informative features through 3D shape descriptor. Using these approaches,
our goal is to prove the utility of the combination of person’s silhouette and cast shadow
information for recognizing elementary human postures (stand, bend, crouch, fall,...)
The proposed system can be used for video surveillance of uncluttered areas such as
a corridor in a senior’s residence (for example, for the detection of falls) or in a company (for security). Its low cost may allow greater use of video surveillance for the benefit of
society.
|
3 |
Détection de changement en imagerie satellitaire multimodaleTouati, Redha 04 1900 (has links)
The purpose of this research is to study the detection of temporal changes between
two (or more) multimodal images satellites, i.e., between two different imaging
modalities acquired by two heterogeneous sensors, giving for the same scene two images
encoded differently and depending on the nature of the sensor used for each
acquisition. The two (or multiple) multimodal satellite images are acquired and coregistered
at two different dates, usually before and after an event.
In this study, we propose new models belonging to different categories of multimodal
change detection in remote sensing imagery. As a first contribution, we present a new
constraint scenario expressed on every pair of pixels existing in the before and after
image change. A second contribution of our work is to propose a spatio-temporal textural
gradient operator expressed with complementary norms and also a new filtering
strategy of the difference map resulting from this operator. Another contribution
consists in constructing an observation field from a pair of pixels and to infer a solution
maximum a posteriori sense. A fourth contribution is proposed which consists
to build a common feature space for the two heterogeneous images. Our fifth contribution
lies in the modeling of patterns of change by anomalies and on the analysis
of reconstruction errors which we propose to learn a non-supervised model from a
training base consisting only of patterns of no-change in order that the built model
reconstruct the normal patterns (non-changes) with a small reconstruction error. In
the sixth contribution, we propose a pairwise learning architecture based on a pseudosiamese
CNN network that takes as input a pair of data instead of a single data and
constitutes two partly uncoupled CNN parallel network streams (descriptors) followed
by a decision network that includes fusion layers and a loss layer in the sense of the entropy criterion.
The proposed models are enough flexible to be used effectively in the monomodal
change detection case. / Cette recherche a pour objet l’étude de la détection de changements temporels entre deux (ou plusieurs) images satellitaires multimodales, i.e., avec deux modalités d’imagerie différentes acquises par deux capteurs hétérogènes donnant pour la même scène deux images encodées différemment suivant la nature du capteur utilisé pour chacune des prises de vues. Les deux (ou multiples) images satellitaires multimodales sont prises et co-enregistrées à deux dates différentes, avant et après un événement. Dans le cadre de cette étude, nous proposons des nouveaux modèles de détection de changement en imagerie satellitaire multimodale semi ou non supervisés. Comme première contribution, nous présentons un nouveau scénario de contraintes exprimé sur chaque paire de pixels existant dans l’image avant et après changement. Une deuxième contribution de notre travail consiste à proposer un opérateur de gradient textural spatio-temporel exprimé avec des normes complémentaires ainsi qu’une nouvelle stratégie de dé-bruitage de la carte de différence issue de cet opérateur. Une autre contribution consiste à construire un champ d’observation à partir d’une modélisation par paires de pixels et proposer une solution au sens du maximum a posteriori. Une quatrième contribution est proposée et consiste à construire un espace commun de caractéristiques pour les deux images hétérogènes. Notre cinquième contribution réside dans la modélisation des zones de changement comme étant des anomalies et sur l’analyse des erreurs de reconstruction dont nous proposons d’apprendre un modèle non-supervisé à partir d’une base d’apprentissage constituée seulement de zones de non-changement afin que le modèle reconstruit les motifs de non-changement avec une faible erreur. Dans la dernière contribution, nous proposons une architecture d’apprentissage par paires de pixels basée sur un réseau CNN pseudo-siamois qui prend en entrée une paire de données au lieu d’une seule donnée et est constituée de deux flux de réseau (descripteur) CNN parallèles et partiellement non-couplés suivis d’un réseau de décision qui comprend de couche de fusion et une couche de classification au sens du critère d’entropie. Les modèles proposés s’avèrent assez flexibles pour être utilisés efficacement dans le cas des données-images mono-modales.
|
Page generated in 0.1088 seconds