Spelling suggestions: "subject:"suivi multicibles"" "subject:"suivi multicible""
1 |
Apprentissage en ligne de signatures audiovisuelles pour la reconnaissance et le suivi de personnes au sein d'un réseau de capteurs ambiants / Online learning of audiovisual signatures for people recognition and tracking within a network of ambient sensorsDecroix, François-Xavier 20 December 2017 (has links)
L'opération neOCampus, initiée en 2013 par l'Université Paul Sabatier, a pour objectif de créer un campus connecté, innovant, intelligent et durable en exploitant les compétences de 11 laboratoires et de plusieurs partenaires industriels. Pluridisciplinaires, ces compétences sont croisées dans le but d'améliorer le confort au quotidien des usagers du campus (étudiants, corps enseignant, personnel administratif) et de diminuer son empreinte écologique. L'intelligence que nous souhaitons apporter au Campus du futur exige de fournir à ses bâtiments une perception de son activité interne. En effet, l'optimisation des ressources énergétiques nécessite une caractérisation des activités des usagers afin que le bâtiment puisse s'y adapter automatiquement. L'activité humaine étant sujet à plusieurs niveaux d'interprétation nos travaux se focalisent sur l'extraction des déplacements des personnes présentes, sa composante la plus élémentaire. La caractérisation de l'activité des usagers, en termes de déplacements, exploite des données extraites de caméras et de microphones disséminés dans une pièce, ces derniers formant ainsi un réseau épars de capteurs hétérogènes. Nous cherchons alors à extraire de ces données une signature audiovisuelle et une localisation grossière des personnes transitant dans ce réseau de capteurs. Tout en préservant la vie privée de l'individu, la signature doit être discriminante, afin de distinguer les personnes entre elles, et compacte, afin d'optimiser les temps de traitement et permettre au bâtiment de s'auto-adapter. Eu égard à ces contraintes, les caractéristiques que nous modélisons sont le timbre de la voix du locuteur, et son apparence vestimentaire en termes de distribution colorimétrique. Les contributions scientifiques de ces travaux s'inscrivent ainsi au croisement des communautés parole et vision, en introduisant des méthodes de fusion de signatures sonores et visuelles d'individus. Pour réaliser cette fusion, des nouveaux indices de localisation de source sonore ainsi qu'une adaptation audiovisuelle d'une méthode de suivi multi-cibles ont été introduits, représentant les contributions principales de ces travaux. Le mémoire est structuré en 4 chapitres. Le premier présente un état de l'art sur les problèmes de ré-identification visuelle de personnes et de reconnaissance de locuteurs. Les modalités sonores et visuelles ne présentant aucune corrélation, deux signatures, une vidéo et une audio sont générées séparément, à l'aide de méthodes préexistantes de la littérature. Le détail de la génération de ces signatures est l'objet du chapitre 2. La fusion de ces signatures est alors traitée comme un problème de mise en correspondance d'observations audio et vidéo, dont les détections correspondantes sont cohérentes et compatibles spatialement, et pour lesquelles deux nouvelles stratégies d'association sont introduites au chapitre 3. La cohérence spatio-temporelle des observations sonores et visuelles est ensuite traitée dans le chapitre 4, dans un contexte de suivi multi-cibles. / The neOCampus operation, started in 2013 by Paul Sabatier University in Toulouse, aims to create a connected, innovative, intelligent and sustainable campus, by exploiting the skills of 11 laboratories and several industrial partners. These multidisciplinary skills are combined in order to improve users (students, teachers, administrative staff) daily comfort and to reduce the ecological footprint of the campus. The intelligence we want to bring to the campus of the future requires to provide to its buildings a perception of its intern activity. Indeed, optimizing the energy resources needs a characterization of the user's activities so that the building can automatically adapt itself to it. Human activity being open to multiple levels of interpretation, our work is focused on extracting people trajectories, its more elementary component. Characterizing users activities, in terms of movement, uses data extracted from cameras and microphones distributed in a room, forming a sparse network of heterogeneous sensors. From these data, we then seek to extract audiovisual signatures and rough localizations of the people transiting through this network of sensors. While protecting person privacy, signatures must be discriminative, to distinguish a person from another one, and compact, to optimize computational costs and enables the building to adapt itself. Having regard to these constraints, the characteristics we model are the speaker's timbre, and his appearance, in terms of colorimetric distribution. The scientific contributions of this thesis are thus at the intersection of the fields of speech processing and computer vision, by introducing new methods of fusing audio and visual signatures of individuals. To achieve this fusion, new sound source location indices as well as an audiovisual adaptation of a multi-target tracking method were introduced, representing the main contributions of this work. The thesis is structured in 4 chapters, and the first one presents the state of the art on visual reidentification of persons and speaker recognition. Acoustic and visual modalities are not correlated, so two signatures are separately computed, one for video and one for audio, using existing methods in the literature. After a first chapter dedicated to the state of the art in re-identification and speaker recognition methods, the details of the computation of the signatures is explored in chapter 2. The fusion of the signatures is then dealt as a problem of matching between audio and video observations, whose corresponding detections are spatially coherent and compatible. Two novel association strategies are introduced in chapter 3. Spatio-temporal coherence of the bimodal observations is then discussed in chapter 4, in a context of multi-target tracking.
|
2 |
Suivi visuel multi-cibles par partitionnement de détections : application à la construction d'albums de visagesSchwab, Siméon 08 July 2013 (has links) (PDF)
Ce mémoire décrit mes travaux de thèse menés au sein de l'équipe ComSee (Computers that See) rattachée à l'axe ISPR (Image, Systèmes de Perception et Robotique) de l'Institut Pascal. Celle-ci a été financée par la société Vesalis par le biais d'une convention CIFRE avec l'Institut Pascal, subventionnée par l'ANRT (Association Nationale de la Recherche et de la Technologie). Les travaux de thèse s'inscrivent dans le cadre de l'automatisation de la fouille d'archives vidéo intervenant lors d'enquêtes policières. L'application rattachée à cette thèse concerne la création automatique d'un album photo des individus apparaissant sur une séquence de vidéosurveillance. En s'appuyant sur un détecteur de visages, l'objectif est de regrouper par identité les visages détectés sur l'ensemble d'une séquence vidéo. Comme la reconnaissance faciale en environnement non-contrôlé reste difficilement exploitable, les travaux se sont orientés vers le suivi visuel multi-cibles global basé détections. Ce type de suivi est relativement récent. Il fait intervenir un détecteur d'objets et traite la vidéo dans son ensemble (en opposition au traitement séquentiel couramment utilisé). Cette problématique a été représentée par un modèle probabiliste de type Maximum A Posteriori. La recherche de ce maximum fait intervenir un algorithme de circulation de flot sur un graphe, issu de travaux antérieurs. Ceci permet l'obtention d'une solution optimale au problème (défini par l'a posteriori) du regroupement des détections pour le suivi. L'accent a particulièrement été mis sur la représentation de la similarité entre les détections qui s'intègre dans le terme de vraisemblance du modèle. Plusieurs mesures de similarités s'appuyant sur différents indices (temps, position dans l'image, apparence et mouvement local) ont été testées. Une méthode originale d'estimation de ces similarités entre les visages détectés a été développée pour fusionner les différentes informations et s'adapter à la situation rencontrée. Plusieurs expérimentations ont été menées sur des situations complexes, mais réalistes, de scènes de vidéosurveillance. Même si les qualités des albums construits ne satisfont pas encore à une utilisation pratique, le système de regroupement de détections mis en œuvre au cours de cette thèse donne déjà une première solution. Grâce au point de vue partitionnement de données adopté au cours de cette thèse, le suivi multi-cibles développé permet une extension simple à du suivi autre que celui des visages.
|
3 |
Suivi visuel multi-cibles par partitionnement de détections : application à la construction d'albums de visages / Visual tracking multi-target detections by partitioning : Application to construction albums of facesSchwab, Siméon 08 July 2013 (has links)
Ce mémoire décrit mes travaux de thèse menés au sein de l'équipe ComSee (Computers that See) rattachée à l'axe ISPR (Image, Systèmes de Perception et Robotique) de l'Institut Pascal. Celle-ci a été financée par la société Vesalis par le biais d'une convention CIFRE avec l'Institut Pascal, subventionnée par l'ANRT (Association Nationale de la Recherche et de la Technologie). Les travaux de thèse s'inscrivent dans le cadre de l'automatisation de la fouille d'archives vidéo intervenant lors d'enquêtes policières. L'application rattachée à cette thèse concerne la création automatique d'un album photo des individus apparaissant sur une séquence de vidéosurveillance. En s'appuyant sur un détecteur de visages, l'objectif est de regrouper par identité les visages détectés sur l'ensemble d'une séquence vidéo. Comme la reconnaissance faciale en environnement non-contrôlé reste difficilement exploitable, les travaux se sont orientés vers le suivi visuel multi-cibles global basé détections. Ce type de suivi est relativement récent. Il fait intervenir un détecteur d'objets et traite la vidéo dans son ensemble (en opposition au traitement séquentiel couramment utilisé). Cette problématique a été représentée par un modèle probabiliste de type Maximum A Posteriori. La recherche de ce maximum fait intervenir un algorithme de circulation de flot sur un graphe, issu de travaux antérieurs. Ceci permet l'obtention d'une solution optimale au problème (défini par l'a posteriori) du regroupement des détections pour le suivi. L'accent a particulièrement été mis sur la représentation de la similarité entre les détections qui s'intègre dans le terme de vraisemblance du modèle. Plusieurs mesures de similarités s'appuyant sur différents indices (temps, position dans l'image, apparence et mouvement local) ont été testées. Une méthode originale d'estimation de ces similarités entre les visages détectés a été développée pour fusionner les différentes informations et s'adapter à la situation rencontrée. Plusieurs expérimentations ont été menées sur des situations complexes, mais réalistes, de scènes de vidéosurveillance. Même si les qualités des albums construits ne satisfont pas encore à une utilisation pratique, le système de regroupement de détections mis en œuvre au cours de cette thèse donne déjà une première solution. Grâce au point de vue partitionnement de données adopté au cours de cette thèse, le suivi multi-cibles développé permet une extension simple à du suivi autre que celui des visages. / This report describes my thesis work conducted within the ComSee (Computers That See) team related to the ISPR axis (ImageS, Perception Systems and Robotics) of Institut Pascal. It was financed by the Vesalis company via a CIFRE (Research Training in Industry Convention) agreement with Institut Pascal and publicly funded by ANRT (National Association of Research and Technology). The thesis was motivated by issues related to automation of video analysis encountered during police investigations. The theoretical research carried out in this thesis is applied to the automatic creation of a photo album summarizing people appearing in a CCTV sequence. Using a face detector, the aim is to group by identity all the faces detected throughout the whole video sequence. As the use of facial recognition techniques in unconstrained environments remains unreliable, we have focused instead on global multi-target tracking based on detections. This type of tracking is relatively recent. It involves an object detector and global processing of the video (as opposed to sequential processing commonly used). This issue has been represented by a Maximum A Posteriori probabilistic model. To find an optimal solution of Maximum A Posteriori formulation, we use a graph-based network flow approach, built upon third-party research. The study concentrates on the definition of inter-detections similarities related to the likelihood term of the model. Multiple similarity metrics based on different clues (time, position in the image, appearance and local movement) were tested. An original method to estimate these similarities was developed to merge these various clues and adjust to the encountered situation. Several experiments were done on challenging but real-world situations which may be gathered from CCTVs. Although the quality of generated albums do not yet satisfy practical use, the detections clustering system developed in this thesis provides a good initial solution. Thanks to the data clustering point of view adopted in this thesis, the proposed detection-based multi-target tracking allows easy transfer to other tracking domains.
|
4 |
Détection, localisation et suivi des obstacles et objets mobiles à partir d'une plate-forme de stéréovisionLefaudeux, Benjamin 30 September 2013 (has links) (PDF)
Les véhicules autonomes se mouvant dans un environnement quelconque peuvent être confrontés à la présence de nombreux objets mobiles, dont la localisation et la trajectoire sont indépendantes. Cette problématique est particulièrement présente dans la thématique du transport en milieu urbain, mais sa portée est plus générale. On présente dans cette thèse une solution de perception d'un environnement dynamique, à partir d'une paire de caméra, qui vise à fournir en temps réel une cartographie en trois dimensions de l'environnement courant, ainsi que la vitesse indépendante des points suivis. Cette solution propose par ailleurs des algorithmes de détection, segmentation et suivi des objets mobiles, et fourni donc une liste des objets mobiles de l'environnement, dont les positions, dimensions et vitesses sont connues.
|
5 |
Méthodes conjointes de détection et suivi basé-modèle de cibles distribuées par filtrage non-linéaire dans les données lidar à balayage / Joint detection and model-based tracking methods of extended targets in scanning laser rangefinder data using non-linear filtering techniquesFortin, Benoît 22 November 2013 (has links)
Dans les systèmes de perception multicapteurs, un point central concerne le suivi d'objets multiples. Dans mes travaux de thèse, le capteur principal est un télémètre laser à balayage qui perçoit des cibles étendues. Le problème desuivi multi-objets se décompose généralement en plusieurs étapes (détection, association et suivi) réalisées de manière séquentielle ou conjointe. Mes travaux ont permis de proposer des alternatives à ces méthodes en adoptant une approche "track-before-detect" sur cibles distribuées qui permet d'éviter la succession des traitements en proposant un cadre global de résolution de ce problème d'estimation. Dans une première partie, nous proposons une méthode de détection travaillant directement en coordonnées naturelles (polaires) qui exploite les propriétés d'invariance géométrique des objets suivis. Cette solution est ensuite intégrée dans le cadre des approches JPDA et PHD de suivi multicibles résolues grâce aux méthodes de Monte-Carlo séquentielles. La seconde partie du manuscrit vise à s'affranchir du détecteur pour proposer une méthode dans laquelle le modèle d'objet est directement intégré au processus de suivi. C'est sur ce point clé que les avancées ont été les plus significatives permettant d'aboutir à une méthode conjointe de détection et de suivi. Un processus d'agrégation a été développé afin de permettre une formalisation des données qui évite tout prétraitement sous-optimal. Nous avons finalement proposé un formalisme général pour les systèmes multicapteurs (multilidar, centrale inertielle, GPS). D'un point de vue applicatif, ces travaux ont été validés dans le domaine du suivi de véhicules pour les systèmes d'aide à la conduite. / In multi-sensor perception systems, an active topic concerns the multiple object tracking methodes. In this work, the main sensor is a scanning laser rangefinder perceiving extended targets. Tracking methods are generally composed of a three-step scheme (detection, association and tracking) which is jointly or sequentially implemented. This work proposes alternative solutions by considering a track-before-detect approach on extended targets. It avoids the classic procedures by proposing a global framework to solve this estimation problem. Firstly, we propose a detection method dealing with measurements in natural coordinates (polar) which is founded on geometrical invariance properties of the tracked objects. This solution is then integrated in the JPDA and PHD multi-target tracking frameworks solved with the sequential Monte-Carlo methods. The second part of this thesis aims at avoiding the detection step to propose an approach where the object model is directly embedded in the tracking process. This lets to build a novel joint detection and tracking approach. An aggregation process was developed to construct a measurement modeling avoiding any suboptimal preprocessing. We finally proposed a general framework for multi-sensor systems ( multiple lidar, inertial sensor, GPS). Theses methods were applied in the area of multiple vehicle tracking for the Advanced Driver Assistance Systems.
|
6 |
Méthodes conjointes de détection et suivi basé-modèle de cibles distribuées par filtrage non-linéaire dans les données lidar à balayageFortin, Benoît 22 November 2013 (has links) (PDF)
Dans les systèmes de perception multicapteurs, un point central concerne le suivi d'objets multiples. Dans mes travaux de thèse, le capteur principal est un télémètre laser à balayage qui perçoit des cibles étendues. Le problème desuivi multi-objets se décompose généralement en plusieurs étapes (détection, association et suivi) réalisées de manière séquentielle ou conjointe. Mes travaux ont permis de proposer des alternatives à ces méthodes en adoptant une approche "track-before-detect" sur cibles distribuées qui permet d'éviter la succession des traitements en proposant un cadre global de résolution de ce problème d'estimation. Dans une première partie, nous proposons une méthode de détection travaillant directement en coordonnées naturelles (polaires) qui exploite les propriétés d'invariance géométrique des objets suivis. Cette solution est ensuite intégrée dans le cadre des approches JPDA et PHD de suivi multicibles résolues grâce aux méthodes de Monte-Carlo séquentielles. La seconde partie du manuscrit vise à s'affranchir du détecteur pour proposer une méthode dans laquelle le modèle d'objet est directement intégré au processus de suivi. C'est sur ce point clé que les avancées ont été les plus significatives permettant d'aboutir à une méthode conjointe de détection et de suivi. Un processus d'agrégation a été développé afin de permettre une formalisation des données qui évite tout prétraitement sous-optimal. Nous avons finalement proposé un formalisme général pour les systèmes multicapteurs (multilidar, centrale inertielle, GPS). D'un point de vue applicatif, ces travaux ont été validés dans le domaine du suivi de véhicules pour les systèmes d'aide à la conduite.
|
Page generated in 0.0671 seconds