Global ETD Search

1	Salient object detection and segmentation in videos / Détection d'objets saillants et segmentation dans des vidéos Wang, Qiong 09 May 2019 (has links) Cette thèse est centrée sur le problème de la détection d'objets saillants et de leur segmentation dans une vidéo en vue de détecter les objets les plus attractifs ou d'affecter des identités cohérentes d'objets à chaque pixel d'une séquence vidéo. Concernant la détection d'objets saillants dans vidéo, outre une revue des techniques existantes, une nouvelle approche et l'extension d'un modèle sont proposées; de plus une approche est proposée pour la segmentation d'instances d'objets vidéo. Pour la détection d'objets saillants dans une vidéo, nous proposons : (1) une approche traditionnelle pour détecter l'objet saillant dans sa totalité à l'aide de la notion de "bordures virtuelles". Un filtre guidé est appliqué sur la sortie temporelle pour intégrer les informations de bord spatial en vue d'une meilleure détection des bords de l'objet saillants. Une carte globale de saillance spatio-temporelle est obtenue en combinant la carte de saillance spatiale et la carte de saillance temporelle en fonction de l'entropie. (2) Une revue des développements récents des méthodes basées sur l'apprentissage profond est réalisée. Elle inclut les classifications des méthodes de l'état de l'art et de leurs architectures, ainsi qu'une étude expérimentale comparative de leurs performances. (3) Une extension d'un modèle de l'approche traditionnelle proposée en intégrant un procédé de détection d'objet saillant d'image basé sur l'apprentissage profond a permis d'améliorer encore les performances. Pour la segmentation des instances d'objets dans une vidéo, nous proposons une approche d'apprentissage profond dans laquelle le calcul de la confiance de déformation détermine d'abord la confiance de la carte masquée, puis une sélection sémantique est optimisée pour améliorer la carte déformée, où l'objet est réidentifié à l'aide de l'étiquettes sémantique de l'objet cible. Les approches proposées ont été évaluées sur des jeux de données complexes et de grande taille disponibles publiquement et les résultats expérimentaux montrent que les approches proposées sont plus performantes que les méthodes de l'état de l'art. / This thesis focuses on the problem of video salient object detection and video object instance segmentation which aim to detect the most attracting objects or assign consistent object IDs to each pixel in a video sequence. One approach, one overview and one extended model are proposed for video salient object detection, and one approach is proposed for video object instance segmentation. For video salient object detection, we propose: (1) one traditional approach to detect the whole salient object via the adjunction of virtual borders. A guided filter is applied on the temporal output to integrate the spatial edge information for a better detection of the salient object edges. A global spatio-temporal saliency map is obtained by combining the spatial saliency map and the temporal saliency map together according to the entropy. (2) An overview of recent developments for deep-learning based methods is provided. It includes the classifications of the state-of-the-art methods and their frameworks, and the experimental comparison of the performances of the state-of-the-art methods. (3) One extended model further improves the performance of the proposed traditional approach by integrating a deep-learning based image salient object detection method For video object instance segmentation, we propose a deep-learning approach in which the warping confidence computation firstly judges the confidence of the mask warped map, then a semantic selection is introduced to optimize the warped map, where the object is re-identified using the semantics labels of the target object. The proposed approaches have been assessed on the published large-scale and challenging datasets. The experimental results show that the proposed approaches outperform the state-of-the-art methods. Vidéo Détection d'objet saillant Segmentation d'instance d'objet Apprentissage en profondeur Video Salient object detection Object instance segmentation Deep-learning 006.7
2	Détection en temps-réel des outils chirurgicaux dans des vidéos 2D de neurochirurgie par modélisation de forme globale et d'apparence locale / Real-time detection of surgical tools in 2D neurosurgical videos by modelling global shape and local appearance Bouget, David 27 May 2015 (has links) Bien que devenant un environnement de plus en plus riche technologiquement, la salle opératoire reste un endroit où la sécurité des patients n'est pas assurée à 100% comme le montre le nombre toujours conséquent d'erreurs chirurgicales. La nécessité de développer des systèmes intelligents au bloc opératoire apparait comme croissante. Un des éléments clés pour ce type de système est la reconnaissance du processus chirurgical, passant par une identification précise des outils chirurgicaux utilisés. L'objectif de cette thèse a donc porté sur la détection en temps-réel des outils chirurgicaux dans des vidéos 2D provenant de microscopes. Devant l'absence de jeux de données de référence, qui plus est dans un contexte neurochirurgical, la première contribution de la thèse a donc été la création d'un nouvel ensemble d'images de chirurgies du cerveau et du rachis cervical, mis à disposition en ligne. Comme seconde contribution, deux approches différentes ont été proposées permettant de détecter des outils chirurgicaux via des techniques d'analyse d'image. Tout d'abord, le SquaresChnFtrs adapté, basé sur une des méthodes de détection de piétons les plus performantes de la littérature. Notre deuxième méthode, le ShapeDetector, est une approche à deux niveaux n'utilisant aucune contrainte ou hypothèse a priori sur le nombre, la position, ou la forme des outils dans l'image. Par rapport aux travaux précédents du domaine, nous avons choisi de représenter les détections potentielles par des polygones plutôt que par des rectangles, obtenant ainsi des détections plus précises. Pour intégration dans des systèmes médicaux, une optimisation de la vitesse de calcul a été effectuée via un usage optimal du CPU, du GPU, et de méthodes ad-hoc. Pour des vidéos de résolution 612x480 pixels, notre ShapeDetector est capable d'effectuer les détections à une vitesse maximale de 8 Hz. Pour la validation de nos méthodes, nous avons pris en compte trois paramètres: la position globale, la position de l'extrémité, et l'orientation des détections. Les méthodes ont été classées et comparées avec des méthodes de référence compétitives. Pour la détection des tubes d'aspiration, nous avons obtenu un taux de manqué de 15% pour un taux de faux positifs par image de 0.1, comparé à un taux de manqué de 55% pour le SquaresChnFtrs adapté. L'orientation future du travail devra porter sur l'intégration des informations 3D, l'amélioration de la couche de labélisation sémantique, et la classification des outils chirurgicaux. Pour finir, un enrichissement du jeu de données et des annotations de plus haute précision seront nécessaires. / Despite modern-life technological advances and tremendous progress made in surgical techniques including MIS, today's OR is facing many challenges remaining yet to be addressed. The development of CAS systems integrating the SPM methodology was born as a response from the medical community, with the long-term objective to create surgical cockpit systems. Being able to identify surgical tools in use is a key component for systems relying on the SPM methodology. Towards that end, this thesis work has focused on real-time surgical tool detection from microscope 2D images. From the review of the literature, no validation data-sets have been elected as benchmarks by the community. In addition, the neurosurgical context has been addressed only once. As such, the first contribution of this thesis work consisted in the creation of a new surgical tool data-set, made freely available online. Two methods have been proposed to tackle the surgical tool detection challenge. First, the adapted SquaresChnFtrs, evolution of one of the best computer vision state-of-the-art approach for pedestrian detection. Our second contribution, the ShapeDetector, is fully data-driven and performs detection without the use of prior knowledge regarding the number, shape, and position of tools in the image. Compared to previous works, we chose to represent candidate detections with bounding polygons instead of bounding boxes, hence providing more fitting results. For integration into medical systems, we performed different code optimization through CPU and GPU use. Speed gain and accuracy loss from the use of ad-hoc optimization strategies have been thoroughly quantified to find an optimal trade-off between speed and accuracy. Our ShapeDetector is running in-between 5 and 8Hz for 612x480 pixel video sequences.We validated our approaches using a detailed methodology covering the overall tool location, tip position, and orientation. Approaches have been compared and ranked conjointly with a set of competitive baselines. For suction tube detections, we achieved a 15% miss-rate at 0.1 FPPI, compared to a 55% miss-rate for the adapted SquaresChnFtrs. Future works should be directed toward the integration of 3D feature extraction to improve detection performance but also toward the refinement of the semantic labelling step. Coupling the tool detection task to the tool classification in one single framework should be further investigated. Finally, increasing the data-set in diversity, number of tool classes, and detail of annotations is of interest. Détection d'objet Vision par ordinateur Outils chirurgicaux Images de microscope Neurochirurgie Object detection Template matching Surgical tools Microscope images Neurosurgery
3	Evaluation de situations dynamiques multicibles par fusion de données spatio-temporelles Pollard, Evangeline 15 October 2010 (has links) (PDF) Cette thèse, réalisée en coopération avec l'Onera, s'inscrit dans le domaine de la surveillance du champ de bataille. L'objectif des travaux est d'étudier et de développer une technique qui fusionne différentes sources d'informations, afin d'évaluer la situation tactique sur une large zone d'observation, ceci de manière semi-automatique en temps quasi-réel. Cette évaluation est réalisée en deux étapes. La première réalise une évaluation globale de la situation en utilisant une nouvelle technique de trajectographie (ou pistage) multicible par hybridation du filtre GM-CPHD et du MHT sous contrainte routière à partir des données GMTI (Ground Moving Target Indicator). Ce nouvel algorithme est adapté au pistage de cibles proches. Ensuite, la deuxième étape réalise une évaluation plus fine de la situation en détectant des objets dit d'intérêt tels que des convois par l'intégration d'autres types de données (SAR, vidéo). La détection se base sur l'utilisation des réseaux bayésiens ainsi que leur version crédibiliste. [MATH] Mathematics Evaluation de situation pistage multicible détection d'objet d'intérêt convoi filtre GM-CPHD réseaux bayésiens réseaux crédibilistes modèle des croyances transférables
4	Classification d'images et localisation d'objets par des méthodes de type noyau de Fisher Cinbis, Ramazan Gokberk 22 July 2014 (has links) (PDF) Dans cette thèse, nous proposons des modèles et des méthodes dédiés à des taches de compréhension de l'image. En particulier, nous nous penchons sur des approches de type noyau de Fisher pour la classification d'images et la localisation d'objets. Nos études se répartissent en trois chapitres. En premier lieu, nous proposons de nouveaux descripteurs d'images construits sur des modèles non-iid de l'image. Notre point de départ est l'observation que les régions locales d'une image sont souvent supposées indépendentes et identiquement distribuées (iid) dans les modèles de type sacs-de-mots (SdM). Nous introduisons des modèles non-iid en traitant les paramètres du SdM comme des variables latentes, ce qui rend interdépendantes toutes les régions locales. En utilisant le noyau de Fisher, nous encodons une image par le gradient de sa log-vraisemblance par rapport aux hyper-paramètres du modèle. Notre représentation implique naturellement une invariance à certaines transformations, ce qui explique pourquoi de telles approches ont été courronnées de succès. En utilisant l'inférence variationnelle, nous étendons le modèle de base pour inclure un mélange de gaussiennes sur les descripteurs locaux, et un modèle latent de sujets pour capturer la structure co-occurente des mots visuels. Dans un second temps, nous présentons un système de détection d'objet reposant sur la représentation haute-dimension d'images par le vecteur de Fisher. Pour des raisons de complexité en temps et en espace, nous utilisons une méthode récente à base de segmentation pour engendrer des hypothèses de détection indépendantes des classes, ainsi que des techniques de compression. Notre principale contribution est une méthode pour produire des masques de segmentation potentiels, afin de supprimer le bruit du descripteur dû à l'arrière plan. Nous montrons que repondérer les descripteurs locaux de l'image en fonction de ces masques améliore significativement la performance en détection. Troisièmement, nous proposons une approche semi-supervisée pour la localisation d'objets. L'entrainement supervisé usuel de détecteurs d'objets nécessite l'annotation de boites englobantes des instances de ces objets. Ce processus coûteux est évité en apprentissage semi-supervisé, lequel ne nécessite que des étiquettes binaires indiquant la présence ou l'absence des objets. Nous suivons une approche d'apprentissage à instance multiple en alterne itérativement entre entrainer un détecteur et inférer les positions des objets. Notre contribution principale est une procédure multi-état d'apprentissage à instance multiple, qui évite à l'apprentissage de se focaliser prématurément sur des positions d'objets erronnées. Nous montrons que cette procédure est particulièrement importante lorsque des représentations haute-dimensions comme le vecteur de Fisher sont utilisées. Pour finir, nous présentons dans l'appendice de cette thèse notre travail sur l'identification de personnes dans des vidéos télévision non-contrôlées. Nous montrons qu'une distance adaptée au casting peut être apprise sans étiqueter d'exemple d'apprentissage, mais en utilisant des paires de visages au sein d'un même chemin et sur plusieurs chemins se chevauchant temporellement. Nous montrons que la métrique apprise améliore l'identification de chemins de visages, la reconnaissance et les performances en regroupement. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Classification d'image Détection d'objet Apprentissage faiblement supervisé Vision par ordinateur Apprentis-sage statistique
5	Classification d'images et localisation d'objets par des méthodes de type noyau de Fisher / Fisher kernel based models for image classification and object localization Cinbis, Ramazan Gokberk 22 July 2014 (has links) Dans cette thèse, nous proposons des modèles et des méthodes dédiés à des taches de compréhension de l'image. En particulier, nous nous penchons sur des approches de type noyau de Fisher pour la classification d'images et la localisation d'objets. Nos études se répartissent en trois chapitres. En premier lieu, nous proposons de nouveaux descripteurs d'images construits sur des modèles non-iid de l'image. Notre point de départ est l'observation que les régions locales d'une image sont souvent supposées indépendentes et identiquement distribuées (iid) dans les modèles de type sacs-de-mots (SdM). Nous introduisons des modèles non-iid en traitant les paramètres du SdM comme des variables latentes, ce qui rend interdépendantes toutes les régions locales. En utilisant le noyau de Fisher, nous encodons une image par le gradient de sa log-vraisemblance par rapport aux hyper-paramètres du modèle. Notre représentation implique naturellement une invariance à certaines transformations, ce qui explique pourquoi de telles approches ont été courronnées de succès. En utilisant l'inférence variationnelle, nous étendons le modèle de base pour inclure un mélange de gaussiennes sur les descripteurs locaux, et un modèle latent de sujets pour capturer la structure co-occurente des mots visuels. Dans un second temps, nous présentons un système de détection d'objet reposant sur la représentation haute-dimension d'images par le vecteur de Fisher. Pour des raisons de complexité en temps et en espace, nous utilisons une méthode récente à base de segmentation pour engendrer des hypothèses de détection indépendantes des classes, ainsi que des techniques de compression. Notre principale contribution est une méthode pour produire des masques de segmentation potentiels, afin de supprimer le bruit du descripteur dû à l'arrière plan. Nous montrons que repondérer les descripteurs locaux de l'image en fonction de ces masques améliore significativement la performance en détection. Troisièmement, nous proposons une approche semi-supervisée pour la localisation d'objets. L'entrainement supervisé usuel de détecteurs d'objets nécessite l'annotation de boites englobantes des instances de ces objets. Ce processus coûteux est évité en apprentissage semi-supervisé, lequel ne nécessite que des étiquettes binaires indiquant la présence ou l'absence des objets. Nous suivons une approche d'apprentissage à instance multiple en alterne itérativement entre entrainer un détecteur et inférer les positions des objets. Notre contribution principale est une procédure multi-état d'apprentissage à instance multiple, qui évite à l'apprentissage de se focaliser prématurément sur des positions d'objets erronnées. Nous montrons que cette procédure est particulièrement importante lorsque des représentations haute-dimensions comme le vecteur de Fisher sont utilisées. Pour finir, nous présentons dans l'appendice de cette thèse notre travail sur l'identification de personnes dans des vidéos télévision non-contrôlées. Nous montrons qu'une distance adaptée au casting peut être apprise sans étiqueter d'exemple d'apprentissage, mais en utilisant des paires de visages au sein d'un même chemin et sur plusieurs chemins se chevauchant temporellement. Nous montrons que la métrique apprise améliore l'identification de chemins de visages, la reconnaissance et les performances en regroupement. / In this dissertation, we propose models and methods targeting image understanding tasks. In particular, we focus on Fisher kernel based approaches for the image classification and object localization problems. We group our studies into the following three main chapters. First, we propose novel image descriptors based on non-i.i.d. image models. Our starting point is the observation that local image regions are implicitly assumed to be identically and independently distributed (i.i.d.) in the bag-of-words (BoW) model. We introduce non-i.i.d. models by treating the parameters of the BoW model as latent variables, which renders all local regions dependent. Using the Fisher kernel framework we encode an image by the gradient of the data log-likelihood with respect to model hyper-parameters. Our representation naturally involves discounting transformations, providing an explanation of why such transformations have proven successful. Using variational inference we extend the basic model to include Gaussian mixtures over local descriptors, and latent topic models to capture the co-occurrence structure of visual words. Second, we present an object detection system based on the high-dimensional Fisher vectors image representation. For computational and storage efficiency, we use a recent segmentation-based method to generate class-independent object detection hypotheses, in combination with data compression techniques. Our main contribution is a method to produce tentative object segmentation masks to suppress background clutter in the features. We show that re-weighting the local image features based on these masks improve object detection performance significantly. Third, we propose a weakly supervised object localization approach. Standard supervised training of object detectors requires bounding box annotations of object instances. This time-consuming annotation process is sidestepped in weakly supervised learning, which requires only binary class labels that indicate the absence/presence of object instances. We follow a multiple-instance learning approach that iteratively trains the detector and infers the object locations. Our main contribution is a multi-fold multiple instance learning procedure, which prevents training from prematurely locking onto erroneous object locations. We show that this procedure is particularly important when high-dimensional representations, such as the Fisher vectors, are used. Finally, in the appendix of the thesis, we present our work on person identification in uncontrolled TV videos. We show that cast-specific distance metrics can be learned without labeling any training examples by utilizing face pairs within tracks and across temporally-overlapping tracks. We show that the obtained metrics improve face-track identification, recognition and clustering performances. Classification d’image Détection d'objet Apprentissage faiblement supervisé Vision par ordinateur Apprentis-sage statistique Image classification Object detection Weakly supervised training Computer vision Machine learning
6	Detection and counting of Powered Two Wheelers in traffic using a single-plane Laser Scanner / Détection de deux roues motorisées par télémètre laser à balayage Prabhakar, Yadu 10 October 2013 (has links) La sécurité des deux-roues motorisés (2RM) constitue un enjeu essentiel pour les pouvoirs publics et les gestionnaires routiers. Si globalement, l’insécurité routière diminue sensiblement depuis 2002, la part relative des accidents impliquant les 2RM a tendance à augmenter. Ce constat est résumé par les chiffres suivants : les 2RM représentent environ 2 % du trafic et 30 % des tués sur les routes.On observe depuis plusieurs années une augmentation du parc des 2RM et pourtant il manque des données et des informations sur ce mode de transport, ainsi que sur les interactions des 2RM avec les autres usagers et l'infrastructure routière. Ce travail de recherche appliquée est réalisé dans le cadre du projet ANR METRAMOTO et peut être divisé en deux parties : la détection des2RM et la détection des objets routiers par scanner laser. Le trafic routier en général contient des véhicules de nature et comportement inconnus, par exemple leurs vitesses, leurs trajectoires et leurs interactions avec les autres usagers de la route. Malgré plusieurs technologies pour mesurer le trafic,par exemple les radars ou les boucles électromagnétiques, il est difficile de détecter les 2RM à cause de leurs petits gabarits leur permettant de circuler à vitesse élevée et ce même en interfile. La méthode développée est composée de plusieurs sous-parties: Choisir une configuration optimale du scanner laser afin de l’installer sur la route. Ensuite une méthode de mise en correspondance est proposée pour trouver la hauteur et les bords de la route. Le choix d’installation est validé par un simulateur. A ces données brutes, la méthode de prétraitement est implémentée et une transformation de ces données dans le domaine spatio-temporel est faite. Après cette étape de prétraitement, la méthode d’extraction nommée ‘Last Line Check (LLC)’ est appliquée. Une fois que le véhicule est extrait, il est classifié avec un SVM et un KNN. Ensuite un compteur est mis en œuvre pour compter les véhicules classifiés. A la fin, une comparaison de la performance de chacun de ces deux classifieurs est réalisée. La solution proposée est un prototype et peut être intégrée dans un système qui serait installé sur une route au trafic aléatoire (dense, fluide, bouchons) pour détecter, classifier et compter des 2RM en temps réel. / The safety of Powered Two Wheelers (PTWs) is important for public authorities and roadadministrators around the world. Recent official figures show that PTWs are estimated to represent only 2% of the total traffic but represent 30% of total deaths on French roads. However, as these estimated figures are obtained by simply counting the number plates registered, they do not give a true picture of the PTWs on the road at any given moment. This dissertation comes under the project METRAMOTO and is a technical applied research work and deals with two problems: detection of PTWsand the use of a laser scanner to count PTWs in the traffic. Traffic generally contains random vehicles of unknown nature and behaviour such as speed,vehicle interaction with other users on the road etc. Even though there are several technologies that can measure traffic, for example radars, cameras, magnetometers etc, as the PTWs are small-sized vehicles, they often move in between lanes and at quite a high speed compared to the vehicles moving in the adjacent lanes. This makes them difficult to detect. the proposed solution in this research work is composed of the following parts: a configuration to install the laser scanner on the road is chosen and a data coherence method is introduced so that the system is able to detect the road verges and its own height above the road surface. This is validated by simulator. Then the rawd ata obtained is pre-processed and is transform into the spatial temporal domain. Following this, an extraction algorithm called the Last Line Check (LLC) method is proposed. Once extracted, the objectis classified using one of the two classifiers either the Support Vector Machine (SVM) or the k-Nearest Neighbour (KNN). At the end, the results given by each of the two classifiers are compared and presented in this research work. The proposed solution in this research work is a propototype that is intended to be integrated in a real time system that can be installed on a highway to detect, extract, classify and counts PTWs in real time under all traffic conditions (traffic at normal speeds, dense traffic and even traffic jams). Scanner laser Détection d'objet Reconnaissance des formes Deux roues motorisés (2RM) SVM K-Plus Proches Voisons Classification Laser scanner Object detection Pattern recognition Powered Two Wheelers (PTWs) KNN Classifications
7	Processus ponctuels et algorithmes de coupure minimal de graphe appliqués à l'extraction d'objets 2D et 3D Gamal Eldin, Ahmed 24 October 2011 (has links) (PDF) L'objectif de cette thèse est de développer une nouvelle approche de détection d'objets 3D à partir d'une image 2D, prenant en compte les occultations et les phénomènes de perspective. Cette approche est fondée sur la théorie des processus ponctuels marqués, qui a fait ses preuves dans la solution de plusieurs problèmes en imagerie haute résolution. Le travail de la thèse est structuré en deux parties. <br> En première partie : nous proposons une nouvelle méthode probabiliste pour gérer les occultations et les effets de perspective. Le modèle proposé est fondé sur la simulation d'une scène 3D utilisant OpenGL sur une carte graphique (GPU). C'est une méthode orientée objet, intégrée dans le cadre d'un processus ponctuel marqué. Nous l'appliquons pour l'estimation de la taille d'une colonie de manchots, là où nous modélisons une colonie de manchots comme un nombre inconnu d'objets 3D. L'idée principale de l'approche proposée consiste à échantillonner certaines configurations candidat composé d'objets 3D s'appuyant sur le plan réel. Une densité de Gibbs est définie sur l'espace des configurations, qui prend en compte des informations a priori et sur les données. Pour une configuration proposée, la scène est projetée sur le plan image, et les configurations sont modifiées jusqu'à convergence. Pour évaluer une configuration proposée, nous mesurons la similarité entre l'image projetée de la configuration proposée et l'image réelle, définissant ainsi le terme d'attache aux données et l'a priori pénalisant les recouvrements entre objets. Nous avons introduit des modifications dans l'algorithme d'optimisation pour prendre en compte les nouvelles dépendances qui existent dans notre modèle 3D. <br> En deuxième partie : nous proposons une nouvelle méthode d'optimisation appelée "Naissances et Coupe multiples" ("Multiple Births and Cut" (MBC) en Anglais). Cette méthode combine à la fois la nouvelle méthode d'optimisation "Naissance et Mort multiples" (MBD) et les "Graph-Cut". Les méthodes MBC et MBD sont utilisées pour l'optimisation d'un processus ponctuel marqué. Nous avons comparé les algorithmes MBC et MBD montrant que les principaux avantages de notre algorithme nouvellement proposé sont la réduction du nombre de paramètres, la vitesse de convergence et de la qualité des résultats obtenus. Nous avons validé notre algorithme sur le problème de dénombrement des flamants roses dans une colonie. [STAT:AP] Statistics/Applications Détection d'objet multiple Naissances et Coupe multiples coupe minimale de graphe Naissance et mort multiple processus ponctuels marqués géométrie stochastique colonie de manchots colonie de flamant

1

Page generated in 0.1089 seconds