Global ETD Search

171	Navigation visuelle de robots mobiles dans un environnement d'intérieur Ghazouani, Haythem 12 December 2012 (has links) (PDF) Les travaux présentés dans cette thèse concernent le thème des fonctionnalités visuelles qu'il convient d'embarquer sur un robot mobile, afin qu'il puisse se déplacer dans son environnement. Plus précisément, ils ont trait aux méthodes de perception par vision stéréoscopique dense, de modélisation de l'environnement par grille d'occupation, et de suivi visuel d'objets, pour la navigation autonome d'un robot mobile dans un environnement d'intérieur. Il nous semble important que les méthodes de perception visuelle soient à la fois robustes et rapide. Alors que dans les travaux réalisés, on trouve les méthodes globales de mise en correspondance qui sont connues pour leur robustesse mais moins pour être employées dans les applications temps réel et les méthodes locales qui sont les plus adaptées au temps réel tout en manquant de précision. Pour cela, ce travail essaye de trouver un compromis entre robustesse et temps réel en présentant une méthode semi-locale, qui repose sur la définition des distributions de possibilités basées sur une formalisation floue des contraintes stéréoscopiques. Il nous semble aussi important qu'un robot puisse modéliser au mieux son environnement. Une modélisation fidèle à la réalité doit prendre en compte l'imprécision et l'incertitude. Ce travail présente une modélisation de l'environnement par grille d'occupation qui repose sur l'imprécision du capteur stéréoscopique. La mise à jour du modèle est basée aussi sur la définition de valeurs de crédibilité pour les mesures prises. Enfin, la perception et la modélisation de l'environnement ne sont pas des buts en soi mais des outils pour le robot pour assurer des tâches de haut niveau. Ce travail traite du suivi visuel d'un objet mobile comme tâche de haut niveau. [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique Robot mobile Vision stéréoscopique Distribution de possibilités Logique floue Grille d'occupation Propagation d'erreur Suivi d'objets Segmentation
172	Méthodes probabiliste pour le suivi de points et l'analyse d'images biologiques Primet, Maël 25 November 2011 (has links) (PDF) Nous nous intéressons dans cette thèse au problème du suivi d'objets, que nous abordons par des méthodes statistiques. La première contribution de cette thèse est la conception d'un algorithme de suivi de bactéries dans une séquence d'image et de reconstruction de leur lignage, travail ayant donné lieu à la réalisation d'une suite logicielle aujourd'hui utilisée dans un laboratoire de recherche en biologie. La deuxième contribution est une étude théorique du problème de la détection de trajectoires dans un nuage de points. Nous définissons un détecteur de trajectoires utilisant le cadre statistique des méthodes a contrario, qui ne requiert essentiellement aucun paramètre pour fonctionner. Ce détecteur fournit des résultats remarquables, et permet notamment de retrouver des trajectoires dans des séquences contenant un grand nombre de points de bruit, tout en conservant un taux de fausses détections de trajectoires très faible. Nous étudions ensuite plus spécifiquement le problème de l'affectation de nuages de points entre deux images, problème rencontré notamment pour la détection de trajectoires ou l'appariement d'images stéréographiques. Nous proposons d'abord un modèle théoriquement optimal pour l'affectation de points qui nous permet d'étudier les performances de plusieurs algorithmes classiques dans différentes conditions. Nous formulons ensuite un algorithme sans paramètre en utilisant le cadre a contrario, ce qui nous permet ensuite d'obtenir un nouvel algorithme de suivi de trajectoires. analyse d'image analyse d'images biologiques suivi suivi d'objets suivi de points correspondance de points problème de l'affectation a-contrario méthode sans paramètre détection de trajectoire traitement d'image traitement d'images biologiques
173	Perception de l'environnement par radar hyperfréquence. Application à la localisation et la cartographie simultanées, à la détection et au suivi d'objets mobiles en milieu extérieur Vivet, Damien 05 December 2011 (has links) (PDF) Dans le cadre de la robotique mobile extérieure, les notions de perception et de localisation sont essentielles au fonctionnement autonome d'un véhicule. Les objectifs de ce travail de thèse sont multiples et mènent vers un but de localisation et de cartographie simultanée d'un environnement extérieur dynamique avec détection et suivi d'objet mobiles (SLAMMOT) à l'aide d'un unique capteur extéroceptif tournant de type radar dans des conditions de circulation dites "réalistes", c'est-à-dire à haute vitesse soit environ 30 km/h. Il est à noter qu'à de telles vitesses, les données acquises par un capteur tournant son corrompues par le déplacement propre du véhicule. Cette distorsion, habituellement considérée comme une perturbation, est analysée ici comme une source d'information. Cette étude vise également à évaluer les potentialités d'un capteur radar de type FMCW (onde continue modulée en fréquence) pour le fonctionnement d'un véhicule robotique autonome. Nous avons ainsi proposé différentes contributions : - une correction de la distorsion à la volée par capteurs proprioceptifs qui a conduit à une application de localisation et de cartographie simultanées (SLAM), - une méthode d'évaluation de résultats de SLAM basées segment, - une considération de la distorsion des données dans un but proprioceptif menant à une application SLAM, - un principe d'odométrie fondée sur les données Doppler propres au capteur radar, - une méthode de détection et de pistage d'objets mobiles : DATMO avec un unique radar. [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique Traitement du signal et de l'image Perception multi-sensorielle Robotique mobile Fusion de données Radar panoramique Imagerie Reconstruction de trajectoire Détection et pistage d'objets Capteur rotatif Distorsion de données Méthode d'évaluation
174	Indexation et recherche de contenus par objet visuel / Object-based visual content indexing and retrieval Bursuc, Andrei 21 December 2012 (has links) La question de recherche des objets vidéo basés sur le contenu lui-même, est de plus en plus difficile et devient un élément obligatoire pour les moteurs de recherche vidéo. Cette thèse présente un cadre pour la recherche des objets vidéo définis par l'utilisateur et apporte deux grandes contributions. La première contribution, intitulée DOOR (Dynamic Object Oriented Retrieval), est un cadre méthodologique pour la recherche et récupération des instances d'objets vidéo sélectionnés par un utilisateur, tandis que la seconde contribution concerne le support offert pour la recherche des vidéos, à savoir la navigation dans les vidéo, le système de récupération de vidéos et l'interface avec son architecture sous-jacente.Dans le cadre DOOR, l’objet comporte une représentation hybride obtenues par une sur-segmentation des images, consolidé avec la construction des graphs d’adjacence et avec l’agrégation des points d'intérêt. L'identification des instances d'objets à travers plusieurs vidéos est formulée comme un problème d’optimisation de l'énergie qui peut approximer un tache NP-difficile. Les objets candidats sont des sous-graphes qui rendent une énergie optimale vers la requête définie par l'utilisateur. Quatre stratégies d'optimisation sont proposées: Greedy, Greedy relâché, recuit simulé et GraphCut. La représentation de l'objet est encore améliorée par l'agrégation des points d'intérêt dans la représentation hybride, où la mesure de similarité repose sur une technique spectrale intégrant plusieurs types des descripteurs. Le cadre DOOR est capable de s’adapter à des archives vidéo a grande échelle grâce à l'utilisation de représentation sac-de-mots, enrichi avec un algorithme de définition et d’expansion de la requête basée sur une approche multimodale, texte, image et vidéo. Les techniques proposées sont évaluées sur plusieurs corpora de test TRECVID et qui prouvent leur efficacité.La deuxième contribution, OVIDIUS (On-line VIDeo Indexing Universal System) est une plate-forme en ligne pour la navigation et récupération des vidéos, intégrant le cadre DOOR. Les contributions de cette plat-forme portent sur le support assuré aux utilisateurs pour la recherche vidéo - navigation et récupération des vidéos, interface graphique. La plate-forme OVIDIUS dispose des fonctionnalités de navigation hiérarchique qui exploite la norme MPEG-7 pour la description structurelle du contenu vidéo. L'avantage majeur de l'architecture propose c’est sa structure modulaire qui permet de déployer le système sur terminaux différents (fixes et mobiles), indépendamment des systèmes d'exploitation impliqués. Le choix des technologies employées pour chacun des modules composant de la plate-forme est argumentée par rapport aux d'autres options technologiques. / With the ever increasing amount of available video content on video repositories the issue of content-based video objects retrieval is growing in difficulty and becomes a mandatory feature for video search engines.The present thesis advances a user defined video object retrieval framework and brings two major contributions. The first contribution is a methodological framework for user selected video object instances retrieval, entitled DOOR (Dynamic Object Oriented Retrieval), while the second one concerns the support offered for video retrieval, namely the video navigation and retrieval system and interface and its underlying architecture.Under the DOOR framework, the user defined video object comports a hybrid representation obtained by over-segmenting the frames, constructing region adjacency graphs and aggregating interest points. The identification of object instances across multiple videos is formulated as an energy optimization problem approximating an NP-hard problem. Object candidates are sub-graphs that yield an optimum energy towards the user defined query. In order to obtain the optimum energy four optimization strategies are proposed: Greedy, Relaxed Greedy, Simulated Annealing and GraphCut. The region-based object representation is further improved by the aggregation of interest points into a hybrid object representation. The similarity between an object and a frame is achieved with the help of a spectral matching technique integrating both colorimetric and interest points descriptors.The DOOR framework is suitable to large scale video archives through the use of a Bag-of-Words representation enriched with a query definition and expansion mechanism based on a multi-modal, text-image-video principle.The performances of the proposed techniques are evaluated on multiple TRECVID video datasets prooving their effectiveness.The second contribution is related to the user support for video retrieval - video navigation, video retrieval, graphical interface - and consists in the OVIDIUS (On-line VIDeo Indexing Universal System) on-line video browsing and retrieval platform. The OVIDIUS platform features hierarchical video navigation functionalities that exploit the MPEG-7 approach for structural description of video content. The DOOR framework is integrated in the OVIDIUS platform, ensuring the search functionalities of the system. The major advantage of the proposed system concerns its modular architecture which makes it possible to deploy the system on various terminals (both fixed and mobile), independently of the exploitation systems involved. The choice of the technologies employed for each composing module of the platform is argumented in comparison with other technological options. Finally different scenarios and use cases for the OVIDIUS platform are presented. Indexation basée sur le contenu Récupération d'objets Services web Contenu multimédia Mpeg-7 Descripteurs locaux Indexation multimédia Représentation d'objet Minimization d'énergie Greedy Recuit simulé MPEG-7 GraphCut Sac de mots Extension de requête Appariement de graphes Recherche multimodale TRECVID Plateforme d'indexation multimédia Navigation de vidéos HTML5 Accès multi-terminal Content-based indexing Object retrieval Web services Multimedia content Mpeg-7 Local descriptors Greedy MPEG-7 GraphCut TRECVID HTML5
175	Feedforward deep architectures for classification and synthesis Warde-Farley, David 08 1900 (has links) No description available. Réseau de neurones Apprentissage supervisé Apprentissage non-supervisé Apprentissage machine Dropout Fonction d'activation Réseau convolutionel Reconnaissance d'objets Synthèse d'images Neural network Machine learning Deep learning Supervised learning Unsupervised learning Generative adversarial network Activation function Convolutional network Object recognition Image synthesis
176	Le dispositif d'objets dans un nouveau type d'image au 16e siècle : les portraits de marchands Waite-Fillion, Alexandra 04 1900 (has links) Le concept d’un « dispositif d’objets » présent dans le Portrait d’un marchand (v. 1530) de Jan Gossart et le Portrait du marchand Georg Gisze (1532) d’Hans Holbein le Jeune a pour objectif de porter un regard nouveau sur des œuvres trop souvent réduites à des notions d’esthétisme et de symbolisme. En utilisant une approche pluridisciplinaire à notre analyse, nous voulons promouvoir les objets comme acteur dominant dans la mise en scène de l’identité sociale du marchand au 16e siècle. L’association entre histoire de l’art et anthropologie des techniques permet la validation d’une scénographie de la culture matérielle marchande, ainsi que le dégagement d’un commentaire social inhérent à la proposition artistique de Gossart et Holbein. L’intérêt d’une étude orientée sur les objets promet également l’ouverture d’une réflexion sur la manière de concevoir le portrait d’occupation indépendamment de la valeur anagogique qui lui est généralement associée à la Renaissance. Le Portrait d’un marchand et le Portrait du marchand Georg Gisze attestent d’un moment ponctuel dans la production spatio-temporelle des portraits de marchands en Europe du Nord au 16e siècle. L’analogie confondante qui unit les deux œuvres prend son essence dans la thématique visuelle engendrée par le « dispositif d’objets ». / The concept of an object system, as found in Jan Gossart’s Portrait of a Merchant (ca. 1530) and Hans Holbein the Younger’s Georg Gisze (1532) aims to reevaluate works which are too often reduced to aesthetics and symbolism. By means of a multidisciplinary approach, the study aims to promote the objects represented in the paintings as the dominant actors in the staging of the social identity of the sixteenth-century merchant. The association between art history and anthropology of techniques allows the validation of a scenography of the material merchant culture, as well as the emergence of a social commentary inherent to Gossart’s and Holbein’s artistic work. Attention to an object-oriented study also allows for new insights into how to understand the occupational portrait independently of an anagogical value, which is generally attributed to the Renaissance period. The Portrait of a Merchant and portrait of Georg Gisze attest to a specific moment in the production of merchant portraits in northern Europe during the sixteenth century. The apparently disparate works are united by the object system represented in the paintings. Histoire de l'art Anthropologie des techniques 16e siècle Europe du Nord Jan Gossart Hans Holbein le Jeune Portrait de marchand Dispositif d'objets Identité marchande Art history Anthropology of techniques 16th century North Europe Hans Holbein the Younger Merchant portrait Objects system Merchant identity
177	Estimation de cartes d'énergie du bruit apériodique de la marche humaine avec une caméra de profondeur pour la détection de pathologies et modèles légers de détection d'objets saillants basés sur l'opposition de couleurs Ndayikengurukiye, Didier 06 1900 (has links) Cette thèse a pour objectif l’étude de trois problèmes : l’estimation de cartes de saillance de l’énergie du bruit apériodique de la marche humaine par la perception de profondeur pour la détection de pathologies, les modèles de détection d’objets saillants en général et les modèles légers en particulier par l’opposition de couleurs. Comme première contribution, nous proposons un système basé sur une caméra de profondeur et un tapis roulant, qui analyse les parties du corps du patient ayant un mouvement irrégulier, en termes de périodicité, pendant la marche. Nous supposons que la marche d'un sujet sain présente n'importe où dans son corps, pendant les cycles de marche, un signal de profondeur avec un motif périodique sans bruit. La présence de bruit et son importance peuvent être utilisées pour signaler la présence et l'étendue de pathologies chez le sujet. Notre système estime, à partir de chaque séquence vidéo, une carte couleur de saillance montrant les zones de fortes irrégularités de marche, en termes de périodicité, appelées énergie de bruit apériodique, de chaque sujet. Notre système permet aussi de détecter automatiquement les cartes des individus sains et ceux malades. Nous présentons ensuite deux approches pour la détection d’objets saillants. Bien qu’ayant fait l’objet de plusieurs travaux de recherche, la détection d'objets saillants reste un défi. La plupart des modèles traitent la couleur et la texture séparément et les considèrent donc implicitement comme des caractéristiques indépendantes, à tort. Comme deuxième contribution, nous proposons une nouvelle stratégie, à travers un modèle simple, presque sans paramètres internes, générant une carte de saillance robuste pour une image naturelle. Cette stratégie consiste à intégrer la couleur dans les motifs de texture pour caractériser une micro-texture colorée, ceci grâce au motif ternaire local (LTP) (descripteur de texture simple mais puissant) appliqué aux paires de couleurs. La dissemblance entre chaque paire de micro-textures colorées est calculée en tenant compte de la non-linéarité des micro-textures colorées et en préservant leurs distances, donnant une carte de saillance intermédiaire pour chaque espace de couleur. La carte de saillance finale est leur combinaison pour avoir des cartes robustes. Le développement des réseaux de neurones profonds a récemment permis des performances élevées. Cependant, il reste un défi de développer des modèles de même performance pour des appareils avec des ressources limitées. Comme troisième contribution, nous proposons une nouvelle approche pour un modèle léger de réseau neuronal profond de détection d'objets saillants, inspiré par les processus de double opposition du cortex visuel primaire, qui lient inextricablement la couleur et la forme dans la perception humaine des couleurs. Notre modèle proposé, CoSOV1net, est entraîné à partir de zéro, sans utiliser de ``backbones'' de classification d'images ou d'autres tâches. Les expériences sur les ensembles de données les plus utilisés et les plus complexes pour la détection d'objets saillants montrent que CoSOV1Net atteint des performances compétitives avec des modèles de l’état-de-l’art, tout en étant un modèle léger de détection d'objets saillants et pouvant être adapté aux environnements mobiles et aux appareils à ressources limitées. / The purpose of this thesis is to study three problems: the estimation of saliency maps of the aperiodic noise energy of human gait using depth perception for pathology detection, and to study models for salient objects detection in general and lightweight models in particular by color opposition. As our first contribution, we propose a system based on a depth camera and a treadmill, which analyzes the parts of the patient's body with irregular movement, in terms of periodicity, during walking. We assume that a healthy subject gait presents anywhere in his (her) body, during gait cycles, a depth signal with a periodic pattern without noise. The presence of noise and its importance can be used to point out presence and extent of the subject’s pathologies. Our system estimates, from each video sequence, a saliency map showing the areas of strong gait irregularities, in terms of periodicity, called aperiodic noise energy, of each subject. Our system also makes it possible to automatically detect the saliency map of healthy and sick subjects. We then present two approaches for salient objects detection. Although having been the subject of many research works, salient objects detection remains a challenge. Most models treat color and texture separately and therefore implicitly consider them as independent feature, erroneously. As a second contribution, we propose a new strategy through a simple model, almost without internal parameters, generating a robust saliency map for a natural image. This strategy consists in integrating color in texture patterns to characterize a colored micro-texture thanks to the local ternary pattern (LTP) (simple but powerful texture descriptor) applied to the color pairs. The dissimilarity between each colored micro-textures pair is computed considering non-linearity from colored micro-textures and preserving their distances. This gives an intermediate saliency map for each color space. The final saliency map is their combination to have robust saliency map. The development of deep neural networks has recently enabled high performance. However, it remains a challenge to develop models of the same performance for devices with limited resources. As a third contribution, we propose a new approach for a lightweight salient objects detection deep neural network model, inspired by the double opponent process in the primary visual cortex, which inextricably links color and shape in human color perception. Our proposed model, namely CoSOV1net, is trained from scratch, without using any image classification backbones or other tasks. Experiments on the most used and challenging datasets for salient objects detection show that CoSOV1Net achieves competitive performance with state-of-the-art models, yet it is a lightweight detection model and it is a salient objects detection that can be adapted to mobile environments and resource-constrained devices. analyse clinique de la marche modèle léger détection d'objets saillants réseau neuronal profond léger opposition de signaux de cônes opposition de couleur motif local ternaire FastMap bruit apériodique Kinect gait clinic analysis lightweight salient object detection salient object detection lightweight neural network cone opponent color opponent local ternary pattern aperiodic noise
178	Towards meaningful and data-efficient learning : exploring GAN losses, improving few-shot benchmarks, and multimodal video captioning Huang, Gabriel 09 1900 (has links) Ces dernières années, le domaine de l’apprentissage profond a connu des progrès énormes dans des applications allant de la génération d’images, détection d’objets, modélisation du langage à la réponse aux questions visuelles. Les approches classiques telles que l’apprentissage supervisé nécessitent de grandes quantités de données étiquetées et spécifiques à la tâches. Cependant, celles-ci sont parfois coûteuses, peu pratiques, ou trop longues à collecter. La modélisation efficace en données, qui comprend des techniques comme l’apprentissage few-shot (à partir de peu d’exemples) et l’apprentissage self-supervised (auto-supervisé), tentent de remédier au manque de données spécifiques à la tâche en exploitant de grandes quantités de données plus “générales”. Les progrès de l’apprentissage profond, et en particulier de l’apprentissage few-shot, s’appuient sur les benchmarks (suites d’évaluation), les métriques d’évaluation et les jeux de données, car ceux-ci sont utilisés pour tester et départager différentes méthodes sur des tâches précises, et identifier l’état de l’art. Cependant, du fait qu’il s’agit de versions idéalisées de la tâche à résoudre, les benchmarks sont rarement équivalents à la tâche originelle, et peuvent avoir plusieurs limitations qui entravent leur rôle de sélection des directions de recherche les plus prometteuses. De plus, la définition de métriques d’évaluation pertinentes peut être difficile, en particulier dans le cas de sorties structurées et en haute dimension, telles que des images, de l’audio, de la parole ou encore du texte. Cette thèse discute des limites et des perspectives des benchmarks existants, des fonctions de coût (training losses) et des métriques d’évaluation (evaluation metrics), en mettant l’accent sur la modélisation générative - les Réseaux Antagonistes Génératifs (GANs) en particulier - et la modélisation efficace des données, qui comprend l’apprentissage few-shot et self-supervised. La première contribution est une discussion de la tâche de modélisation générative, suivie d’une exploration des propriétés théoriques et empiriques des fonctions de coût des GANs. La deuxième contribution est une discussion sur la limitation des few-shot classification benchmarks, certains ne nécessitant pas de généralisation à de nouvelles sémantiques de classe pour être résolus, et la proposition d’une méthode de base pour les résoudre sans étiquettes en phase de testing. La troisième contribution est une revue sur les méthodes few-shot et self-supervised de détection d’objets , qui souligne les limites et directions de recherche prometteuses. Enfin, la quatrième contribution est une méthode efficace en données pour la description de vidéo qui exploite des jeux de données texte et vidéo non supervisés. / In recent years, the field of deep learning has seen tremendous progress for applications ranging from image generation, object detection, language modeling, to visual question answering. Classic approaches such as supervised learning require large amounts of task-specific and labeled data, which may be too expensive, time-consuming, or impractical to collect. Data-efficient methods, such as few-shot and self-supervised learning, attempt to deal with the limited availability of task-specific data by leveraging large amounts of general data. Progress in deep learning, and in particular, few-shot learning, is largely driven by the relevant benchmarks, evaluation metrics, and datasets. They are used to test and compare different methods on a given task, and determine the state-of-the-art. However, due to being idealized versions of the task to solve, benchmarks are rarely equivalent to the original task, and can have several limitations which hinder their role of identifying the most promising research directions. Moreover, defining meaningful evaluation metrics can be challenging, especially in the case of high-dimensional and structured outputs, such as images, audio, speech, or text. This thesis discusses the limitations and perspectives of existing benchmarks, training losses, and evaluation metrics, with a focus on generative modeling—Generative Adversarial Networks (GANs) in particular—and data-efficient modeling, which includes few-shot and self-supervised learning. The first contribution is a discussion of the generative modeling task, followed by an exploration of theoretical and empirical properties of the GAN loss. The second contribution is a discussion of a limitation of few-shot classification benchmarks, which is that they may not require class semantic generalization to be solved, and the proposal of a baseline method for solving them without test-time labels. The third contribution is a survey of few-shot and self-supervised object detection, which points out the limitations and promising future research for the field. Finally, the fourth contribution is a data-efficient method for video captioning, which leverages unsupervised text and video datasets, and explores several multimodal pretraining strategies. self-supervised learning few-shot classification few-shot object detection low-data learning object detection instance segmentation representation learning residual network visual transformer Faster R-CNN DETR parametric adversarial divergence generative adversarial network variational auto-encoder maximum-likelihood structured prediction optimal discriminator mutual information implicit generative model multimodal pretraining dense video captioning cross-attention YouCook2 HowTo-100M Youtube-8M Recipe-1M Pascal VOC MSCOCO LVIS mutual information neural estimation apprentissage auto-supervisé classification few-shot détection d'objets few-shot apprentissage efficace en données segmentation en instances apprentissage de représentation réseau résiduel transformer visual divergences antagonistes paramétriques auto-encodeur variationnel maximum de vraisemblance prédiction structurée discriminateur optimal information mutuelle modèle génératif implicite pré-apprentissage multi-modal description dense de vidéo attention croisée ResNet ViT GAN VAE MINE

Search results