• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 47
  • 13
  • 2
  • Tagged with
  • 63
  • 63
  • 37
  • 17
  • 16
  • 14
  • 13
  • 12
  • 11
  • 10
  • 9
  • 9
  • 8
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Exploitation de données tridimensionnelles pour la cartographie et l'exploration autonome d'environnements urbains

Fournier, Jonathan 12 April 2018 (has links)
Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2006-2007 / Une solution de plus en plus courante pour appuyer les forces militaires déployées en milieu urbain consiste à utiliser des plates-formes robotisées pour la réalisation des tâches présentant un niveau de risque important. Dans cette optique, les travaux de recherche présentés dans ce mémoire ont permis de développer un système exploitant un capteur volumétrique 3D pour effectuer la modélisation d'environnements urbains et l'exploration efficace de ceux-ci à l'aide d'une plate-forme mobile autonome. Un aspect important de ce projet est que, le modèle 3D de l'environnement étant préservé sous forme d'octree multirésolution tout au long du processus, les modules de cartographie, d'exploration et de navigation qui composent la plate-forme mobile peuvent y avoir accès en tout temps afin d'effectuer leurs tâches respectives. À partir des résultats obtenus pour des tests effectués en simulation et dans un environnement réel, il a été possible de valider que le système développé permet d'explorer un environnement de façon autonome tout en générant de façon simultanée un modèle 3D complet de l'espace parcouru.
62

Natural image processing and synthesis using deep learning

Ganin, Iaroslav 09 1900 (has links)
Nous étudions dans cette thèse comment les réseaux de neurones profonds peuvent être utilisés dans différents domaines de la vision artificielle. La vision artificielle est un domaine interdisciplinaire qui traite de la compréhension d’images et de vidéos numériques. Les problèmes de ce domaine ont traditionnellement été adressés avec des méthodes ad-hoc nécessitant beaucoup de réglages manuels. En effet, ces systèmes de vision artificiels comprenaient jusqu’à récemment une série de modules optimisés indépendamment. Cette approche est très raisonnable dans la mesure où, avec peu de données, elle bénéficient autant que possible des connaissances du chercheur. Mais cette avantage peut se révéler être une limitation si certaines données d’entré n’ont pas été considérées dans la conception de l’algorithme. Avec des volumes et une diversité de données toujours plus grands, ainsi que des capacités de calcul plus rapides et économiques, les réseaux de neurones profonds optimisés d’un bout à l’autre sont devenus une alternative attrayante. Nous démontrons leur avantage avec une série d’articles de recherche, chacun d’entre eux trouvant une solution à base de réseaux de neurones profonds à un problème d’analyse ou de synthèse visuelle particulier. Dans le premier article, nous considérons un problème de vision classique: la détection de bords et de contours. Nous partons de l’approche classique et la rendons plus ‘neurale’ en combinant deux étapes, la détection et la description de motifs visuels, en un seul réseau convolutionnel. Cette méthode, qui peut ainsi s’adapter à de nouveaux ensembles de données, s’avère être au moins aussi précis que les méthodes conventionnelles quand il s’agit de domaines qui leur sont favorables, tout en étant beaucoup plus robuste dans des domaines plus générales. Dans le deuxième article, nous construisons une nouvelle architecture pour la manipulation d’images qui utilise l’idée que la majorité des pixels produits peuvent d’être copiés de l’image d’entrée. Cette technique bénéficie de plusieurs avantages majeurs par rapport à l’approche conventionnelle en apprentissage profond. En effet, elle conserve les détails de l’image d’origine, n’introduit pas d’aberrations grâce à la capacité limitée du réseau sous-jacent et simplifie l’apprentissage. Nous démontrons l’efficacité de cette architecture dans le cadre d’une tâche de correction du regard, où notre système produit d’excellents résultats. Dans le troisième article, nous nous éclipsons de la vision artificielle pour étudier le problème plus générale de l’adaptation à de nouveaux domaines. Nous développons un nouvel algorithme d’apprentissage, qui assure l’adaptation avec un objectif auxiliaire à la tâche principale. Nous cherchons ainsi à extraire des motifs qui permettent d’accomplir la tâche mais qui ne permettent pas à un réseau dédié de reconnaître le domaine. Ce réseau est optimisé de manière simultané avec les motifs en question, et a pour tâche de reconnaître le domaine de provenance des motifs. Cette technique est simple à implémenter, et conduit pourtant à l’état de l’art sur toutes les tâches de référence. Enfin, le quatrième article présente un nouveau type de modèle génératif d’images. À l’opposé des approches conventionnels à base de réseaux de neurones convolutionnels, notre système baptisé SPIRAL décrit les images en termes de programmes bas-niveau qui sont exécutés par un logiciel de graphisme ordinaire. Entre autres, ceci permet à l’algorithme de ne pas s’attarder sur les détails de l’image, et de se concentrer plutôt sur sa structure globale. L’espace latent de notre modèle est, par construction, interprétable et permet de manipuler des images de façon prévisible. Nous montrons la capacité et l’agilité de cette approche sur plusieurs bases de données de référence. / In the present thesis, we study how deep neural networks can be applied to various tasks in computer vision. Computer vision is an interdisciplinary field that deals with understanding of digital images and video. Traditionally, the problems arising in this domain were tackled using heavily hand-engineered adhoc methods. A typical computer vision system up until recently consisted of a sequence of independent modules which barely talked to each other. Such an approach is quite reasonable in the case of limited data as it takes major advantage of the researcher's domain expertise. This strength turns into a weakness if some of the input scenarios are overlooked in the algorithm design process. With the rapidly increasing volumes and varieties of data and the advent of cheaper and faster computational resources end-to-end deep neural networks have become an appealing alternative to the traditional computer vision pipelines. We demonstrate this in a series of research articles, each of which considers a particular task of either image analysis or synthesis and presenting a solution based on a ``deep'' backbone. In the first article, we deal with a classic low-level vision problem of edge detection. Inspired by a top-performing non-neural approach, we take a step towards building an end-to-end system by combining feature extraction and description in a single convolutional network. The resulting fully data-driven method matches or surpasses the detection quality of the existing conventional approaches in the settings for which they were designed while being significantly more usable in the out-of-domain situations. In our second article, we introduce a custom architecture for image manipulation based on the idea that most of the pixels in the output image can be directly copied from the input. This technique bears several significant advantages over the naive black-box neural approach. It retains the level of detail of the original images, does not introduce artifacts due to insufficient capacity of the underlying neural network and simplifies training process, to name a few. We demonstrate the efficiency of the proposed architecture on the challenging gaze correction task where our system achieves excellent results. In the third article, we slightly diverge from pure computer vision and study a more general problem of domain adaption. There, we introduce a novel training-time algorithm (\ie, adaptation is attained by using an auxilliary objective in addition to the main one). We seek to extract features that maximally confuse a dedicated network called domain classifier while being useful for the task at hand. The domain classifier is learned simultaneosly with the features and attempts to tell whether those features are coming from the source or the target domain. The proposed technique is easy to implement, yet results in superior performance in all the standard benchmarks. Finally, the fourth article presents a new kind of generative model for image data. Unlike conventional neural network based approaches our system dubbed SPIRAL describes images in terms of concise low-level programs executed by off-the-shelf rendering software used by humans to create visual content. Among other things, this allows SPIRAL not to waste its capacity on minutae of datasets and focus more on the global structure. The latent space of our model is easily interpretable by design and provides means for predictable image manipulation. We test our approach on several popular datasets and demonstrate its power and flexibility.
63

Vers un système de vision auto-adaptatif à base de systèmes multi-agents

Mahdjoub, Jason 15 December 2011 (has links) (PDF)
Il existe une multitude de traitements d'images dans la littérature, chacun étant adapté à un ensemble plus ou moins grand de cadres d'application. La généralisation ou la mise en collaboration de ces traitements pour un système plus complet et plus robuste est un problème mal posé. Les traitements d'images sont fondamentalement trop différents les uns par rapport aux autres pour être mis en commun de façon naturelle. De plus, ces derniers sont trop rigides pour pouvoir s'adapter d'eux-mêmes lorsqu'un problème non prévu à l'avance par le concepteur apparaît. Or la vision est un phénomène autoadaptatif, qui sait traiter en temps réel des situations singulières, en y proposant des traitements particuliers et adaptés. Elle est aussi un traitement complexe des informations, tant ces dernières ne peuvent être réduites à des représentations réductionnistes et simplifiantes sans être mutilées. Dans cette thèse, un système de vision est entrepris comme un tout où chaque partie est adaptée à l'autre, mais aussi où chaque partie ne peut s'envisager sans l'autre dans les tensions les plus extrêmes générées par la complexité et l'intrication des informations. Puisque chaque parcelle d'information joue un rôle local dans la vision, tout en étant dirigée par un objectif global peu assimilable à son niveau, nous envisageons la vision comme un système où chaque agent délibère selon une interférence produite par le potentiel décisionnel de chacun de ses voisins. Cette délibération est entreprise comme le résultat produit par l'interférence d'une superposition de solutions. De cette manière, il émerge du système à base d'agents une décision commune qui dirige les actions locales faites par chaque agent ou chaque partie du système. En commençant par décrire les principales méthodes de segmentation ainsi que les descripteurs de formes, puis en introduisant les systèmes multi-agents dans le domaine de l'image, nous discutons d'une telle approche où la vision est envisagée comme un système multi-agent apte à gérer la complexité inhérente de l'information visuelle tant en représentation qu'en dynamisme systémique. Nous ancrons dans ces perspectives deux modèles multi-agents. Le premier modèle traite de la segmentation adaptative d'images sans calibration manuelle par des seuils. Le deuxième modèle traite de la représentation de formes quelconques à travers la recherche de coefficients d'ondelettes pertinents. Ces deux modèles remplissent des critères classiques liés au traitement d'images, et à la reconnaissance de formes, tout en étant des cas d'études à développer pour la recherche d'un système de vision auto-adaptatif tel que nous le décrivons.

Page generated in 0.0588 seconds