Return to search

Deep representation learning for visual place recognition

Thèse ou mémoire avec insertion d'articles / La navigation autonome a une longue histoire dans la recherche en robotique et attire de plus en plus l'attention de chercheurs et industriels. Actuellement, les véhicules autonomes dépendent largement du Système de Positionnement Global (GPS) pour la localisation. Toutefois, les lacunes du GPS dans les environnements urbains et souterrains rendent la localisation basée sur la vision une alternative intéressante. Cette dernière peut être réalisée au moyen de la Reconnaissance Visuelle de Lieux (RVL). Sujet qui sera traité en profondeur dans cette thèse. La Reconnaissance Visuelle de Lieu est la méthode par laquelle un système identifie un emplacement représenté dans une image requête en la comparant à une base de données préexistante correspondant à des lieux connus. Les techniques traditionnelles de reconnaissance visuelle reposent souvent sur des descripteurs de caractéristiques locales ou globales élaborés à la main, ce qui présente des difficultés inhérentes qui compliquent leur application à grande échelle. L'avènement des réseaux de neurones profonds a montré un potentiel significatif pour améliorer les capacités des méthodes de RVL. Ces réseaux nécessitent de grands ensembles de données pour l'entraînement et des fonctions de perte spécialisées pour l'apprentissage des paramètres, ouvrant ainsi de nouvelles voies pour la recherche et l'innovation dans ce domaine. Cette thèse propose une étude exhaustive de l'apprentissage profond pour la RVL. Elle se concentre sur trois composantes principales : l'ensemble de données d'entraînement, l'architecture du réseau de neurones et le processus d'apprentissage de paramètres. Tout d'abord, un ensemble de données à grande échelle composé de 560 000 images à travers 67 000 lieux, appelé GSV-Cities, est présenté. Cette base de données permet de relever les défis associés à la supervision faible qui entrave les méthodes existantes, ce qui se traduit par une amélioration des performances et une réduction significative du temps d'entraînement. De plus, l'importance des fonctions de perte issues de l'apprentissage de similarité est illustrée, particulièrement lorsqu'elles sont employées avec les étiquettes de haute précision fournies par GSV-Cities. S'ensuit MixVPR, une architecture d'aggrégation basée entièrement sur les perceptrons multicouches. Cette architecture surpasse les méthodes de RVL les plus avancées, et ce, sur plusieurs benchmarks, tant en termes de performances de reconnaissance qu'en efficacité de calcul. Finalement, une nouvelle technique de formation de batches est présentée. Elle s'appuie sur des descripteurs compacts pour échantillonner efficacement des mini-batches hautement informatifs à chaque itération d'entraînement. Cette méthode maintient un niveau élevé de paires et de triplets informatifs tout au long de la phase d'apprentissage, conduisant à une amélioration significative des performances globales. Collectivement, les contributions apportées par cette thèse contribuent à l'avancement de l'état de l'art en matière de reconnaissance visuelle de lieux, et établissent une base solide pour la recherche et le développement futurs dans ce domaine. / Autonomous navigation has a long history in robotics research and has recently attracted a lot of attention from researchers and industrials. Currently, autonomous vehicles depend largely on the Global Positioning System (GPS) for localization, whose limitations in urban and subterrenean settings make vision-based localization an attractive alternative. This can be done by means of Visual Place Recognition (VPR), which is addressed in depth in this thesis. Visual Place Recognition (VPR) is the method by which a system identifies a location depicted in a query image by comparing it to a pre-existing database of visual information corresponding to known locations. Traditional VPR techniques often rely on hand-crafted local or global feature descriptors, which present inherent challenges that complicate their application in large-scale settings. The emergence of deep neural networks has shown significant promise in advancing VPR methods capabilities. Such networks require extensive datasets for training and specialized loss functions for parameter learnin. This opens new avenues for research and innovation in the field of VPR. First, GSV-Cities, a large-scale dataset comprised of 560,000 images across 67,000 places, is introduced. This dataset alleviates the challenge of weak supervision that constrains current methods, leading to improved performance and significantly reduction in training time. The importance of similarity learning loss functions, especially when paired with the accurate labels of GSV-Cities, is also highlighted. Second, MixVPR, a new aggregation technique is presented. It outperforms existing state-of-the-art VPR methods on multiple benchmarks, not just in terms of accuracy but also in computational efficiency. Lastly, a novel batch formation technique is introduced, which utilizes compact proxy descriptors for the efficient sampling of highly informative mini-batches at each training iteration. This method maintains a high level of informative pairs and triplets throughout the training phase, leading to a substantial improvement in overall performance. Collectively, the contributions of this thesis serve to advance the current state-of-the-art in Visual Place Recognition (VPR), and establish a strong foundation for future research.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/138783
Date22 March 2024
CreatorsAli-bey, Amar
ContributorsChaib-Draa, Brahim, Giguère, Philippe
Source SetsUniversité Laval
LanguageEnglish
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Thèse de doctorat
Format1 ressource en ligne (xiv, 118 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0063 seconds