Return to search

Apprentissage de descripteurs locaux pour l’amélioration des systèmes de SLAM visuel

This thesis covers the topic of image matching in a visual SLAM or SfM context.
These problems are generally based on a vector representation of the keypoints of one
image, called a descriptor, which we seek to map to the keypoints of another, using a
similarity measure to compare the descriptors.
However, it remains difficult to perform this matching successfully, especially for
challenging scenes where illumination changes, occlusions, motion, textureless and similar
features are present, leading to mis-matched points. In this thesis, we develop a
self-supervised contrastive deep learning framework for computing robust descriptors,
particularly for these challenging situations.We use the TartanAir dataset built explicitly
for this task, and in which these difficult scene cases are present.
Our results show that descriptor learning works, improves scores, and that our method
is competitive with traditional methods such as ORB. In particular, the invariance
built implicitly by training pairs of positive examples through the construction of a trajectory
from a sequence of images, as well as the controlled introduction of ambiguous
negative examples during training, have a real observable effect on the scores obtained. / Le présent mémoire traite du sujet de mise en correspondance entre deux images dans un contexte de SLAM visuel ou de SfM. Ces problèmes reposent généralement sur une représentation vectorielle de points saillants d’une image, appelée descripteur, et qu’on cherche à mettre en correspondance avec les points saillants d’une autre, en utilisant une mesure de similarité pour comparer les descripteurs. Cependant, il reste difficile de réaliser cette mise en correspondance avec succès, en particulier pour les scènes difficiles où des changements d’illumination, des occultations, des mouvements, des éléments sans texture, et des éléments similaires sont présents, conduisant à des mises en correspondance incorrectes. Nous développons dans ce mémoire une méthode d’apprentissage profond contrastif auto-supervisé pour calculer des descripteurs robustes, particulièrement à ces situations difficiles. Nous utilisons le jeu de données TartanAir construit explicitement pour cette tâche, et dans lequel ces cas de scènes difficiles sont présents.
Nos résultats montrent que l’apprentissage de descripteurs fonctionne, améliore les scores, et que notre méthode est compétitive avec les méthodes traditionnelles telles que ORB. En particulier, l’invariance bâtie implicitement en formant des paires d’exemples positifs grâce à la construction d’une trajectoire depuis une séquence d’images, ainsi que l’introduction contrôlée d’exemples négatifs ambigus pendant l’entraînement a un réel effet observable sur les scores obtenus.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/33191
Date12 1900
CreatorsLuttun, Johan
ContributorsRoy, Sébastien
Source SetsUniversité de Montréal
Languagefra
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0015 seconds