Return to search

Distortion-aware transformer for depth estimation and object detection

Les objectifs fisheye offrent un champ de vision plus large que les objectifs à sténopé, ce qui les rend largement utilisés dans diverses applications. Cependant, ces derniers créent des distorsions importantes dans les images, ce qui pose des défis pour les modèles de vision par ordinateur standards. Les approches actuelles conçues pour gérer la distorsion sont souvent spécifiques à un objectif et ont du mal à généraliser à différents objectifs sans ajustement. DarSwin [3], un encodeur transformer qui raisonne sur la distorsion (distortion-aware) en intégrant la courbe de projection de l'objectif, atteint des capacités de généralisation améliorées en classification. Ce mémoire étend DarSwin à l'estimation de profondeur monoculaire avec DarSwin-Unet, une nouvelle architecture encodeur-décodeur, inspirée de Swin-Unet [5], et qui s'adapte à la distorsion. L'évaluation sur le jeu de données synthétique fisheye Matterport3D démontre la robustesse de DarSwin-Unet face à toutes les distorsions par rapport aux autres approches. Le mémoire explore également l'extension de DarSwin à la détection d'objets en utilisant deux variantes de transformers de détection, DINO [71] et AdaMixer [16], sur le jeu de données Woodscape [70]. Contrairement aux modèles utilisant un backbone Swin [40], les modèles avec un backbone DarSwin ne dépendent pas de l'augmentation de données, confirmant ainsi la robustesse de DarSwin. / Fisheye lenses offer a wider field-of-view (FoV) than pinhole lenses, making them widely used in diverse applications. However, their significant distortions introduce challenges for standard computer vision models. Current approaches designed to handle distortion are often lens-specific and struggle to generalize across different lenses without fine-tuning. DarSwin [3], a distortion-aware encoder-only transformer that incorporates the lens projection curve, achieves enhanced generalization capabilities in classification. This thesis extends DarSwin to monocular depth estimation with DarSwin-Unet, a novel distortion-aware encoder-decoder architecture inspired by Swin-Unet [5]. Evaluation on the synthetic fisheye Matterport3D dataset demonstrates DarSwin-Unet's robustness across all distortions compared to other baselines. Further exploration involves extending DarSwin to object detection using two variants of detection transformers, DINO [71] and AdaMixer [16], on theWoodscape dataset [70]. Unlike models with a Swin [40] backbone, models with a DarSwin backbone show no overfitting in the absence of data augmentation, further highlighting DarSwin's robustness.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/150845
Date23 September 2024
CreatorsShili, Ichrak
ContributorsLalonde, Jean-François, Ahmad, Ola
Source SetsUniversité Laval
LanguageEnglish
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Mémoire de maîtrise
Format1 ressource en ligne (x, 52 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0024 seconds