Les changements climatiques et les phénomènes météorologiques extrêmes sont devenus des moteurs importants de changements de la biodiversité, posant une menace pour la perte d’habitat et l’extinction d’espèces. Comprendre l’état actuel de la biodiversité et identifier les zones hautement adaptées (still strugling with this expression, high suitability for who or what?) sont essentiels afin de lutter contre la perte de biodiversité et guider les processus décisionnels en lien avec les études scientifiques (added scientifiques, as in scientific surveys), les mesures de protection et les efforts de restauration.
Les modèles de distribution des espèces (MDE ou SDM en anglais) sont des outils statistiques permettant de prédire la distribution géographique potentielle d’une espèce en fonction de variables environnementales et des données recueillies à cet endroit. Cependant, les MDE conventionnels sont souvent confrontés à des limitations dues à la résolution spatiale et à la couverture restreinte des variables environnementales, lesquelles sont obtenues suite à des mesures au sol ou à l’aide de stations météorologiques.
Pour mieux comprendre la distribution des espèces à des fins de conservation, le défi GeoLifeCLEF 2022 a été organisé. Cette compétiion comprend un vaste ensemble de données composé de 1,6 million géo-observations liées à la présence de 17 000 espèces végétales et animales. L’objectif principal de ce défi est d’explorer le potentiel des données de télédétection afin de prédire la présence d’espèces à des géolocalisations spécifiques.
Dans ce mémoire, nous étudions diverses techniques d’apprentissage automatique et leur performance en lien avec le défi GeoLifeCLEF 2022. Nous explorons l’efficacité d’algorithmes bien connus en apprentissage par transfert, établissons un cadre d’apprentissage non supervisé et étudions les approches d’apprentissage auto-supervisé lors de la phase d’entraînement. Nos résultats démontrent qu’un ajustement fin des encodeurs pré-entraînés sur différents domaines présente les résultats les plus prometteurs lors de la phase de test. / Climate change and extreme weather events have emerged as significant drivers of biodiversity changes, posing a threat of habitat loss and species extinction. Understanding the current state of biodiversity and identifying areas with high suitability for different species are vital in combating biodiversity loss and guiding decision-making processes for protective measures and restoration efforts.
Species distribution models (SDMs) are statistical tools for predicting a species' potential geographic distribution based on environmental variables and occurrence data. However, conventional SDMs often face limitations due to the restricted spatial resolution and coverage of environmental variables derived from ground-based measurements or weather station data.
To better understand species distribution for conservation purposes, the GeoLifeCLEF 2022 challenge was introduced. This competition encompasses a large dataset of 1.6 million geo-observations linked to the presence of 17,000 plant and animal species. The primary objective of this challenge is to explore the potential of remote sensing data in forecasting species' presence at specific geolocations.
In this thesis, we investigate various machine learning techniques and their performance on the GeoLifeCLEF 2022 challenge. We explore the effectiveness of standard transfer learning algorithms, establish an unsupervised learning framework, and investigate self-supervised learning approaches for training. Our findings demonstrate that fine-tuning pre-trained encoders on different domains yields the most promising test set performance results.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32222 |
Date | 08 1900 |
Creators | Elkafrawy, Sara |
Contributors | Larochelle, Hugo, Charlin, Laurent |
Source Sets | Université de Montréal |
Language | English |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0015 seconds