Return to search

Anomaly detection for galactic archaeology : unveiling stellar streams with machine learning

Dans le domaine complexe de l’archéologie galactique, l’étude des flux stellaires s’est imposée comme une voie essentielle pour dévoiler la formation et l’évolution des galaxies, en particulier celle de la Voie lactée. Ces systèmes stellaires perturbés portent l’empreinte de l’histoire de la Voie lactée, offrant des perspectives sur l’accrétion de galaxies plus petites et de grappes d’étoiles sur des milliards d’années. Avec l’avènement de la mission Gaia et de ses données d’observation inédites, l’application d’outils d’apprentissage automatique non supervisés à la détection d’anomalies est devenue de plus en plus pertinente dans la recherche de ces énigmatiques flux stellaires. L’objectif principal de cette recherche était d’exploiter la puissance des intégrales de mouvement et des algorithmes de regroupement pour élaborer une méthodologie permettant d’identifier les flux stellaires au sein du halo de la Voie lactée. Guidés par la volonté d’affiner notre compréhension des dynamiques complexes de la galaxie, nous nous sommes efforcés de développer une méthode robuste capable de mettre au jour ces structures stellaires perturbées. Notre approche a impliqué une évaluation exhaustive des algorithmes de regroupement, notamment Single Linkage, Ward, DBSCAN et OPTICS, afin de distinguer des groupes cohérents d’étoiles qui présentent des motifs ou des relations distincts, une caractéristique clé des flux stellaires. Les données synthétiques ont servi de terrain de test, facilitant l’évaluation des performances des algorithmes et l’étalonnage optimal des hyperparamètres. Cette exploration a couvert trois phases, englobant des flux isolés, la résilience face au bruit de fond et les complexités de dispersions de vitesse plus élevées. Alors que la méthodologie a donné des résultats favorables sur des données synthétiques, lorsque nous l’avons appliquée aux données de la Gaia Data Release 3 (DR3), nous avons constaté que les grappes étaient principalement situées autour du noyau galactique ou du Système solaire, contrairement à nos attentes de découvrir des courants stellaires dans le halo galactique. Cette divergence par rapport à nos résultats anticipés met en évidence la nature complexe de la dynamique de la Voie lactée et soulève un défi important couramment rencontré en apprentissage automatique : le problème hors distribution. La capacité des algorithmes d’apprentissage automatique à généraliser à partir des données d’entraînement vers de nouvelles données non vues peut être entravée par la présence de points de données qui tombent en dehors de la distribution sur laquelle ils ont été formés. Dans le contexte de notre recherche, ce défi souligne la nécessité de techniques avancées en détection d’anomalies
et d’adapter les modèles d’apprentissage automatique pour gérer les complexités de l’observation du monde réel. / In the intricate realm of galactic archaeology, the study of stellar streams has emerged as
a vital avenue for unraveling the formation and evolution of galaxies, particularly the Milky
Way. These disrupted stellar systems, bear the imprint of the Milky Way’s history, offering
insights into the accretion of smaller galaxies and star clusters over billions of years. With
the advent of the Gaia mission and its unprecedented observational data, the application of
unsupervised machine learning tools to anomaly detection has become increasingly relevant
in the search for these elusive stellar streams.
The primary aim of this research was to harness the power of integrals of motion and
clustering algorithms to devise a methodology for identifying stellar streams within the halo
of the Milky Way. Guided by the goal of refining our understanding of the galaxy’s intricate
dynamics, we endeavored to develop a robust method capable of uncovering these disrupted
stellar structures.
Our approach involved a comprehensive evaluation of clustering algorithms, including
Single Linkage, Ward, DBSCAN, and OPTICS, to distinguish cohesive groups of stars that
exhibit distinct patterns or relationships—a key characteristic of stellar streams. Synthetic
data served as a testing ground, facilitating algorithm performance assessment and optimal
hyperparameter calibration. This exploration spanned three phases, encompassing isolated
streams, resilience against background noise, and the complexities of higher velocity dispersions.
While the methodology yielded favorable outcomes on synthetic data, when applied to
the Gaia Data Release 3 (DR3) data, we found that clusters were predominantly located
around the galactic core or the Solar System, in contrast to our expectations of discovering
stellar streams in the galactic halo. This deviation from our anticipated results highlights the
complex nature of the Milky Way’s dynamics and raises an important challenge commonly
encountered in machine learning: the out-of-distribution problem. The ability of machine
learning algorithms to generalize from training data to new, unseen data can be hindered
by the presence of data points that fall outside the distribution they were trained on. In
the context of our research, this challenge underscores the need for advanced techniques in
anomaly detection and adapting machine learning models to handle real-world observational complexities.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/33904
Date08 1900
CreatorsBielecki, Claudia
ContributorsHezaveh, Yashar
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0028 seconds