Spelling suggestions: "subject:"groupement dde données para classe."" "subject:"groupement dee données para classe.""
1 |
Statistical learning applied to cardiology : discriminative clustering and aortic stenosis phenogroupsOhl, Louis 28 June 2024 (has links)
La sténose de la valve aortique (SA) est une maladie chronique progressive dont la prévalence risque de tripler dans les décennies à venir en Amérique du Nord et par conséquent ses impacts en santé et économie. À l'heure actuelle, aucun médicament contre la SA n'est disponible. La nécessité de pharmacothérapies adaptées pousse donc à l'exploration des différentes causes de la progression de la SA chez les patients. Bien qu'il existe déjà certaines sous-catégories de la SA, ces dernières sont difficiles à identifier et par conséquent à cibler par une thérapie. Afin de découvrir et identifier des causes potentielles de la SA, nous formulons la recherche de ces phénogroupes en tant que problème de partitionement. Le partitionnement est un problème issu du domaine d'apprentissage automatique consistant à répartir de multiples observations en groupes nommés clusters selon leurs similarités. Afin d'accompagner ce problème d'apprentissage automatique, nous utilisons l'étude sur le progression des déterminants métaboliques de la SA (étude PROGRESSA). L'étude PROGRESSA comprend trois modalités : clinicopathologique, protéomique et radiomique pour 351 patients avec suivi annuel. La structure de PROGRESSA est complexe : elle est de grande dimension avec des variables de natures différentes. De plus, les différentes modalités ne se recouvrent pas nécessairement. Dans ce contexte, nous formulons le problème de partitionnement à travers un prisme discriminatif, ce qui permet d'intégrer avec facilité des modèles d'apprentissage profond, notamment pour manipuler des données grande dimensions. Ces dernières années ont été marquées par l'arrivée de méthodes de partitionnement profonds, souvent basés sur la maximisation de l'information mutuellee. Cependant, les récents succès de ces méthodes sont souvent spécifique à un type unique de données et ne permettent donc pas d'anticiper leur applicabilité à un problème multi-source. Afin de construire une solution pour le problème de partitionnement multi-source, cette thèse s'orchestre autour du développement d'un ensemble de méthodes de clustering nommé information mutuelle généralisée (GEMINI) à partir du Chapitre 2. Cet ensemble de méthodes permet d'utiliser n'importe quelle architecture de réseau de neurones profonds sur des données de natures variées. Nous montrons également comment cette méthode peut être améliorée pour incorporer des méchanismes de sélections de vaiables afin de faciliter l'interprétation des clusters au Chapitre 3 : Sparse GEMINI. Puis nous complètons le spectre des modèles entraînables par GEMINI avec l'introduction d'arbres non supervisés donnant un clustering avec explication intégrée dans le chapitre 4. Enfin, nous terminons cette thèse avec un pipeline intégrant divers variants de GEMINI pour la découverte de phénogroupes de la SA dans l'étude PROGRESSA au Chapitre 5. Certains de ces phénogroupes montrent une mortalité accentuée et sont caractérisés par des marqueurs spécifiques, par exemple liés aux lipoprotéines, au diabète ou à la bicuspidie des valves aortiques. Ces phénogroupes peuvent ainsi être ciblés par des thérapies spécifiques afin de réduire le risque de progression de la maladie. / Aortic valve stenosis (AS) is a chronic progressive disease whose prevalence is likely to triple in the coming decades in North America, with a consequent impact on health and the economy. However, efficient drug therapies for this disease are not available. The need for appropriate medication is therefore driving the exploration of the various causes of AS progression in patients. There exist a few sub-categories of the disease that could be differently targeted by drugs, but they are hard to define and identify. To alleviate the finding of different possible causes of AS, we formulate the search of phenogroup (i.e. disease subtypes) as a clustering problem. Clustering is a family of approaches from machine learning that consists in gathering multiple observations deemed similar in categories called clusters. To support this machine learning problem instance, we employ the metabolic determinants of the progression of AS study (PROGRESSA study). The PROGRESSA dataset comprises 3 modalities: clinicopathological, proteomics and radiomics data for 351 patients with yearly follow-ups. The structure of the PROGRESSA study is challenging for current clustering algorithms: it is high-dimensional with mixed data types. Moreover, the different modalities of the data do not necessarily overlap, making it to a multi-source clustering problem. In this context, we formulate the clustering problem through the lens of discriminative clustering: a point of view that leverages the easy integration of deep learning models for handling and concatenating high-dimensional data. Within this framework, the last decade witnessed the impressive rise of deep clustering methods that often involves the maximisation of mutual information. However, the recent success of deep clustering models are often over-specified for one type of data and therefore hardly account for multi-modal data. To pave the way for a multi-source discriminative clustering algorithm, we developed a set of discriminative clustering methods called generalised mutual information (GEMINI) in Chapter 2. Thanks to its discriminative construction, this set of methods can be used with any deep neural network architecture on data of various types. We also show how this method can be improved to incorporate variable selection mechanisms to facilitate the interpretation of clusters in Chapter 3: Sparse GEMINI. Then, we complete the spectrum of models trainable by GEMINI in Chapter 4 with the introduction of unsupervised trees giving a clustering with integrated explanation. Finally, we conclude this thesis in Chapter 5 with a pipeline integrating various GEMINI variants for the discovery of AS phenogroups in the PROGRESSA study. Some of these phenogroups show increased mortality and are characterised by specific markers, for example linked to lipoproteins, diabetes or bicuspid aortic valves. These phenogroups can therefore be targeted by specific therapies to reduce the risk of disease progression.
|
Page generated in 0.1044 seconds