Return to search

Multi-view Machine Learning And Its Applications To Multi-Omic Tasks

Titre de l'écran-titre (visionné le 10 janvier 2024) / Cette thèse se situe à l'intersection de plusieurs domaines d'études. Elle traite principalement d'apprentissage automatique, un champ d'études de l'intelligence artificielle. Plus particulièrement, elle se focalise sur la classification supervisée, un cas particulier où l'objectif est de séparer des exemples dans des classes, pour lequel on utilise des exemples étiquetés sur lesquels on apprend un classifieur. Plus précisément, nous nous concentrons sur l'apprentissage multi-vues, pour lequel les classifieurs ont accès à plusieurs types de données. De plus, cette thèse traite de l'application de l'apprentissage multivue à des données biologiques. Les données dites -omiques, qui regroupent plusieurs analyses d'un échantillon sanguin, décrivant une grande variété de processus naturels sont notre axe principal. Ces données présentent plusieurs défis, que nous explorons tout au long de cette thèse. Pour ce faire, nous présentons également plusieurs outils spécifiquement conçus pour comparer des algorithmes d'apprentissage automatique sur des données multivues. En effet, si le domaine monovue peut se reposer sur un grand nombre d'outils robustes, ils ne sont pas utilisables dans le paradigme multivues. Ainsi une partie de ce doctorat a été dédiée au développement d'outils de qualité pour l'apprentissage multivues. En outre, nos analyses expérimentales sur les données réelles nous ont suggéré que le développement d'algorithmes spécifiques pour le multivues était moins une priorité que la conception d'approches relevant les défis des données -omiques. Ainsi, la seconde partie de cette thèse est consacrée à l'étude des méthodes d'ensembles monovues. Ce domaine regroupe tous les algorithmes construits par l'agrégation de plusieurs sous-méthodes tels que les votes de majorité, particulièrement intéressants pour l'application sur les données -omiques. De ce fait, nous proposons deux nouveaux algorithmes basés sur la méthode gloutonne pour apprendre sur des données en grande dimension. Le premier, CB-Boost, se repose sur l'optimisation efficace d'une quantité théorique, la C-borne, permettant de construire des votes de majorité performants et robustes. Le second, SamBA, est une généralisation du boosting permettant de prendre en compte des expertises locales dans son modèle pour se reposer sur une fonction de décision particulièrement parcimonieuse et interprétable. / This thesis lies at the intersection of multiple fields of study. It mainly focuses on machine learning, a domain of artificial intelligence. More specifically, we study supervised classification, which goal is to separate samples in several classes, relying on labelled samples on which a classifier is fitted. More precisely, we focus on multi-view machine learning, for which the classifiers can access multiple data types. In addition, this thesis studies the application of multi-view machine learning on biological data. More particularly, we focus on -omics data, a set of biological data that regroups several analyses derived from a biological sample, covering a large range of natural processes. This type of data is characterized by multiple challenges that we explore in this thesis. To do so, we present several tools designed specifically to allow the comparison of machine learning algorithms on multi-view data. Indeed, if the mono-view case can rely on a large number of robust libraries, they are not compatible with multi-view learning. As a consequence, a section of this thesis is dedicated to present python tools for multi-view learning. Furthermore, our experimental studies on real-life -omic data suggested that the design of multi-view specific algorithms was less of a priority than the conception of approaches specifically designed to tackle the challenges of -omic data. As a consequence, the second part of this thesis is dedicated to the study of mono-view ensemble methods. This domain regroups all the algorithms built from the aggregation of several sub-methods, such as majority votes. It is particularly interesting and useful for applications on -omic data. Consequently, we propose two algorithms based on greedy optimization, designed to learn on large dimension data. The first one, CB-Boost relies on the efficient optimization of a theoretical quantity, the C-bound, to build accurate and robust majority votes. The second one, SamBA, is a generalization of the boosting framework allowing local expertise in its model, with the objective of outputting particularly sparse and interpretable decision functions.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/132383
Date16 January 2024
CreatorsBauvin, Baptiste
ContributorsCorbeil, Jacques, Capponi, Cécile
Source SetsUniversité Laval
LanguageEnglish
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Thèse de doctorat
Format1 ressource en ligne (xiv, 221 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0024 seconds