Dans les applications modernes des statistiques et de l'apprentissage, il est courant que les données récoltées présentent un certain nombre d'imperfections. En particulier, les données sont souvent hétérogènes, c'est-à-dires qu'elles contiennent à la fois des informations quantitatives et qualitatives, incomplètes, lorsque certaines informations sont inaccessibles ou corrompues, et multi-sources, c'est-à-dire qu'elles résultent de l'agrégation de plusieurs jeux de données indépendant. Dans cette thèse, nous développons plusieurs méthodes pour l'analyse de données hétérogènes, incomplètes et multi-source. Nous nous attachons à étudier tous les aspects de ces méthodes, en fournissant des études théoriques précises, ainsi que des implémentations disponibles au public, et des évaluations empiriques. En particulier, nous considérons en détail deux applications issues de l'écologie pour la première et de la médecine pour la seconde. / In modern applications of statistics and machine learning, one often encounters many data imperfections. In particular, data are often heterogeneous, i.e. combine quantitative and qualitative information, incomplete, with missing values caused by machine failure or nonresponse phenomenons, and multi-source, when the data result from the compounding of diverse sources. In this dissertation, we develop several methods for the analysis of multi-source, heterogeneous and incomplete data. We provide a complete framework, and study all the aspects of the different methods, with thorough theoretical studies, open source implementations, and empirical evaluations. We study in details two particular applications from ecology and medical sciences.
Identifer | oai:union.ndltd.org:theses.fr/2019SACLX026 |
Date | 11 June 2019 |
Creators | Robin, Geneviève |
Contributors | Université Paris-Saclay (ComUE), Moulines, Éric, Josse, Julie |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0017 seconds