L'émergence du phénomène Big Data a créé un besoin grandissant en analyse de données, mais, bien souvent, cette analyse est conduite par des experts de différents domaines ayant peu d'expérience en science des données. On s'intéresse donc à ce besoin d'assistance à l'analyse de données, qui commence tout juste à recevoir une certaine attention des communautés scientifiques, donnant naissance au domaine de la méta-analyse. Les premières approches du sujet se révélant souvent similaires et peu abouties, on tente en particulier de permettre de nouvelles approches de méta-analyse pour adresser ce problème d'assistance à l'analyse de données. Pour ce faire, une première étape cruciale est de déterminer ce qu'est une méta-analyse performante, aucun standard n'ayant encore été établi dans ce domaine relativement neuf. On propose ainsi un cadre générique d'évaluation de méta-analyse, permettant de comparer et caractériser finement diverses techniques de méta- analyse. Ensuite, afin d'ouvrir de nouvelles voies, on s'intéresse à un verrou majeur de la méta-analyse : la caractérisation de jeu de données. On propose et évalue alors une caractérisation par dissimilarité faisant usage de toute l'information disponible pour autoriser de nouvelles approches de méta-analyse. L'utilisation de cette caractérisation par dissimilarité permettant de recommander facilement des processus d'analyse de données complets, on décrit enfin les nouvelles approches de méta-analyses rendues possibles, ainsi que les processus afférents d'assistance à l'analyse de données. / The emergence of the big data phenomenon has led to increasing demands in data analysis, which most often are conducted by other domains experts with little experience in data science. We then consider this important demand in intelligent assistance to data analysis, which receives an increasing attention from the scientific community. The first takes on the subject often possessing similar shortcomings, we propose to address it through new processes of meta-analysis. No evaluation standard having yet been set in this relatively new domain, we first propose a meta-analysis evaluation framework that will allow us to test and compare the developed methods. In order to open new approaches of meta-analysis, we then consider one of its recurring issue: dataset characterization. We then propose and evaluate such a characterization, consisting in a dissimilarity between datasets making use of a precise topological description to compare them. This dissimilarity allows a new meta-analysis approach producing recommendations of complete data analysis processes, which we then evaluate on a proof of concept. We thus detail the proposed methods of meta-analysis, and the associated process of assistance to data analysis.
Identifer | oai:union.ndltd.org:theses.fr/2018TOU30005 |
Date | 12 January 2018 |
Creators | Raynaut, William |
Contributors | Toulouse 3, Soulé-Dupuy, Chantal, Vallès-Parlangeau, Nathalie |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0024 seconds