Global ETD Search

1	Contributions statistiques à l'analyse de mégadonnées publiques / Statical contributions to the analysis of public big data Sainct, Benoît 12 June 2018 (has links) L'objectif de cette thèse est de proposer un ensemble d'outils méthodologiques pour répondre à deux problématiques : la prédiction de masse salariale des collectivités, et l'analyse de leurs données de fiscalité. Pour la première, les travaux s'articulent à nouveau autour de deux thèmes statistiques : la sélection de modèle de série temporelle, et l'analyse de données fonctionnelles. Du fait de la complexité des données et des fortes contraintes de temps de calcul, un rassemblement de l'information a été privilégié. Nous avons utilisé en particulier l'Analyse en Composantes Principales Fonctionnelle et un modèle de mélanges gaussiens pour faire de la classification non-supervisée des profils de rémunération. Ces méthodes ont été appliquées dans deux prototypes d'outils qui représentent l'une des réalisations de cette thèse. Pour la seconde problématique, le travail a été effectué en trois temps : d'abord, des méthodes novatrices de classification d'une variable cible ordinale ont été comparées sur des données publiques déjà analysées dans la littérature, notamment en exploitant des forêts aléatoires, des SVM et du gradient boosting. Ensuite, ces méthodes ont été adaptées à la détection d'anomalies dans un contexte ciblé, ordinal, non supervisé et non paramétrique, et leur efficacité a été principalement comparée sur des jeux de données synthétiques. C'est notre forêt aléatoire ordinale par séparation de classes qui semble présenter le meilleur résultat. Enfin, cette méthode a été appliquée sur des données réelles de bases fiscales, où les soucis de taille et de complexité des données sont plus importants. Destinée aux directions des collectivités territoriales, cette nouvelle approche de l'examen de leur base de données constitue le second aboutissement de ces travaux de thèse. / The aim of this thesis is to provide a set of methodological tools to answer two problems: the prediction of the payroll of local authorities, and the analysis of their tax data. For the first, the work revolves around two statistical themes: the selection of time series model, and the analysis of functional data. Because of the complexity of the data and the heavy computation time constraints, a clustering approach has been favored. In particular, we used Functional Principal Component Analysis and a model of Gaussian mixtures to achieve unsupervised classification. These methods have been applied in two prototypes of tools that represent one of the achievements of this thesis. For the second problem, the work was done in three stages: first, innovative methods for classifying an ordinal target variable were compared on public data, notably by exploiting random forests, SVM and gradient boosting. Then, these methods were adapted to outlier detection in a targeted, ordinal, unsupervised and non-parametric context, and their efficiency was mainly compared on synthetic datasets. It is our ordinal random forest by class separation that seems to have the best result. Finally, this method has been applied to real data of tax bases, where the concerns of size and complexity are more important. Aimed at local authorities directorates, this new approach to examining their database is the second outcome of this work. Détection d'anomalies Classification Forêt aléatoire SVM XGBoost Variable ordinale
2	Apprentissage et forêts aléatoires / Learning with random forests Scornet, Erwan 30 November 2015 (has links) Cette thèse est consacrée aux forêts aléatoires, une méthode d'apprentissage non paramétrique introduite par Breiman en 2001. Très répandues dans le monde des applications, les forêts aléatoires possèdent de bonnes performances et permettent de traiter efficacement de grands volumes de données. Cependant, la théorie des forêts ne permet pas d'expliquer à ce jour l'ensemble des bonnes propriétés de l'algorithme. Après avoir dressé un état de l'art des résultats théoriques existants, nous nous intéressons en premier lieu au lien entre les forêts infinies (analysées en théorie) et les forêts finies (utilisées en pratique). Nous proposons en particulier une manière de choisir le nombre d'arbres pour que les erreurs des forêts finies et infinies soient proches. D'autre part, nous étudions les forêts quantiles, un type d'algorithme proche des forêts de Breiman. Dans ce cadre, nous démontrons l'intérêt d'agréger des arbres : même si chaque arbre de la forêt quantile est inconsistant, grâce à un sous-échantillonnage adapté, la forêt quantile est consistante. Dans un deuxième temps, nous prouvons que les forêts aléatoires sont naturellement liées à des estimateurs à noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont également établies. Nous démontrons, dans une troisième approche, deux théorèmes sur la consistance des forêts de Breiman élaguées et complètement développées. Dans ce dernier cas, nous soulignons, comme pour les forêts quantiles, l'importance du sous-échantillonnage dans la consistance de la forêt. Enfin, nous présentons un travail indépendant portant sur l'estimation de la toxicité de certains composés chimiques. / This is devoted to a nonparametric estimation method called random forests, introduced by Breiman in 2001. Extensively used in a variety of areas, random forests exhibit good empirical performance and can handle massive data sets. However, the mathematical forces driving the algorithm remain largely unknown. After reviewing theoretical literature, we focus on the link between infinite forests (theoretically analyzed) and finite forests (used in practice) aiming at narrowing the gap between theory and practice. In particular, we propose a way to select the number of trees such that the errors of finite and infinite forests are similar. On the other hand, we study quantile forests, a type of algorithms close in spirit to Breiman's forests. In this context, we prove the benefit of trees aggregation: while each tree of quantile forest is not consistent, with a proper subsampling step, the forest is. Next, we show the connection between forests and some particular kernel estimates, which can be made explicit in some cases. We also establish upper bounds on the rate of convergence for these kernel estimates. Then we demonstrate two theorems on the consistency of both pruned and unpruned Breiman forests. We stress the importance of subsampling to demonstrate the consistency of the unpruned Breiman's forests. At last, we present the results of a Dreamchallenge whose goal was to predict the toxicity of several compounds for several patients based on their genetic profile. Estimation non-Paramétrique Forêt aléatoire Méthodes à noyau Consistance Arbre de régression Agrégation Random forest Consistency Breiman's forests 519.5
3	Statistical modeling, level-set and ensemble learning for automatic segmentation of 3D high-frequency ultrasound data : towards expedited quantitative ultrasound in lymph nodes from cancer patients / Modélisation statistique, méthodes d'ensemble de niveaux et apprentissage automatique pour la segmentation de données ultrasonores 3D haute fréquence : vers une analyse rapide par ultrasons quantitatifs des ganglions lymphatiques de patients atteints d'un cancer Bui Minh, Thanh 02 June 2016 (has links) Afin d'accélérer et automatiser l'analyse par ultrasons quantitatifs de ganglions lymphatiques de patients atteints d'un cancer, plusieurs segmentations automatiques des trois milieux rencontrés (le parenchyme du ganglion, la graisse périnodale et le sérum physiologique) sont étudiées. Une analyse statistique du signal d'enveloppe a permis d'identifier la distribution gamma comme le meilleur compromis en termes de qualité de la modélisation, simplicité du modèle et rapidité de l'estimation des paramètres. Deux nouvelles méthodes de segmentation basées sur l'approche par ensemble de niveaux et la distribution gamma sont décrites. Des statistiques locales du signal d'enveloppe permettent de tenir compte des inhomogénéités du signal dues à l'atténuation et la focalisation des ultrasons. La méthode appelée LRGDF modélise les statistiques du speckle dans des régions dont la taille est contrôlable par une fonction lisse à support compact. La seconde, appelée STS-LS, considère des coupes transverses, perpendiculaires au faisceau, pour gagner en efficacité. Une troisième méthode basée sur la classification par forêt aléatoire a été conçue pour initialiser et accélérer les deux précédentes. Ces méthodes automatiques sont comparées à une segmentation manuelle effectuée par un expert. Elles fournissent des résultats satisfaisants aussi bien sur des données simulées que sur des données acquises sur des ganglions lymphatiques de patients atteints d'un cancer colorectal ou du sein. Les paramètres ultrasonores quantitatifs estimés après segmentation automatique ou après segmentation manuelle par un expert sont comparables. / This work investigates approaches to obtain automatic segmentation of three media (i.e., lymph node parenchyma, perinodal fat and normal saline) in lymph node (LN) envelope data to expedite quantitative ultrasound (QUS) in dissected LNs from cancer patients. A statistical modeling study identified a two-parameter gamma distribution as the best model for data from the three media based on its high fitting accuracy, its analytically less-complex probability density function (PDF), and closed-form expressions for its parameter estimation. Two novel level-set segmentation methods that made use of localized statistics of envelope data to handle data inhomogeneities caused by attenuation and focusing effects were developed. The first, local region-based gamma distribution fitting (LRGDF), employed the gamma PDFs to model speckle statistics of envelope data in local regions at a controllable scale using a smooth function with a compact support. The second, statistical transverse-slice-based level-set (STS-LS), used gamma PDFs to locally model speckle statistics in consecutive transverse slices. A novel method was then designed and evaluated to automatically initialize the LRGDF and STS-LS methods using random forest classification with new proposed features. Methods developed in this research provided accurate, automatic and efficient segmentation results on simulated envelope data and data acquired for LNs from colorectal- and breast-cancer patients as compared with manual expert segmentation. Results also demonstrated that accurate QUS estimates are maintained when automatic segmentation is applied to evaluate excised LN data. Ganglion lymphatique Ultrasons haute-Fréquence Ultrasons quantitatifs Segmentation Ensemble de niveaux Forêt aléatoire Lymph node Hygh-frequency ultrasound Quantitative ultrasound 610.28
4	Cartographie de l'occupation des sols à partir de séries temporelles d'images satellitaires à hautes résolutions : identification et traitement des données mal étiquetées / Land cover mapping by using satellite image time series at high resolutions : identification and processing of mislabeled data Pelletier, Charlotte 11 December 2017 (has links) L'étude des surfaces continentales est devenue ces dernières années un enjeu majeur à l'échelle mondiale pour la gestion et le suivi des territoires, notamment en matière de consommation des terres agricoles et d'étalement urbain. Dans ce contexte, les cartes d'occupation du sol caractérisant la couverture biophysique des terres émergées jouent un rôle essentiel pour la cartographie des surfaces continentales. La production de ces cartes sur de grandes étendues s'appuie sur des données satellitaires qui permettent de photographier les surfaces continentales fréquemment et à faible coût. Le lancement de nouvelles constellations satellitaires - Landsat-8 et Sentinel-2 - permet depuis quelques années l'acquisition de séries temporelles à hautes résolutions. Ces dernières sont utilisées dans des processus de classification supervisée afin de produire les cartes d'occupation du sol. L'arrivée de ces nouvelles données ouvre de nouvelles perspectives, mais questionne sur le choix des algorithmes de classification et des données à fournir en entrée du système de classification. Outre les données satellitaires, les algorithmes de classification supervisée utilisent des échantillons d'apprentissage pour définir leur règle de décision. Dans notre cas, ces échantillons sont étiquetés, \ie{} la classe associée à une occupation des sols est connue. Ainsi, la qualité de la carte d'occupation des sols est directement liée à la qualité des étiquettes des échantillons d'apprentissage. Or, la classification sur de grandes étendues nécessite un grand nombre d'échantillons, qui caractérise la diversité des paysages. Cependant, la collecte de données de référence est une tâche longue et fastidieuse. Ainsi, les échantillons d'apprentissage sont bien souvent extraits d'anciennes bases de données pour obtenir un nombre conséquent d'échantillons sur l'ensemble de la surface à cartographier. Cependant, l'utilisation de ces anciennes données pour classer des images satellitaires plus récentes conduit à la présence de nombreuses données mal étiquetées parmi les échantillons d'apprentissage. Malheureusement, l'utilisation de ces échantillons mal étiquetés dans le processus de classification peut engendrer des erreurs de classification, et donc une détérioration de la qualité de la carte produite. L'objectif général de la thèse vise à améliorer la classification des nouvelles séries temporelles d'images satellitaires à hautes résolutions. Le premier objectif consiste à déterminer la stabilité et la robustesse des méthodes de classification sur de grandes étendues. Plus particulièrement, les travaux portent sur l'analyse d'algorithmes de classification et la sensibilité de ces algorithmes vis-à-vis de leurs paramètres et des données en entrée du système de classification. De plus, la robustesse de ces algorithmes à la présence des données imparfaites est étudiée. Le second objectif s'intéresse aux erreurs présentes dans les données d'apprentissage, connues sous le nom de données mal étiquetées. Dans un premier temps, des méthodes de détection de données mal étiquetées sont proposées et étudiées. Dans un second temps, un cadre méthodologique est proposé afin de prendre en compte les données mal étiquetées dans le processus de classification. L'objectif est de réduire l'influence des données mal étiquetées sur les performances de l'algorithme de classification, et donc d'améliorer la carte d'occupation des sols produite. / Land surface monitoring is a key challenge for diverse applications such as environment, forestry, hydrology and geology. Such monitoring is particularly helpful for the management of territories and the prediction of climate trends. For this purpose, mapping approaches that employ satellite-based Earth Observations at different spatial and temporal scales are used to obtain the land surface characteristics. More precisely, supervised classification algorithms that exploit satellite data present many advantages compared to other mapping methods. In addition, the recent launches of new satellite constellations - Landsat-8 and Sentinel-2 - enable the acquisition of satellite image time series at high spatial and spectral resolutions, that are of great interest to describe vegetation land cover. These satellite data open new perspectives, but also interrogate the choice of classification algorithms and the choice of input data. In addition, learning classification algorithms over large areas require a substantial number of instances per land cover class describing landscape variability. Accordingly, training data can be extracted from existing maps or specific existing databases, such as crop parcel farmer's declaration or government databases. When using these databases, the main drawbacks are the lack of accuracy and update problems due to a long production time. Unfortunately, the use of these imperfect training data lead to the presence of mislabeled training instance that may impact the classification performance, and so the quality of the produced land cover map. Taking into account the above challenges, this Ph.D. work aims at improving the classification of new satellite image time series at high resolutions. The work has been divided into two main parts. The first Ph.D. goal consists in studying different classification systems by evaluating two classification algorithms with several input datasets. In addition, the stability and the robustness of the classification methods are discussed. The second goal deals with the errors contained in the training data. Firstly, methods for the detection of mislabeled data are proposed and analyzed. Secondly, a filtering method is proposed to take into account the mislabeled data in the classification framework. The objective is to reduce the influence of mislabeled data on the classification performance, and thus to improve the produced land cover map. Classification Données mal étiquetées Séries temporelles Images satellitaires Occupation des sols Apprentissage automatique Forêt aléatoire Classification Class label Time series Satellite images Land cover Machine learning Random Forest
5	Apprentissage supervisé de données déséquilibrées par forêt aléatoire / Supervised learning of imbalanced datasets using random forest Thomas, Julien 12 February 2009 (has links) La problématique des jeux de données déséquilibrées en apprentissage supervisé est apparue relativement récemment, dès lors que le data mining est devenu une technologie amplement utilisée dans l'industrie. Le but de nos travaux est d'adapter différents éléments de l'apprentissage supervisé à cette problématique. Nous cherchons également à répondre aux exigences spécifiques de performances souvent liées aux problèmes de données déséquilibrées. Ce besoin se retrouve dans notre application principale, la mise au point d'un logiciel d'aide à la détection des cancers du sein.Pour cela, nous proposons de nouvelles méthodes modifiant trois différentes étapes d'un processus d'apprentissage. Tout d'abord au niveau de l'échantillonnage, nous proposons lors de l'utilisation d'un bagging, de remplacer le bootstrap classique par un échantillonnage dirigé. Nos techniques FUNSS et LARSS utilisent des propriétés de voisinage pour la sélection des individus. Ensuite au niveau de l'espace de représentation, notre contribution consiste en une méthode de construction de variables adaptées aux jeux de données déséquilibrées. Cette méthode, l'algorithme FuFeFa, est basée sur la découverte de règles d'association prédictives. Enfin, lors de l'étape d'agrégation des classifieurs de base d'un bagging, nous proposons d'optimiser le vote à la majorité en le pondérant. Pour ce faire nous avons mis en place une nouvelle mesure quantitative d'évaluation des performances d'un modèle, PRAGMA, qui permet la prise en considération de besoins spécifiques de l'utilisateur vis-à-vis des taux de rappel et de précision de chaque classe. / The problem of imbalanced datasets in supervised learning has emerged relatively recently, since the data mining has become a technology widely used in industry. The assisted medical diagnosis, the detection of fraud, abnormal phenomena, or specific elements on satellite imagery, are examples of industrial applications based on supervised learning of imbalanced datasets. The goal of our work is to bring supervised learning process on this issue. We also try to give an answer about the specific requirements of performance often related to the problem of imbalanced datasets, such as a high recall rate for the minority class. This need is reflected in our main application, the development of software to help radiologist in the detection of breast cancer. For this, we propose new methods of amending three different stages of a learning process. First in the sampling stage, we propose in the case of a bagging, to replaced classic bootstrap sampling by a guided sampling. Our techniques, FUNSS and LARSS use neighbourhood properties for the selection of objects. Secondly, for the representation space, our contribution is a method of variables construction adapted to imbalanced datasets. This method, the algorithm FuFeFa, is based on the discovery of predictive association rules. Finally, at the stage of aggregation of base classifiers of a bagging, we propose to optimize the majority vote in using weightings. For this, we have introduced a new quantitative measure of model assessment, PRAGMA, which allows taking into account user specific needs about recall and precision rates of each class. Apprentissage supervisé Data mining Données déséquilibrées Forêt aléatoire Échantillonnage Construction de variables Évaluation de modèles Aide au diagnostic FUNSS LARSS FuFeFa PRAGMA Supervised learning Imbalanced datasets Random forest Sampling Model assessment Assisted diagnostic Breast cancer
6	Multimodal radiomics in neuro-oncology / Radiomique multimodale en neuro-oncologie Upadhaya, Taman 02 May 2017 (has links) Le glioblastome multiforme (GBM) est une tumeur de grade IV représentant 49% de toutes les tumeurs cérébrales. Malgré des modalités de traitement agressives (radiothérapie, chimiothérapie et résection chirurgicale), le pronostic est mauvais avec une survie globale médiane de 12 à 14 mois. Les aractéristiques issues de la neuro imagerie des GBM peuvent fournir de nouvelles opportunités pour la classification, le pronostic et le développement de nouvelles thérapies ciblées pour faire progresser la pratique clinique. Cette thèse se concentre sur le développement de modèles pronostiques exploitant des caractéristiques de radiomique extraites des images multimodales IRM (T1 pré- et post-contraste, T2 et FLAIR). Le contexte méthodologique proposé consiste à i) recaler tous les volumes multimodaux IRM disponibles et en segmenter un volume tumoral unique, ii) extraire des caractéristiques radiomiques et iii) construire et valider les modèles pronostiques par l’utilisation d’algorithmes d’apprentissage automatique exploitant des cohortes cliniques multicentriques de patients. Le coeur des méthodes développées est fondé sur l’extraction de radiomiques (incluant des paramètres d’intensité, de forme et de textures) pour construire des modèles pronostiques à l’aide de deux algorithmes d’apprentissage, les machines à vecteurs de support (support vector machines, SVM) et les forêts aléatoires (random forest, RF), comparées dans leur capacité à sélectionner et combiner les caractéristiques optimales. Les bénéfices et l’impact de plusieurs étapes de pré-traitement des images IRM (re-échantillonnage spatial des voxels, normalisation, segmentation et discrétisation des intensités) pour une extraction de métriques fiables ont été évalués. De plus les caractéristiques radiomiques ont été standardisées en participant à l’initiative internationale de standardisation multicentrique des radiomiques. La précision obtenue sur le jeu de test indépendant avec les deux algorithmes d’apprentissage SVM et RF, en fonction des modalités utilisées et du nombre de caractéristiques combinées atteignait 77 à 83% en exploitant toutes les radiomiques disponibles sans prendre en compte leur fiabilité intrinsèque, et 77 à 87% en n’utilisant que les métriques identifiées comme fiables.Dans cette thèse, un contexte méthodologique a été proposé, développé et validé, qui permet la construction de modèles pronostiques dans le cadre des GBM et de l’imagerie multimodale IRM exploitée par des algorithmes d’apprentissage automatique. Les travaux futurs pourront s’intéresser à l’ajout à ces modèles des informations contextuelles et génétiques. D’un point de vue algorithmique, l’exploitation de nouvelles techniques d’apprentissage profond est aussi prometteuse. / Glioblastoma multiforme (GBM) is a WHO grade IV tumor that represents 49% of ail brain tumours. Despite aggressive treatment modalities (radiotherapy, chemotherapy and surgical resections) the prognosis is poor, as médian overall survival (OS) is 12-14 months. GBM’s neuroimaging (non-invasive) features can provide opportunities for subclassification, prognostication, and the development of targeted therapies that could advance the clinical practice. This thesis focuses on developing a prognostic model based on multimodal MRI-derived (Tl pre- and post-contrast, T2 and FLAIR) radiomics in GBM. The proposed methodological framework consists in i) registering the available 3D multimodal MR images andsegmenting the tumor volume, ii) extracting radiomics iii) building and validating a prognostic model using machine learning algorithms applied to multicentric clinical cohorts of patients. The core component of the framework rely on extracting radiomics (including intensity, shape and textural metrics) and building prognostic models using two different machine learning algorithms (Support Vector Machine (SVM) and Random Forest (RF)) that were compared by selecting, ranking and combining optimal features. The potential benefits and respective impact of several MRI pre-processing steps (spatial resampling of the voxels, intensities quantization and normalization, segmentation) for reliable extraction of radiomics was thoroughly assessed. Moreover, the standardization of the radiomics features among methodological teams was done by contributing to “Multicentre Initiative for Standardisation of Radiomics”. The accuracy obtained on the independent test dataset using SVM and RF reached upto 83%- 77% when combining ail available features and upto 87%-77% when using only reliable features previously identified as robust, depending on number of features and modality. In this thesis, I developed a framework for developing a compréhensive prognostic model for patients with GBM from multimodal MRI-derived “radiomics and machine learning”. The future work will consists in building a unified prognostic model exploiting other contextual data such as genomics. In case of new algorithm development we look forward to develop the Ensemble models and deep learning-based techniques. Glioblastome multiforme Pronostic Radiomique Apprentissage automatique Machines à vecteurs de support Forêt aléatoire Sélection de paramètres Sélection de paramètres Glioblastoma multiforme Prognosis Radiomics Machine learning Prognostic model SVM RF Feature sélection Supervised learning 616.994 81
7	SLA violation prediction : a machine learning perspective Askari Hemmat, Reyhane 10 1900 (has links) No description available. Cloud computing Validation du niveau service Apprentissage automatique Classification déséquilibrée Forêt aléatoire Classification de Bayes Naive Service level agreements Machine learning Unbalanced classification Random forest Naive Bayes
8	Acceleration Strategies of Markov Chain Monte Carlo for Bayesian Computation / Stratégies d'accélération des algorithmes de Monte Carlo par chaîne de Markov pour le calcul Bayésien Wu, Chang-Ye 04 October 2018 (has links) Les algorithmes MCMC sont difficiles à mettre à l'échelle, car ils doivent balayer l'ensemble des données à chaque itération, ce qui interdit leurs applications dans de grands paramètres de données. En gros, tous les algorithmes MCMC évolutifs peuvent être divisés en deux catégories: les méthodes de partage et de conquête et les méthodes de sous-échantillonnage. Le but de ce projet est de réduire le temps de calcul induit par des fonctions complexes ou à grande efficacité. / MCMC algorithms are difficult to scale, since they need to sweep over the whole data set at each iteration, which prohibits their applications in big data settings. Roughly speaking, all scalable MCMC algorithms can be divided into two categories: divide-and-conquer methods and subsampling methods. The aim of this project is to reduce the computing time induced by complex or largelikelihood functions. Chaîne de Markov Monte Carlo Données massives Diviser pour régner Forêt aléatoire Markov chain Monte Carlo Big Data Piecewise deterministic Markov process Divide-and-conquer Random forest 519.2
9	Forêt aléatoire pour l'apprentissage multi-vues basé sur la dissimilarité : Application à la Radiomique / Random forest for dissimilarity based multi-view learning : application to radiomics Cao, Hongliu 02 December 2019 (has links) Les travaux de cette thèse ont été initiés par des problèmes d’apprentissage de données radiomiques. La Radiomique est une discipline médicale qui vise l’analyse à grande échelle de données issues d’imageries médicales traditionnelles, pour aider au diagnostic et au traitement des cancers. L’hypothèse principale de cette discipline est qu’en extrayant une grande quantité d’informations des images, on peut caractériser de bien meilleure façon que l’œil humain les spécificités de cette pathologie. Pour y parvenir, les données radiomiques sont généralement constituées de plusieurs types d’images et/ou de plusieurs types de caractéristiques (images, cliniques, génomiques). Cette thèse aborde ce problème sous l’angle de l’apprentissage automatique et a pour objectif de proposer une solution générique, adaptée à tous problèmes d’apprentissage du même type. Nous identifions ainsi en Radiomique deux problématiques d’apprentissage: (i) l’apprentissage de données en grande dimension et avec peu d’instances (high dimension, low sample size, a.k.a.HDLSS) et (ii) l’apprentissage multi-vues. Les solutions proposées dans ce manuscrit exploitent des représentations de dissimilarités obtenues à l’aide des Forêts Aléatoires. L’utilisation d’une représentation par dissimilarité permet de contourner les difficultés inhérentes à l’apprentissage en grande dimension et facilite l’analyse conjointe des descriptions multiples (les vues). Les contributions de cette thèse portent sur l’utilisation de la mesure de dissimilarité embarquée dans les méthodes de Forêts Aléatoires pour l’apprentissage multi-vue de données HDLSS. En particulier, nous présentons trois résultats: (i) la démonstration et l’analyse de l’efficacité de cette mesure pour l’apprentissage multi-vue de données HDLSS; (ii) une nouvelle méthode pour mesurer les dissimilarités à partir de Forêts Aléatoires, plus adaptée à ce type de problème d’apprentissage; et (iii) une nouvelle façon d’exploiter l’hétérogénèité des vues, à l’aide d’un mécanisme de combinaison dynamique. Ces résultats ont été obtenus sur des données radiomiques mais aussi sur des problèmes multi-vue classiques. / The work of this thesis was initiated by a Radiomic learning problem. Radiomics is a medical discipline that aims at the large-scale analysis of data from traditional medical imaging to assist in the diagnosis and treatment of cancer. The main hypothesis of this discipline is that by extracting a large amount of information from the images, we can characterize the specificities of this pathology in a much better way than the human eye. To achieve this, Radiomics data are generally based on several types of images and/or several types of features (from images, clinical, genomic). This thesis approaches this problem from the perspective of Machine Learning (ML) and aims to propose a generic solution, adapted to any similar learning problem. To do this, we identify two types of ML problems behind Radiomics: (i) learning from high dimension, low sample size (HDLSS) and (ii) multiview learning. The solutions proposed in this manuscript exploit dissimilarity representations obtained using the Random Forest method. The use of dissimilarity representations makes it possible to overcome the well-known difficulties of learning high dimensional data, and to facilitate the joint analysis of the multiple descriptions, i.e. the views.The contributions of this thesis focus on the use of the dissimilarity easurement embedded in the Random Forest method for HDLSS multi-view learning. In particular, we present three main results: (i) the demonstration and analysis of the effectiveness of this measure for HDLSS multi-view learning; (ii) a new method for measuring dissimilarities from Random Forests, better adapted to this type of learning problem; and (iii) a new way to exploit the heterogeneity of views, using a dynamic combination mechanism. These results have been obtained on radiomic data but also on classical multi-view learning problems. Espace de dissimilarité Forêt aléatoire Apprentissage multi-vue Dimension élevée Taille réduite de l'échantillon Apprentissage de dissimilarité Sélection dynamique Dissimilarity space Random forest Multi-view learning High dimension Low sample size Dissimilarity learning Dynamic selection 006.3

Search results