Global ETD Search

1	Apprentissage Ensembliste, Étude comparative et Améliorations via Sélection Dynamique / Ensemble Learning, Comparative Analysis and Further Improvements with Dynamic Ensemble Selection Narassiguin, Anil 04 May 2018 (has links) Les méthodes ensemblistes constituent un sujet de recherche très populaire au cours de la dernière décennie. Leur succès découle en grande partie de leurs solutions attrayantes pour résoudre différents problèmes d'apprentissage intéressants parmi lesquels l'amélioration de l'exactitude d'une prédiction, la sélection de variables, l'apprentissage de métrique, le passage à l'échelle d'algorithmes inductifs, l'apprentissage de multiples jeux de données physiques distribués, l'apprentissage de flux de données soumis à une dérive conceptuelle, etc... Dans cette thèse nous allons dans un premier temps présenter une comparaison empirique approfondie de 19 algorithmes ensemblistes d'apprentissage supervisé proposé dans la littérature sur différents jeux de données de référence. Non seulement nous allons comparer leurs performances selon des métriques standards de performances (Exactitude, AUC, RMS) mais également nous analyserons leur diagrammes kappa-erreur, la calibration et les propriétés biais-variance. Nous allons aborder ensuite la problématique d'amélioration des ensembles de modèles par la sélection dynamique d'ensembles (dynamic ensemble selection, DES). La sélection dynamique est un sous-domaine de l'apprentissage ensembliste où pour une donnée d'entrée x, le meilleur sous-ensemble en terme de taux de réussite est sélectionné dynamiquement. L'idée derrière les approches DES est que différents modèles ont différentes zones de compétence dans l'espace des instances. La plupart des méthodes proposées estime l'importance individuelle de chaque classifieur faible au sein d'une zone de compétence habituellement déterminée par les plus proches voisins dans un espace euclidien. Nous proposons et étudions dans cette thèse deux nouvelles approches DES. La première nommée ST-DES est conçue pour les ensembles de modèles à base d'arbres de décision. Cette méthode sélectionne via une métrique supervisée interne à l'arbre, idée motivée par le problème de la malédiction de la dimensionnalité : pour les jeux de données avec un grand nombre de variables, les métriques usuelles telle la distance euclidienne sont moins pertinentes. La seconde approche, PCC-DES, formule la problématique DES en une tâche d'apprentissage multi-label avec une fonction coût spécifique. Ici chaque label correspond à un classifieur et une base multi-label d'entraînement est constituée sur l'habilité de chaque classifieur de classer chaque instance du jeu de données d'origine. Cela nous permet d'exploiter des récentes avancées dans le domaine de l'apprentissage multi-label. PCC-DES peut être utilisé pour les approches ensemblistes homogènes et également hétérogènes. Son avantage est de prendre en compte explicitement les corrélations entre les prédictions des classifieurs. Ces algorithmes sont testés sur un éventail de jeux de données de référence et les résultats démontrent leur efficacité faces aux dernières alternatives de l'état de l'art / Ensemble methods has been a very popular research topic during the last decade. Their success arises largely from the fact that they offer an appealing solution to several interesting learning problems, such as improving prediction accuracy, feature selection, metric learning, scaling inductive algorithms to large databases, learning from multiple physically distributed data sets, learning from concept-drifting data streams etc. In this thesis, we first present an extensive empirical comparison between nineteen prototypical supervised ensemble learning algorithms, that have been proposed in the literature, on various benchmark data sets. We not only compare their performance in terms of standard performance metrics (Accuracy, AUC, RMS) but we also analyze their kappa-error diagrams, calibration and bias-variance properties. We then address the problem of improving the performances of ensemble learning approaches with dynamic ensemble selection (DES). Dynamic pruning is the problem of finding given an input x, a subset of models among the ensemble that achieves the best possible prediction accuracy. The idea behind DES approaches is that different models have different areas of expertise in the instance space. Most methods proposed for this purpose estimate the individual relevance of the base classifiers within a local region of competence usually given by the nearest neighbours in the euclidean space. We propose and discuss two novel DES approaches. The first, called ST-DES, is designed for decision tree based ensemble models. This method prunes the trees using an internal supervised tree-based metric; it is motivated by the fact that in high dimensional data sets, usual metrics like euclidean distance suffer from the curse of dimensionality. The second approach, called PCC-DES, formulates the DES problem as a multi-label learning task with a specific loss function. Labels correspond to the base classifiers and multi-label training examples are formed based on the ability of each classifier to correctly classify each original training example. This allows us to take advantage of recent advances in the area of multi-label learning. PCC-DES works on homogeneous and heterogeneous ensembles as well. Its advantage is to explicitly capture the dependencies between the classifiers predictions. These algorithms are tested on a variety of benchmark data sets and the results demonstrate their effectiveness against competitive state-of-the-art alternatives Apprentissage ensembliste Sélection dynamique Multi-label Ensemble learning Dynamic ensemble selection Multi-label 004
2	TCOWS - Canevas pour la composition de services web avec propriétés transactionnelles Duarte, Helga 13 November 2007 (has links) (PDF) Le développement et l'adoption des technologies associées aux services web permettent aux entreprises d'implanter de nouvelles applications en composant des services existants. Cependant, la mise en oeuvre de processus métiers interagissant sur le web reste une tâche complexe. Le concept de service web, basé sur les standards de l'internet, vise à faciliter le développement de ce type de processus et les interactions entre plusieurs partenaires dans le but de produire un service à valeur ajoutée. Mais, paradoxalement, le développement de services créés par chaque entreprise de manière autonome a donné lieu à une hétérogénéité qui pose divers problèmes au moment de l'exécution de la composition obtenue, surtout lorsque celle-ci est munie de propriétés transactionnelles.<br />L'étude présentée dans ce document nous a permis d'identifier les problèmes liés d'une part, à la composition de services web, et d'autre part à l'association de propriétés transactionnelles à cette composition. Nous nous sommes intéressés à ces deux problématiques qui nous ont conduits à la conception du canevas TCOWS - Transactional Composition Of Web Services - pour la composition de services web en tenant compte des propriétés transactionnelles des services composants. Le modèle permet aux concepteurs de composer des services et de prendre en compte des contraintes liées à la portée de la transaction et, par le biais de restrictions et de préférences, de fixer la qualité de service requise par les composants. Au moment de l'exécution, s'appuyant sur le concept de communautés de services, le canevas choisit, parmi les services accessibles via une communauté, ceux qui répondent le mieux aux besoins de la composition, tout en respectant ces caractéristiques transactionnelles. Composition de services web Sélection dynamique Communautés de services web
3	SMART SAMPLING FOR RISK REDUCTION IN SEMICONDUCTOR MANUFACTURING / ÉCHANTILLONNAGE DYNAMIQUE DE LOTS POUR LA RÉDUCTION DES RISQUES EN FABRICATION DE SEMI-CONDUCTEURS Rodriguez Verjan, Gloria Luz 11 July 2014 (has links) Dans les processus de fabrication de semi-conducteurs, différents types des contrôles existent pour maîtriser les procédés et garantir la qualité du produit final. Ces travaux de thèse s’intéressent aux contrôles de défectivité qui visent à maîtriser le risque sur les équipements de production. L'indicateur utilisé est le nombre de produits traités par un équipement depuis la date du dernier produit contrôlé. On s’intéresse à la maîtrise et la réduction du risque sur les équipements de production. Pour cela, différentes stratégies de sélection des lots existent et peuvent être classifiées selon leur capacité à intégrer la dynamique d'une unité de fabrication. Dans les stratégies de sélection dynamique, les lots sont contrôlés en temps réel et en optimisant un critère. Ces stratégies sont récentes et sont beaucoup plus efficaces que les stratégies précédentes, mais aussi plus complexe à mettre en œuvre. Dans ce cadre, nous avons proposé et validé industriellement différents algorithmes pour identifier les lots à relâcher (à ne pas contrôler) dans les files d'attente des lots en défectivité. Nous avons aussi développé et implémenté un modèle d'optimisation de la capacité pour l’atelier de défectivité, qui permet d’évaluer l’impact de paramètres critiques (e.g. plan de production, positions des opérations de contrôles dans la gamme de fabrication, valeurs des limites de risques) dans la gestion du risque global de l'unité de fabrication. / In semiconductor manufacturing, several types of controls are required to ensure the quality of final products. In this thesis, we focus on defectivity inspections, which aim at monitoring the process for defect reduction and yield improvement. We are interested in managing and reducing the risk on process tools (i.e. number of wafers at risk) during fabrication. To reduce this risk, inspection operations are performed on products. However, because inspection operations directly impact the cycle times of products, sampling strategies are used to reduce the number of inspected lots while satisfying quality objectives. Several sampling techniques exist and can be classified according to their capability to deal with factory dynamics. Dynamic sampling strategies have recently been proposed, in which lots to inspect are selected in real time while considering the current production risk. These strategies are much more efficient than previous strategies but more complex to design and implement. In this thesis, a novel approach to select the lots to inspect is proposed. Multiple algorithms have been proposed and validated to efficiently manage the defect inspection queues by skipping (i.e. releasing) lots that do no longer bring enough information. In order to support strategic and tactical decisions, an optimization model for defect inspection capacity planning is also proposed. This model calculates the required defect inspection capacity to ensure the risk limits on process tools when the production conditions change. Industrial results show significant improvements in terms of risk reduction without increasing defect inspection capacity. Sélection dynamique Echantillonage dynamique Contrôle Défectivité Gestion du risque Fabrication de semi-conducteurs Sampling Defect Inspection Wafers at Risk Semiconductor manufacturing Yield Linear programming Capacity planning Excursions monitoring
4	Forêt aléatoire pour l'apprentissage multi-vues basé sur la dissimilarité : Application à la Radiomique / Random forest for dissimilarity based multi-view learning : application to radiomics Cao, Hongliu 02 December 2019 (has links) Les travaux de cette thèse ont été initiés par des problèmes d’apprentissage de données radiomiques. La Radiomique est une discipline médicale qui vise l’analyse à grande échelle de données issues d’imageries médicales traditionnelles, pour aider au diagnostic et au traitement des cancers. L’hypothèse principale de cette discipline est qu’en extrayant une grande quantité d’informations des images, on peut caractériser de bien meilleure façon que l’œil humain les spécificités de cette pathologie. Pour y parvenir, les données radiomiques sont généralement constituées de plusieurs types d’images et/ou de plusieurs types de caractéristiques (images, cliniques, génomiques). Cette thèse aborde ce problème sous l’angle de l’apprentissage automatique et a pour objectif de proposer une solution générique, adaptée à tous problèmes d’apprentissage du même type. Nous identifions ainsi en Radiomique deux problématiques d’apprentissage: (i) l’apprentissage de données en grande dimension et avec peu d’instances (high dimension, low sample size, a.k.a.HDLSS) et (ii) l’apprentissage multi-vues. Les solutions proposées dans ce manuscrit exploitent des représentations de dissimilarités obtenues à l’aide des Forêts Aléatoires. L’utilisation d’une représentation par dissimilarité permet de contourner les difficultés inhérentes à l’apprentissage en grande dimension et facilite l’analyse conjointe des descriptions multiples (les vues). Les contributions de cette thèse portent sur l’utilisation de la mesure de dissimilarité embarquée dans les méthodes de Forêts Aléatoires pour l’apprentissage multi-vue de données HDLSS. En particulier, nous présentons trois résultats: (i) la démonstration et l’analyse de l’efficacité de cette mesure pour l’apprentissage multi-vue de données HDLSS; (ii) une nouvelle méthode pour mesurer les dissimilarités à partir de Forêts Aléatoires, plus adaptée à ce type de problème d’apprentissage; et (iii) une nouvelle façon d’exploiter l’hétérogénèité des vues, à l’aide d’un mécanisme de combinaison dynamique. Ces résultats ont été obtenus sur des données radiomiques mais aussi sur des problèmes multi-vue classiques. / The work of this thesis was initiated by a Radiomic learning problem. Radiomics is a medical discipline that aims at the large-scale analysis of data from traditional medical imaging to assist in the diagnosis and treatment of cancer. The main hypothesis of this discipline is that by extracting a large amount of information from the images, we can characterize the specificities of this pathology in a much better way than the human eye. To achieve this, Radiomics data are generally based on several types of images and/or several types of features (from images, clinical, genomic). This thesis approaches this problem from the perspective of Machine Learning (ML) and aims to propose a generic solution, adapted to any similar learning problem. To do this, we identify two types of ML problems behind Radiomics: (i) learning from high dimension, low sample size (HDLSS) and (ii) multiview learning. The solutions proposed in this manuscript exploit dissimilarity representations obtained using the Random Forest method. The use of dissimilarity representations makes it possible to overcome the well-known difficulties of learning high dimensional data, and to facilitate the joint analysis of the multiple descriptions, i.e. the views.The contributions of this thesis focus on the use of the dissimilarity easurement embedded in the Random Forest method for HDLSS multi-view learning. In particular, we present three main results: (i) the demonstration and analysis of the effectiveness of this measure for HDLSS multi-view learning; (ii) a new method for measuring dissimilarities from Random Forests, better adapted to this type of learning problem; and (iii) a new way to exploit the heterogeneity of views, using a dynamic combination mechanism. These results have been obtained on radiomic data but also on classical multi-view learning problems. Espace de dissimilarité Forêt aléatoire Apprentissage multi-vue Dimension élevée Taille réduite de l'échantillon Apprentissage de dissimilarité Sélection dynamique Dissimilarity space Random forest Multi-view learning High dimension Low sample size Dissimilarity learning Dynamic selection 006.3

1

Page generated in 0.0987 seconds