Spelling suggestions: "subject:"cynamic densemble byelection"" "subject:"cynamic densemble dielection""
1 |
Apprentissage Ensembliste, Étude comparative et Améliorations via Sélection Dynamique / Ensemble Learning, Comparative Analysis and Further Improvements with Dynamic Ensemble SelectionNarassiguin, Anil 04 May 2018 (has links)
Les méthodes ensemblistes constituent un sujet de recherche très populaire au cours de la dernière décennie. Leur succès découle en grande partie de leurs solutions attrayantes pour résoudre différents problèmes d'apprentissage intéressants parmi lesquels l'amélioration de l'exactitude d'une prédiction, la sélection de variables, l'apprentissage de métrique, le passage à l'échelle d'algorithmes inductifs, l'apprentissage de multiples jeux de données physiques distribués, l'apprentissage de flux de données soumis à une dérive conceptuelle, etc... Dans cette thèse nous allons dans un premier temps présenter une comparaison empirique approfondie de 19 algorithmes ensemblistes d'apprentissage supervisé proposé dans la littérature sur différents jeux de données de référence. Non seulement nous allons comparer leurs performances selon des métriques standards de performances (Exactitude, AUC, RMS) mais également nous analyserons leur diagrammes kappa-erreur, la calibration et les propriétés biais-variance. Nous allons aborder ensuite la problématique d'amélioration des ensembles de modèles par la sélection dynamique d'ensembles (dynamic ensemble selection, DES). La sélection dynamique est un sous-domaine de l'apprentissage ensembliste où pour une donnée d'entrée x, le meilleur sous-ensemble en terme de taux de réussite est sélectionné dynamiquement. L'idée derrière les approches DES est que différents modèles ont différentes zones de compétence dans l'espace des instances. La plupart des méthodes proposées estime l'importance individuelle de chaque classifieur faible au sein d'une zone de compétence habituellement déterminée par les plus proches voisins dans un espace euclidien. Nous proposons et étudions dans cette thèse deux nouvelles approches DES. La première nommée ST-DES est conçue pour les ensembles de modèles à base d'arbres de décision. Cette méthode sélectionne via une métrique supervisée interne à l'arbre, idée motivée par le problème de la malédiction de la dimensionnalité : pour les jeux de données avec un grand nombre de variables, les métriques usuelles telle la distance euclidienne sont moins pertinentes. La seconde approche, PCC-DES, formule la problématique DES en une tâche d'apprentissage multi-label avec une fonction coût spécifique. Ici chaque label correspond à un classifieur et une base multi-label d'entraînement est constituée sur l'habilité de chaque classifieur de classer chaque instance du jeu de données d'origine. Cela nous permet d'exploiter des récentes avancées dans le domaine de l'apprentissage multi-label. PCC-DES peut être utilisé pour les approches ensemblistes homogènes et également hétérogènes. Son avantage est de prendre en compte explicitement les corrélations entre les prédictions des classifieurs. Ces algorithmes sont testés sur un éventail de jeux de données de référence et les résultats démontrent leur efficacité faces aux dernières alternatives de l'état de l'art / Ensemble methods has been a very popular research topic during the last decade. Their success arises largely from the fact that they offer an appealing solution to several interesting learning problems, such as improving prediction accuracy, feature selection, metric learning, scaling inductive algorithms to large databases, learning from multiple physically distributed data sets, learning from concept-drifting data streams etc. In this thesis, we first present an extensive empirical comparison between nineteen prototypical supervised ensemble learning algorithms, that have been proposed in the literature, on various benchmark data sets. We not only compare their performance in terms of standard performance metrics (Accuracy, AUC, RMS) but we also analyze their kappa-error diagrams, calibration and bias-variance properties. We then address the problem of improving the performances of ensemble learning approaches with dynamic ensemble selection (DES). Dynamic pruning is the problem of finding given an input x, a subset of models among the ensemble that achieves the best possible prediction accuracy. The idea behind DES approaches is that different models have different areas of expertise in the instance space. Most methods proposed for this purpose estimate the individual relevance of the base classifiers within a local region of competence usually given by the nearest neighbours in the euclidean space. We propose and discuss two novel DES approaches. The first, called ST-DES, is designed for decision tree based ensemble models. This method prunes the trees using an internal supervised tree-based metric; it is motivated by the fact that in high dimensional data sets, usual metrics like euclidean distance suffer from the curse of dimensionality. The second approach, called PCC-DES, formulates the DES problem as a multi-label learning task with a specific loss function. Labels correspond to the base classifiers and multi-label training examples are formed based on the ability of each classifier to correctly classify each original training example. This allows us to take advantage of recent advances in the area of multi-label learning. PCC-DES works on homogeneous and heterogeneous ensembles as well. Its advantage is to explicitly capture the dependencies between the classifiers predictions. These algorithms are tested on a variety of benchmark data sets and the results demonstrate their effectiveness against competitive state-of-the-art alternatives
|
2 |
Methods for dynamic selection and fusion of ensemble of classifiersOliveira e Cruz, Rafael Menelau 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T15:58:13Z (GMT). No. of bitstreams: 2
arquivo3310_1.pdf: 8155353 bytes, checksum: 2f4dcd5adb2b0b1a23c40bf343b36b34 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Faculdade de Amparo à Ciência e Tecnologia do Estado de Pernambuco / Ensemble of Classifiers (EoC) é uma nova alternative para alcançar altas taxas de reconhecimento
em sistemas de reconhecimento de padrões. O uso de ensemble é motivado pelo fato
de que classificadores diferentes conseguem reconhecer padrões diferentes, portanto, eles são
complementares. Neste trabalho, as metodologias de EoC são exploradas com o intuito de
melhorar a taxa de reconhecimento em diferentes problemas. Primeiramente o problema do
reconhecimento de caracteres é abordado. Este trabalho propõe uma nova metodologia que
utiliza múltiplas técnicas de extração de características, cada uma utilizando uma abordagem
diferente (bordas, gradiente, projeções). Cada técnica é vista como um sub-problema possuindo
seu próprio classificador. As saídas deste classificador são utilizadas como entrada para
um novo classificador que é treinado para fazer a combinação (fusão) dos resultados. Experimentos
realizados demonstram que a proposta apresentou o melhor resultado na literatura pra
problemas tanto de reconhecimento de dígitos como para o reconhecimento de letras.
A segunda parte da dissertação trata da seleção dinâmica de classificadores (DCS). Esta
estratégia é motivada pelo fato que nem todo classificador pertencente ao ensemble é um especialista
para todo padrão de teste. A seleção dinâmica tenta selecionar apenas os classificadores
que possuem melhor desempenho em uma dada região próxima ao padrão de entrada para classificar
o padrão de entrada. É feito um estudo sobre o comportamento das técnicas de DCS
demonstrando que elas são limitadas pela qualidade da região em volta do padrão de entrada.
Baseada nesta análise, duas técnicas para seleção dinâmica de classificadores são propostas.
A primeira utiliza filtros para redução de ruídos próximos do padrão de testes. A segunda é
uma nova proposta que visa extrair diferentes tipos de informação, a partir do comportamento
dos classificadores, e utiliza estas informações para decidir se um classificador deve ser selecionado
ou não. Experimentos conduzidos em diversos problemas de reconhecimento de
padrões demonstram que as técnicas propostas apresentam um aumento de performance significante
|
Page generated in 0.0721 seconds