Spelling suggestions: "subject:"ensemble""
1 |
Estimation d'attitude et diagnostic d'une centrale d'attitude par des outils ensemblistesNguyen, Hoang Van 24 March 2011 (has links) (PDF)
L'estimation de l'attitude (ou orientation) est un problème récurrent de nombreuses applications allant de la robotique aérienne ou sous-marine en passant par des applications médicales (surveillance de patients, réhabilitation), mais aussi jeux vidéo, etc. L'objectif de cette thèse est d'évaluer l'apport des approches ensemblistes dans le cadre de l'estimation de l'attitude à partir de données issues de triaxes accéléromètres (A), magnétomètres (M) et gyromètres (G). Dans un premier temps, on s'intéresse aux mouvements "quasi-statiques" et l'estimation de l'attitude est réalisée à partir de mesures AM. On aborde ensuite le cas des mouvements dynamiques, en considérant l'ensemble des mesures AGM. Le problème du choix de la paramétrisation de l'attitude a été abordé et on a comparé les résultats obtenus et le temps calcul pour des modélisations avec les angles de Cardan et le quaternion unitaire. Les algorithmes développés ont été validés en simulation et avec des données réelles. Les résultats ont été comparés avec ceux fournis par des algorithmes de l'état de l'art, par exemple SIVIA. La deuxième partie du manuscrit est consacrée à au diagnostic des capteurs de la centrale inertielle avec des approches ensemblistes. Les algorithmes développés dans la première partie du travail sont adaptés afin de pouvoir détecter et localiser un défaut dans l'ensemble des capteurs considérés.
|
2 |
Estimation d'attitude et diagnostic d'une centrale d'attitude par des outils ensemblistes / Attitude central unit with accurate computation of the attitude and sensor fault detection capabilitiesNguyen, Hoang Van 24 March 2011 (has links)
L'estimation de l'attitude (ou orientation) est un problème récurrent de nombreuses applications allant de la robotique aérienne ou sous-marine en passant par des applications médicales (surveillance de patients, réhabilitation), mais aussi jeux vidéo, etc. L'objectif de cette thèse est d'évaluer l'apport des approches ensemblistes dans le cadre de l'estimation de l'attitude à partir de données issues de triaxes accéléromètres (A), magnétomètres (M) et gyromètres (G). Dans un premier temps, on s'intéresse aux mouvements "quasi-statiques" et l'estimation de l'attitude est réalisée à partir de mesures AM. On aborde ensuite le cas des mouvements dynamiques, en considérant l'ensemble des mesures AGM. Le problème du choix de la paramétrisation de l'attitude a été abordé et on a comparé les résultats obtenus et le temps calcul pour des modélisations avec les angles de Cardan et le quaternion unitaire. Les algorithmes développés ont été validés en simulation et avec des données réelles. Les résultats ont été comparés avec ceux fournis par des algorithmes de l'état de l'art, par exemple SIVIA. La deuxième partie du manuscrit est consacrée à au diagnostic des capteurs de la centrale inertielle avec des approches ensemblistes. Les algorithmes développés dans la première partie du travail sont adaptés afin de pouvoir détecter et localiser un défaut dans l'ensemble des capteurs considérés. / Attitude estimation is one of the prominent problem encountered in various application areas such as Aerial and submarine robotics, bio-medical applications (elderly people monitoring, rehabilitation) but also, video game and augmented reality. The main objective of this PhD is to assess the capabilities of set-membership estimation in the field of attitude estimation when triaxes accelerometer (A) magnetometer (M) and rate gyros (G) are used. Quasi-static movements are first considered. In this case AM measurements are taken into account. Then the dynamic case is considered with AGM measurement taken into account in the set-membership estimation algorithm. The problem of attitude parametrisation is also studied as it will have a strong in uence on the computational time. The algorithms proposed during this work have been validated with simulated and real data. The second part of the report deals with Fault Detection and Isolation based upon set-membership approaches. The algorithms that have been developed in the first part of this work have been adapted to cope with diagnosis of a faulty sensor within the Inertial Measurement Unit.
|
3 |
Apprentissage Ensembliste, Étude comparative et Améliorations via Sélection Dynamique / Ensemble Learning, Comparative Analysis and Further Improvements with Dynamic Ensemble SelectionNarassiguin, Anil 04 May 2018 (has links)
Les méthodes ensemblistes constituent un sujet de recherche très populaire au cours de la dernière décennie. Leur succès découle en grande partie de leurs solutions attrayantes pour résoudre différents problèmes d'apprentissage intéressants parmi lesquels l'amélioration de l'exactitude d'une prédiction, la sélection de variables, l'apprentissage de métrique, le passage à l'échelle d'algorithmes inductifs, l'apprentissage de multiples jeux de données physiques distribués, l'apprentissage de flux de données soumis à une dérive conceptuelle, etc... Dans cette thèse nous allons dans un premier temps présenter une comparaison empirique approfondie de 19 algorithmes ensemblistes d'apprentissage supervisé proposé dans la littérature sur différents jeux de données de référence. Non seulement nous allons comparer leurs performances selon des métriques standards de performances (Exactitude, AUC, RMS) mais également nous analyserons leur diagrammes kappa-erreur, la calibration et les propriétés biais-variance. Nous allons aborder ensuite la problématique d'amélioration des ensembles de modèles par la sélection dynamique d'ensembles (dynamic ensemble selection, DES). La sélection dynamique est un sous-domaine de l'apprentissage ensembliste où pour une donnée d'entrée x, le meilleur sous-ensemble en terme de taux de réussite est sélectionné dynamiquement. L'idée derrière les approches DES est que différents modèles ont différentes zones de compétence dans l'espace des instances. La plupart des méthodes proposées estime l'importance individuelle de chaque classifieur faible au sein d'une zone de compétence habituellement déterminée par les plus proches voisins dans un espace euclidien. Nous proposons et étudions dans cette thèse deux nouvelles approches DES. La première nommée ST-DES est conçue pour les ensembles de modèles à base d'arbres de décision. Cette méthode sélectionne via une métrique supervisée interne à l'arbre, idée motivée par le problème de la malédiction de la dimensionnalité : pour les jeux de données avec un grand nombre de variables, les métriques usuelles telle la distance euclidienne sont moins pertinentes. La seconde approche, PCC-DES, formule la problématique DES en une tâche d'apprentissage multi-label avec une fonction coût spécifique. Ici chaque label correspond à un classifieur et une base multi-label d'entraînement est constituée sur l'habilité de chaque classifieur de classer chaque instance du jeu de données d'origine. Cela nous permet d'exploiter des récentes avancées dans le domaine de l'apprentissage multi-label. PCC-DES peut être utilisé pour les approches ensemblistes homogènes et également hétérogènes. Son avantage est de prendre en compte explicitement les corrélations entre les prédictions des classifieurs. Ces algorithmes sont testés sur un éventail de jeux de données de référence et les résultats démontrent leur efficacité faces aux dernières alternatives de l'état de l'art / Ensemble methods has been a very popular research topic during the last decade. Their success arises largely from the fact that they offer an appealing solution to several interesting learning problems, such as improving prediction accuracy, feature selection, metric learning, scaling inductive algorithms to large databases, learning from multiple physically distributed data sets, learning from concept-drifting data streams etc. In this thesis, we first present an extensive empirical comparison between nineteen prototypical supervised ensemble learning algorithms, that have been proposed in the literature, on various benchmark data sets. We not only compare their performance in terms of standard performance metrics (Accuracy, AUC, RMS) but we also analyze their kappa-error diagrams, calibration and bias-variance properties. We then address the problem of improving the performances of ensemble learning approaches with dynamic ensemble selection (DES). Dynamic pruning is the problem of finding given an input x, a subset of models among the ensemble that achieves the best possible prediction accuracy. The idea behind DES approaches is that different models have different areas of expertise in the instance space. Most methods proposed for this purpose estimate the individual relevance of the base classifiers within a local region of competence usually given by the nearest neighbours in the euclidean space. We propose and discuss two novel DES approaches. The first, called ST-DES, is designed for decision tree based ensemble models. This method prunes the trees using an internal supervised tree-based metric; it is motivated by the fact that in high dimensional data sets, usual metrics like euclidean distance suffer from the curse of dimensionality. The second approach, called PCC-DES, formulates the DES problem as a multi-label learning task with a specific loss function. Labels correspond to the base classifiers and multi-label training examples are formed based on the ability of each classifier to correctly classify each original training example. This allows us to take advantage of recent advances in the area of multi-label learning. PCC-DES works on homogeneous and heterogeneous ensembles as well. Its advantage is to explicitly capture the dependencies between the classifiers predictions. These algorithms are tested on a variety of benchmark data sets and the results demonstrate their effectiveness against competitive state-of-the-art alternatives
|
4 |
Corrélation, indépendence et modèles inverses<br />Applications au traitement des biosignaux.Vigneron, Vincent 17 December 2007 (has links) (PDF)
Les activités que j'ai menées depuis une dizaine d'années relèvent essentiellement du domaine du traitement du signal, mais aussi de l'analyse de données et de l'analyse numérique. Ce document ne décrit pas de façon exhaustive tous mes travaux. Il a été rédigé autour d'une idée directrice : les relations de corrélation et de dépendance qui peuvent exister entre des signaux. J'ai choisi de faire une présentation détaillée de mes travaux qui se justifie par la fait que certains d'entre eux ne sont qu'en cours de publication et que d'autres ont été publiés avec un nombre de pages volontairement réduit par l'éditeur. Il m'est ainsi plus facile de parvenir à une présentation homogène et d'inclure en certains endroits des développements complémentaires. Le point de départ est mon intérêt certain pour la résolution de problèmes inverses. Ce paradigme apparait dans divers domaines des sciences : théorie de l'information, physique statistique, thermodynamique, traitement d'images [46], etc. Nous ne nous attacherons pas ici à faire une synthèse ou des rapprochements des diverses approches inverses. On peut trouver dans les travaux de Jaynes (professeur à l'Université de Cambridge) de nombreuses réflexions sur le sujet [104]. Nous nous intéressons par contre aux outils mathématiques qui permettent de résoudre de tels problèmes.
|
5 |
Résolution de contraintes réelles quantifiées en utilisant les intervalles modaux avec applications à l'automatiqueHerrero Vinas, Pau 26 December 2006 (has links) (PDF)
Les contraintes réelles quantifiées (QRC) forment un formalisme mathématique utilisé pour modéliser un très grand nombre de problèmes physiques dans lesquels interviennent des systèmes d'équations non linéaires sur des variables réelles, certaines d'entre elles pouvant être quantifiées. Les QRCs apparaissent dans nombreux contextes comme, l'Automatique, le Génie Electrique, le Génie Mécanique, et la Biologie. La résolution de QRCs est un domaine de recherche très actif pour lequel deux approches radicalement différentes sont proposées: l'élimination symbolique de quantificateurs et les méthodes approximatives. Cependant, la résolution de problèmes de grandes dimensions et la résolution du cas général, restent encore des problèmes ouverts. Dans le but de contribuer à la résolution de QCRs, cette thèse propose une nouvelle méthodologie approximative basée sur l'Analyse par Intervalles Modaux (MIA), une théorie mathématique développée par des chercheurs de l'université de Barcelone et de l'université de Girone. Cette théorie permet de résoudre d'une façon élégante une grande classe de problèmes dans lesquels interviennent des quantificateurs logiques sur des variables réelles. Parallèlement, ce travail a comme but de promouvoir l'utilisation de l'Analyse par Intervalles Modaux pour résoudre des problèmes complexes, comme sont les QRCs. La théorie de MIA est relativement confidentielle du fait de sa complexité théorique relative et du fait d'une formulation mathématique peu usuelle. Cette thèse essaie de lever cette barrière en présentant la théorie d'une façon plus intuitive à travers des exemples et des analogies provenant de la théorie classique de l'analyse par intervalles. La méthodologie proposée a été implémentée informatiquement et validée à travers la résolution de nombreux problèmes de la littérature, et les résultats obtenus ont été comparés avec différentes techniques de l'état de l'art. Enfin, il a été montré que l'approche présentée apporte des améliorations en étendant la classe de QRCs qui peut être traité et en améliorant les temps de calcul pour quelques cas particuliers. Tous les algorithmes présentés dans ce travail sont basés sur un algorithme développé dans le cadre de cette thèse et appelé f* algorithme. Cet algorithme permet la réalisation de calculs par intervalles modaux de fa¸con très simple, ce qui aide à l'utilisation de la théorie de MIA et facilite sa diffusion. Dans le même but, un site Internet a été créé afin de permettre l'utilisation de la plupart des algorithmes présentés dans la thèse. Finalement, deux applications à l'Automatique sont présentées. La première application faite référence au problème de la détection de défauts dans des systèmes dynamiques, laquelle a été validée sur des systèmes réels. La deuxième application consiste en la réalisation d'un régulateur pour un bateau à voile. Ce dernier a été validé sur simulation.
|
6 |
Estimation ensembliste par analyse par intervalles Application à la localisation d'un véhiculeKieffer, Michel 18 January 1999 (has links) (PDF)
Dans ce travail, nous développons des outils d'analyse par intervalles pour l'automatique. Nous nous intéressons plus particulièrement à l'identification de paramètres et à l'estimation d'état pour des modèles non-linéaires. Pour l'identification, l'algorithme d'optimisation globale de Hansen fournit un encadrement de tous les vecteurs de paramètres minimisant une fonction coût mettant en jeu les grandeurs mesurées sur un dispositif réel à modéliser et leur pendant prédit par son modèle. Nous montrons que ceci peut mettre en évidence d'éventuels problèmes d'identifiabilité sans étude préalable. Dans l'approche à erreurs bornées, même lorsque des données aberrantes sont présentes, des encadrements intérieur et extérieur des ensembles de vecteurs de paramètres admissibles sont fournis par les algorithmes d'inversion ensembliste par analyse par intervalles. Quand les bornes sur les erreurs ne sont pas connues, une méthode originale évaluant la plus petite borne d'erreur fournissant un ensemble de vecteurs de paramètres admissibles non vide est proposée. Un nouvel algorithme récursif d'estimation d'état garanti est présenté. D'une structure analogue au filtre de Kalman, mais dans un contexte d'erreurs bornées, il fournit à tout instant un ensemble contenant les valeurs de l'état compatibles avec les informations disponibles. Cet algorithme est construit à l'aide d'un algorithme d'inversion ensembliste et d'un algorithme original de calcul d'image directe. Tous deux exploitent la notion de sous-pavages décrits par des arbres binaires, qui permet une description approchée d'ensembles compacts. Ces techniques sont appliquées à la localisation puis au suivi d'un robot à l'intérieur d'une pièce cartographiée. La présence de données aberrantes, comme les ambiguïtés liées aux symétries de la pièce dans laquelle se trouve le robot sont prises en compte sans difficulté. Des ensembles de configurations possibles disjoints peuvent être considérées et leur traitement ne pose aucun problème. En outre, le suivi, même en présence de données aberrantes, est fait en temps réel sur les exemples traités.
|
7 |
Commande prédictive robuste par des techniques d'observateurs à base d'ensembles zonotopiquesLe, Vu Tuan Hieu 22 October 2012 (has links) (PDF)
L'objectif de cette thèse est d'apporter des réponses à deux problèmes importants dans le domaine de l'automatique : l'estimation d'état et la commande prédictive robuste sous contraintes pour des systèmes incertains, en se basant sur des méthodes ensemblistes, plus précisément liées aux ensembles zonotopiques. Les incertitudes agissant sur le système sont modélisées de façon déterministe, elles sont donc inconnues mais bornées par des ensembles connus.Dans ce contexte, la première partie de la thèse développe une méthode d'estimation afin d'élaborer à chaque instant un ensemble zonotopique contenant l'état du système malgré la présence de perturbations, de bruits de mesure et d'incertitudes paramétriques définies par intervalle. Cette méthode est fondée sur la minimisation du P-rayon d'un zonotope, critère original permettant de caractériser la taille de l'ensemble zonotopique et réalisant un bon compromis entre la complexité et la précision de l'estimation. Cette approche est tout d'abord développée pour les systèmes mono-sortie, puis étendue au cas des systèmes multi-sorties, dans un premier temps par des extensions directes de la solution mono-sortie (le système multi-sorties est considéré comme plusieurs systèmes mono-sortie). Une autre solution est ensuite proposée, qui conduit à résoudre un problème d'optimisation de type Inégalités Matricielles Polynomiales en utilisant une méthode de relaxation. Les approches précédentes n'étant que des extensions de la solution à une seule sortie, et malgré leurs bons résultats obtenus en simulation, une démarche originale, dédiée aux systèmes multi-sorties, fondée sur l'intersection entre un polytope et un zonotope, est finalement développée et validée.La deuxième partie de la thèse aborde la problématique de la commande robuste par retour de sortie pour des systèmes incertains. La commande prédictive est retenue du fait de son utilisation dans de nombreux domaines, de sa facilité de mise en œuvre et de sa capacité à traiter des contraintes. Parmi les démarches issues de la littérature, l'implantation de techniques robustes fondées sur des tubes de trajectoire est développée plus spécifiquement. Le recours à un observateur ensembliste à base de zonotopes permet d'améliorer la qualité de l'estimation, ainsi que la performance de la commande, dans le cas de systèmes soumis à des perturbations et des bruits de mesure inconnus, mais bornés.Dans une dernière partie, cette combinaison de l'estimation ensembliste et de la commande prédictive robuste est testée en simulation sur un système de suspension magnétique. Les résultats de simulation traduisent un comportement tout à fait satisfaisant validant les structures théoriques élaborées.
|
8 |
Diagnostic de systèmes hybrides incertains par génération automatique de relations de redondance analytique symboliques évaluées par approche ensemblisteNgo, Quoc Dung 31 August 2012 (has links) (PDF)
Les activités industrielles peuvent induire des risques de nature diverse, voire conduire à des événements catastrophiques. De façon à réduire ces risques à des niveaux acceptables, à en limiter les coûts aussi bien humains, matériels que financiers et à respecter la réglementation, il est crucial d'en prévenir la survenue (prévention) et à identifier des situations anormales en fonction d'informations récupérées sur le terrain. Ceci nécessite de résoudre deux points essentiels : détecter l'anomalie et faire un diagnostic, d'où l'importance des modèles de bon comportement qui modélisent des systèmes physique réels et les méthodes associées permettant d'effectuer la surveillance en continu. L'approche la plus utilisée dans la communauté FDI est l'approche structurelle qui consiste à construire des relations de redondance analytique (RRA). Le principe de l'approche structurelle est de prendre en compte seulement l'existence des relations entre les variables induites par les équations du modèle. En basant sur cette approche, ma thèse consiste à trouver une réponse qui satisfait un triple objectif :1. Extraire les relations valides à partir du modèle de bon comportement d'un système afin de prendre en compte l'évolution du système en éliminant les relations et des mesures invalides ayant pour but d'effectuer le diagnostic en ligne2. Construire, en utilisant une analyse symbolique couplée avec la théorie des graphes, les relations de redondance analytique symboliques (RRAS) pour la détection des défauts dans le système.3. Evaluer ces RRAS en utilisant le calcul par intervalle, an de prendre en compte les incertitudes présents dans les mesures, lors des tests de cohérence.
|
9 |
Diagnostic de systèmes hybrides incertains par génération automatique de relations de redondance analytique symboliques évaluées par approche ensembliste / Dynamic management and supervision of Major HazardsNgo, Quoc Dung 31 August 2012 (has links)
Les activités industrielles peuvent induire des risques de nature diverse, voire conduire à des événements catastrophiques. De façon à réduire ces risques à des niveaux acceptables, à en limiter les coûts aussi bien humains, matériels que financiers et à respecter la réglementation, il est crucial d’en prévenir la survenue (prévention) et à identifier des situations anormales en fonction d’informations récupérées sur le terrain. Ceci nécessite de résoudre deux points essentiels : détecter l’anomalie et faire un diagnostic, d’où l’importance des modèles de bon comportement qui modélisent des systèmes physique réels et les méthodes associées permettant d’effectuer la surveillance en continu. L’approche la plus utilisée dans la communauté FDI est l’approche structurelle qui consiste à construire des relations de redondance analytique (RRA). Le principe de l’approche structurelle est de prendre en compte seulement l’existence des relations entre les variables induites par les équations du modèle. En basant sur cette approche, ma thèse consiste à trouver une réponse qui satisfait un triple objectif :1. Extraire les relations valides à partir du modèle de bon comportement d'un système afin de prendre en compte l'évolution du système en éliminant les relations et des mesures invalides ayant pour but d'effectuer le diagnostic en ligne2. Construire, en utilisant une analyse symbolique couplée avec la théorie des graphes, les relations de redondance analytique symboliques (RRAS) pour la détection des défauts dans le système.3. Evaluer ces RRAS en utilisant le calcul par intervalle, an de prendre en compte les incertitudes présents dans les mesures, lors des tests de cohérence. / Large-scale complex process plants are safety-critical systems where the real-time diagnosis is very important. In a model based systems engineering approach, the structured development process from the concept to the production to the operation phase is organized around a coherent model of the system. This model contains, in particular, relations about the behavior of the system that could have been used for simulation in the design phase. The objective of this work is to use this information to design automatically on-line diagnosis algorithms using the hybrid dynamical information part and sensor measurements of the system model. In this thesis, the proposed approach allows:To extract the valid relations of system behavior to take into account system evolution by eliminating invalid constraints and measurements for establishing an on-line diagnosisTo build, using symbolic analysis and graph path search, analytical redundancy relations for the various system configurationsTo evaluate these ARRs in using set valued computations (interval arithmetic) to take into account model and measurements uncertainties
|
10 |
An Efficient Classification Model for Analyzing Skewed Data to Detect Frauds in the Financial Sector / Un modèle de classification efficace pour l'analyse des données déséquilibrées pour détecter les fraudes dans le secteur financierMakki, Sara 16 December 2019 (has links)
Différents types de risques existent dans le domaine financier, tels que le financement du terrorisme, le blanchiment d’argent, la fraude de cartes de crédit, la fraude d’assurance, les risques de crédit, etc. Tout type de fraude peut entraîner des conséquences catastrophiques pour des entités telles que les banques ou les compagnies d’assurances. Ces risques financiers sont généralement détectés à l'aide des algorithmes de classification. Dans les problèmes de classification, la distribution asymétrique des classes, également connue sous le nom de déséquilibre de classe (class imbalance), est un défi très commun pour la détection des fraudes. Des approches spéciales d'exploration de données sont utilisées avec les algorithmes de classification traditionnels pour résoudre ce problème. Le problème de classes déséquilibrées se produit lorsque l'une des classes dans les données a beaucoup plus d'observations que l’autre classe. Ce problème est plus vulnérable lorsque l'on considère dans le contexte des données massives (Big Data). Les données qui sont utilisées pour construire les modèles contiennent une très petite partie de groupe minoritaire qu’on considère positifs par rapport à la classe majoritaire connue sous le nom de négatifs. Dans la plupart des cas, il est plus délicat et crucial de classer correctement le groupe minoritaire plutôt que l'autre groupe, comme la détection de la fraude, le diagnostic d’une maladie, etc. Dans ces exemples, la fraude et la maladie sont les groupes minoritaires et il est plus délicat de détecter un cas de fraude en raison de ses conséquences dangereuses qu'une situation normale. Ces proportions de classes dans les données rendent très difficile à l'algorithme d'apprentissage automatique d'apprendre les caractéristiques et les modèles du groupe minoritaire. Ces algorithmes seront biaisés vers le groupe majoritaire en raison de leurs nombreux exemples dans l'ensemble de données et apprendront à les classer beaucoup plus rapidement que l'autre groupe. Dans ce travail, nous avons développé deux approches : Une première approche ou classifieur unique basée sur les k plus proches voisins et utilise le cosinus comme mesure de similarité (Cost Sensitive Cosine Similarity K-Nearest Neighbors : CoSKNN) et une deuxième approche ou approche hybride qui combine plusieurs classifieurs uniques et fondu sur l'algorithme k-modes (K-modes Imbalanced Classification Hybrid Approach : K-MICHA). Dans l'algorithme CoSKNN, notre objectif était de résoudre le problème du déséquilibre en utilisant la mesure de cosinus et en introduisant un score sensible au coût pour la classification basée sur l'algorithme de KNN. Nous avons mené une expérience de validation comparative au cours de laquelle nous avons prouvé l'efficacité de CoSKNN en termes de taux de classification correcte et de détection des fraudes. D’autre part, K-MICHA a pour objectif de regrouper des points de données similaires en termes des résultats de classifieurs. Ensuite, calculez les probabilités de fraude dans les groupes obtenus afin de les utiliser pour détecter les fraudes de nouvelles observations. Cette approche peut être utilisée pour détecter tout type de fraude financière, lorsque des données étiquetées sont disponibles. La méthode K-MICHA est appliquée dans 3 cas : données concernant la fraude par carte de crédit, paiement mobile et assurance automobile. Dans les trois études de cas, nous comparons K-MICHA au stacking en utilisant le vote, le vote pondéré, la régression logistique et l’algorithme CART. Nous avons également comparé avec Adaboost et la forêt aléatoire. Nous prouvons l'efficacité de K-MICHA sur la base de ces expériences. Nous avons également appliqué K-MICHA dans un cadre Big Data en utilisant H2O et R. Nous avons pu traiter et analyser des ensembles de données plus volumineux en très peu de temps / There are different types of risks in financial domain such as, terrorist financing, money laundering, credit card fraudulence and insurance fraudulence that may result in catastrophic consequences for entities such as banks or insurance companies. These financial risks are usually detected using classification algorithms. In classification problems, the skewed distribution of classes also known as class imbalance, is a very common challenge in financial fraud detection, where special data mining approaches are used along with the traditional classification algorithms to tackle this issue. Imbalance class problem occurs when one of the classes have more instances than another class. This problem is more vulnerable when we consider big data context. The datasets that are used to build and train the models contain an extremely small portion of minority group also known as positives in comparison to the majority class known as negatives. In most of the cases, it’s more delicate and crucial to correctly classify the minority group rather than the other group, like fraud detection, disease diagnosis, etc. In these examples, the fraud and the disease are the minority groups and it’s more delicate to detect a fraud record because of its dangerous consequences, than a normal one. These class data proportions make it very difficult to the machine learning classifier to learn the characteristics and patterns of the minority group. These classifiers will be biased towards the majority group because of their many examples in the dataset and will learn to classify them much faster than the other group. After conducting a thorough study to investigate the challenges faced in the class imbalance cases, we found that we still can’t reach an acceptable sensitivity (i.e. good classification of minority group) without a significant decrease of accuracy. This leads to another challenge which is the choice of performance measures used to evaluate models. In these cases, this choice is not straightforward, the accuracy or sensitivity alone are misleading. We use other measures like precision-recall curve or F1 - score to evaluate this trade-off between accuracy and sensitivity. Our objective is to build an imbalanced classification model that considers the extreme class imbalance and the false alarms, in a big data framework. We developed two approaches: A Cost-Sensitive Cosine Similarity K-Nearest Neighbor (CoSKNN) as a single classifier, and a K-modes Imbalance Classification Hybrid Approach (K-MICHA) as an ensemble learning methodology. In CoSKNN, our aim was to tackle the imbalance problem by using cosine similarity as a distance metric and by introducing a cost sensitive score for the classification using the KNN algorithm. We conducted a comparative validation experiment where we prove the effectiveness of CoSKNN in terms of accuracy and fraud detection. On the other hand, the aim of K-MICHA is to cluster similar data points in terms of the classifiers outputs. Then, calculating the fraud probabilities in the obtained clusters in order to use them for detecting frauds of new transactions. This approach can be used to the detection of any type of financial fraud, where labelled data are available. At the end, we applied K-MICHA to a credit card, mobile payment and auto insurance fraud data sets. In all three case studies, we compare K-MICHA with stacking using voting, weighted voting, logistic regression and CART. We also compared with Adaboost and random forest. We prove the efficiency of K-MICHA based on these experiments
|
Page generated in 0.0536 seconds