Spelling suggestions: "subject:"supervisé"" "subject:"supervisée""
41 |
Préparation non paramétrique des données pour la fouille de données multi-tablesLahbib, Dhafer 06 December 2012 (has links) (PDF)
Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants.
|
42 |
Minimisation de fonctions de perte calibrée pour la classification des imagesBel Haj Ali, Wafa 11 October 2013 (has links) (PDF)
La classification des images est aujourd'hui un défi d'une grande ampleur puisque ça concerne d'un côté les millions voir des milliards d'images qui se trouvent partout sur le web et d'autre part des images pour des applications temps réel critiques. Cette classification fait appel en général à des méthodes d'apprentissage et à des classifieurs qui doivent répondre à la fois à la précision ainsi qu'à la rapidité. Ces problèmes d'apprentissage touchent aujourd'hui un grand nombre de domaines d'applications: à savoir, le web (profiling, ciblage, réseaux sociaux, moteurs de recherche), les "Big Data" et bien évidemment la vision par ordinateur tel que la reconnaissance d'objets et la classification des images. La présente thèse se situe dans cette dernière catégorie et présente des algorithmes d'apprentissage supervisé basés sur la minimisation de fonctions de perte (erreur) dites "calibrées" pour deux types de classifieurs: k-Plus Proches voisins (kNN) et classifieurs linéaires. Ces méthodes d'apprentissage ont été testées sur de grandes bases d'images et appliquées par la suite à des images biomédicales. Ainsi, cette thèse reformule dans une première étape un algorithme de Boosting des kNN et présente ensuite une deuxième méthode d'apprentissage de ces classifieurs NN mais avec une approche de descente de Newton pour une convergence plus rapide. Dans une seconde partie, cette thèse introduit un nouvel algorithme d'apprentissage par descente stochastique de Newton pour les classifieurs linéaires connus pour leur simplicité et leur rapidité de calcul. Enfin, ces trois méthodes ont été utilisées dans une application médicale qui concerne la classification de cellules en biologie et en pathologie.
|
43 |
Convex optimization for cosegmentationJoulin, Armand 17 December 2012 (has links) (PDF)
La simplicité apparente avec laquelle un humain perçoit ce qui l'entoure suggère que le processus impliqué est en partie mécanique, donc ne nécessite pas un haut degré de réflexion. Cette observation suggère que notre perception visuelle du monde peut être simulée sur un ordinateur. La vision par ordinateur est le domaine de recherche consacré au problème de la création d'une forme de perception visuelle pour des ordinateurs. La puissance de calcul des ordinateurs des années 50 ne permettait pas de traiter et d'analyser les données visuelles nécessaires à l'élaboration d'une perception visuelle virtuelle. Depuis peu, la puissance de calcul et la capacité de stockage ont permis à ce domaine de vraiment émerger. En deux décennies, la vision par ordinateur a permis de répondre à problèmes pratiques ou industrielles comme la détection des visages, de personnes au comportement suspect dans une foule ou de défauts de fabrication dans des chaînes de production. En revanche, en ce qui concerne l'émergence d'une perception visuelle virtuelle non spécifique à une tâche donnée, peu de progrès ont été réalisés et la communauté est toujours confrontée à des problèmes fondamentaux. Un de ces problèmes est de segmenter un stimuli optique ou une image en régions porteuses de sens, en objets ou actions. La segmentation de scène est naturelle pour les humains, mais aussi essentielle pour comprendre pleinement son environnement. Malheureusement elle est aussi extrêmement difficile à reproduire sur un ordinateur car il n'existe pas de définition claire de la région "significative''. En effet, en fonction de la scène ou de la situation, une région peut avoir des interprétations différentes. Etant donnée une scène se passant dans la rue, on peut considérer que distinguer un piéton est important dans cette situation, par contre ses vêtements ne le semblent pas nécessairement. Si maintenant nous considérons une scène ayant lieu pendant un défilé de mode, un vêtement devient un élément important, donc une région significative. Ici, nous nous concentrons sur ce problème de segmentation et nous l'abordons sous un angle particulier pour éviter cette difficulté fondamentale. Nous considérerons la segmentation comme un problème d'apprentissage faiblement supervisé, c'est-à-dire qu'au lieu de segmenter des images selon une certaine définition prédéfinie de régions "significatives'', nous développons des méthodes permettant de segmenter simultanément un ensemble d'images en régions qui apparaissent régulièrement. Nous définissons donc une région "significative'' d'un point de vue statistique: Ce sont les régions qui apparaissent régulièrement dans l'ensemble des images données. Pour cela nous concevons des modèles ayant une portée qui va au-delà de l'application à la vision. Notre approche prend ses racines dans l'apprentissage statistique, dont l'objectif est de concevoir des méthodes efficaces pour extraire et/ou apprendre des motifs récurrents dans des jeux de données. Ce domaine a récemment connu une forte popularité en raison de l'augmentation du nombre et de la taille des bases de données disponibles. Nous nous concentrons ici sur des méthodes conçues pour découvrir l'information "cachée'' dans une base à partir d'annotations incomplètes ou inexistantes. Enfin, nos travaux prennent racine dans le domaine de l'optimisation numérique afin d'élaborer des algorithmes efficaces et adaptés à nos problèmes. En particulier, nous utilisons et adaptons des outils récemment développés afin de relaxer des problèmes combinatoires complexes en des problèmes convexes pour lesquels il est garanti de trouver la solution optimale. Nous illustrons la qualité de nos formulations et algorithmes aussi sur des problèmes tirés de domaines autres que la vision par ordinateur. En particulier, nous montrons que nos travaux peuvent être utilisés dans la classification de texte et en biologie cellulaire.
|
44 |
Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la paroleBrodeur, Simon January 2013 (has links)
Les systèmes de reconnaissance de la parole sont fondamentalement dérivés des domaines du traitement et de la modélisation statistique des signaux. Depuis quelques années, d'importantes innovations de domaines connexes comme le traitement d'image et les neurosciences computationnelles tardent toutefois à améliorer la performance des systèmes actuels de reconnaissance de parole. La revue de la littérature a suggéré qu'un système de reconnaissance vocale intégrant les aspects de hiérarchie, parcimonie et grandes dimensions joindrait les avantages de chacun. L'objectif général est de comprendre comment l'intégration de tous ces aspects permettrait d'améliorer la robustesse aux bruits additifs d'un système de reconnaissance de la parole. La base de données TI46 (mots isolés, faible-vocabulaire) est utilisée pour effectuer l'apprentissage non-supervisé et les tests de classification. Les différents bruits additifs proviennent de la base de données NOISEX-92, et permettent d'évaluer la robustesse en conditions de bruit réalistes. L'extraction de caractéristiques dans le système proposé est effectuée par des projections linéaires successives sur des bases, permettant de couvrir de plus en plus de contexte temporel et spectral. Diverses méthodes de seuillage permettent de produire une représentation multi-échelle, binaire et parcimonieuse de la parole. Au niveau du dictionnaire de bases, l'apprentissage non-supervisé permet sous certaines conditions l'obtention de bases qui reflètent des caractéristiques phonétiques et syllabiques de la parole, donc visant une représentation par objets d'un signal. L'algorithme d'analyse en composantes indépendantes (ICA) s'est démontré mieux adapté à extraire de telles bases, principalement à cause du critère de réduction de redondance. Les analyses théoriques et expérimentales ont montré comment la parcimonie peut contourner les problèmes de discrimination des distances et d'estimation des densités de probabilité dans des espaces à grandes dimensions. Il est observé qu'un espace de caractéristiques parcimonieux à grandes dimensions peut définir un espace de paramètres (p.ex. modèle statistique) de mêmes propriétés. Ceci réduit la disparité entre les représentations de l'étage d'extraction des caractéristiques et celles de l'étage de classification. De plus, l'étage d'extraction des caractéristiques peut favoriser une réduction de la complexité de l'étage de classification. Un simple classificateur linéaire peut venir compléter un modèle de Markov caché (HMM), joignant une capacité de discrimination accrue à la polyvalence d'une segmentation en états d'un signal. Les résultats montrent que l'architecture développée offr de meilleurs taux de reconnaissance en conditions propres et bruités comparativement à une architecture conventionnelle utilisant les coefficients cepstraux (MFCC) et une machine à vecteurs de support (SVM) comme classificateur discriminant. Contrairement aux techniques de codage de la parole où la transformation doit être inversible, la reconstruction n'est pas importante en reconnaissance de la parole. Cet aspect a justifié la possibilité de réduire considérablement la complexité des espaces de caractéristiques et de paramètres, sans toutefois diminuer le pouvoir de discrimination et la robustesse.
|
45 |
Détection non supervisée d'anomalies dans les réseaux de communicationMazel, Johan 19 December 2011 (has links) (PDF)
La détection d'anomalies est une tâche critique de l'administration des réseaux. L'apparition continue de nouvelles anomalies et la nature changeante du trafic réseau compliquent de fait la détection d'anomalies. Les méthodes existantes de détection d'anomalies s'appuient sur une connaissance préalable du trafic : soit via des signatures créées à partir d'anomalies connues, soit via un profil de normalité. Ces deux approches sont limitées : la première ne peut détecter les nouvelles anomalies et la seconde requiert une constante mise à jour de son profil de normalité. Ces deux aspects limitent de façon importante l'efficacité des méthodes de détection existantes. Nous présentons une approche non-supervisée qui permet de détecter et caractériser les anomalies réseaux de façon autonome. Notre approche utilise des techniques de partitionnement afin d'identifier les flux anormaux. Nous proposons également plusieurs techniques qui permettent de traiter les anomalies extraites pour faciliter la tâche des opérateurs. Nous évaluons les performances de notre système sur des traces de trafic réel issues de la base de trace MAWI. Les résultats obtenus mettent en évidence la possibilité de mettre en place des systèmes de détection d'anomalies autonomes et fonctionnant sans connaissance préalable.
|
46 |
Gestion supervisée de systèmes étendus à retards variables : cas des réseaux hydrographiques / Supervisory control of large scale system with varying time delay : hydrophical network case studyNouasse, Houda 04 March 2015 (has links)
De part et d’autre de la Terre, on observe de plus en plus de phénomènes naturels dévastateurs, parmi lesquels les inondations constituent l’une des catastrophes les plus fréquentes. Ces dernières décennies d’importantes inondations ont été induites par les crues de rivières. Ces crues, dues à des pluies excessives ou aux eaux de ruissellement, causent sans cesse des pertes de vies humaines et des dégâts matériels importants. Pour remédier à ces problèmes, les réseaux hydrographiques sont de plus en plus équipés de moyens de détection de crues. Un facteur essentiel à la gestion de tels phénomènes est la réactivité. En effet, les gestionnaires des réseaux hydrographiques, dans ce genre de situation, doivent prendre rapidement des décisions importantes dans un contexte incertain, car la plupart de ces crues sont le fruit de phénomènes climatiques brusques, dont l’ampleur est difficile à évaluer avec précision. Nous proposons, dans ce mémoire, une méthode de gestion des crues dans des réseaux hydrographiques équipés de zones inondables contrôlées par des portes gravitationnelles. Dans un premier temps, nous avons modélisé notre méthode de gestion à l’aide d’un réseau de transport statique. Dans un second temps, nous l’avons enrichi en utilisant les réseaux de transport à retards dans le but de prendre en compte les temps de déplacement de la ressource gérée. Afin de pallier le problème de la taille importante des réseaux de transport à retards, nous avons élaboré un mécanisme de substitution combinant un réseau de transport statique réduit et une matrice de temporisation. De plus, ce mécanisme autorise la prise en compte des temps de transfert variables dépendant des débits, sans modification ni du réseau de transport, ni de la structure de la matrice de temporisation. Ce mécanisme permet donc une gestion simplifiée des temps de transferts, variables ou non. Avec ce mécanisme, l’évaluation du flot maximal à coût minimum, nous a permis, suivant les stratégies de gestion considérées, de consigner l’ouverture des portes des zones inondables afin d’écrêter la crue mais aussi afin de restituer cette eau stockée au moment opportun. Finalement, afin d’évaluer les apports de cette gestion, la méthode a été appliquée sur un cas d’étude basée sur un tronçon de rivière équipé de trois zones inondables et modélisé à l’aide de simulateurs hydrauliques combinant les approches de modélisation 1D et 2D. Les résultats de simulation obtenus ont montré que l’approche proposée permettait de réduire de manière significative les inondations en aval des cours d’eau. / On either side of the Earth, we observe more and more devastating natural phenomena. Amon these phenomena, floods are one of the most frequent and devastating natural disasters. During these last decades extensive flooding were caused by the flood of rivers. These floods due to excessive rainfall or runoff induce invariably the loss of human lives and material damages. To overcome these problems, water systems are increasingly equipped with means for detecting floods. A key factor in the management of such phenomena is responsiveness. Indeed, managers of river systems, faced to this kind of situation should quickly take important decisions in an uncertain context, as most of these floods are induced by abrupt climate events, whose magnitude is difficult to assess accuracy. We propose in this dissertation, a method of flood management in river systems equipped with flood zones controlled by gravitational gates. At first, we modeled our management method using a static transportation network. In a second step, we enriched it by using transportation networks with delays in order to take into account the travel time of the managed resource. The main difficulty of transportation networks with delays is their oversize. To overcome this problem, we developed an alternative mechanism combining a static reduced transportation network with a temporization matrix. Furthermore, this mechanism allows the consideration of variable time transfer depending on flows, without modification either on the transportation network, or on the structure of the temporization matrix. This mechanism allows simplified management of the transfer times, variable or not. With this mechanism, the evaluation of the minimum cost maximum flow allowed us, according to the management strategies considered, to compute the gate opening for floodplains in order to mitigate the flood but also to restore the water stored at the relevant time. Finally, to evaluate the contributions of this management, the method was applied to a case study based on a section of river equipped with three flood control reservoirs areas modeled using hydraulic simulators combining 1D and 2D models. The simulation results showed that the proposed approach allowed reducing significantly the floods downstream watercourses.
|
47 |
Apprentissage de représentations et robotique développementale : quelques apports de l'apprentissage profond pour la robotique autonome / Representation learning and developmental robotics : on the use of deep learning for autonomous robotsDroniou, Alain 09 March 2015 (has links)
Afin de pouvoir évoluer de manière autonome et sûre dans leur environnement, les robots doivent être capables d'en construire un modèle fiable et pertinent. Pour des tâches variées dans des environnements complexes, il est difficile de prévoir de manière exhaustive les capacités nécessaires au robot. Il est alors intéressant de doter les robots de mécanismes d'apprentissage leur donnant la possibilité de construire eux-mêmes des représentations adaptées à leur environnement. Se posent alors deux questions : quelle doit être la nature des représentations utilisées et par quels mécanismes peuvent-elles être apprises ? Nous proposons pour cela l'utilisation de l'hypothèse des sous-variétés afin de développer des architectures permettant de faire émerger une représentation symbolique de flux sensorimoteurs bruts. Nous montrons que le paradigme de l'apprentissage profond fournit des mécanismes appropriés à l'apprentissage autonome de telles représentations. Nous démontrons que l'exploitation de la nature multimodale des flux sensorimoteurs permet d'en obtenir une représentation symbolique pertinente. Dans un second temps, nous étudions le problème de l'évolution temporelle des stimuli. Nous discutons les défauts de la plupart des approches aujourd'hui utilisées et nous esquissons une approche à partir de laquelle nous approfondissons deux sous-problèmes. Dans une troisième partie, nous proposons des pistes de recherche pour permettre le passage des expériences de laboratoire à des environnements naturels. Nous explorons plus particulièrement la problématique de la curiosité artificielle dans des réseaux de neurones non supervisés. / This thesis studies the use of deep neural networks to learn high level representations from raw inputs on robots, based on the "manifold hypothesis".
|
48 |
Feature extraction and supervised learning on fMRI : from practice to theory / Estimation de variables et apprentissage supervisé en IRMf : de la pratique à la théoriePedregosa-Izquierdo, Fabian 20 February 2015 (has links)
Jusqu'à l'avènement de méthodes de neuroimagerie non invasives les connaissances du cerveau sont acquis par l'étude de ses lésions, des analyses post-mortem et expérimentations invasives. De nos jours, les techniques modernes d'imagerie telles que l'IRMf sont capables de révéler plusieurs aspects du cerveau humain à une résolution spatio-temporelle progressivement élevé. Cependant, afin de pouvoir répondre à des questions neuroscientifiques de plus en plus complexes, les améliorations techniques dans l'acquisition doivent être jumelés à de nouvelles méthodes d'analyse des données. Dans cette thèse, je propose différentes applications de l'apprentissage statistique au traitement des données d'IRMf. Souvent, les données acquises par le scanner IRMf suivent une étape de sélection de variables dans lequel les cartes d'activation sont extraites du signal IRMf. La première contribution de cette thèse est l'introduction d'un modèle nommé Rank-1 GLM (R1-GLM) pour l'estimation jointe des cartes d'activation et de la fonction de réponse hémodynamique (HRF). Nous quantifions l'amélioration de cette approche par rapport aux procédures existantes sur différents jeux de données IRMf. La deuxième partie de cette thèse est consacrée au problème de décodage en IRMf, ce est à dire, la tâche de prédire quelques informations sur les stimuli à partir des cartes d'activation du cerveau. D'un point de vue statistique, ce problème est difficile due à la haute dimensionnalité des données, souvent des milliers de variables, tandis que le nombre d'images disponibles pour la formation est faible, typiquement quelques centaines. Nous examinons le cas où la variable cible est composé à partir de valeurs discrets et ordonnées. La deuxième contribution de cette thèse est de proposer les deux mesures suivantes pour évaluer la performance d'un modèle de décodage: l'erreur absolue et de désaccord par paires. Nous présentons plusieurs modèles qui optimisent une approximation convexe de ces fonctions de perte et examinent leur performance sur des ensembles de données IRMf. Motivé par le succès de certains modèles de régression ordinales pour la tâche du décodage basé IRMf, nous nous tournons vers l'étude de certaines propriétés théoriques de ces méthodes. La propriété que nous étudions est connu comme la cohérence de Fisher. La troisième, et la plus théorique, la contribution de cette thèse est d'examiner les propriétés de cohérence d'une riche famille de fonctions de perte qui sont utilisés dans les modèles de régression ordinales. / Until the advent of non-invasive neuroimaging modalities the knowledge of the human brain came from the study of its lesions, post-mortem analyses and invasive experimentations. Nowadays, modern imaging techniques such as fMRI are revealing several aspects of the human brain with progressively high spatio-temporal resolution. However, in order to answer increasingly complex neuroscientific questions the technical improvements in acquisition must be matched with novel data analysis methods. In this thesis we examine different applications of machine learning to the processing of fMRI data. We propose novel extensions and investigate the theoretical properties of different models. % The goal of an fMRI experiments is to answer a neuroscientific question. However, it is usually not possible to perform hypothesis testing directly on the data output by the fMRI scanner. Instead, fMRI data enters a processing pipeline in which it suffers several transformations before conclusions are drawn. Often the data acquired through the fMRI scanner follows a feature extraction step in which time-independent activation coefficients are extracted from the fMRI signal. The first contribution of this thesis is the introduction a model named Rank-1 GLM (R1-GLM) for the joint estimation of time-independent activation coefficients and the hemodynamic response function (HRF). We quantify the improvement of this approach with respect to existing procedures on different fMRI datasets. The second part of this thesis is devoted to the problem of fMRI-based decoding, i.e., the task of predicting some information about the stimuli from brain activation maps. From a statistical standpoint, this problem is challenging due to the high dimensionality of the data, often thousands of variables, while the number of images available for training is small, typically a few hundreds. We examine the case in which the target variable consist of discretely ordered values. The second contribution of this thesis is to propose the following two metrics to assess the performance of a decoding model: the absolute error and pairwise disagreement. We describe several models that optimize a convex surrogate of these loss functions and examine their performance on different fMRI datasets. Motivated by the success of some ordinal regression models for the task of fMRI-based decoding, we turn to study some theoretical properties of these methods. The property that we investigate is known as consistency or Fisher consistency and relates the minimization of a loss to the minimization of its surrogate. The third, and most theoretical, contribution of this thesis is to examine the consistency properties of a rich family of surrogate loss functions that are used in the context of ordinal regression. We give sufficient conditions for the consistency of the surrogate loss functions considered. This allows us to give theoretical reasons for some empirically observed differences in performance between surrogates.
|
49 |
Géodétection des réseaux enterrés par imagerie radar / Geodection of buried utilities from radar imageryTerrasse, Guillaume 28 March 2017 (has links)
L’objectif de la thèse est d’améliorer les différents traitements et de proposer une visualisation claire et intuitive à l’opérateur des données en sortie d’un géoradar (radargramme) afin de pouvoir localiser de manière précise les réseaux de canalisations enfouis. Notamment, nous souhaitons mettre en évidence les hyperboles présentes dans les radargrammes car celles-ci sont caractéristiques de la présence d'une canalisation. Dans un premier temps nous nous sommes intéressés à la suppression de l’information inutile (clutter) pouvant gêner la détection des hyperboles. Nous avons ainsi proposé une méthode de filtrage du clutter et du bruit des radargrammes. Ensuite, nous avons travaillé sur l’élaboration d’une méthode permettant de détecter automatiquement les hyperboles dans un radargramme ainsi qu’une estimation de sa fonction mathématique dans des conditions quasi-temps réel. Et enfin nous avons également proposé une méthode de séparation de source permettant de distinguer le clutter et le signal utile du radargramme tout en ayant un impact minimal sur les hyperboles. Ces derniers travaux ouvrent d’autres possibilités pour le filtrage, le rehaussement ou la détection automatique d’hyperboles. / The thesis objective is to improve the different processing in order to make the data acquired by ground penetrating radar (B-scan) more understandable for the operators. Consequently, it will facilitate the pipe localisation. More particularly, we wish to highlight the hyperbolas in the B-scan because they point out the presence of a pipe. First of all, we are interested in removing all the useless information which might hide the hyperbolas. We proposed a filtering method removing unwanted reflections and noise. Then, we worked on an automatic hyperbola detection method and an estimation of their mathematical functions in quasi real time. Finally, we proposed a source separation method to distinguish the unwanted reflections from the hyperbolas with a minimal impact on them. This last work opens interesting perspectives in filtering, hyperbolas enhancement and hyperbola detection.
|
50 |
Apprentissage de structures dans les valeurs extrêmes en grande dimension / Discovering patterns in high-dimensional extremesChiapino, Maël 28 June 2018 (has links)
Nous présentons et étudions des méthodes d’apprentissage non-supervisé de phénomènes extrêmes multivariés en grande dimension. Dans le cas où chacune des distributions marginales d’un vecteur aléatoire est à queue lourde, l’étude de son comportement dans les régions extrêmes (i.e. loin de l’origine) ne peut plus se faire via les méthodes usuelles qui supposent une moyenne et une variance finies. La théorie des valeurs extrêmes offre alors un cadre adapté à cette étude, en donnant notamment une base théorique à la réduction de dimension à travers la mesure angulaire. La thèse s’articule autour de deux grandes étapes : - Réduire la dimension du problème en trouvant un résumé de la structure de dépendance dans les régions extrêmes. Cette étape vise en particulier à trouver les sous-groupes de composantes étant susceptible de dépasser un seuil élevé de façon simultané. - Modéliser la mesure angulaire par une densité de mélange qui suit une structure de dépendance déterminée à l’avance. Ces deux étapes permettent notamment de développer des méthodes de classification non-supervisée à travers la construction d’une matrice de similarité pour les points extrêmes. / We present and study unsupervised learning methods of multivariate extreme phenomena in high-dimension. Considering a random vector on which each marginal is heavy-tailed, the study of its behavior in extreme regions is no longer possible via usual methods that involve finite means and variances. Multivariate extreme value theory provides an adapted framework to this study. In particular it gives theoretical basis to dimension reduction through the angular measure. The thesis is divided in two main part: - Reduce the dimension by finding a simplified dependence structure in extreme regions. This step aim at recover subgroups of features that are likely to exceed large thresholds simultaneously. - Model the angular measure with a mixture distribution that follows a predefined dependence structure. These steps allow to develop new clustering methods for extreme points in high dimension.
|
Page generated in 0.0407 seconds