Spelling suggestions: "subject:"réduction dde lla dimension"" "subject:"réduction dde laa dimension""
1 |
Sélection et extraction d'attributs pour les problèmes de classification / Feature selection and extraction for classification problemsEl Ferchichi, Sabra 01 July 2013 (has links)
Les progrès scientifiques réalisés ces dernières années ont produit des bases de données de plus en plus grandes et complexes. Ceci amène certains classificateurs à générer des règles de classification basées sur des attributs non pertinents, et dégrader ainsi la qualité de classification et la capacité de généralisation. Dans ce contexte, nous proposons une nouvelle méthode pour l’extraction d’attributs afin d’améliorer la qualité de la classification. Notre méthode consiste à effectuer une classification non supervisée des attributs afin de retrouver les groupements d’attributs similaires. Une nouvelle mesure de similarité à base d’analyse de tendance est alors conçue afin de retrouver les attributs similaires dans leur comportement. En effet, notre méthode cherche à réduire l’information redondante tout en identifiant les tendances similaires dans les vecteurs attributs tout au long de la base de données. Suite à la formation des clusters, une transformation linéaire sera appliquée sur les attributs dans chaque groupement pour obtenir un représentant unique. Afin de retrouver un centre optimal, nous proposons de maximiser l’Information Mutuelle (IM) comme mesure de dépendance entre les groupements d’attributs et leur centre recherché. Des expériences réalisées sur des bases de données réelles et artificielles montrent que notre méthode atteint de bonnes performances de classification en comparaison avec d’autres méthodes d’extraction d’attributs. Notre méthode a été également appliquée sur le diagnostic industriel d’un procédé chimique complexe Tennessee Eastman Process (TEP). / Scientific advances in recent years have produced databases increasingly large and complex. This brings some classifiers to generate classification rules based on irrelevant features, and thus degrade the quality of classification and generalization ability. In this context, we propose a new method for extracting features to improve the quality of classification. Our method performs a clustering of features to find groups of similar features. A new similarity measure based on trend analysis is then designed to find similarity between features in their behavior. Indeed, our method aims to reduce redundant information while identifying similar trends in features vectors throughout the database. Following the construction of clusters, a linear transformation is applied on each group to obtain a single representative. To find an optimal center, we propose to maximize the Mutual Information (IM) as a measure of dependency between groups of features and the desired center. Experiments on real and synthetic data show that our method achieved good classification performance in comparison with other methods of extracting features. Our method has also been applied to the industrial diagnosis of a complex chemical process Tennessee Eastman Process (TEP).
|
2 |
Classification spectrale semi-supervisée : Application à la supervision de l'écosystème marin / Constrained spectral clustering : Application to the monitoring of the marine ecosystemWacquet, Guillaume 08 December 2011 (has links)
Dans les systèmes d'aide à la décision, sont généralement à disposition des données numériques abondantes et éventuellement certaines connaissances contextuelles qualitatives, disponibles a priori ou fournies a posteriori par retour d'expérience. Les performances des approches de classification, en particulier spectrale, dépendent de l'intégration de ces connaissances dans leur conception. Les algorithmes de classification spectrale permettent de traiter la classification sous l'angle de coupes de graphe. Ils classent les données dans l'espace des vecteurs propres de la matrice Laplacienne du graphe. Cet espace est censé mieux révéler la présence de groupements naturels linéairement séparables. Dans ce travail, nous nous intéressons aux algorithmes intégrant des connaissances type contraintes de comparaison. L'espace spectral doit, dans ce cas, révéler la structuration en classes tout en respectant, autant que possible, les contraintes de comparaison. Nous présentons un état de l'art des approches spectrales semi-supervisées contraintes. Nous proposons un nouvel algorithme qui permet de générer un sous-espace de projection par optimisation d'un critère de multi-coupes normalisé avec ajustement des coefficients de pénalité dus aux contraintes. Les performances de l'algorithme sont mises en évidence sur différentes bases de données par comparaison à d'autres algorithmes de la littérature. Dans le cadre de la surveillance de l'écosystème marin, nous avons développé un système de classification automatique de cellules phytoplanctoniques, analysées par cytométrie en flux. Pour cela, nous avons proposé de mesurer les similarités entre cellules par comparaison élastique entre leurs signaux profils caractéristiques. / In the decision support systems, often, there a huge digital data and possibly some contextual knowledge available a priori or provided a posteriori by feedback. The performances of classification approaches, particularly spectral ones, depend on the integration of the domain knowledge in their design. Spectral classification algorithms address the problem of classification in terms of graph cuts. They classify the data in the eigenspace of the graph Laplacian matrix. The generated eigenspace may better reveal the presence of linearly separable data clusters. In this work, we are particularly interested in algorithms integrating pairwise constraints : constrained spectral clustering. The eigenspace may reveal the data structure while respecting the constraints. We present a state of the art approaches to constrained spectral clustering. We propose a new algorithm, which generates a subspace projection, by optimizing a criterion integrating both normalized multicut and penalties due to the constraints. The performances of the algorithms are demonstrated on different databases in comparison to other algorithms in the literature. As part of monitoring of the marine ecosystem, we developed a phytoplankton classification system, based on flow cytometric analysis. for this purpose, we proposed to characterize the phytoplanktonic cells by similarity measures using elastic comparison between their cytogram signals.
|
3 |
Modèles semi-paramétriques appliqués à la prévision des séries temporelles. Cas de la consommation d'électricité.Lefieux, Vincent 12 October 2007 (has links) (PDF)
Une prévision correcte de la consommation d'électricité est fondamentale pour le bon fonctionnement du réseau électrique français, dont Réseau de Transport d'Electricité a la charge. Les prévisions utilisées quotidiennement par RTE sont issues d'un modèle alliant une régression paramétrique non linéaire et un modèle SARIMA.Dans l'idée d'obtenir un modèle de prévision adaptatif, des méthodes de prévision non-paramétriques ont déjà été testées sans succès véritable. On sait notamment que la qualité d'un prédicteur non-paramétrique résiste mal à un grand nombre de variables explicatives, ce qu'on appelle communément le fléau de la dimension.On a proposé récemment des méthodes semi-paramétriques d'estimation d'une régression qui améliorent l'approche non-paramétrique pure. L'une d'elles, basée sur la notion de ''directions révélatrices'' appellée MAVE (Moving Average -conditional- Variance Estimation), peut s'appliquer aux séries temporelles. Nous étudions empiriquement son efficacité pour prédire les valeurs futures d'une série temporelle autorégressive.Nous adaptons ensuite cette méthode, d'un point de vue pratique, pour prédire la consommation électrique. Nous proposons un modèle semi-paramétrique semi-linéaire, basé partiellement sur la méthode MAVE, qui permet de prendre en compte simultanément l'aspect autorégressif du problème, et l'introduction de variables exogènes. La procédure d'estimation proposée se révèle efficace en pratique.
|
4 |
Réduction de la dimension en régressionPortier, François 02 July 2013 (has links) (PDF)
Dans cette thèse, nous étudions le problème de réduction de la dimension dans le cadre du modèle de régression suivant Y=g(B X,e), où X est un vecteur de dimension p, Y appartient à R, la fonction g est inconnue et le bruit e est indépendant de X. Nous nous intéressons à l'estimation de la matrice B, de taille dxp où d est plus petit que p, (dont la connaissance permet d'obtenir de bonnes vitesses de convergence pour l'estimation de g). Ce problème est traité en utilisant deux approches distinctes. La première, appelée régression inverse nécessite la condition de linéarité sur X. La seconde, appelée semi-paramétrique ne requiert pas une telle condition mais seulement que X possède une densité lisse. Dans le cadre de la régression inverse, nous étudions deux familles de méthodes respectivement basées sur E[X f(Y)] et E[XX^T f(Y)]. Pour chacune de ces familles, nous obtenons les conditions sur f permettant une estimation exhaustive de B, aussi nous calculons la fonction f optimale par minimisation de la variance asymptotique. Dans le cadre de l'approche semi-paramétrique, nous proposons une méthode permettant l'estimation du gradient de la fonction de régression. Sous des hypothèses semi-paramétriques classiques, nous montrons la normalité asymptotique de notre estimateur et l'exhaustivité de l'estimation de B. Quel que soit l'approche considérée, une question fondamentale est soulevée : comment choisir la dimension de B ? Pour cela, nous proposons une méthode d'estimation du rang d'une matrice par test d'hypothèse bootstrap.
|
5 |
Apprentissage automatique et extrêmes pour la détection d'anomalies / Machine learning and extremes for anomaly detectionGoix, Nicolas 28 November 2016 (has links)
La détection d'anomalies est tout d'abord une étape utile de pré-traitement des données pour entraîner un algorithme d'apprentissage statistique. C'est aussi une composante importante d'une grande variété d'applications concrètes, allant de la finance, de l'assurance à la biologie computationnelle en passant par la santé, les télécommunications ou les sciences environnementales. La détection d'anomalies est aussi de plus en plus utile au monde contemporain, où il est nécessaire de surveiller et de diagnostiquer un nombre croissant de systèmes autonomes. La recherche en détection d'anomalies inclut la création d'algorithmes efficaces accompagnée d'une étude théorique, mais pose aussi la question de l'évaluation de tels algorithmes, particulièrement lorsque l'on ne dispose pas de données labellisées -- comme dans une multitude de contextes industriels. En d'autres termes, l'élaboration du modèle et son étude théorique, mais aussi la sélection du modèle. Dans cette thèse, nous abordons ces deux aspects. Tout d'abord, nous introduisons un critère alternatif au critère masse-volume existant, pour mesurer les performances d'une fonction de score. Puis nous nous intéressons aux régions extrêmes, qui sont d'un intérêt particulier en détection d'anomalies, pour diminuer le taux de fausse alarme. Enfin, nous proposons deux méthodes heuristiques, l'une pour évaluer les performances d'algorithmes de détection d'anomalies en grande dimension, l'autre pour étendre l'usage des forets aléatoires à la classification à une classe. / Anomaly detection is not only a useful preprocessing step for training machine learning algorithms. It is also a crucial component of many real-world applications, from various fields like finance, insurance, telecommunication, computational biology, health or environmental sciences. Anomaly detection is also more and more relevant in the modern world, as an increasing number of autonomous systems need to be monitored and diagnosed. Important research areas in anomaly detection include the design of efficient algorithms and their theoretical study but also the evaluation of such algorithms, in particular when no labeled data is available -- as in lots of industrial setups. In other words, model design and study, and model selection. In this thesis, we focus on both of these aspects. We first propose a criterion for measuring the performance of any anomaly detection algorithm. Then we focus on extreme regions, which are of particular interest in anomaly detection, to obtain lower false alarm rates. Eventually, two heuristic methods are proposed, the first one to evaluate anomaly detection algorithms in the case of high dimensional data, the other to extend the use of random forests to the one-class setting.
|
6 |
Réduction de la dimension en régression / Dimension reduction in regressionPortier, François 02 July 2013 (has links)
Dans cette thèse, nous étudions le problème de réduction de la dimension dans le cadre du modèle de régression suivant Y=g(B X,e), où X est un vecteur de dimension p, Y appartient à R, la fonction g est inconnue et le bruit e est indépendant de X. Nous nous intéressons à l'estimation de la matrice B, de taille dxp où d est plus petit que p, (dont la connaissance permet d'obtenir de bonnes vitesses de convergence pour l'estimation de g). Ce problème est traité en utilisant deux approches distinctes. La première, appelée régression inverse nécessite la condition de linéarité sur X. La seconde, appelée semi-paramétrique ne requiert pas une telle condition mais seulement que X possède une densité lisse. Dans le cadre de la régression inverse, nous étudions deux familles de méthodes respectivement basées sur E[X f(Y)] et E[XX^T f(Y)]. Pour chacune de ces familles, nous obtenons les conditions sur f permettant une estimation exhaustive de B, aussi nous calculons la fonction f optimale par minimisation de la variance asymptotique. Dans le cadre de l'approche semi-paramétrique, nous proposons une méthode permettant l'estimation du gradient de la fonction de régression. Sous des hypothèses semi-paramétriques classiques, nous montrons la normalité asymptotique de notre estimateur et l'exhaustivité de l'estimation de B. Quel que soit l'approche considérée, une question fondamentale est soulevée : comment choisir la dimension de B ? Pour cela, nous proposons une méthode d'estimation du rang d'une matrice par test d'hypothèse bootstrap. / In this thesis, we study the problem of dimension reduction through the following regression model Y=g(BX,e), where X is a p dimensional vector, Y belongs to R, the function g is unknown and the noise e is independent of X. We are interested in the estimation of the matrix B, with dimension d times p where d is smaller than p (whose knowledge provides good convergence rates for the estimation of g). This problem is processed according to two different approaches. The first one, called the inverse regression, needs the linearity condition on X. The second one, called semiparametric, do not require such an assumption but only that X has a smooth density. In the context of inverse regression, we focus on two families of methods respectively based on E[X f(Y)] and E[XX^T f(Y)]. For both families, we provide conditions on f that allow an exhaustive estimation of B, and also we compute the better function f by minimizing the asymptotic variance. In the semiparametric context, we give a method for the estimation of the gradient of the regression function. Under some classical semiparametric assumptions, we show the root n consistency of our estimator, the exhaustivity of the estimation and the convergence in the processes space. Within each point, an important question is raised : how to choose the dimension of B ? For this we propose a method that estimates of the rank of a matrix by bootstrap hypothesis testing.
|
7 |
Nouvelles méthodes de représentations parcimonieuses ; application à la compression et l'indexation d'imagesZepeda Salvatierra, Joaquin 28 October 2010 (has links) (PDF)
Une nouvelle structure de dictionnaire adaptés aux décompositions itératives de type poursuite, appelée un Iteration-Tuned Dictionary (ITD), est présentée. Les ITDs sont structurés en couche, chaque couche se composant d'un ensemble de dictionnaires candidats. Les décompositions itératives basées ITD sont alors réalisées en sélectionnant, à chaque itération i, l'un des dictionnaires de la i-ième couche. Une structure générale des ITDs est proposée, ainsi qu'une variante structurée en arbre appelée Tree-Structured Iteration-Tuned Dictionary (TSITD) et une version contrainte de cette dernière, appelée Iteration-Tuned and Aligned Dictionary (ITAD). Ces structures sont comparées à plusieurs méthodes de l'état de l'art et évaluées dans des applications de débruitage et de compression d'images. Un codec basé sur le schéma ITAD est également présenté et comparé à JPEG2000 dans des évaluations qualitatives et quantitatives. Dans le contexte de l'indexation d'images, un nouveau système de recherche approximative des plus proches voisins est également introduit, qui utilise les représentations parcimonieuses pour réduire la complexité de la recherche. La méthode traite l'instabilité dans la sélection des atomes lorsque l'image est soumise à de faibles transformations affines. Un nouveau système de conditionnement des données est également introduit, permettant de mieux distribuer les données sur la sphère unitaire tout en préservant leurs distances angulaires relatives. Il est montré que cette méthode améliore le compromis complexité/performance de la recherche approximative basée décompositions parcimonieuses.
|
8 |
Regularisation and variable selection using penalized likelihood / Régularisation et sélection de variables par le biais de la vraisemblance pénaliséeEl anbari, Mohammed 14 December 2011 (has links)
Dans cette thèse nous nous intéressons aux problèmes de la sélection de variables en régression linéaire. Ces travaux sont en particulier motivés par les développements récents en génomique, protéomique, imagerie biomédicale, traitement de signal, traitement d’image, en marketing, etc… Nous regardons ce problème selon les deux points de vue fréquentielle et bayésienne.Dans un cadre fréquentiel, nous proposons des méthodes pour faire face au problème de la sélection de variables, dans des situations pour lesquelles le nombre de variables peut être beaucoup plus grand que la taille de l’échantillon, avec présence possible d’une structure supplémentaire entre les variables, telle qu’une forte corrélation ou un certain ordre entre les variables successives. Les performances théoriques sont explorées ; nous montrons que sous certaines conditions de régularité, les méthodes proposées possèdent de bonnes propriétés statistiques, telles que des inégalités de parcimonie, la consistance au niveau de la sélection de variables et la normalité asymptotique.Dans un cadre bayésien, nous proposons une approche globale de la sélection de variables en régression construite sur les lois à priori g de Zellner dans une approche similaire mais non identique à celle de Liang et al. (2008) Notre choix ne nécessite aucune calibration. Nous comparons les approches de régularisation bayésienne et fréquentielle dans un contexte peu informatif où le nombre de variables est presque égal à la taille de l’échantillon. / We are interested in variable sélection in linear régression models. This research is motivated by recent development in microarrays, proteomics, brain images, among others. We study this problem in both frequentist and bayesian viewpoints.In a frequentist framework, we propose methods to deal with the problem of variable sélection, when the number of variables is much larger than the sample size with a possibly présence of additional structure in the predictor variables, such as high corrélations or order between successive variables. The performance of the proposed methods is theoretically investigated ; we prove that, under regularity conditions, the proposed estimators possess statistical good properties, such as Sparsity Oracle Inequalities, variable sélection consistency and asymptotic normality.In a Bayesian Framework, we propose a global noninformative approach for Bayesian variable sélection. In this thesis, we pay spécial attention to two calibration-free hierarchical Zellner’s g-priors. The first one is the Jeffreys prior which is not location invariant. A second one avoids this problem by only considering models with at least one variable in the model. The practical performance of the proposed methods is illustrated through numerical experiments on simulated and real world datasets, with a comparison betwenn Bayesian and frequentist approaches under a low informative constraint when the number of variables is almost equal to the number of observations.
|
9 |
Nouvel Algorithme pour la Réduction de la Dimensionnalité en Imagerie HyperspectraleKhoder, Jihan 24 October 2013 (has links) (PDF)
En Imagerie hyperspectrale, les volumes de données acquises atteignent souvent le gigaoctet pour une seule et même scène observée. De ce fait, l'analyse de ces données au contenu physique complexe passe obligatoirement par une étape préliminaire de réduction de la dimensionnalité. Cette réduction a un double objectif, le premier consiste à réduire la redondance et le second permet de faciliter les traitements postérieurs (extraction, classification et reconnaissance de formes) et donc l'interprétation des données. La classification automatique est une étape importante du processus d'extraction de connaissances à partir des données. Elle vise à découvrir la structure intrinsèque d'un ensemble d'objets en formant des regroupements qui partagent des caractéristiques similaires. Dans cette thèse, nous nous intéressons à la réduction de dimension dans le cadre de la classification non supervisée des bandes spectrales. Différentes approches existent, comme celles basées sur la projection (linéaire ou non-linéaire) des données de grandes dimensions sur des sous-espaces de représentation bien choisis ou sur les techniques de sélection de bandes spectrales exploitant des critères de complémentarité-redondance d'information qui ne permettent pas de préserver toute la richesse de l'information apportée par ce type de données. 1 - Nous avons accompli une étude comparative, sur la stabilité et la similarité des algorithmes des méthodes non paramétriques et non supervisée de la projection et aussi de la sélection des bandes utilisées dans la réduction de la dimensionnalité à différents niveaux de bruit déterminés. Les tests sont effectués sur des images hyperspectrales, en classant ces derniers en trois catégories selon leur degré de performance de préserver la quantité d'informations. 2 - Nous avons introduit une nouvelle approche de critère basée sur la di-similarité des attributs spectraux et utilisée dans un espace local sur des matrices de données ; L'approche a servi pour définir un taux de préservation d'un évènement rare dans une transformation mathématique donnée. Cependant, nous avons limitée son application au contexte de la thèse liée à la réduction de la taille des données dans une image hyperspectrale. 3 - Les études comparatives ont permis une première proposition d'approche hybride pour la reduction de la taille d'une image hyperspectrale permettant une meilleure stabilité : BandClustering avec Multidimensional Scaling (MDS). Des exemples sont donnés pour démontrer l'originalité et la pertinence de l'hybridation (BandClust / MDS) de l'analyse effectuée. 4 - La tendance de l'hybridation a été généralisée par la suite en présentant un algorithme hybride adaptatif non supervisé basé sur la logique flou (Fuzzy C means), une méthode de projection comme l'analyse en composante principale (ACP) et un indice de validité d'une classification. Les classifications effectuées par Fuzzy C means permettent d'affecter chaque pixel d'une image hyperspectrale à toutes les classes avec des degrés d'appartenance variant entre 0 et 1. Cette propriété rend la méthode FCM intéressante pour la mise en évidence soit des transitions progressives entre les différentes bandes spectrales ou des hétérogénéités spectrales. Grâce à des méthodes conventionnelles appelées indices de validité de classes, nous avons déterminé le nombre optimal de classes de FCM ainsi que le paramètre de flou. Nous montrons que cette hybridation conduit à un taux de réduction pertinent dans l'imagerie hyperspectrale. Par conséquent, Cet algorithme appliqué à différents échantillons de données hyperspectrales, permet une imagerie spectrale beaucoup plus informative, notamment au niveau de l'hétérogénéité spectrale.
|
10 |
Quelques contributions à l'estimation des modèles définis par des équations estimantes conditionnelles / Some contributions to the statistical inference in models defined by conditional estimating equationsLi, Weiyu 15 July 2015 (has links)
Dans cette thèse, nous étudions des modèles définis par des équations de moments conditionnels. Une grande partie de modèles statistiques (régressions, régressions quantiles, modèles de transformations, modèles à variables instrumentales, etc.) peuvent se définir sous cette forme. Nous nous intéressons au cas des modèles avec un paramètre à estimer de dimension finie, ainsi qu’au cas des modèles semi paramétriques nécessitant l’estimation d’un paramètre de dimension finie et d’un paramètre de dimension infinie. Dans la classe des modèles semi paramétriques étudiés, nous nous concentrons sur les modèles à direction révélatrice unique qui réalisent un compromis entre une modélisation paramétrique simple et précise, mais trop rigide et donc exposée à une erreur de modèle, et l’estimation non paramétrique, très flexible mais souffrant du fléau de la dimension. En particulier, nous étudions ces modèles semi paramétriques en présence de censure aléatoire. Le fil conducteur de notre étude est un contraste sous la forme d’une U-statistique, qui permet d’estimer les paramètres inconnus dans des modèles généraux. / In this dissertation we study statistical models defined by condition estimating equations. Many statistical models could be stated under this form (mean regression, quantile regression, transformation models, instrumental variable models, etc.). We consider models with finite dimensional unknown parameter, as well as semiparametric models involving an additional infinite dimensional parameter. In the latter case, we focus on single-index models that realize an appealing compromise between parametric specifications, simple and leading to accurate estimates, but too restrictive and likely misspecified, and the nonparametric approaches, flexible but suffering from the curse of dimensionality. In particular, we study the single-index models in the presence of random censoring. The guiding line of our study is a U-statistics which allows to estimate the unknown parameters in a wide spectrum of models.
|
Page generated in 0.1534 seconds