Global ETD Search

21	Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptatives Roche, Angelina 07 July 2014 (has links) (PDF) L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie données fonctionnelles estimateurs adaptatifs régression sélection de modèle méthode de Goldenshluger-Lepski méthodologie des surfaces de réponses
22	Sondages pour données fonctionnelles : construction de bandes de confiance asymptotiques et prise en compte d'information auxiliaire Josserand, Etienne 12 October 2011 (has links) (PDF) Lorsque des bases de données fonctionnelles sont trop grandes pour être observées de manière exhaustive, les techniques d'échantillonnage fournissent une solution efficace pour estimer des quantités globales simples, telles que la courbe moyenne, sans être obligé de stocker toutes les données. Dans cette thèse, nous proposons un estimateur d'Horvitz-Thompson de la courbe moyenne, et grâce à des hypothèses asymptotiques sur le plan de sondage nous avons établi un Théorème Central Limite Fonctionnel dans le cadre des fonctions continues afin d'obtenir des bandes de confiance asymptotiques. Pour un plan d'échantillonnage à taille fixe, nous montrons que le sondage stratifié peut grandement améliorer l'estimation comparativement au sondage aléatoire simple. De plus, nous étendons la règle d'allocation optimale de Neyman dans le contexte fonctionnel. La prise en compte d'information auxiliaire a été développée grâce à des estimateurs par modèle assisté, mais aussi en utilisant directement cette information dans les poids d'échantillonnage avec le sondage à probabilités inégales proportionnelles à la taille. Le cas des courbes bruitées est également étudié avec la mise en place d'un lissage par polynômes locaux. Pour sélectionner la largeur de la fenêtre de lissage, nous proposons une méthode de validation croisée qui tient compte des poids de sondage. Les propriétés de consistance de nos estimateurs sont établies, ainsi que la normalité asymptotique des estimateurs de la courbe moyenne. Deux méthodes de constructions des bandes de confiance sont proposées. La première utilise la normalité asymptotique de nos estimateurs en simulant un processus Gaussien conditionnellement à sa fonction de covariance afin d'en estimer la loi du sup. La seconde utilise des techniques de bootstrap en population finie qui ne nécessitent pas l'estimation de la fonction de covariance. Données fonctionnelles Échantillonnage Théorème Central Limite Fonctionnel Supremum de processus Gaussiens Estimateur d'Horvitz-Thompson Estimateurs par modèle assisté Bandes de confiance asymptotiques Bootstrap
23	Inférence asymptotique pour des processus stationnaires fonctionnels Cerovecki, Clément 07 June 2018 (has links) Nous abordons divers problèmes concernant les séries temporelles fonctionnelles. Il s'agit de processus stochastiques discrets à valeurs dans un espace fonctionnel. La principale motivation provient de l’interprétation séquentielle d'un phénomène continu. Si par exemple on observe des données météorologiques au cours du temps de manière continue, il est naturel de segmenter ce processus en une série temporelle fonctionnelle indexée par les jours. Chaque terme de la série représente la courbe journalière. Dans un premier temps, nous nous sommes intéressés à l'analyse spectrale. Plus précisément nous avons montré que sous des hypothèses très générales, la transformée de Fourier discrète d’une telle série est asymptotiquement normale et a pour variance l’opérateur de densité spectrale. Une application possible de ce résultat est de tester la présence de composantes périodiques dans une série fonctionnelle. Nous avons développé un test valable pour une fréquence arbitraire. Pour ce faire, nous avons étudié le comportement asymptotique du maximum de la norme de la transformée de Fourier. Enfin, nous avons travaillé sur la généralisation fonctionnelle du modèle GARCH. Ce modèle permet de décrire la dynamique de la volatilité, c’est-à-dire de la variance conditionnelle, dans les données financières. Nous avons proposé une méthode d’estimation des paramètres du modèle, inspirée de l’estimateur de quasi-maximum de vraisemblance. Nous avons montré que cet estimateur est convergent et asymptotiquement normal, puis nous l’avons évalué sur des simulations et appliqué à des données réelles. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Statistique mathématique Données fonctionnelles Séries temporelles Statistiques des extrêmes Test de périodicité Théorème central limite Transformée de Fourier Quasi-maximum de vraisemblance
24	Traitement statistique du signal : applications en biologie et économie / Statistical signal processing : Applications in biology and economics Hamie, Ali 28 January 2016 (has links) Dans cette thèse, nous nous intéressons à développer des outils mathématiques, afin de traiter une gamme des signaux biologiques et économiques. En premier lieu, nous proposons la transformée Dynalet, considérée comme une alternative, pour des signaux de relaxation sans symétrie interne, à la transformée de Fourier et à la transformée ondelette. L'applicabilité de cette nouvelle approximation est illustrée sur des données réelles. Ensuite, nous corrigeons la ligne de base des signaux biologiques spectrométriques, à l'aide d'une régression expectile pénalisée, qui, sur les applications proposées, est plus performante qu'une régression quantile. Puis, afin d'éliminer le bruit blanc, nous adaptons aux signaux spectrométriques une nouvelle approche combinant ondelette, seuillage doux et composants PLS. Pour terminer, comme les signaux peuvent être considérés comme des données fonctionnelles, d'une part, nous développons une vraisemblance locale fonctionnelle dont le but est d'effectuer une classification supervisée des courbes, et, d'autre part, nous estimons l'opérateur de régression pour une réponse scalaire positive non nulle, par minimisation de l'erreur quadratique moyenne relative. De plus, les lois asymptotiques de notre estimateur sont établies et son efficacité est illustrée sur des données simulées et sur des données spectroscopiques et économiques. / In this thesis, we focus on developing mathematical tools to treat a range of biological and economic signals. First, we propose the Dynalet transform for non-symmetrical biological relaxation signals. This transform is considered as an alternative to the Fourier transform and the wavelet transform. The applicability of the new approximation approach is illustrated on real data. Then, for spectrometric biological signals, we correct the baseline using a penalized expectile regression. Thus, the proposed applications show that our proposed regression is more efficient than the quantile regression. Then to remove random noise, we adapt to spectrometric data a new denoising method that combine wavelets, soft thresholding rule and PLS components. Finally, note that the biological signals may be often regarded as functional data. On one hand, we develop a functional local likelihood aiming to perform a supervised classification of curves. On the other hand, we estimate the regression operator with positive responses, by minimizing the mean squared relative error. Moreover, The asymptotic distributions of our estimator are established and their efficiency is illustrated on a simulation study and on a spectroscopic and economic data set. Dynalet Ondelette Données fonctionnelles B-Spline Erreur relative Vraisemblance locale Dynalet Wavelet Functional data B-Spline Relative error Local likelihood 510
25	Analyse de données fonctionnelles en télédétection hyperspectrale : application à l'étude des paysages agri-forestiers / Functional data analysis in hyperspectral remote sensing : application to the study of agri-forest landscape Zullo, Anthony 19 September 2016 (has links) En imagerie hyperspectrale, chaque pixel est associé à un spectre provenant de la réflectance observée en d points de mesure (i.e., longueurs d'onde). On se retrouve souvent dans une situation où la taille d'échantillon n est relativement faible devant le nombre d de variables. Ce phénomène appelé "fléau de la dimension" est bien connu en statistique multivariée. Plus d augmente devant n, plus les performances des méthodologies statistiques standard se dégradent. Les spectres de réflectance intègrent dans leur dimension spectrale un continuum qui leur confère une nature fonctionnelle. Un hyperspectre peut être modélisé par une fonction univariée de la longueur d'onde, sa représentation produisant une courbe. L'utilisation de méthodes fonctionnelles sur de telles données permet de prendre en compte des aspects fonctionnels tels que la continuité, l'ordre des bandes spectrales, et de s'affranchir des fortes corrélations liées à la finesse de la grille de discrétisation. L'objectif principal de cette thèse est d'évaluer la pertinence de l'approche fonctionnelle dans le domaine de la télédétection hyperspectrale lors de l'analyse statistique. Nous nous sommes focalisés sur le modèle non-paramétrique de régression fonctionnelle, couvrant la classification supervisée. Dans un premier temps, l'approche fonctionnelle a été comparée avec des méthodes multivariées usuellement employées en télédétection. L'approche fonctionnelle surpasse les méthodes multivariées dans des situations délicates où l'on dispose d'une petite taille d'échantillon d'apprentissage combinée à des classes relativement homogènes (c'est-à-dire difficiles à discriminer). Dans un second temps, une alternative à l'approche fonctionnelle pour s'affranchir du fléau de la dimension a été développée à l'aide d'un modèle parcimonieux. Ce dernier permet, à travers la sélection d'un petit nombre de points de mesure, de réduire la dimensionnalité du problème tout en augmentant l'interprétabilité des résultats. Dans un troisième temps, nous nous sommes intéressés à la situation pratique quasi-systématique où l'on dispose de données fonctionnelles contaminées. Nous avons démontré que pour une taille d'échantillon fixée, plus la discrétisation est fine, meilleure sera la prédiction. Autrement dit, plus d est grand devant n, plus la méthode statistique fonctionnelle développée est performante. / In hyperspectral imaging, each pixel is associated with a spectrum derived from observed reflectance in d measurement points (i.e., wavelengths). We are often facing a situation where the sample size n is relatively low compared to the number d of variables. This phenomenon called "curse of dimensionality" is well known in multivariate statistics. The mored increases with respect to n, the more standard statistical methodologies performances are degraded. Reflectance spectra incorporate in their spectral dimension a continuum that gives them a functional nature. A hyperspectrum can be modelised by an univariate function of wavelength and his representation produces a curve. The use of functional methods allows to take into account functional aspects such as continuity, spectral bands order, and to overcome strong correlations coming from the discretization grid fineness. The main aim of this thesis is to assess the relevance of the functional approach in the field of hyperspectral remote sensing for statistical analysis. We focused on the nonparametric fonctional regression model, including supervised classification. Firstly, the functional approach has been compared with multivariate methods usually involved in remote sensing. The functional approach outperforms multivariate methods in critical situations where one has a small training sample size combined with relatively homogeneous classes (that is to say, hard to discriminate). Secondly, an alternative to the functional approach to overcome the curse of dimensionality has been proposed using parsimonious models. This latter allows, through the selection of few measurement points, to reduce problem dimensionality while increasing results interpretability. Finally, we were interested in the almost systematic situation where one has contaminated functional data. We proved that for a fixed sample size, the finer the discretization, the better the prediction. In other words, the larger dis compared to n, the more effective the functional statistical methodis. Télédétection hyperspectrale Données fonctionnelles Régression non-paramétrique Classification supervisée Signal bruité Méthodes parcimonieuses Hyperspectral remote sensing Functional data Nonparametric regression Supervised classification Noised signal Parsimonious methods
26	Aspects théoriques et pratiques dans l'estimation non paramétrique de la densité conditionnelle pour des données fonctionnelles / Theoretical and practical aspects in non parametric estimation of the conditional density with functional data Madani, Fethi 11 May 2012 (has links) Dans cette thèse, nous nous intéressons à l'estimation non paramétrique de la densité conditionnelle d'une variable aléatoire réponse réelle conditionnée par une variable aléatoire explicative fonctionnelle de dimension éventuellement fi nie. Dans un premier temps, nous considérons l'estimation de ce modèle par la méthode du double noyaux. Nous proposons une méthode de sélection automatique du paramètre de lissage (global et puis local) intervenant dans l'estimateur à noyau, et puis nous montrons l'optimalité asymptotique du paramètre obtenu quand les observations sont indépendantes et identiquement distribuées. Le critère adopté est issu du principe de validation croisée. Dans cette partie nous avons procédé également à la comparaison de l'efficacité des deux types de choix (local et global). Dans la deuxième partie et dans le même contexte topologique, nous estimons la densité conditionnelle par la méthode des polynômes locaux. Sous certaines conditions, nous établissons des propriétés asymptotiques de cet estimateur telles que la convergence presque-complète et la convergence en moyenne quadratique dans le cas où les observations sont indépendantes et identiquement distribuées. Nous étendons aussi nos résultats au cas où les observations sont de type α- mélangeantes, dont on montre la convergence presque-complète (avec vitesse de convergence) de l'estimateur proposé. Enfi n, l'applicabilité rapide et facile de nos résultats théoriques, dans le cadre fonctionnel, est illustrée par des exemples (1) sur des données simulées, et (2) sur des données réelles. / In this thesis, we consider the problem of the nonparametric estimation of the conditional density when the response variable is real and the regressor is valued in a functional space. In the rst part, we use the double kernels method's as a estimation method where we focus on the choice of the smoothing parameters. We construct a data driven method permitting to select optimally and automatically bandwidths. As main results, we study the asymptotic optimality of this selection method in the case where observations are independent and identically distributed (i.i.d). Our selection rule is based on the classical cross-validation ideas and it deals with the both global and local choices. The performance of our approach is illustrated also by some simulation results on nite samples where we conduct a comparison between the two types of bandwidths choices (local and global). In the second part, we adopt a functional version of the local linear method, in the same topological context, to estimate some functional parameters. Under some general conditions, we establish the almost-complete convergence (with rates) of the proposed estimator in the both cases ( the i.i.d. case and the α-mixing case) . As application, we use the conditional density estimator to estimate the conditional mode estimation and to derive some asymptotic proprieties of the constructed estimator. Then, we establish the quadratic error of this estimator by giving its exact asymptotic expansion (involved in the leading in the bias and variance terms). Finally, the applicability of our results is then veri ed and validated for (1) simulated data, and (2) some real data. Données fonctionnelles Estimation non paramétrique Choix de la largeur de fenêtre, Mode Conditionnel Densité condionnelle Functional data Nonparametric estimation Bandwidth selection Conditional mod Conditional density
27	Statistiques en grande dimension pour la détection d'anomalies dans les données fonctionnelles issues des satellites / High Dimension Statistics for Space Applications on functional data deriving from satellites Barreyre, Clementine 18 May 2018 (has links) Ce travail de thèse consiste au développement de méthodes statistiques pour détecter des com- portements anormaux dans les données fonctionnelles que produit le satellite tout au long de sa vie. Un premier travail a été de comprendre comment mettre en évidence les anomalies grâce à des projections sur des bases de fonctions. En complément de cette revue des projections, nous avons appliqué plusieurs méthodes de détection d’anomalies, telles que la One-Class SVM et le Local Outlier Factor (LOF). En plus de ces deux méthodes, nous avons développé notre propre méthode pour prendre en compte la saisonnalité des courbes que nous considérons. En se basant sur cette étude, nous avons développé une nouvelle procédure pour sélectionner automatiquement les coefficients les plus intéressants pour la détection d’anomalies dans un cadre semi-supervisé. Notre méthode est une procédure de tests multiples où nous appliquons un test à deux échantillons à tous les niveaux de coefficients. Nous nous sommes également intéressés aux covariances des télémesures entre elles pour la détection d’anomalies. Pour cela, nous cherchons à comparer les covariances entre un groupe de télémesures pour deux journées, ou périodes consécutives. Nous avons appliqué trois tests sta- tistiques ayant des angles d’approche différents. Nous avons également développé dans ce but un nouveau test asymptotique. Outre la démonstration de la convergence de notre test, nous démontrons par des exemples que ce test est dans la pratique le plus puissant sur les données dont nous disposons. Dans cette thèse, nous avons abordé plusieurs aspects de la détection d’anomalies dans les données fonctionnelles issues des satellites. Pour chacune des méthodes, nous avons pu détecter toutes les anomalies, améliorant sensiblement le taux de fausses alarmes. / In this PhD, we have developed statistical methods to detect abnormal events in all the functional data produced by the satellite all through its lifecycle. The data we are dealing with come from two main phases in the satellite’s life, telemetries and test data. A first work on this thesis was to understand how to highlight the outliers thanks to projections onto functional bases. On these projections, we have also applied several outlier detection methods, such as the One-Class SVM, the Local Outlier Factor (LOF). In addition to these two methods, we have developed our own outlier detection method, by taking into account the seasonality of the data we consider. Based on this study, we have developed an original procedure to select automatically the most interesting coefficients in a semi-supervised framework for the outlier detection, from a given projection. Our method is a multiple testing procedure where we apply the two sample-test to all the levels of coefficients.We have also chosen to analyze the covariance matrices representing the covariance of the te- lemetries between themselves for the outlier detection in multivariate data. In this purpose, we are comparing the covariance of a cluster of several telemetries deriving from two consecutive days, or consecutive orbit periods. We have applied three statistical tests targeting this same issue with different approaches. We have also developed an original asymptotic test, inspired by both first tests. In addition to the proof of the convergence of this test, we demonstrate thanks to examples that this new test is the most powerful. In this PhD, we have tackled several aspects of the anomaly detection in the functional data deriving from satellites. For each of these methods, we have detected all the major anomalies, improving significantly the false discovery rate. Détection d’anomalies Données Fonctionnelles , Apprentissage non Supervisé Tests Multiples Données Satellites Outlier Detection Functional Data Unsupervised learning Multiple Tes- ting Satellites Data 510
28	Sondages pour données fonctionnelles : construction de bandes de confiance asymptotiques et prise en compte d'information auxiliaire / Survey sampling for functionnal data : building asymptotic confidence bands and considering auxiliary information Josserand, Etienne 12 October 2011 (has links) Lorsque des bases de données fonctionnelles sont trop grandes pour être observées de manière exhaustive, les techniques d’échantillonnage fournissent une solution efficace pour estimer des quantités globales simples, telles que la courbe moyenne, sans être obligé de stocker toutes les données. Dans cette thèse, nous proposons un estimateur d’Horvitz-Thompson de la courbe moyenne, et grâce à des hypothèses asymptotiques sur le plan de sondage nous avons établi un Théorème Central Limite Fonctionnel dans le cadre des fonctions continues afin d’obtenir des bandes de confiance asymptotiques. Pour un plan d’échantillonnage à taille fixe, nous montrons que le sondage stratifié peut grandement améliorer l’estimation comparativement au sondage aléatoire simple. De plus, nous étendons la règle d’allocation optimale de Neyman dans le contexte fonctionnel. La prise en compte d’information auxiliaire a été développée grâce à des estimateurs par modèle assisté, mais aussi en utilisant directement cette information dans les poids d’échantillonnage avec le sondage à probabilités inégales proportionnelles à la taille. Le cas des courbes bruitées est également étudié avec la mise en place d’un lissage par polynômes locaux. Pour sélectionner la largeur de la fenêtre de lissage, nous proposons une méthode de validation croisée qui tient compte des poids de sondage. Les propriétés de consistance de nos estimateurs sont établies, ainsi que la normalité asymptotique des estimateurs de la courbe moyenne. Deux méthodes de constructions des bandes de confiance sont proposées. La première utilise la normalité asymptotique de nos estimateurs en simulant un processus Gaussien conditionnellement à sa fonction de covariance afin d’en estimer la loi du sup. La seconde utilise des techniques de bootstrap en population finie qui ne nécessitent pas l’estimation de la fonction de covariance. / When collections of functional data are too large to be exhaustively observed, survey sampling techniques provide an effective way to estimate global quantities such as the population mean function, without being obligated to store all the data. In this thesis, we propose a Horvitz–Thompson estimator of the mean trajectory, and with additional assumptions on the sampling design, we state a functional Central Limit Theorem and deduce asymptotic confidence bands. For a fixed sample size, we show that stratified sampling can greatly improve the estimation compared to simple random sampling. In addition, we extend Neyman’s rule of optimal allocation to the functional context. Taking into account auxiliary information has been developed with model-assisted estimators and weighted estimators with unequal probability sampling proportional to size. The case of noisy curves is also studied with the help local polynomial smoothers. To select the bandwidth, we propose a cross-validation criterion that takes into account the sampling weights. The consistency properties of our estimators are established, as well as asymptotic normality of the estimators of the mean curve. Two methods to build confidence bands are proposed. The first uses the asymptotic normality of our estimators by simulating a Gaussian process given estimated the covariance function in order to estimate the law of supremum. The second uses bootstrap techniques in a finite population that does not require to estimate the covariance function. Données fonctionnelles Échantillonnage Théorème Central Limite Fonctionnel Supremum de processus Gaussiens Estimateur d’Horvitz-Thompson Estimateurs par modèle assisté Bandes de confiance asymptotiques Bootstrap No english keywords 519
29	Des tests non paramétriques en régression / Of nonparametric testing in regression Maistre, Samuel 12 September 2014 (has links) Dans cette thèse, nous étudions des tests du type : (H0) : E [U \| X] = 0 p.s. contre (H1) : P {E [U \| X] = 0} < 1 où U est le résidu de la modélisation d'une variable Y en fonction de X. Dans ce cadre et pour plusieurs cas particuliers – signiﬁcativité de variables, régression quantile, données fonctionnelles, modèle single-index –, nous proposons une statistique de test permettant d'obtenir des valeurs critiques issues d'une loi asymptotique pivotale. Dans chaque cas, nous donnons également une méthode de bootstrap appropriée pour les échantillons de petite taille. Nous montrons la consistance envers des alternatives locales – ou à la Pitman – des tests proposés, lorsque ce type d'alternative ne tend pas trop vite vers l'hypothèse nulle. À chaque fois, nous vériﬁons à partir de simulations sous l'hypothèse nulle et sous une séquence d'hypothèses alternatives que les résultats théoriques sont en accord avec la pratique. / In this thesis, we study test statistics of the form : (H0) : E [U \| X] = 0 p.s. contre (H1) : P {E [U \| X] = 0} < 1 where U is the residual of some Y modeling with respect to covariates X. In this setup and for several particular cases – signiﬁcance, quantile regression, functional data, single-index model –, we introduce test statistics that have pivotal asymptotic critical values. For each case, we also give a suitable bootstrap procedure for small samples. We prove the consistency against local – or Pitman – alternatives for the proposed test statistics, when such an alternative does not get close to the null hypothesis too fast. Simulation studies are used to check the eﬀectiveness of the theoretical results in applications. Tests non paramétriques Tests omnibus Significativité de variables Régression quantile Données fonctionnelles Bootstrap sauvage Nonparametric testing Omnibus tests Significance Quantile regression Functional data Wild bootstrap
30	Modèles de mélange pour la régression en grande dimension, application aux données fonctionnelles / High-dimensional mixture regression models, application to functional data Devijver, Emilie 02 July 2015 (has links) Les modèles de mélange pour la régression sont utilisés pour modéliser la relation entre la réponse et les prédicteurs, pour des données issues de différentes sous-populations. Dans cette thèse, on étudie des prédicteurs de grande dimension et une réponse de grande dimension. Tout d’abord, on obtient une inégalité oracle ℓ1 satisfaite par l’estimateur du Lasso. On s’intéresse à cet estimateur pour ses propriétés de régularisation ℓ1. On propose aussi deux procédures pour pallier ce problème de classification en grande dimension. La première procédure utilise l’estimateur du maximum de vraisemblance pour estimer la densité conditionnelle inconnue, en se restreignant aux variables actives sélectionnées par un estimateur de type Lasso. La seconde procédure considère la sélection de variables et la réduction de rang pour diminuer la dimension. Pour chaque procédure, on obtient une inégalité oracle, qui explicite la pénalité nécessaire pour sélectionner un modèle proche de l’oracle. On étend ces procédures au cas des données fonctionnelles, où les prédicteurs et la réponse peuvent être des fonctions. Dans ce but, on utilise une approche par ondelettes. Pour chaque procédure, on fournit des algorithmes, et on applique et évalue nos méthodes sur des simulations et des données réelles. En particulier, on illustre la première méthode par des données de consommation électrique. / Finite mixture regression models are useful for modeling the relationship between a response and predictors, arising from different subpopulations. In this thesis, we focus on high-dimensional predictors and a high-dimensional response. First of all, we provide an ℓ1-oracle inequality satisfied by the Lasso estimator. We focus on this estimator for its ℓ1-regularization properties rather than for the variable selection procedure. We also propose two procedures to deal with this issue. The first procedure leads to estimate the unknown conditional mixture density by a maximum likelihood estimator, restricted to the relevant variables selected by an ℓ1-penalized maximum likelihood estimator. The second procedure considers jointly predictor selection and rank reduction for obtaining lower-dimensional approximations of parameters matrices. For each procedure, we get an oracle inequality, which derives the penalty shape of the criterion, depending on the complexity of the random model collection. We extend these procedures to the functional case, where predictors and responses are functions. For this purpose, we use a wavelet-based approach. For each situation, we provide algorithms, apply and evaluate our methods both on simulations and real datasets. In particular, we illustrate the first procedure on an electricity load consumption dataset. Modèles de mélange en régression Classification non supervisée Grande dimension Sélection de variables Sélection de modèles Inégalité oracle Données fonctionnelles Consommation électrique Ondelettes Mixture regression models Clustering High dimension Variable selection Model selection Oracle inequality Functional data Electricity consumption Wavelets

Search results