Global ETD Search

11	Analyse de la variabilité de forme des signaux : Application aux signaux électrophysiologiques Boudaoud, Sofiane 07 December 2006 (has links) (PDF) Le sujet de la thèse est l'analyse de la variabilité de forme d'un ensemble de signaux avec comme principales applications le traitement des signaux électrophysiologiques mesurés sur la chaîne auditive et le cœur. Cette variabilité de forme des signaux est souvent présente dans les signaux issus de processus naturels et elle est porteuse d'information. Pour accéder à cette information, il est nécessaire de formaliser le concept d'écart de forme et de proposer des outils statistiques spécifiques. Certaines méthodes, issues de la communauté statistique, ont été récemment proposées pour analyser la variabilité présente dans un ensemble de signaux. Ces méthodes travaillent dans un cadre fonctionnel en considérant les données comme des observations de fonctions. Elles cherchent à éliminer la variabilité temporelle dans le but d'accéder à une variabilité d'amplitude par divers algorithmes dit de « recalage de courbes ». Dans cette thèse nous proposons de nouvelles méthodes d'analyse de forme qui utilisent aussi un réalignement temporel (ang : time warping) mais dont le sens diffère des approches de recalage de courbes. De plus, ces méthodes proposent une moyenne de forme et distance de forme permettant la mesure de la variabilité de forme. Au chapitre 1, nous présentons toutes ces méthodes et les comparons afin d'aider l'utilisateur à bien choisir suivant l'application dédiée. <br /><br />Au chapitre 2, nous nous intéressons à la caractérisation objective de l'acouphène, une sensation sonore fantôme. En effet, un problème majeur est l'absence de critère objectif pour le caractériser. Pour cela nous étudions l'activité spontanée composite (ASC) issue du nerf auditif et les potentiels évoqués (PE) issus de relais auditifs en présence de salicylate, un générateur d'acouphènes, chez le cochon d'Inde. La première partie du travail consiste en la présentation d'un modèle de génération de l'ASC. Ce modèle nous sert à tester en simulation des scénarios possibles d'altérations neurosensorielles en présence de salicylate. En complément de l'index spectral décrit dans la littérature, nous proposons d'employer un critère de similarité sur la distribution d'amplitude de l'ASC pour mesurer ces altérations. La seconde partie du chapitre consiste à étudier la variabilité temporelle des PE sur plusieurs relais auditifs en présence de salicylate. <br /><br />Au chapitre 3, nous montrons des applications de détection de pathologies à partir de l'analyse de forme d'une composante spécifique de l'ECG, l'onde P. Les pathologies concernées sont la fibrillation auriculaire et l'apnée du sommeil. analyse de données fonctionnelles analyse de forme signaux électrophysiologiques
12	Modélisation fonctionnelle de profils de vitesse en lien avec l'infrastructure et méthodologie de construction d'un profil agrégé Andrieu, Cindie 24 September 2013 (has links) (PDF) La connaissance des vitesses pratiquées est une caractéristique essentielle du comportement des conducteurs et de leur usage du réseau routier. Cette information est rendue disponible grâce à la généralisation des véhicules connectés, mais aussi des smartphones, qui permettent d'accroître le nombre de "traceurs" susceptibles de renvoyer leur position et leur vitesse en temps réel. Dans cette thèse, nous proposons d'utiliser ces traces numériques et de développer une méthodologie, fondée sur une approche fonctionnelle, permettant d'extraire divers profils de vitesse caractéristiques. Dans une première partie, nous proposons une modélisation fonctionnelle des profils spatiaux de vitesse (i.e. vitesse vs distance parcourue) et nous étudions leurs propriétés (continuité, dérivabilité). Dans une seconde partie, nous proposons une méthodologie permettant de construire un estimateur d'un profil spatial de vitesse à partir de mesures bruitées de position et de vitesse, fondée sur les splines de lissage et la théorie des espaces de Hilbert à noyau reproduisant (RKHS). Enfin, la troisième partie est consacrée à la construction de divers profils agrégés (moyen, médian). Nous proposons notamment un alignement des profils par landmarks au niveau des arrêts, puis nous proposons la construction d'enveloppes de vitesse reflétant la dispersion des vitesses pratiquées. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Profils de vitesse Analyse de données fonctionnelles Régression non paramétrique Splines de lissage Espaces de Hilbert à noyau reproduisant
13	Functional linear regression models : application to high-throughput plant phenotyping functional data / Modèles statistiques de régression linéaire fonctionnelle : application sur des données fonctionnelles issues du phénotypage végétal haut débit Manrique, Tito 19 December 2016 (has links) L'Analyse des Données Fonctionnelles (ADF) est une branche de la statistique qui est de plus en plus utilisée dans de nombreux domaines scientifiques appliqués tels que l'expérimentation biologique, la finance, la physique, etc. Une raison à cela est l'utilisation des nouvelles technologies de collecte de données qui augmentent le nombre d'observations dans un intervalle de temps.Les jeux de données fonctionnelles sont des échantillons de réalisations de fonctions aléatoires qui sont des fonctions mesurables définies sur un espace de probabilité à valeurs dans un espace fonctionnel de dimension infinie.Parmi les nombreuses questions étudiées par l'ADF, la régression linéaire fonctionnelle est l'une des plus étudiées, aussi bien dans les applications que dans le développement méthodologique.L'objectif de cette thèse est l'étude de modèles de régression linéaire fonctionnels lorsque la covariable X et la réponse Y sont des fonctions aléatoires et les deux dépendent du temps. En particulier, nous abordons la question de l'influence de l'histoire d'une fonction aléatoire X sur la valeur actuelle d'une autre fonction aléatoire Y à un instant donné t.Pour ce faire, nous sommes surtout intéressés par trois modèles: le modèle fonctionnel de concurrence (Functional Concurrent Model: FCCM), le modèle fonctionnel de convolution (Functional Convolution Model: FCVM) et le modèle linéaire fonctionnel historique. En particulier pour le FCVM et FCCM nous avons proposé des estimateurs qui sont consistants, robustes et plus rapides à calculer par rapport à d'autres estimateurs déjà proposés dans la littérature.Notre méthode d'estimation dans le FCCM étend la méthode de régression Ridge développée dans le cas linéaire classique au cadre de données fonctionnelles. Nous avons montré la convergence en probabilité de cet estimateur, obtenu une vitesse de convergence et développé une méthode de choix optimal du paramètre de régularisation.Le FCVM permet d'étudier l'influence de l'histoire de X sur Y d'une manière simple par la convolution. Dans ce cas, nous utilisons la transformée de Fourier continue pour définir un estimateur du coefficient fonctionnel. Cet opérateur transforme le modèle de convolution en un FCCM associé dans le domaine des fréquences. La consistance et la vitesse de convergence de l'estimateur sont obtenues à partir du FCCM.Le FCVM peut être généralisé au modèle linéaire fonctionnel historique, qui est lui-même un cas particulier du modèle linéaire entièrement fonctionnel. Grâce à cela, nous avons utilisé l'estimateur de Karhunen-Loève du noyau historique. La question connexe de l'estimation de l'opérateur de covariance du bruit dans le modèle linéaire entièrement fonctionnel est également traitée. Finalement nous utilisons tous les modèles mentionnés ci-dessus pour étudier l'interaction entre le déficit de pression de vapeur (Vapour Pressure Deficit: VPD) et vitesse d'élongation foliaire (Leaf Elongation Rate: LER) courbes. Ce type de données est obtenu avec phénotypage végétal haut débit. L'étude est bien adaptée aux méthodes de l'ADF. / Functional data analysis (FDA) is a statistical branch that is increasingly being used in many applied scientific fields such as biological experimentation, finance, physics, etc. A reason for this is the use of new data collection technologies that increase the number of observations during a time interval.Functional datasets are realization samples of some random functions which are measurable functions defined on some probability space with values in an infinite dimensional functional space.There are many questions that FDA studies, among which functional linear regression is one of the most studied, both in applications and in methodological development.The objective of this thesis is the study of functional linear regression models when both the covariate X and the response Y are random functions and both of them are time-dependent. In particular we want to address the question of how the history of a random function X influences the current value of another random function Y at any given time t.In order to do this we are mainly interested in three models: the functional concurrent model (FCCM), the functional convolution model (FCVM) and the historical functional linear model. In particular for the FCVM and FCCM we have proposed estimators which are consistent, robust and which are faster to compute compared to others already proposed in the literature.Our estimation method in the FCCM extends the Ridge Regression method developed in the classical linear case to the functional data framework. We prove the probability convergence of this estimator, obtain a rate of convergence and develop an optimal selection procedure of theregularization parameter.The FCVM allows to study the influence of the history of X on Y in a simple way through the convolution. In this case we use the continuous Fourier transform operator to define an estimator of the functional coefficient. This operator transforms the convolution model into a FCCM associated in the frequency domain. The consistency and rate of convergence of the estimator are derived from the FCCM.The FCVM can be generalized to the historical functional linear model, which is itself a particular case of the fully functional linear model. Thanks to this we have used the Karhunen–Loève estimator of the historical kernel. The related question about the estimation of the covariance operator of the noise in the fully functional linear model is also treated.Finally we use all the aforementioned models to study the interaction between Vapour Pressure Deficit (VPD) and Leaf Elongation Rate (LER) curves. This kind of data is obtained with high-throughput plant phenotyping platform and is well suited to be studied with FDA methods. Données fonctionnelles Régression linéaire Modèle de convolution Modèle de concurrence Modèle historique Functional data Linear regression Convolution model Concurrent model Historical model
14	Classification bayésienne non supervisée de données fonctionnelles en présence de covariables / Unsupervised Bayesian clustering of functional data in the presence of covariates Juery, Damien 18 December 2014 (has links) Un des objectifs les plus importants en classification non supervisée est d'extraire des groupes de similarité depuis un jeu de données. Avec le développement actuel du phénotypage où les données sont recueillies en temps continu, de plus en plus d'utilisateurs ont besoin d'outils capables de classer des courbes.Le travail présenté dans cette thèse se fonde sur la statistique bayésienne. Plus précisément, nous nous intéressons à la classification bayésienne non supervisée de données fonctionnelles. Les lois a priori bayésiennes non paramétriques permettent la construction de modèles flexibles et robustes.Nous généralisons un modèle de classification (DPM), basé sur le processus de Dirichlet, au cadre fonctionnel. Contrairement aux méthodes actuelles qui utilisent la dimension finie en projetant les courbes dans des bases de fonctions, ou en considérant les courbes aux temps d'observation, la méthode proposée considère les courbes complètes, en dimension infinie. La théorie des espaces de Hilbert à noyau reproduisant (RKHS) nous permet de calculer, en dimension infinie, les densités de probabilité des courbes par rapport à une mesure gaussienne. De la même façon, nous explicitons un calcul de loi a posteriori, sachant les courbes complètes et non seulement les valeurs discrétisées. Nous proposons un algorithme qui généralise l'algorithme "Gibbs sampling with auxiliary parameters" de Neal (2000). L'implémentation numérique requiert le calcul de produits scalaires, qui sont approchés à partir de méthodes numériques. Quelques applications sur données réelles et simulées sont également présentées, puis discutées.En dernier lieu, l'ajout d'une hiérarchie supplémentaire à notre modèle nous permet de pouvoir prendre en compte des covariables fonctionnelles. Nous verrons à cet effet qu'il est possible de définir plusieurs modèles. La méthode algorithmique proposée précédemment est ainsi étendue à chacun de ces nouveaux modèles. Quelques applications sur données simulées sont présentées. / One of the major objectives of unsupervised clustering is to find similarity groups in a dataset. With the current development of phenotyping, in which continuous-time data are collected, more and more users require new efficient tools capable of clustering curves.The work presented in this thesis is based on Bayesian statistics. Specifically, we are interested in unsupervised Bayesian clustering of functional data. Nonparametric Bayesian priors allow the construction of flexible and robust models.We generalize a clustering model (DPM), founded on the Dirichlet process, to the functional framework. Unlike current methods which make use of the finite dimension, either by representing curves as linear combinations of basis functions, or by regarding curves as data points, calculations are hereby carried out on complete curves, in the infinite dimension. The reproducing kernel Hilbert space (RKHS) theory allows us to derive, in the infinite dimension, probability density functions of curves with respect to a gaussian measure. In the same way, we make explicit a posterior distribution, given complete curves and not only data points. We suggest generalizing the algorithm "Gibbs sampling with auxiliary parameters" by Neal (2000). The numerical implementation requires the calculation of inner products, which are approximated from numerical methods. Some case studies on real and simulated data are also presented, then discussed.Finally, the addition of an extra hierarchy in our model allows us to take functional covariates into account. For that purpose, we will show that it is possible to define several models. The previous algorithmic method is therefore extended to each of these models. Some case studies on simulated data are presented. Classification Données fonctionnelles Statistique bayésienne Processus de Dirichlet Mcmc Courbes Clustering Functional data Bayesian statistics Dirichlet process Mcmc Curves
15	Forêts aléatoires et sélection de variables : analyse des données des enregistreurs de vol pour la sécurité aérienne / Random forests and variable selection : analysis of the flight data recorders for aviation safety Gregorutti, Baptiste 11 March 2015 (has links) De nouvelles réglementations imposent désormais aux compagnies aériennes d'établir une stratégie de gestion des risques pour réduire encore davantage le nombre d'accidents. Les données des enregistreurs de vol, très peu exploitées à ce jour, doivent être analysées de façon systématique pour identifier, mesurer et suivre l'évolution des risques. L'objectif de cette thèse est de proposer un ensemble d'outils méthodologiques pour répondre à la problématique de l'analyse des données de vol. Les travaux présentés dans ce manuscrit s'articulent autour de deux thèmes statistiques : la sélection de variables en apprentissage supervisé d'une part et l'analyse des données fonctionnelles d'autre part. Nous utilisons l'algorithme des forêts aléatoires car il intègre des mesures d'importance pouvant être employées dans des procédures de sélection de variables. Dans un premier temps, la mesure d'importance par permutation est étudiée dans le cas où les variables sont corrélées. Nous étendons ensuite ce critère pour des groupes de variables et proposons une nouvelle procédure de sélection de variables fonctionnelles. Ces méthodes sont appliquées aux risques d'atterrissage long et d'atterrissage dur, deux questions importantes pour les compagnies aériennes. Nous présentons enfin l'intégration des méthodes proposées dans le produit FlightScanner développé par Safety Line. Cette solution innovante dans le transport aérien permet à la fois le monitoring des risques et le suivi des facteurs qui les influencent. / New recommendations require airlines to establish a safety management strategy to keep reducing the number of accidents. The flight data recorders have to be systematically analysed in order to identify, measure and monitor the risk evolution. The aim of this thesis is to propose methodological tools to answer the issue of flight data analysis. Our work revolves around two statistical topics: variable selection in supervised learning and functional data analysis. The random forests are used as they implement importance measures which can be embedded in selection procedures. First, we study the permutation importance measure when the variables are correlated. This criterion is extended for groups of variables and a new selection algorithm for functional variables is introduced. These methods are applied to the risks of long landing and hard landing which are two important questions for airlines. Finally, we present the integration of the proposed methods in the software FlightScanner implemented by Safety Line. This new solution in the air transport helps safety managers to monitor the risks and identify the contributed factors. Forêts aléatoires Sélection de variables Mesure d'importance par permutation Corrélation Analyse des données fonctionnelles Sécurité aérienne Random forests Variables selection 519.5
16	Analyse en composantes principales et analyse discriminante fonctionnelles appliquées à des données de prises alimentaires animales Décarie, Yann January 2011 (has links) L'analyse de données fonctionnelles est une branche des statistiques modernes en pleine expansion. Cela est imputable aux avancées technologiques qui permettent et facilitent la collecte de large base de données ainsi que leurs représentations sous la forme de courbes ou de surfaces. Ce mémoire se divise en trois parties. La première partie, consiste en la présentation des méthodes utilisées, soit l'analyse en composantes principales et l'analyse discriminante, dans le cadre de l'analyse des données classique. La seconde partie, a comme objectif de définir le cadre théorique permettant l'application de ces deux méthodes à des données fonctionnelles et également de présenter les résultats les plus pertinents à la compréhension des modèles. Enfin, la dernière partie porte sur les résultats de l'application de l'analyse en composantes principales et de l'analyse discriminante fonctionnelles aux données de prises l'alimentaires porcines. Le but de l'application de ces méthodes consiste à déterminer s'il est possible de différencier, seulement à l'aide des données disponibles, les porcs qui ont été malades des autres. Pour ce faire, une série de modèles, qui se distinguent par le choix du critère d'affectation à une classe donnée, ont été utilisés. On présentera les résultats des modèles jugés les plus pertinents permettant d'avoir une proportion de bien classés, supérieure à 85%. Données de prises alimentaires animales Analyse discriminante fonctionnelle Analyse de données fonctionnelles Analyse fonctionnelle Analyse discriminante Analyse en composantes principales Analyse des données
17	Méthodes d’analyse fonctionnelle et multivariée appliquées à l’étude du fonctionnement écologique des assemblages phytoplanctoniques de l’étang de Berre Malkassian, Anthony 03 December 2012 (has links) L'étude de la relation entre les variations d'abondance du phytoplancton et les facteurs environnementaux (naturels ou anthropiques) dans les zones saumâtres peu profondes est essentielle à la compréhension et à la gestion de cet écosystème complexe. Les relations existant entre les variables physico-chimiques (température, salinité et les nutriments) et les assemblages de phytoplancton de l'étang de Berre ont été analysées à partir d'un suivi écologique mensuel de 16 années (1994-2010). A l'aide des données recueillies par cette étude à long terme, des questions en relation avec la gestion de ce milieu ont été abordées grâce à l'application d'analyses statistiques et à la représentation originale des données. Depuis 2004, la nouvelle politique de relargage d'eau douce a provoqué de forts changements dans la salinité globale de la lagune : une diminution de la stratification et une raréfaction des phénomènes d'anoxie dans sa partie la plus profonde. Un changement dans la structure de la communauté phytoplanctonique a également été observé en association avec l'évolution des conditions environnementales. Une augmentation de la richesse spécifique phytoplanctonique, et plus précisément, l'émergence d'espèces à affinité marine a permis de mettre en évidence la première étape d'une marinisation de la lagune. Ces résultats soulignent l'impact significatif d'un nouvelle politique de gestion de cette zone côtière particulière. Nous nous sommes ensuite intéressés à la dynamique du phytoplancton à l'échelle de la journée reflet des variations rapides de l'environnement. / The study of the relationship between variations in phytoplankton abundance and environmental forces (natural or anthropogenic) in shallow brackish areas is essential to both understanding and managing this complex ecosystem. Over a 16 year (1994-2011) monthly monitoring program the relationships between physicochemical variables (temperature, salinity and nutrients) and phytoplankton assemblages of the Berre Lagoon were analyzed. Using data collected from this long-term study, we have addressed environmental management issues through the application of advanced statistical analyses and original data displays. These analyses and data displays can readily be applied to other data sets related to the environment, with the aim of informing both researcher and practitioner. Since 2004, a new policy for freshwater discharge has induced strong changes in the global salinity of the lagoon : a weakened stratification and a rarefaction of anoxia phenomena in its deepest part. A shift in the structure of the phytoplankton community has been observed in association with changes in environmental conditions. An increase of phytoplanktonic species richness, and more precisely, the emergence of species with marine affinity highlights the first step of a marinization of the lagoon. The results underline the significant impact of a new management policy in this specific coastal zone. We then focused on the response of phytoplankton to quick environmental variations. An original approach for automated high frequency analysis of phytoplankton was adopted with the use of an autonomous flow cytometer (CytoSense). Phytoplancton Monitoring Analyse multivariée Analyse de données fonctionnelles Diversité Etang de Berre Suivi écologique Phytoplankton Monitoring Multivariate analysis Functional data analysis Diversity Berre Lagoon Ecological survey
18	Modélisation statistique de données fonctionnelles environnementales : application à l'analyse de profils océanographiques. / Statistical modeling of environmental functional data : application to the analyse of oceanographic profiles. Bayle, Severine 12 June 2014 (has links) Afin d'étudier les processus biogéochimiques de l'Océan Austral, des balises posées sur des éléphants de mer ont permis de récolter en 2009-2010 des profils de variables océanographiques (Chlorophylle a (Chl a), température, salinité, lumière) dans une zone s'étalant du sud des îles Kerguelen jusqu'au continent Antarctique. Cette thèse se penche en particulier sur les données de Chl a, car celle-ci est contenue dans les organismes photosynthétiques qui jouent un rôle essentiel de pompe à carbone. Mais les profils verticaux de Chl a, récoltés peu fréquemment, ne permettent pas d'obtenir une cartographie de cette variable dans cette zone de l'océan. Cependant, nous disposons de profils de lumière, échantillonnés plus souvent. L'objectif était alors de développer une méthodologie permettant de reconstruire de manière indirecte les profils de Chl a à partir des profils de lumière, et qui prenne en compte les caractéristiques de ce type de données qui se présentent naturellement comme des données fonctionnelles. Pour cela, nous avons abordé la décomposition des profils à reconstruire ou explicatifs sur une base de splines, ainsi que les questions d'ajustement associées. Un modèle linéaire fonctionnel a été utilisé, permettant de prédire des profils de Chl a à partir des dérivées des profils de lumière. Il est montré que l'utilisation d'un tel modèle permet d'obtenir une bonne qualité de reconstruction pour accéder aux variations hautes fréquences des profils de Chl a à fine échelle. Enfin, une interpolation par krigeage fonctionnel permet de prédire la concentration en Chl a de nuit, car les mesures de lumière acquises à ce moment-là ne peuvent pas être exploitées. / To study biogeochemical processes in the Southern Ocean, tags placed on elephant seals allowed to collect during 2009-2010 oceanographic variables profiles (Chlorophyll a (Chl a), temperature, salinity, light) in an area ranging from southern Kerguelen until the Antarctic continent. This thesis focuses on Chl a data as it is contained in photosynthetic organisms and these ones play an essential role in the oceanic carbon cycle. The infrequently collected vertical Chl a profiles don't provide a mapping of this variable in this area of the ocean. However, we have light profiles sampled more often. The aim of this thesis was then to develop a methodology for reconstructing indirectly Chl a profiles from light profiles, and that takes into account characteristics of this kind of data that naturally occur as functional data. For this, we adressed the profiles decomposition to rebuild or explanations on splines basis, as well as issues related adjustment. A functional linear model was used to predict Chl a profiles from light profiles derivatives. It was shown that the use of such a model provides a good quality of reconstruction to access high frequency variations of Chl a profiles at fine scale. Finally, a functional kriging interpolation predicted the Chl a concentration during night, as light measurements acquired at that time can't be exploited. In the future, the methodology aims to be applied to any type of functional data. Analyse de Données Fonctionnelles Modèle linéaire fonctionnel Spline Chlorophylle-A Krigeage fonctionnel Océan Austral Mésoéchelle Functional Data Analysis Functional linear model Spline Chlorophyll-A Functional kriging Southern Ocean Mesoscale 550
19	Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptatives / Statistical modeling for functional data : non-asymptotic approaches and adaptive methods Roche, Angelina 07 July 2014 (has links) L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire. / The main purpose of this thesis is to develop adaptive estimators for functional data.In the first part, we focus on the functional linear model and we propose a dimension selection device for projection estimators defined on both fixed and data-driven bases. The prediction error of the resulting estimators satisfies an oracle-type inequality and reaches the minimax rate of convergence. For the estimator defined on a data-driven approximation space, tools of perturbation theory are used to solve the problems related to the random nature of the collection of models. From a numerical point of view, this method of dimension selection is faster and more stable than the usual methods of cross validation.In a second part, we consider the problem of bandwidth selection for kernel estimators of the conditional cumulative distribution function when the covariate is functional. The method is inspired by the work of Goldenshluger and Lepski. The risk of the estimator is non-asymptotically upper-bounded. We also prove lower-bounds and establish that our estimator reaches the minimax convergence rate, up to an extra logarithmic term.In the last part, we propose an extension to a functional context of the response surface methodology, widely used in the industry. This work is motivated by an application to nuclear safety. Données fonctionnelles Estimateurs adaptatifs Régression Sélection de modèle Méthode de Goldenshluger-Lepski Méthode des surfaces de réponse Functional data analysis Adaptive estimators Regression Model selection Goldenshluger and Lepski's method Response surface methodology
20	Contribution à l'apprentissage statistique à base de modèles génératifs pour données complexes. Jacques, Julien 28 November 2012 (has links) (PDF) Ce mémoire synthétise les activités de recherche que j'ai menées de 2005 à 2012, sur la thématique de l'apprentissage statistique des données complexes, abordée par le biais de modèles probabilistes paramétriques génératifs. Plusieurs types de données complexes sont considérées. Les données issues de populations différentes ont été abordées en proposant des modèles de lien paramétriques entre populations, permettant d'adapter les modèles statistiques d'une population vers l'autre, en évitant une lourde collecte de nouvelles données. Les données de rang, définissant un classement d'objets selon un ordre de préférence, les données ordinales, qui sont des données qualitatives ayant des modalités ordonnées, et les données fonctionnelles, où l'observation statistique consiste en une ou plusieurs courbes, ont également été étudies. Pour ces trois types de données, des modèles génératifs probabilistes ont été définis et utilisés en classification automatique de données multivariées. Enfin les données de grande dimension, que l'on rencontre lorsque le nombre de variables du problème dépasse celui des observations, ont été étudiées dans un cadre de régression. Deux approches, fruits de deux thèses de doctorat que je co-encadre, sont proposés: l'une utilisant des algorithmes d'optimisation combinatoire pour explorer de façon efficace l'espace des variables, et l'autre définissant un modèle de régression regroupant ensemble les variables ayant un effet similaire. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory apprentissage statistique apprentissage adaptatif modèles génératifs données de rang données ordinales données fonctionnelles grande dimension classification automatique

Search results