Global ETD Search

121	Prévision non paramétrique dans les modèles de censure via l'estimation du quantile conditionnel en dimension infinie / Nonparametric prediction in censorship models via the estimation of the conditional quantile in infinite dimension Horrigue, Walid 12 December 2012 (has links) Dans cette thèse, nous étudions les propriétés asymptotiques de paramètres fonctionnels conditionnels en statistique non paramétrique, quand la variable explicative prend ses valeurs dans un espace de dimension infinie. Dans ce cadre non paramétrique, on considère les estimateurs des paramètres fonctionnels usuels, tels la loi conditionnelle, la densité de probabilité conditionnelle, ainsi que le quantile conditionnel. Le premier travail consiste à proposer un estimateur du quantile conditionnel et de prouver sa convergence uniforme sur un sous-ensemble compact. Afin de suivre la convention dans les études biomédicales, nous considérons une suite de v.a {Ti, i ≥ 1} identiquement distribuées, de densité f, censurée à droite par une suite aléatoire {Ci, i ≥ 1} supposée aussi indépendante, identiquement distribuée et indépendante de {Ti, i ≥ 1}. Notre étude porte sur des données fortement mélangeantes et X la covariable prend des valeurs dans un espace à dimension infinie.Le second travail consiste à établir la normalité asymptotique de l’estimateur à noyau du quantile conditionnel convenablement normalisé, pour des données fortement mélangeantes, et repose sur la probabilité de petites boules. Plusieurs applications à des cas particuliers ont été traitées. Enfin, nos résultats sont appliqués à des données simulées et montrent la qualité de notre estimateur. / In this thesis, we study some asymptotic properties of conditional functional parameters in nonparametric statistics setting, when the explanatory variable takes its values in infinite dimension space. In this nonparametric setting, we consider the estimators of the usual functional parameters, as the conditional law, the conditional probability density, the conditional quantile. We are essentially interested in the problem of forecasting in the nonparametric conditional models, when the data are functional random variables. Firstly, we propose an estimator of the conditional quantile and we establish its uniform strong convergence with rates over a compact subset. To follow the convention in biomedical studies, we consider an identically distributed sequence {Ti, i ≥ 1}, here density f, right censored by a random {Ci, i ≥ 1} also assumed independent identically distributed and independent of {Ti, i ≥ 1}. Our study focuses on dependent data and the covariate X takes values in an infinite space dimension. In a second step we establish the asymptotic normality of the kernel estimator of the conditional quantile, under α-mixing assumption and on the concentration properties on small balls of the probability measure of the functional regressors. Many applications in some particular cases have been also given. Quantile conditionnel Loi conditionnelle Censure aléatoire L'estimateur de Kaplan-Meier Données fonctionnelles Probabilités de petites boules Données dépendantes Conditional quantile Conditional law Random censorship The Kaplan-Meier estimator Functional data
122	Generalized quantile regression Guo, Mengmeng 22 August 2012 (has links) Die generalisierte Quantilregression, einschließlich der Sonderfälle bedingter Quantile und Expektile, ist insbesondere dann eine nützliche Alternative zum bedingten Mittel bei der Charakterisierung einer bedingten Wahrscheinlichkeitsverteilung, wenn das Hauptinteresse in den Tails der Verteilung liegt. Wir bezeichnen mit v_n(x) den Kerndichteschätzer der Expektilkurve und zeigen die stark gleichmßige Konsistenzrate von v-n(x) unter allgemeinen Bedingungen. Unter Zuhilfenahme von Extremwerttheorie und starken Approximationen der empirischen Prozesse betrachten wir die asymptotischen maximalen Abweichungen sup06x61 \|v_n(x) − v(x)\|. Nach Vorbild der asymptotischen Theorie konstruieren wir simultane Konfidenzb änder um die geschätzte Expektilfunktion. Wir entwickeln einen funktionalen Datenanalyseansatz um eine Familie von generalisierten Quantilregressionen gemeinsam zu schätzen. Dabei gehen wir in unserem Ansatz davon aus, dass die generalisierten Quantile einige gemeinsame Merkmale teilen, welche durch eine geringe Anzahl von Hauptkomponenten zusammengefasst werden können. Die Hauptkomponenten sind als Splinefunktionen modelliert und werden durch Minimierung eines penalisierten asymmetrischen Verlustmaßes gesch¨atzt. Zur Berechnung wird ein iterativ gewichteter Kleinste-Quadrate-Algorithmus entwickelt. Während die separate Schätzung von individuell generalisierten Quantilregressionen normalerweise unter großer Variablit¨at durch fehlende Daten leidet, verbessert unser Ansatz der gemeinsamen Schätzung die Effizienz signifikant. Dies haben wir in einer Simulationsstudie demonstriert. Unsere vorgeschlagene Methode haben wir auf einen Datensatz von 150 Wetterstationen in China angewendet, um die generalisierten Quantilkurven der Volatilität der Temperatur von diesen Stationen zu erhalten / Generalized quantile regressions, including the conditional quantiles and expectiles as special cases, are useful alternatives to the conditional means for characterizing a conditional distribution, especially when the interest lies in the tails. We denote $v_n(x)$ as the kernel smoothing estimator of the expectile curves. We prove the strong uniform consistency rate of $v_{n}(x)$ under general conditions. Moreover, using strong approximations of the empirical process and extreme value theory, we consider the asymptotic maximal deviation $\sup_{ 0 \leqslant x \leqslant 1 }\|v_n(x)-v(x)\|$. According to the asymptotic theory, we construct simultaneous confidence bands around the estimated expectile function. We develop a functional data analysis approach to jointly estimate a family of generalized quantile regressions. Our approach assumes that the generalized quantiles share some common features that can be summarized by a small number of principal components functions. The principal components are modeled as spline functions and are estimated by minimizing a penalized asymmetric loss measure. An iteratively reweighted least squares algorithm is developed for computation. While separate estimation of individual generalized quantile regressions usually suffers from large variability due to lack of sufficient data, by borrowing strength across data sets, our joint estimation approach significantly improves the estimation efficiency, which is demonstrated in a simulation study. The proposed method is applied to data from 150 weather stations in China to obtain the generalized quantile curves of the volatility of the temperature at these stations asymmetrischen Verlustmasses Funktionen generalisierte Quantilregression funktionalen Datenanalyseansatz simultane Konfidenzbänder Asymmetric loss function Functional data analysis Generalized quantile curve Iteratively reweighted least squares simultaneous confidence bands 330 Wirtschaft 17 Wirtschaft ddc:330
123	Advanced Modeling of Longitudinal Spectroscopy Data Kundu, Madan Gopal January 2014 (has links) Indiana University-Purdue University Indianapolis (IUPUI) / Magnetic resonance (MR) spectroscopy is a neuroimaging technique. It is widely used to quantify the concentration of important metabolites in a brain tissue. Imbalance in concentration of brain metabolites has been found to be associated with development of neurological impairment. There has been increasing trend of using MR spectroscopy as a diagnosis tool for neurological disorders. We established statistical methodology to analyze data obtained from the MR spectroscopy in the context of the HIV associated neurological disorder. First, we have developed novel methodology to study the association of marker of neurological disorder with MR spectrum from brain and how this association evolves with time. The entire problem fits into the framework of scalar-on-function regression model with individual spectrum being the functional predictor. We have extended one of the existing cross-sectional scalar-on-function regression techniques to longitudinal set-up. Advantage of proposed method includes: 1) ability to model flexible time-varying association between response and functional predictor and (2) ability to incorporate prior information. Second part of research attempts to study the influence of the clinical and demographic factors on the progression of brain metabolites over time. In order to understand the influence of these factors in fully non-parametric way, we proposed LongCART algorithm to construct regression tree with longitudinal data. Such a regression tree helps to identify smaller subpopulations (characterized by baseline factors) with differential longitudinal profile and hence helps us to identify influence of baseline factors. Advantage of LongCART algorithm includes: (1) it maintains of type-I error in determining best split, (2) substantially reduces computation time and (2) applicable even observations are taken at subject-specific time-points. Finally, we carried out an in-depth analysis of longitudinal changes in the brain metabolite concentrations in three brain regions, namely, white matter, gray matter and basal ganglia in chronically infected HIV patients enrolled in HIV Neuroimaging Consortium study. We studied the influence of important baseline factors (clinical and demographic) on these longitudinal profiles of brain metabolites using LongCART algorithm in order to identify subgroup of patients at higher risk of neurological impairment. / Partial research support was provided by the National Institutes of Health grants U01-MH083545, R01-CA126205 and U01-CA086368 Spectroscopy Functional Data Analysis Longitudinal Functional Data Analysis Brownian Bridge Longitudinal CART Longitudinal Regression Tree HIV Brain metabolites HIV neuroimaging consortium LongPEER PEER Decomposition based penalty NAA Creatine Myo-inositol Choline Glutamine and Glutamate White matter Gray matter Basal ganglia LongCART neurological disorder Global deficit score GSVD General Singular Value Decomposition Microbial metabolites -- Research HIV infections -- Complications Myelinated neurofibrils Research -- Methodology Trees (Graph theory) -- Research Biometry -- Research -- Methodology Cerebral cortex Central nervous system -- Abnormalities Spectrum analysis -- Research HIV (Viruses) -- Research -- Analysis Creatine Choline Glutamine
124	Estimation robuste de courbes de consommmation électrique moyennes par sondage pour de petits domaines en présence de valeurs manquantes / Robust estimation of mean electricity consumption curves by sampling for small areas in presence of missing values De Moliner, Anne 05 December 2017 (has links) Dans cette thèse, nous nous intéressons à l'estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l'ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement inobservées.En effet, de nombreuses études réalisées dans le groupe EDF, que ce soit dans une optique commerciale ou de gestion du réseau de distribution par Enedis, se basent sur l'analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes. L'ensemble des consommations électriques de chacun des 35 millions de clients résidentiels et professionnels Français ne pouvant être mesurées pour des raisons de coût et de protection de la vie privée, ces courbes de consommation moyennes sont estimées par sondage à partir de panels. Nous prolongeons les travaux de Lardin (2012) sur l'estimation de courbes moyennes par sondage en nous intéressant à des aspects spécifiques de cette problématique, à savoir l'estimation robuste aux unités influentes, l'estimation sur des petits domaines, et l'estimation en présence de courbes partiellement ou totalement inobservées.Pour proposer des estimateurs robustes de courbes moyennes, nous adaptons au cadre fonctionnel l'approche unifiée d'estimation robuste en sondages basée sur le biais conditionnel proposée par Beaumont (2013). Pour cela, nous proposons et comparons sur des jeux de données réelles trois approches : l'application des méthodes usuelles sur les courbes discrétisées, la projection sur des bases de dimension finie (Ondelettes ou Composantes Principales de l'Analyse en Composantes Principales Sphériques Fonctionnelle en particulier) et la troncature fonctionnelle des biais conditionnels basée sur la notion de profondeur d'une courbe dans un jeu de données fonctionnelles. Des estimateurs d'erreur quadratique moyenne instantanée, explicites et par bootstrap, sont également proposés.Nous traitons ensuite la problématique de l'estimation sur de petites sous-populations. Dans ce cadre, nous proposons trois méthodes : les modèles linéaires mixtes au niveau unité appliqués sur les scores de l'Analyse en Composantes Principales ou les coefficients d'ondelettes, la régression fonctionnelle et enfin l'agrégation de prédictions de courbes individuelles réalisées à l'aide d'arbres de régression ou de forêts aléatoires pour une variable cible fonctionnelle. Des versions robustes de ces différents estimateurs sont ensuite proposées en déclinant la démarche d'estimation robuste basée sur les biais conditionnels proposée précédemment.Enfin, nous proposons quatre estimateurs de courbes moyennes en présence de courbes partiellement ou totalement inobservées. Le premier est un estimateur par repondération par lissage temporel non paramétrique adapté au contexte des sondages et de la non réponse et les suivants reposent sur des méthodes d'imputation. Les portions manquantes des courbes sont alors déterminées soit en utilisant l'estimateur par lissage précédemment cité, soit par imputation par les plus proches voisins adaptée au cadre fonctionnel ou enfin par une variante de l'interpolation linéaire permettant de prendre en compte le comportement moyen de l'ensemble des unités de l'échantillon. Des approximations de variance sont proposées dans chaque cas et l'ensemble des méthodes sont comparées sur des jeux de données réelles, pour des scénarios variés de valeurs manquantes. / In this thesis, we address the problem of robust estimation of mean or total electricity consumption curves by sampling in a finite population for the entire population and for small areas. We are also interested in estimating mean curves by sampling in presence of partially missing trajectories.Indeed, many studies carried out in the French electricity company EDF, for marketing or power grid management purposes, are based on the analysis of mean or total electricity consumption curves at a fine time scale, for different groups of clients sharing some common characteristics.Because of privacy issues and financial costs, it is not possible to measure the electricity consumption curve of each customer so these mean curves are estimated using samples. In this thesis, we extend the work of Lardin (2012) on mean curve estimation by sampling by focusing on specific aspects of this problem such as robustness to influential units, small area estimation and estimation in presence of partially or totally unobserved curves.In order to build robust estimators of mean curves we adapt the unified approach to robust estimation in finite population proposed by Beaumont et al (2013) to the context of functional data. To that purpose we propose three approaches : application of the usual method for real variables on discretised curves, projection on Functional Spherical Principal Components or on a Wavelets basis and thirdly functional truncation of conditional biases based on the notion of depth.These methods are tested and compared to each other on real datasets and Mean Squared Error estimators are also proposed.Secondly we address the problem of small area estimation for functional means or totals. We introduce three methods: unit level linear mixed model applied on the scores of functional principal components analysis or on wavelets coefficients, functional regression and aggregation of individual curves predictions by functional regression trees or functional random forests. Robust versions of these estimators are then proposed by following the approach to robust estimation based on conditional biais presented before.Finally, we suggest four estimators of mean curves by sampling in presence of partially or totally unobserved trajectories. The first estimator is a reweighting estimator where the weights are determined using a temporal non parametric kernel smoothing adapted to the context of finite population and missing data and the other ones rely on imputation of missing data. Missing parts of the curves are determined either by using the smoothing estimator presented before, or by nearest neighbours imputation adapted to functional data or by a variant of linear interpolation which takes into account the mean trajectory of the entire sample. Variance approximations are proposed for each method and all the estimators are compared to each other on real datasets for various missing data scenarios. Arbres de régression Biais conditionnels Données fonctionnelles Données manquantes Estimation sur petits domaines Estimateurs à noyau Forêts aléatoires Modèles linéaires mixtes Plus proches voisins Robustesse Sondage Conditional bias Functional data Kernel estimators Missing data Linear mixed models Nearest neighbours Random forests Regression trees Robustness Small area estimation Survey sampling 510
125	Analyse statistique de données fonctionnelles à structures complexes Adjogou, Adjobo Folly Dzigbodi 05 1900 (has links) No description available. Données longitudinales Partitionnement fonctionnel Classification non supervisée Modèles de mélange pour classification Analyse des données fonctionnelles Algorithme EM Statistique bayésienne Longitudinal data Functional clustering Model-based clustering Functional data analysis EM algorithm Bayesian framework Sparse longitudinal data Gene expression Mixture student PRRSV Lasso penalization
126	Inference for stationary functional time series: dimension reduction and regression Kidzinski, Lukasz 24 October 2014 (has links) Les progrès continus dans les techniques du stockage et de la collection des données permettent d'observer et d'enregistrer des processus d’une façon presque continue. Des exemples incluent des données climatiques, des valeurs de transactions financières, des modèles des niveaux de pollution, etc. Pour analyser ces processus, nous avons besoin des outils statistiques appropriés. Une technique très connue est l'analyse de données fonctionnelles (ADF).<p><p>L'objectif principal de ce projet de doctorat est d'analyser la dépendance temporelle de l’ADF. Cette dépendance se produit, par exemple, si les données sont constituées à partir d'un processus en temps continu qui a été découpé en segments, les jours par exemple. Nous sommes alors dans le cadre des séries temporelles fonctionnelles.<p><p>La première partie de la thèse concerne la régression linéaire fonctionnelle, une extension de la régression multivariée. Nous avons découvert une méthode, basé sur les données, pour choisir la dimension de l’estimateur. Contrairement aux résultats existants, cette méthode n’exige pas d'assomptions invérifiables. <p><p>Dans la deuxième partie, on analyse les modèles linéaires fonctionnels dynamiques (MLFD), afin d'étendre les modèles linéaires, déjà reconnu, dans un cadre de la dépendance temporelle. Nous obtenons des estimateurs et des tests statistiques par des méthodes d’analyse harmonique. Nous nous inspirons par des idées de Brillinger qui a étudié ces models dans un contexte d’espaces vectoriels. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Mathématiques Sciences exactes et naturelles Mathematical statistics Functional analysis Time-series analysis Hilbert space Statistique mathématique Analyse fonctionnelle Série chronologique Espace de Hilbert functional regression Hilbert spaces infinite-dimensional data prediction lagged regression functional data analysis adaptive estimation multivariate statistics dimension reduction principal components frequency domain analysis
127	Estimation de synchrones de consommation électrique par sondage et prise en compte d'information auxiliaire / Estimate the mean electricity consumption curve by survey and take auxiliary information into account Lardin, Pauline 26 November 2012 (has links) Dans cette thèse, nous nous intéressons à l'estimation de la synchrone de consommation électrique (courbe moyenne). Etant donné que les variables étudiées sont fonctionnelles et que les capacités de stockage sont limitées et les coûts de transmission élevés, nous nous sommes intéressés à des méthodes d'estimation par sondage, alternatives intéressantes aux techniques de compression du signal. Nous étendons au cadre fonctionnel des méthodes d'estimation qui prennent en compte l'information auxiliaire disponible afin d'améliorer la précision de l'estimateur de Horvitz-Thompson de la courbe moyenne de consommation électrique. La première méthode fait intervenir l'information auxiliaire au niveau de l'estimation, la courbe moyenne est estimée à l'aide d'un estimateur basé sur un modèle de régression fonctionnelle. La deuxième l'utilise au niveau du plan de sondage, nous utilisons un plan à probabilités inégales à forte entropie puis l'estimateur de Horvitz-Thompson fonctionnel. Une estimation de la fonction de covariance est donnée par l'extension au cadre fonctionnel de l'approximation de la covariance donnée par Hájek. Nous justifions de manière rigoureuse leur utilisation par une étude asymptotique. Pour chacune de ces méthodes, nous donnons, sous de faibles hypothèses sur les probabilités d'inclusion et sur la régularité des trajectoires, les propriétés de convergence de l'estimateur de la courbe moyenne ainsi que de sa fonction de covariance. Nous établissons également un théorème central limite fonctionnel. Afin de contrôler la qualité de nos estimateurs, nous comparons deux méthodes de construction de bande de confiance sur un jeu de données de courbes de charge réelles. La première repose sur la simulation de processus gaussiens. Une justification asymptotique de cette méthode sera donnée pour chacun des estimateurs proposés. La deuxième utilise des techniques de bootstrap qui ont été adaptées afin de tenir compte du caractère fonctionnel des données / In this thesis, we are interested in estimating the mean electricity consumption curve. Since the study variable is functional and storage capacities are limited or transmission cost are high survey sampling techniques are interesting alternatives to signal compression techniques. We extend, in this functional framework, estimation methods that take into account available auxiliary information and that can improve the accuracy of the Horvitz-Thompson estimator of the mean trajectory. The first approach uses the auxiliary information at the estimation stage, the mean curve is estimated using model-assisted estimators with functional linear regression models. The second method involves the auxiliary information at the sampling stage, considering πps (unequal probability) sampling designs and the functional Horvitz-Thompson estimator. Under conditions on the entropy of the sampling design the covariance function of the Horvitz-Thompson estimator can be estimated with the Hájek approximation extended to the functional framework. For each method, we show, under weak hypotheses on the sampling design and the regularity of the trajectories, some asymptotic properties of the estimator of the mean curve and of its covariance function. We also establish a functional central limit theorem.Next, we compare two methods that can be used to build confidence bands. The first one is based on simulations of Gaussian processes and is assessed rigorously. The second one uses bootstrap techniques in a finite population framework which have been adapted to take into account the functional nature of the data Approximation de Hájek Bande de confiance Bootstrap Données fonctionnelles Estimateur de Horvitz-Thompson Estimateur model-assisted Fonction de covariance Modèle linéaire fonctionnel Théorème central limite fonctionnel Sondage Hajek variance approximation Confidence band Bootstrap Functional data Horvitz-Thompson estimator Model-assisted estimator Covariance function Functional linear model Functional central limit theorem Survey sampling 519
128	Essays in functional econometrics and financial markets Tsafack-Teufack, Idriss 07 1900 (has links) Dans cette thèse, j’exploite le cadre d’analyse de données fonctionnelles et développe l’analyse d’inférence et de prédiction, avec une application à des sujets sur les marchés financiers. Cette thèse est organisée en trois chapitres. Le premier chapitre est un article co-écrit avec Marine Carrasco. Dans ce chapitre, nous considérons un modèle de régression linéaire fonctionnelle avec une variable prédictive fonctionnelle et une réponse scalaire. Nous effectuons une comparaison théorique des techniques d’analyse des composantes principales fonctionnelles (FPCA) et des moindres carrés partiels fonctionnels (FPLS). Nous déterminons la vitesse de convergence de l’erreur quadratique moyen d’estimation (MSE) pour ces méthodes. Aussi, nous montrons cette vitesse est sharp. Nous découvrons également que le biais de régularisation de la méthode FPLS est plus petit que celui de FPCA, tandis que son erreur d’estimation a tendance à être plus grande que celle de FPCA. De plus, nous montrons que le FPLS surpasse le FPCA en termes de prédiction avec moins de composantes. Le deuxième chapitre considère un modèle autorégressif entièrement fonctionnel (FAR) pour prèvoir toute la courbe de rendement du S&P 500 a la prochaine journée. Je mène une analyse comparative de quatre techniques de Big Data, dont la méthode de Tikhonov fonctionnelle (FT), la technique de Landweber-Fridman fonctionnelle (FLF), la coupure spectrale fonctionnelle (FSC) et les moindres carrés partiels fonctionnels (FPLS). La vitesse de convergence, la distribution asymptotique et une stratégie de test statistique pour sélectionner le nombre de retard sont fournis. Les simulations et les données réelles montrent que les méthode FPLS performe mieux les autres en terme d’estimation du paramètre tandis que toutes ces méthodes affichent des performances similaires en termes de prédiction. Le troisième chapitre propose d’estimer la densité de neutralité au risque (RND) dans le contexte de la tarification des options, à l’aide d’un modèle fonctionnel. L’avantage de cette approche est qu’elle exploite la théorie d’absence d’arbitrage et qu’il est possible d’éviter toute sorte de paramétrisation. L’estimation conduit à un problème d’inversibilité et la technique fonctionnelle de Landweber-Fridman (FLF) est utilisée pour le surmonter. / In this thesis, I exploit the functional data analysis framework and develop inference, prediction and forecasting analysis, with an application to topics in the financial market. This thesis is organized in three chapters. The first chapter is a paper co-authored with Marine Carrasco. In this chapter, we consider a functional linear regression model with a functional predictor variable and a scalar response. We develop a theoretical comparison of the Functional Principal Component Analysis (FPCA) and Functional Partial Least Squares (FPLS) techniques. We derive the convergence rate of the Mean Squared Error (MSE) for these methods. We show that this rate of convergence is sharp. We also find that the regularization bias of the FPLS method is smaller than the one of FPCA, while its estimation error tends to be larger than that of FPCA. Additionally, we show that FPLS outperforms FPCA in terms of prediction accuracy with a fewer number of components. The second chapter considers a fully functional autoregressive model (FAR) to forecast the next day’s return curve of the S&P 500. In contrast to the standard AR(1) model where each observation is a scalar, in this research each daily return curve is a collection of 390 points and is considered as one observation. I conduct a comparative analysis of four big data techniques including Functional Tikhonov method (FT), Functional Landweber-Fridman technique (FLF), Functional spectral-cut off (FSC), and Functional Partial Least Squares (FPLS). The convergence rate, asymptotic distribution, and a test-based strategy to select the lag number are provided. Simulations and real data show that FPLS method tends to outperform the other in terms of estimation accuracy while all the considered methods display almost the same predictive performance. The third chapter proposes to estimate the risk neutral density (RND) for options pricing with a functional linear model. The benefit of this approach is that it exploits directly the fundamental arbitrage-free equation and it is possible to avoid any additional density parametrization. The estimation problem leads to an inverse problem and the functional Landweber-Fridman (FLF) technique is used to overcome this issue. Regression fonctionnelle Analyse de données fonctionnelles Modèle autoregressif fonctionnel Big data Régularisation Composantes principales fonctionnelle Moindres carrés partiels Landweber-Fridman Tikhonov Estimation Prédiction Prévision S&P 500 Options Probabilité de neutralité au risque Marchés financiers Functional regression Functional data analysis Functional Autoregressive model Functional principal component Functional partial least squares Forecasting Risk neutral density Financial markets
129	Contributions à l'analyse de données fonctionnelles multivariées, application à l'étude de la locomotion du cheval de sport / Contributions to the analysis of multivariate functional data, application to the study of the sport horse's locomotion Schmutz, Amandine 15 November 2019 (has links) Avec l'essor des objets connectés pour fournir un suivi systématique, objectif et fiable aux sportifs et à leur entraineur, de plus en plus de paramètres sont collectés pour un même individu. Une alternative aux méthodes d'évaluation en laboratoire est l'utilisation de capteurs inertiels qui permettent de suivre la performance sans l'entraver, sans limite d'espace et sans procédure d'initialisation fastidieuse. Les données collectées par ces capteurs peuvent être vues comme des données fonctionnelles multivariées : se sont des entités quantitatives évoluant au cours du temps de façon simultanée pour un même individu statistique. Cette thèse a pour objectif de chercher des paramètres d'analyse de la locomotion du cheval athlète à l'aide d'un capteur positionné dans la selle. Cet objet connecté (centrale inertielle, IMU) pour le secteur équestre permet de collecter l'accélération et la vitesse angulaire au cours du temps, dans les trois directions de l'espace et selon une fréquence d'échantillonnage de 100 Hz. Une base de données a ainsi été constituée rassemblant 3221 foulées de galop, collectées en ligne droite et en courbe et issues de 58 chevaux de sauts d'obstacles de niveaux et d'âges variés. Nous avons restreint notre travail à la prédiction de trois paramètres : la vitesse par foulée, la longueur de foulée et la qualité de saut. Pour répondre aux deux premiers objectifs nous avons développé une méthode de clustering fonctionnelle multivariée permettant de diviser notre base de données en sous-groupes plus homogènes du point de vue des signaux collectés. Cette méthode permet de caractériser chaque groupe par son profil moyen, facilitant leur compréhension et leur interprétation. Mais, contre toute attente, ce modèle de clustering n'a pas permis d'améliorer les résultats de prédiction de vitesse, les SVM restant le modèle ayant le pourcentage d'erreur inférieur à 0.6 m/s le plus faible. Il en est de même pour la longueur de foulée où une précision de 20 cm est atteinte grâce aux Support Vector Machine (SVM). Ces résultats peuvent s'expliquer par le fait que notre base de données est composée uniquement de 58 chevaux, ce qui est un nombre d'individus très faible pour du clustering. Nous avons ensuite étendu cette méthode au co-clustering de courbes fonctionnelles multivariées afin de faciliter la fouille des données collectées pour un même cheval au cours du temps. Cette méthode pourrait permettre de détecter et prévenir d'éventuels troubles locomoteurs, principale source d'arrêt du cheval de saut d'obstacle. Pour finir, nous avons investigué les liens entre qualité du saut et les signaux collectés par l'IMU. Nos premiers résultats montrent que les signaux collectés par la selle seuls ne suffisent pas à différencier finement la qualité du saut d'obstacle. Un apport d'information supplémentaire sera nécessaire, à l'aide d'autres capteurs complémentaires par exemple ou encore en étoffant la base de données de façon à avoir un panel de chevaux et de profils de sauts plus variés / With the growth of smart devices market to provide athletes and trainers a systematic, objective and reliable follow-up, more and more parameters are monitored for a same individual. An alternative to laboratory evaluation methods is the use of inertial sensors which allow following the performance without hindering it, without space limits and without tedious initialization procedures. Data collected by those sensors can be classified as multivariate functional data: some quantitative entities evolving along time and collected simultaneously for a same individual. The aim of this thesis is to find parameters for analysing the athlete horse locomotion thanks to a sensor put in the saddle. This connected device (inertial sensor, IMU) for equestrian sports allows the collection of acceleration and angular velocity along time in the three space directions and with a sampling frequency of 100 Hz. The database used for model development is made of 3221 canter strides from 58 ridden jumping horses of different age and level of competition. Two different protocols are used to collect data: one for straight path and one for curved path. We restricted our work to the prediction of three parameters: the speed per stride, the stride length and the jump quality. To meet the first to objectives, we developed a multivariate functional clustering method that allow the division of the database into smaller more homogeneous sub-groups from the collected signals point of view. This method allows the characterization of each group by it average profile, which ease the data understanding and interpretation. But surprisingly, this clustering model did not improve the results of speed prediction, Support Vector Machine (SVM) is the model with the lowest percentage of error above 0.6 m/s. The same applied for the stride length where an accuracy of 20 cm is reached thanks to SVM model. Those results can be explained by the fact that our database is build from 58 horses only, which is a quite low number of individuals for a clustering method. Then we extend this method to the co-clustering of multivariate functional data in order to ease the datamining of horses’ follow-up databases. This method might allow the detection and prevention of locomotor disturbances, main source of interruption of jumping horses. Lastly, we looked for correlation between jumping quality and signals collected by the IMU. First results show that signals collected by the saddle alone are not sufficient to differentiate finely the jumping quality. Additional information will be needed, for example using complementary sensors or by expanding the database to have a more diverse range of horses and jump profiles Données fonctionnelles Clustering Co-clustering fonctionnel multivarié Modèle à blocs latents SEM-Gibbs Algorithme EM Functional data Model based clustering Latent block model SEM-Gibbs EM algorithm Multivariate functional co-clustering 510
130	Régression non-paramétrique pour variables fonctionnelles / Non parametric regression for functional data Elamine, Abdallah Bacar 23 March 2010 (has links) Cette thèse se décompose en quatre parties auxquelles s'ajoute une présentation. Dans un premier temps, on expose les outils mathématiques essentiels à la compréhension des prochains chapitres. Dans un deuxième temps, on s'intéresse à la régression non paramétrique locale pour des données fonctionnelles appartenant à un espace de Hilbert. On propose, tout d'abord, un estimateur de l'opérateur de régression. La construction de cet estimateur est liée à la résolution d'un problème inverse linéaire. On établit des bornes de l'erreur quadratique moyenne (EQM) de l'estimateur de l'opérateur de régression en utilisant une décomposition classique. Cette EQM dépend de la fonction de petite boule de probabilité du régresseur au sujet de laquelle des hypothèses de type Gamma-variation sont posées. Dans le chapitre suivant, on reprend le travail élaboré dans le précédent chapitre en se plaçant dans le cadre de données fonctionnelles appartenant à un espace semi-normé. On établit des bornes de l'EQM de l'estimateur de l'opérateur de régression. Cette EQM peut être vue comme une fonction de la fonction de petite boule de probabilité. Dans le dernier chapitre, on s'intéresse à l'estimation de la fonction auxiliaire associée à la fonction de petite boule de probabilité. D'abord, on propose un estimateur de cette fonction auxiliare. Ensuite, on établit la convergence en moyenne quadratique et la normalité asymptotique de cet estimateur. Enfin, par des simulations, on étudie le comportement de de cet estimateur au voisinage de zéro. / This thesis is divided in four sections with an additionnal presentation. In the first section, We expose the essential mathematics skills for the comprehension of the next sections. In the second section, we adress the problem of local non parametric with functional inputs. First, we propose an estimator of the unknown regression function. The construction of this estimator is related to the resolution of a linear inverse problem. Using a classical method of decomposition, we establish a bound for the mean square error (MSE). This bound depends on the small ball probability of the regressor which is assumed to belong to the class of Gamma varying functions. In the third section, we take again the work done in the preceding section by being situated in the frame of data belonging to a semi-normed space with infinite dimension. We establish bound for the MSE of the regression operator. This MSE can be seen as a function of the small ball probability function. In the last section, we interest to the estimation of the auxiliary function. Then, we establish the convergence in mean square and the asymptotic normality of the estimator. At last, by simulations, we study the bahavour of this estimator in a neighborhood of zero. Données fonctionnelles Modèle de régression Noyau Erreur quadratique moyenne Functional data Regression model Kernel Mean square error Small ball probabilty Inverse problem Gamma varying function Regular variation function

Search results