1 |
A New Algorithm for Stochastic ApproximationGriscik, Michael Paul 04 1900 (has links)
<p> A review of Stochastic Approximation and the major contributions to the area is made. A proof of convergence for the algorithm is developed. An optimization is attempted on the rate of convergence problem and the uniqueness problem is faced. An alternative proof of convergence is given as an independent check on the first one. Simulation results are present in light of the theory developed, and conclusions, limitations and recommendations are presented. </p> / Thesis / Master of Engineering (MEngr)
|
2 |
Approximate replication of high-breakdown robust regression techniquesZeileis, Achim, Kleiber, Christian January 2008 (has links) (PDF)
This paper demonstrates that even regression results obtained by techniques close to the standard ordinary least squares (OLS) method can be difficult to replicate if a stochastic model fitting algorithm is employed. / Series: Research Report Series / Department of Statistics and Mathematics
|
3 |
Nouvelles méthodes d'inférence de l'histoire démographique à partir de données génétiques / New methods for inference on demographic history from genetic dataMerle, Coralie 12 December 2016 (has links)
Cette thèse consiste à améliorer les outils statistiques adaptés à des modèles stochastiques de génétiques des populations et de développer des méthodes statistiques adaptées à des données génétiques de nouvelle génération. Pour un modèle paramétrique basé sur le coalescent, la vraisemblance en un point de l'espace des paramètres s'écrit comme la somme des probabilités de toutes les histoires (généalogies munies de mutations) possibles de l'échantillon observé. À l'heure actuelle, les meilleures méthodes d'inférence des paramètres de ce type de modèles sont les méthodes bayésiennes approchées et l'approximation de la fonction de vraisemblance.L'algorithme d'échantillonnage préférentiel séquentiel (SIS) estime la vraisemblance, en parcourant de manière efficace l'espace latent de ces histoires. Dans ce schéma, la distribution d'importance propose les histoires de l'échantillon observé les plus probables possibles. Cette technique est lourde en temps de calcul mais fournit des estimations par maximum de vraisemblance d'une grande précision.Les modèles que nous souhaitons inférer incluent des variations de la taille de la population. Les méthodes d'IS ne sont pas efficaces pour des modèles en déséquilibre car les distributions d'importance ont été développées pour une population de taille constante au cours du temps. Le temps de calcul augmente fortement pour la même précision de l'estimation de la vraisemblance. La première contribution de cette thèse a consisté à explorer l'algorithme SIS avec ré-échantillonnage (SISR). L'idée est de ré-échantillonner de façon à apprendre quelles sont les histoires proposées par la distribution d'importance qui seront les plus probables avant d'avoir terminé leur simulation et diminuer le temps de calcul. Par ailleurs, nous avons proposé une nouvelle distribution de ré-échantillonnage, tirant profit de l'information contenue dans la vraisemblance composite par paire de l'échantillon.Le développement récent des technologies de séquençage à haut débit a révolutionné la génération de données de polymorphisme chez de nombreux organismes. Les méthodes d'inférence classiques de maximum de vraisemblance ou basées sur le Sites Frequency Spectrum, adaptées à des jeux de données de polymorphisme génétique de quelques loci, supposent l'indépendance des généalogies des loci. Pour tirer parti de données beaucoup plus denses sur le génome, nous considérons la dépendance des généalogies sur des positions voisines du génome et modéliser la recombinaison génétique. Alors, la vraisemblance prend la forme d'une intégrale sur tous les graphes de recombinaison ancestraux possibles pour les séquences échantillonnées, un espace de bien plus grande dimension que l'espace des généalogies. Les méthodes d'inférence basées sur la vraisemblance ne peuvent plus être utilisées sans plus d'approximations. De nombreuses méthodes infèrent les changements historiques de la taille de la population mais ne considèrent pas la complexité du modèle ajusté. Même si certaines proposent un contrôle d'un potentiel sur-ajustement du modèle, à notre connaissance, aucune procédure de choix de modèle entre des modèles démographiques de complexité différente n'a été proposée à partir de longueurs de segments identiques. Nous nous concentrons sur un modèle de taille de population constante et un modèle de population ayant subit un unique changement de taille dans le passé. Puisque ces modèles sont emboîtés, la deuxième contribution de cette thèse a consisté à développer un critère de choix de modèle pénalisé basé sur la comparaison d'homozygotie haplotypique observée et théorique. Notre pénalisation, reposant sur des indices de sensibilité de Sobol, est liée à la complexité du modèle. Ce critère pénalisé de choix de modèle nous a permis de choisir entre un modèle de taille de population constante ou présentant un changement passé de la taille de la population sur des jeux de données simulés et sur un jeux de données de vaches. / This thesis aims to improve statistical methods suitable for stochastic models of population genetics and to develop statistical methods adapted to next generation sequencing data.Sequential importance sampling algorithms have been defined to estimate likelihoods in models of ancestral population processes. However, these algorithms are based on features of the models with constant population size, and become inefficient when the population size varies in time, making likelihood-based inferences difficult in many demographic situations. In the first contribution of this thesis, we modify a previous sequential importance sampling algorithm to improve the efficiency of the likelihood estimation. Our procedure is still based on features of the model with constant size, but uses a resampling technique with a new resampling probability distribution depending on the pairwise composite likelihood. We tested our algorithm, called sequential importance sampling with resampling (SISR) on simulated data sets under different demographic cases. In most cases, we divided the computational cost by two for the same accuracy of inference, in some cases even by one hundred. This work provides the first assessment of the impact of such resampling techniques on parameter inference using sequential importance sampling, and extends the range of situations where likelihood inferences can be easily performed.The recent development of high-throughput sequencing technologies has revolutionized the generation of genetic data for many organisms : genome wide sequence data are now available. Classical inference methods (maximum likelihood methods (MCMC, IS), methods based on the Sites Frequency Spectrum (SFS)) suitable for polymorphism data sets of some loci assume that the genealogies of the loci are independent. To take advantage of genome wide sequence data with known genome, we need to consider the dependency of genealogies of adjacent positions in the genome. Thus, when we model recombination, the likelihood takes the form of an integral over all possible ancestral recombination graph for the sampled sequences. This space is of much larger dimension than the genealogies space, to the extent that we cannot handle likelihood-based inference while modeling recombination without further approximations.Several methods infer the historical changes in the effective population size but do not consider the complexity of the demographic model fitted.Even if some of them propose a control for potential over-fitting, to the best of our knowledge, no model choice procedure between demographic models of different complexity have been proposed based on IBS segment lengths. The aim of the second contribution of this thesis is to overcome this lack by proposing a model choice procedure between demographic models of different complexity. We focus on a simple model of constant population size and a slightly more complex model with a single past change in the population size.Since these models are embedded, we developed a penalized model choice criterion based on the comparison of observed and predicted haplotype homozygosity.Our penalization relies on Sobol's sensitivity indices and is a form of penalty related to the complexity of the model.This penalized model choice criterion allowed us to choose between a population of constant size and a population size with a past change on simulated data sets and also on a cattle data set.
|
4 |
Estimation fonctionnelle non paramétrique au voisinage du bord / Functional non-parametric estimation near the edgeJemai, Asma 16 March 2018 (has links)
L’objectif de cette thèse est de construire des estimateurs non-paramétriques d’une fonction de distribution, d’une densité de probabilité et d’une fonction de régression en utilisant les méthodes d’approximation stochastiques afin de corriger l’effet du bord créé par les estimateurs à noyaux continus classiques. Dans le premier chapitre, on donne quelques propriétés asymptotiques des estimateurs continus à noyaux. Puis, on présente l’algorithme stochastique de Robbins-Monro qui permet d’introduire les estimateurs récursifs. Enfin, on rappelle les méthodes utilisées par Vitale, Leblanc et Kakizawa pour définir des estimateurs d’une fonction de distribution et d’une densité de probabilité en se basant sur les polynômes de Bernstein.Dans le deuxième chapitre, on a introduit un estimateur récursif d’une fonction de distribution en se basant sur l’approche de Vitale. On a étudié les propriétés de cet estimateur : biais, variance, erreur quadratique intégré (MISE) et on a établi sa convergence ponctuelle faible. On a comparé la performance de notre estimateur avec celle de Vitale et on a montré qu’avec le bon choix du pas et de l’ordre qui lui correspond notre estimateur domine en terme de MISE. On a confirmé ces résultatsthéoriques à l’aide des simulations. Pour la recherche pratique de l’ordre optimal, on a utilisé la méthode de validation croisée. Enfin, on a confirmé les meilleures qualités de notre estimateur à l’aide des données réelles. Dans le troisième chapitre, on a estimé une densité de probabilité d’une manière récursive en utilisant toujours les polynômes de Bernstein. On a donné les caractéristiques de cet estimateur et on les a comparées avec celles de l’estimateur de Vitale, de Leblanc et l’estimateur donné par Kakizawa en utilisant la méthode multiplicative de correction du biais. On a appliqué notre estimateur sur des données réelles. Dans le quatrième chapitre, on a introduit un estimateur récursif et non récursif d’une fonction de régression en utilisant les polynômes de Bernstein. On a donné les caractéristiques de cet estimateur et on les a comparées avec celles de l’estimateur à noyau classique. Ensuite, on a utilisé notre estimateur pour interpréter des données réelles. / The aim of this thesis is to construct nonparametric estimators of distribution, density and regression functions using stochastic approximation methods in order to correct the edge effect created by kernels estimators. In the first chapter, we givesome asymptotic properties of kernel estimators. Then, we introduce the Robbins-Monro stochastic algorithm which creates the recursive estimators. Finally, we recall the methods used by Vitale, Leblanc and Kakizawa to define estimators of distribution and density functions based on Bernstein polynomials. In the second chapter, we introduced a recursive estimator of a distribution function based on Vitale’s approach. We studied the properties of this estimator : bias, variance, mean integratedsquared error (MISE) and we established a weak pointwise convergence. We compared the performance of our estimator with that of Vitale and we showed that, with the right choice of the stepsize and its corresponding order, our estimator dominatesin terms of MISE. These theoretical results were confirmed using simulations. We used the cross-validation method to search the optimal order. Finally, we applied our estimator to interpret real dataset. In the third chapter, we introduced a recursive estimator of a density function using Bernstein polynomials. We established the characteristics of this estimator and we compared them with those of the estimators of Vitale, Leblanc and Kakizawa. To highlight our proposed estimator, we used real dataset. In the fourth chapter, we introduced a recursive and non-recursive estimator of a regression function using Bernstein polynomials. We studied the characteristics of this estimator. Then, we compared our proposed estimator with the classical kernel estimator using real dataset.
|
5 |
Association rules search in large data bases / Susietumo taisyklių paieška didelėse duomenų bazėseSavulionienė, Loreta 19 May 2014 (has links)
The impact of information technology is an integral part of modern life. Any activity is related to information and data accumulation and storage, therefore, quick analysis of information is necessary. Today, the traditional data processing and data reports are no longer sufficient. The need of generating new information and knowledge from given data is understandable; therefore, new facts and knowledge, which allow us to forecast customer behaviour or financial transactions, diagnose diseases, etc., can be generated applying data mining techniques. The doctoral dissertation analyses modern data mining algorithms for estimating frequent sub-sequences and association rules. The dissertation proposes a new stochastic algorithm for mining frequent sub-sequences, its modifications SDPA1 and SDPA2 and stochastic algorithm for discovery of association rules, and presents the evaluation of the algorithm errors. These algorithms are approximate, but allow us to combine two important tests, i.e. time and accuracy. The algorithms have been tested using real and simulated databases. / Informacinių technologijų įtaka neatsiejama nuo šiuolaikinio gyvenimo. Bet kokia veiklos sritis yra susijusi su informacijos, duomenų kaupimu, saugojimu. Šiandien nebepakanka tradicinio duomenų apdorojimo bei įvairių ataskaitų formavimo. Duomenų tyrybos technologijų taikymas leidžia iš turimų duomenų išgauti naujus faktus ar žinias, kurios leidžia prognozuoti veiklą, pavyzdžiui, pirkėjų elgesį ar finansines tendencijas, diagnozuoti ligas ir pan. Disertacijoje nagrinėjami duomenų tyrybos algoritmai dažniems posekiams ir susietumo taisyklėms nustatyti. Disertacijoje sukurtas naujas stochastinis dažnų posekių paieškos algoritmas, jo modifikacijos SDPA1, SDPA2 ir stochastinis susietumo taisyklių nustatymo algoritmas bei pateiktas šių algoritmų paklaidų įvertinimas. Šie algoritmai yra apytiksliai, tačiau leidžia suderinti du svarbius kriterijus laiką ir tikslumą. Šie algoritmai buvo testuojami naudojant realias bei imitacines duomenų bazes.
|
6 |
Susietumo taisyklių paieška didelėse duomenų bazėse / Association rules search in large data basesSavulionienė, Loreta 19 May 2014 (has links)
Informacinių technologijų įtaka neatsiejama nuo šiuolaikinio gyvenimo. Bet kokia veiklos sritis yra susijusi su informacijos, duomenų kaupimu, saugojimu. Šiandien nebepakanka tradicinio duomenų apdorojimo bei įvairių ataskaitų formavimo. Duomenų tyrybos technologijų taikymas leidžia iš turimų duomenų išgauti naujus faktus ar žinias, kurios leidžia prognozuoti veiklą, pavyzdžiui, pirkėjų elgesį ar finansines tendencijas, diagnozuoti ligas ir pan. Disertacijoje nagrinėjami duomenų tyrybos algoritmai dažniems posekiams ir susietumo taisyklėms nustatyti. Disertacijoje sukurtas naujas stochastinis dažnų posekių paieškos algoritmas, jo modifikacijos SDPA1, SDPA2 ir stochastinis susietumo taisyklių nustatymo algoritmas bei pateiktas šių algoritmų paklaidų įvertinimas. Šie algoritmai yra apytiksliai, tačiau leidžia suderinti du svarbius kriterijus laiką ir tikslumą. Šie algoritmai buvo testuojami naudojant realias bei imitacines duomenų bazes. / The impact of information technology is an integral part of modern life. Any activity is related to information and data accumulation and storage, therefore, quick analysis of information is necessary. Today, the traditional data processing and data reports are no longer sufficient. The need of generating new information and knowledge from given data is understandable; therefore, new facts and knowledge, which allow us to forecast customer behaviour or financial transactions, diagnose diseases, etc., can be generated applying data mining techniques. The doctoral dissertation analyses modern data mining algorithms for estimating frequent sub-sequences and association rules. The dissertation proposes a new stochastic algorithm for mining frequent sub-sequences, its modifications SDPA1 and SDPA2 and stochastic algorithm for discovery of association rules, and presents the evaluation of the algorithm errors. These algorithms are approximate, but allow us to combine two important tests, i.e. time and accuracy. The algorithms have been tested using real and simulated databases.
|
7 |
Méthodes quantitatives pour l'étude asymptotique de processus de Markov homogènes et non-homogènes / Quantitative methods for the asymptotic study of homogeneous and non-homogeneous Markov processesDelplancke, Claire 28 June 2017 (has links)
L'objet de cette thèse est l'étude de certaines propriétés analytiques et asymptotiques des processus de Markov, et de leurs applications à la méthode de Stein. Le point de vue considéré consiste à déployer des inégalités fonctionnelles pour majorer la distance entre lois de probabilité. La première partie porte sur l'étude asymptotique de processus de Markov inhomogènes en temps via des inégalités de type Poincaré, établies par l'analyse spectrale fine de l'opérateur de transition. On se place d'abord dans le cadre du théorème central limite, qui affirme que la somme renormalisée de variables aléatoires converge vers la mesure gaussienne, et l'étude est consacrée à l'obtention d'une borne à la Berry-Esseen permettant de quantifier cette convergence. La distance choisie est une quantité naturelle et encore non étudiée dans ce cadre, la distance du chi-2, complétant ainsi la littérature relative à d'autres distances (Kolmogorov, variation totale, Wasserstein). Toujours dans le contexte non-homogène, on s'intéresse ensuite à un processus peu mélangeant relié à un algorithme stochastique de recherche de médiane. Ce processus évolue par sauts de deux types (droite ou gauche), dont la taille et l'intensité dépendent du temps. Une majoration de la distance de Wasserstein d'ordre 1 entre la loi du processus et la mesure gaussienne est établie dans le cas où celle-ci est invariante sous la dynamique considérée, et étendue à des exemples où seule la normalité asymptotique est vérifiée. La seconde partie s'attache à l'étude des entrelacements entre processus de Markov (homogènes) et gradients, qu'on peut interpréter comme un raffinement du critère de Bakry-Emery, et leur application à la méthode de Stein, qui est un ensemble de techniques permettant de majorer la distance entre deux mesures de probabilité. On prouve l'existence de relations d'entrelacement du second ordre pour les processus de naissance-mort, allant ainsi plus loin que les relations du premier ordre connues. Ces relations sont mises à profit pour construire une méthode originale et universelle d'évaluation des facteurs de Stein relatifs aux mesures de probabilité discrètes, qui forment une composante essentielle de la méthode de Stein-Chen. / The object of this thesis is the study of some analytical and asymptotic properties of Markov processes, and their applications to Stein's method. The point of view consists in the development of functional inequalities in order to obtain upper-bounds on the distance between probability distributions. The first part is devoted to the asymptotic study of time-inhomogeneous Markov processes through Poincaré-like inequalities, established by precise estimates on the spectrum of the transition operator. The first investigation takes place within the framework of the Central Limit Theorem, which states the convergence of the renormalized sum of random variables towards the normal distribution. It results in the statement of a Berry-Esseen bound allowing to quantify this convergence with respect to the chi-2 distance, a natural quantity which had not been investigated in this setting. It therefore extends similar results relative to other distances (Kolmogorov, total variation, Wasserstein). Keeping with the non-homogeneous framework, we consider a weakly mixing process linked to a stochastic algorithm for median approximation. This process evolves by jumps of two sorts (to the right or to the left) with time-dependent size and intensity. An upper-bound on the Wasserstein distance of order 1 between the marginal distribution of the process and the normal distribution is provided when the latter is invariant under the dynamic, and extended to examples where only the asymptotic normality stands. The second part concerns intertwining relations between (homogeneous) Markov processes and gradients, which can be seen as refinment of the Bakry-Emery criterion, and their application to Stein's method, a collection of techniques to estimate the distance between two probability distributions. Second order intertwinings for birth-death processes are stated, going one step further than the existing first order relations. These relations are then exploited to construct an original and universal method of evaluation of discrete Stein's factors, a key component of Stein-Chen's method.
|
8 |
Introduction de non linéarités et de non stationnarités dans les modèles de représentation de la demande électrique résidentielle / Introducing non stationarities and nonlinearities in the residential load curve reconstitution modelsGrandjean, Arnaud 10 January 2013 (has links)
La problématique développée dans la thèse est d'estimer, dans une démarche prospective et dans un but d'anticipation, les impacts en puissance induits par les ruptures technologiques et comportementales qui ne font pas aujourd'hui l'objet de mesures dans les panels. Pour évaluer les modifications sur les appels de puissance du parc résidentiel engendrées par ces profondes transformations,un modèle paramétrique, bottom-up, techno-explicite et agrégatif est donc nécessaire. Celui-ci serait donc destiné à la reconstitution, de manière non tendancielle, de la courbe de charge électrique résidentielle. Il permettrait ainsi de conduire la simulation de différents scénarios d'évolution contrastés. L'élaboration d'un tel modèle constitue le sujet de ce doctorat.Pour répondre à cette problématique, nous proposons une méthode conceptuelle originale de reconstitution de courbe de charge. Sa mise en application centrée sur la génération de foisonnement d'origine comportementale a conduit à la modélisation d'un certain nombre de concepts. Ce travail a abouti à l'élaboration d'un algorithme stochastique destiné à représenter le déclenchement réalistedes appareils domestiques. Différents cas d'application ont pu être testés et les résultats en puissance ont été étudiés. Plus particulièrement pour analyser le foisonnement visible à un niveau agrégé, nous avons mis en place une méthodologie nouvelle basée sur une distance adaptée aux courbes de charge. Finalement, nous avons cherché à identifier des comportements réels d'usage des appareils. Pour cela, nous avons conduit différents travaux de classification de courbes de charge. / In this dissertation, we focus on the estimation of the impacts in terms of power demand caused by the technological and behavioural breaks that will affect the domestic sector in the future. These deep changes are not measured in the existing panels and the estimation is required for prospective (long-term) studies. To evaluate the very likely modifications of the domestic power demand that will follow previous influences, a bottom-up, technically-explicit and aggregative model is needed. This one aims at reconstituting the electric residential load curve according to a non-trending manner. Thanks to it, various evolution scenarios can be simulated. The purpose of this PhD is the elaboration of such a model.A functional analysis was carried out to build up a new method to reconstitute the domestic electric load curve. Since the clarifying of the diversity represents one of the key points of our research, we decided to begin the modelling task with focus on it. More precisely, we elaborated a stochastic algorithm whose purpose is the realistic starting of domestic appliances. Some application cases have been tested. We studied the diversity affecting aggregated power demand and we propose a new methodology able to visualise and to analyse it. This method is based on a distance adapted to the load curve. Finally we tried to identify human behaviour concerning the use of appliances thanks to load curve classifications.
|
9 |
Multiplatformní komunikace v přístupových sítích / Multiplatform communication in access networksNovotný, Bohumil January 2017 (has links)
Doctoral thesis deals with failure detection methods in wireless access network using distributed stochastic algorithms. A new method of detecting a fault based on the push-sum algorithm has been designed and simulated. Within the scope of the work objectives, the statistical credibility of the average push-sum protocol convergence rate representative and the effect of message loss during the calculation on the robustness of the system using this protocol were compared. Based on the acquired knowledge, the ability of the protocol to mathematically derive deviations from the real average of the values in the specified topology was demonstrated and thereby the existence of an abnormality in the network has been proved or refuted.
|
10 |
Contributions aux algorithmes stochastiques pour le Big Data et à la théorie des valeurs extrèmes multivariés. / Contributions to stochastic algorithm for Big Data and multivariate extreme value theory.Ho, Zhen Wai Olivier 04 October 2018 (has links)
La thèse comporte deux parties distinctes. La première partie concerne des modèles pour les extrêmes multivariés.On donne une construction de vecteurs aléatoires multivariés à variations régulières. La construction se base sur une extension multivariée d'un lemme de Breiman établissant la propriété de variation régulière d'un produit $RZ$ de variable aléatoire avec $R$ positive à variation régulière et $Z$ positive suffisamment intégrable. En prenant $mathbf{Z}$ multivarié et suffisamment intégrable, on montre que $Rmathbf{Z}$ est un vecteur aléatoire à variations régulières et on caractérise sa mesure limite. On montre ensuite que pour $mathbf{Z}$ de loi bien choisie, on retrouve des modèles stables classiques comme le modèle t-extremal, Hüsler-Reiss, etc. Puis, on étend notre construction pour considérer la notion de variation régulière multivariée non standard. On montre ensuite que le modèle de Pareto (qu'on appelle Hüsler-Reiss Pareto) associé au modèle max-stable Hüsler-Reiss forme une famille exponentielle complète. On donne quelques propriétés du modèle Hüsler-Reiss Pareto puis on propose un algorithme de simulation exacte. On étudie l'inférence par le maximum de vraisemblance. Finalement, on considère une extension du modèle Hüsler-Reiss Pareto utilisant la notion de variation régulière non standard. On étudie l'inférence par le maximum de vraisemblance du modèle généralisé et on propose une méthode d'estimation des paramètres. On donne une étude numérique sur l'estimateur du maximum de vraisemblance pour le modèle Hüsler-Reiss Pareto. Dans la second partie qui concerne l'apprentissage statistique, on commence par donner une borne sur la valeur singulière minimale d'une matrice perturbée par l'ajout d'une colonne. On propose alors un algorithme de sélection de colonne afin d'extraire les caractéristiques de la matrice. On illustre notre algorithme sur des données réelles de séries temporelles où chaque série est pris comme étant une colonne de la matrice. Deuxièmement, on montre que si une matrice $X$ à une propriété d'incohérence alors $X$ possède aussi une version affaiblie de la propriété NSP (null space property). Puis, on s'intéresse au problème de sélection de matrice incohérente. A partir d'une matrice $Xin mathbb{R}^{n imes p}$ et $mu>0$, on cherche la plus grande sous-matrice de $X$ avec une cohérence inférieure à $mu$. Ce problème est formulé comme un programme linéaire avec contrainte quadratique sur ${0,1}^p$. Comme ce problème est NP-dur, on considère une relaxation sur la sphère et on obtient une borne sur l'erreur lorsqu'on considère le problème relaxé. Enfin, on analyse l'algorithme de gradient stochastique projeté pour l'analyse en composante principale online. On montre qu'en espérance, l'algorithme converge vers un vecteur propre maximum et on propose un algorithme pour sélectionner le pas de l'algorithme. On illustre ensuite cet algorithme par une expérience de simulation. / This thesis in divided in two parts. The first part studies models for multivariate extremes. We give a method to construct multivariate regularly varying random vectors. The method is based on a multivariate extension of a Breiman Lemma that states that a product $RZ$ of a random non negative regularly varying variable $R$ and a non negative $Z$ sufficiently integrable is also regularly varying. Replacing $Z$ with a random vector $mathbf{Z}$, we show that the product $Rmathbf{Z}$ is regularly varying and we give a characterisation of its limit measure. Then, we show that taking specific distributions for $mathbf{Z}$, we obtain classical max-stable models. We extend our result to non-standard regular variations. Next, we show that the Pareto model associated with the Hüsler-Reiss max-stable model forms a full exponential family. We show some properties of this model and we give an algorithm for exact simulation. We study the properties of the maximum likelihood estimator. Then, we extend our model to non-standard regular variations. To finish the first part, we propose a numerical study of the Hüsler-Reiss Pareto model.In the second part, we start by giving a lower bound of the smallest singular value of a matrix perturbed by appending a column. Then, we give a greedy algorithm for feature selection and we illustrate this algorithm on a time series dataset. Secondly, we show that an incoherent matrix satisfies a weakened version of the NSP property. Thirdly, we study the problem of column selection of $Xinmathbb{R}^{n imes p}$ given a coherence threshold $mu$. This means we want the largest submatrix satisfying some coherence property. We formulate the problem as a linear program with quadratic constraint on ${0,1}^p$. Then, we consider a relaxation on the sphere and we bound the relaxation error. Finally, we study the projected stochastic gradient descent for online PCA. We show that in expectation, the algorithm converges to a leading eigenvector and we suggest an algorithm for step-size selection. We illustrate this algorithm with a numerical experiment.
|
Page generated in 0.0857 seconds