111 |
Lois limites des écarts extrêmes associés aux histogrammes et à diverses statistiques d'ordre dans l'estimation d'une densité de probabilitéBéra, Michel 13 June 1977 (has links) (PDF)
L'étude est associée aux problèmes de lois limites associées à un échantillon (X1,..,Xn). Le chapitre 1 est consacré à certains aspects de la loi multinomiale, et dégage une loi limite sur les valeurs extrêmes de problèmes d'occupation. Il améliore significativement les résultats de P.Revesz (1971-72), et conduit à des lois limites sur l'estimation de la densité dans Rs, par deux méthodes dites d'estimation par histogramme aléatoire. Le chapitre 2 est consacré à la loi conjointe des écarts inter-quantiles, et donne une nouvelle loi limite des extrêmes de ces écarts, généralisant les travaux de G.Tusnady (1974). Le chapitre 3 prolonge les travaux de ce dernier sur l'estimation de la densité par histogramme aléatoire. Le caractère asymptotiquement poissonnien de la loi multinomiale et de la loi de Dirichlet est mis en évidence dans des conditions très générales.
|
112 |
Modèles d'encodage parcimonieux de l'activité cérébrale mesurée par IRM fonctionnelleBakhous, Christine 10 December 2013 (has links) (PDF)
L'imagerie par résonance magnétique fonctionnelle (IRMf) est une technique non invasive permettant l'étude de l'activité cérébrale au travers des changements hémodynamiques associés. Récemment, une technique de détection-estimation conjointe (DEC) a été développée permettant d'alterner (1) la détection de l'activité cérébrale induite par une stimulation ainsi que (2) l'estimation de la fonction de réponse hémodynamique caractérisant la dynamique vasculaire; deux problèmes qui sont généralement traités indépendamment. Cette approche considère une parcellisation a priori du cerveau en zones fonctionnellement homogènes et alterne (1) et (2) sur chacune d'entre elles séparément. De manière standard, l'analyse DEC suppose que le cerveau entier peut être activé par tous les types de stimuli (visuel, auditif, etc.). Cependant la spécialisation fonctionnelle des régions cérébrales montre que l'activité d'une région n'est due qu'à certains types de stimuli. La prise en compte de stimuli non pertinents dans l'analyse, peut dégrader les résultats. La sous-famille des types de stimuli pertinents n'étant pas la même à travers le cerveau une procédure de sélection de modèles serait très coûteuse en temps de calcul. De plus, une telle sélection a priori n'est pas toujours possible surtout dans les cas pathologiques. Ce travail de thèse propose une extension de l'approche DEC permettant la sélection automatique des conditions (types de stimuli) pertinentes selon l'activité cérébrale qu'elles suscitent, cela simultanément à l'analyse et adaptativement à travers les régions cérébrales. Des exemples d'analyses sur des jeux de données simulés et réels, illustrent la capacité de l'approche DEC parcimonieuse proposée à sélectionner les conditions pertinentes ainsi que son intérêt par rapport à l'approche DEC standard.
|
113 |
Valeurs extrêmes : covariables et cadre bivariéSchorgen, Antoine 21 September 2012 (has links) (PDF)
Cette thèse aborde deux sujets peu traités dans la littérature concernant le théorie des valeurs extrêmes : celui des observations en présence de covariables et celui des mesures de dépendance pour des paires d'observations. Dans la première partie de cette thèse, nous avons considéré le cas où la variable d'intérêt est observée simultanément avec une covariable, pouvant être fixe ou aléatoire. Dans ce contexte, l'indice de queue dépend de la covariable et nous avons proposé des estimateurs de ce paramètre dont nous avons étudié les propriétés asymptotiques. Leurs comportements à distance finie ont été validés par simulations. Puis, dans la deuxième partie, nous nous sommes intéressés aux extrêmes multivariés et plus particulièrement à mesurer la dépendance entre les extrêmes. Dans une situation proche de l'indépendance asymptotique, il est très difficile de mesurer cette dépendance et de nouveaux modèles doivent être introduits. Dans ce contexte, nous avons adapté un outil de géostatistique, le madogramme, et nous avons étudié ses propriétés asymptotiques. Ses performances sur simulations et données réelles ont également été exhibées. Cette thèse offre de nombreuses perspectives, tant sur le plan pratique que théorique dont une liste non exhaustive est présentée en conclusion de la thèse.
|
114 |
Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptativesRoche, Angelina 07 July 2014 (has links) (PDF)
L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire.
|
115 |
Computational Advances and Applications of Hidden (Semi-)Markov ModelsBulla, Jan 29 November 2013 (has links) (PDF)
The document is my habilitation thesis, which is a prerequisite for obtaining the "habilitation à diriger des recherche (HDR)" in France (https://fr.wikipedia.org/wiki/Habilitation_universitaire#En_France). The thesis is of cumulative form, thus providing an overview of my published works until summer 2013.
|
116 |
Linguistiche analysis van neurogeen stotterenBijleveld, Henny January 1999 (has links)
Doctorat en philosophie et lettres / info:eu-repo/semantics/nonPublished
|
117 |
Nations et médias d'information: études de contenus et de publics de médias d'information dans leur articulation avec l'espace national et examen de l'approche transnationaleHeinderyckx, François January 1995 (has links)
Doctorat en philosophie et lettres / info:eu-repo/semantics/nonPublished
|
118 |
Modèles de mélange et de Markov caché non-paramétriques : propriétés asymptotiques de la loi a posteriori et efficacité / Non Parametric Mixture Models and Hidden Markov Models : Asymptotic Behaviour of the Posterior Distribution and EfficiencyVernet, Elodie, Edith 15 November 2016 (has links)
Les modèles latents sont très utilisés en pratique, comme en génomique, économétrie, reconnaissance de parole... Comme la modélisation paramétrique des densités d’émission, c’est-à-dire les lois d’une observation sachant l’état latent, peut conduire à de mauvais résultats en pratique, un récent intérêt pour les modèles latents non paramétriques est apparu dans les applications. Or ces modèles ont peu été étudiés en théorie. Dans cette thèse je me suis intéressée aux propriétés asymptotiques des estimateurs (dans le cas fréquentiste) et de la loi a posteriori (dans le cadre Bayésien) dans deux modèles latents particuliers : les modèles de Markov caché et les modèles de mélange. J’ai tout d’abord étudié la concentration de la loi a posteriori dans les modèles non paramétriques de Markov caché. Plus précisément, j’ai étudié la consistance puis la vitesse de concentration de la loi a posteriori. Enfin je me suis intéressée à l’estimation efficace du paramètre de mélange dans les modèles semi paramétriques de mélange. / Latent models have been widely used in diverse fields such as speech recognition, genomics, econometrics. Because parametric modeling of emission distributions, that is the distributions of an observation given the latent state, may lead to poor results in practice, in particular for clustering purposes, recent interest in using non parametric latent models appeared in applications. Yet little thoughts have been given to theory in this framework. During my PhD I have been interested in the asymptotic behaviour of estimators (in the frequentist case) and the posterior distribution (in the Bayesian case) in two particuliar non parametric latent models: hidden Markov models and mixture models. I have first studied the concentration of the posterior distribution in non parametric hidden Markov models. More precisely, I have considered posterior consistency and posterior concentration rates. Finally, I have been interested in efficient estimation of the mixture parameter in semi parametric mixture models.
|
119 |
Theoretical study of some statistical procedures applied to complex data / Etude théorique de quelques procédures statistiques pour le traitement de données complexesCottet, Vincent R. 17 November 2017 (has links)
La partie principale de cette thèse s'intéresse à développer les aspects théoriques et algorithmiques pour trois procédures statistiques distinctes. Le premier problème abordé est la complétion de matrices binaires. Nous proposons un estimateur basé sur une approximation variationnelle pseudo-bayésienne en utilisant une fonction de perte différente de celles utilisées auparavant. Nous pouvons calculer des bornes non asymptotiques sur le risque intégré. L'estimateur proposé est beaucoup plus rapide à calculer qu'une estimation de type MCMC et nous montrons sur des exemples qu'il est efficace en pratique. Le deuxième problème abordé est l'étude des propriétés théoriques du minimiseur du risque empirique pénalisé pour des fonctions de perte lipschitziennes. Nous pouvons ensuite appliquer les résultats principaux sur la régression logistique avec la pénalisation SLOPE ainsi que sur la complétion de matrice. Le troisième chapitre développe une approximation de type Expectation-Propagation quand la vraisemblance n'est pas explicite. On utilise alors l'approximation ABC dans un second temps. Cette procédure peut s'appliquer à beaucoup de modèles et est beaucoup plus précise et rapide. Elle est appliquée à titre d'exemple sur un modèle d'extrêmes spatiaux. / The main part of this thesis aims at studying the theoretical and algorithmic aspects of three distinct statistical procedures. The first problem is the binary matrix completion. We propose an estimator based on a variational approximation of a pseudo-Bayesian estimator. We use a different loss function of the ones used in the literature. We are able to compute non asymptotic risk bounds. It is much faster to compute the estimator than a MCMC method and we show on examples that it is efficient in practice. In a second part we study the theoretical properties of the regularized empirical risk minimizer for Lipschitz loss functions. We are therefore able to apply it on the logistic regression with the SLOPE regularization and on the matrix completion as well. The third chapter develops an Expectation-Propagation approximation when the likelihood is not explicit. We then use an ABC approximation in a second stage. This procedure may be applied to many models and is more precise and faster than the classic ABC approximation. It is used in a spatial extremes model.
|
120 |
Robust gamma generalized linear models with applications in actuarial scienceWang, Yuxi 09 1900 (has links)
Les modèles linéaires généralisés (GLMs) constituent l’une des classes de modèles les plus populaires en statistique. Cette classe contient une grande variété de modèles de régression fréquemment utilisés, tels que la régression linéaire normale, la régression logistique et les gamma GLMs. Dans les GLMs, la distribution de la variable de réponse définit une famille
exponentielle. Un désavantage de ces modèles est qu’ils ne sont pas robustes par rapport aux valeurs aberrantes. Pour les modèles comme la régression linéaire normale et les gamma GLMs, la non-robustesse est une conséquence des ailes exponentielles des densités. La différence entre les tendances de l’ensemble des données et celles des valeurs aberrantes donne lieu à des inférences et des prédictions biaisées.
A notre connaissance, il n’existe pas d’approche bayésienne robuste spécifique pour les GLMs. La méthode la plus populaire est fréquentiste ; c’est celle de Cantoni and Ronchetti (2001). Leur approche consiste à adapter les M-estimateurs robustes pour la régression linéaire au contexte des GLMs. Cependant, leur estimateur est dérivé d’une modification de la
dérivée de la log-vraisemblance, au lieu d’une modification de la vraisemblance (comme avec les M-estimateurs robustes pour la régression linéaire). Par conséquent, il n’est pas possible d’établir une correspondance claire entre la fonction modifiée à optimiser et un modèle. Le fait de proposer un modèle robuste présente deux avantages. Premièrement, il permet de comprendre et d’interpréter la modélisation. Deuxièmement, il permet l’analyse fréquentiste et bayésienne. La méthode que nous proposons s’inspire des idées de la régression linéaire robuste bayésienne. Nous adaptons l’approche proposée par Gagnon et al. (2020), qui consiste à utiliser une distribution normale modifiée avec des ailes plus relevées pour le terme d’erreur. Dans notre contexte, la distribution de la variable de réponse est une version modifiée
où la partie centrale de la densité est conservée telle quelle, tandis que les extrémités sont remplacées par des ailes log-Pareto, se comportant comme (1/|x|)(1/ log |x|)λ. Ce mémoire se concentre sur les gamma GLMs. La performance est mesurée à la fois théoriquement et empiriquement, avec une analyse des données sur les coûts hospitaliers. / Generalized linear models (GLMs) form one of the most popular classes of models in statistics. This class contains a large variety of commonly used regression models, such as normal linear regression, logistic regression and gamma GLMs. In GLMs, the response variable distribution defines an exponential family. A drawback of these models is that they are non-robust against outliers. For models like the normal linear regression and gamma GLMs, the non-robustness is a consequence of the exponential tails of the densities. The difference in trends in the bulk of the data and the outliers yields skewed inference and prediction.
To our knowledge, there is no Bayesian robust approach specifically for GLMs. The most popular method is frequentist; it is that of Cantoni and Ronchetti (2001). Their approach is to adapt the robust M-estimators for linear regression to the context of GLMs. However, their estimator is derived from a modification of the derivative of the log-likelihood, instead of from a modification of the likelihood (as with robust M-estimators for linear regression). As a consequence, it is not possible to establish a clear correspondence between the modified function to optimize and a model. Having a robust model has two advantages. First, it allows for an understanding and an interpretation of the modelling. Second, it allows for both frequentist and Bayesian analysis. The method we propose is based on ideas from Bayesian robust linear regression. We adapt the approach proposed by Gagnon et al. (2020), which consists of using a modified normal distribution with heavier tails for the error term. In our context, the distribution of the response variable is a modified version where the central part of the density is kept as is, while the extremities are replaced by log-Pareto tails, behaving like (1/|x|)(1/ log |x|)λ. The focus of this thesis is on gamma GLMs. The performance is measured both theoretically and empirically, with an analysis of hospital costs data.
|
Page generated in 0.0268 seconds