1 |
Semiparametric Estimation for Extreme ValuesBouquiaux, Christel C. N. C. I. 05 September 2005 (has links)
Nous appliquons la théorie asymptotique des expériences statistiques à des problèmes liés aux valeurs extrêmes. Quatre modèles semi-paramétriques sont envisagés. Tout d'abord le modèle d'échantillonnage de fonction de répartition de type Pareto. L'index de Pareto est le paramètre d'intérêt tandis que la fonction à variation lente, qui intervient dans la décomposition de la fonction de survie, joue le rôle de nuisance. Nous considérons ensuite des observations i.i.d. de fonction de répartition de type Weibull. Le troisième modèle étudié est un modèle de régression. On considère des couples d'observations $(Y_i,X_i)$ indépendants, les v.a. $X_i$ sont i.i.d. de loi connue et on suppose que la fonction de répartition de la loi de $Y$ conditionnellement à $X$ est de type Pareto, avec une fonction à variation lente et un index $gamma$ qui dépendent de $X$. On fait l'hypothèse que la fonction $gamma$ a une forme quelconque mais connue, qui dépend d'un paramètre $ heta$ dans $SR^K$. Le paramètre d'intérêt est $ heta$. Enfin, nous étudions un modèle linéaire avec des innovations de fonction de répartition de type Pareto. Pour chacun de ces modèles, notre démarche est de construire des alternatives, d'établir la normalité locale asymptotique et l'existence d'un estimateur asymptotiquement efficace, ce qui n'est possible que parce que les alternatives que nous avons construites sont des alternatives les plus difficiles. Pour les deux derniers modèles, l'estimateur asymptotiquement efficace que nous proposons n'a, à notre connaissance, pas encore fait l'objet d'une publication.
|
2 |
Prédiction phénotypique et sélection de variables en grande dimension dans les modèles linéaires et linéaires mixtes / Phenotypic prediction and variable selection in high dimensional linear and linear mixed modelsRohart, Florian 07 December 2012 (has links)
Les nouvelles technologies permettent l'acquisition de données génomiques et post-génomiques de grande dimension, c'est-à-dire des données pour lesquelles il y a toujours un plus grand nombre de variables mesurées que d'individus sur lesquels on les mesure. Ces données nécessitent généralement des hypothèses supplémentaires afin de pouvoir être analysées, comme une hypothèse de parcimonie pour laquelle peu de variables sont supposées influentes. C'est dans ce contexte de grande dimension que nous avons travaillé sur des données réelles issues de l’espèce porcine et de la technologie haut-débit, plus particulièrement le métabolome obtenu à partir de la spectrométrie RMN et des phénotypes mesurés post-mortem pour la plupart. L'objectif est double : d'une part la prédiction de phénotypes d’intérêt pour la production porcine et d'autre part l'explicitation de relations biologiques entre ces phénotypes et le métabolome. On montre, grâce à une analyse dans le modèle linéaire effectuée avec la méthode Lasso, que le métabolome a un pouvoir prédictif non négligeable pour certains phénotypes importants pour la production porcine comme le taux de muscle et la consommation moyenne journalière. Le deuxième objectif est traité grâce au domaine statistique de la sélection de variables. Les méthodes classiques telles que la méthode Lasso et la procédure FDR sont investiguées et de nouvelles méthodes plus performantes sont développées : nous proposons une méthode de sélection de variables en modèle linéaire basée sur des tests d'hypothèses multiples. Cette méthode possède des résultats non asymptotiques de puissance sous certaines conditions sur le signal. De part les données annexes disponibles sur les animaux telles que les lots dans lesquels ils ont évolués ou les relations de parentés qu'ils possèdent, les modèles mixtes sont considérés. Un nouvel algorithme de sélection d'effets fixes est développé et il s'avère beaucoup plus rapide que les algorithmes existants qui ont le même objectif. Grâce à sa décomposition en étapes distinctes, l’algorithme peut être combiné à toutes les méthodes de sélection de variables développées pour le modèle linéaire classique. Toutefois, les résultats de convergence dépendent de la méthode utilisée. On montre que la combinaison de cet algorithme avec la méthode de tests multiples donne de très bons résultats empiriques. Toutes ces méthodes sont appliquées au jeu de données réelles et des relations biologiques sont mises en évidence / Recent technologies have provided scientists with genomics and post-genomics high-dimensional data; there are always more variables that are measured than the number of individuals. These high dimensional datasets usually need additional assumptions in order to be analyzed, such as a sparsity condition which means that only a small subset of the variables are supposed to be relevant. In this high-dimensional context we worked on a real dataset which comes from the pig species and high-throughput biotechnologies. Metabolomic data has been measured with NMR spectroscopy and phenotypic data has been mainly obtained post-mortem. There are two objectives. On one hand, we aim at obtaining good prediction for the production phenotypes and on the other hand we want to pinpoint metabolomic data that explain the phenotype under study. Thanks to the Lasso method applied in a linear model, we show that metabolomic data has a real prediction power for some important phenotypes for livestock production, such as a lean meat percentage and the daily food consumption. The second objective is a problem of variable selection. Classic statistical tools such as the Lasso method or the FDR procedure are investigated and new powerful methods are developed. We propose a variable selection method based on multiple hypotheses testing. This procedure is designed to perform in linear models and non asymptotic results are given under a condition on the signal. Since supplemental data are available on the real dataset such as the batch or the family relationships between the animals, linear mixed models are considered. A new algorithm for fixed effects selection is developed, and this algorithm turned out to be faster than the usual ones. Thanks to its structure, it can be combined with any variable selection methods built for linear models. However, the convergence property of this algorithm depends on the method that is used. The multiple hypotheses testing procedure shows good empirical results. All the mentioned methods are applied to the real data and biological relationships are emphasized
|
3 |
Le modèle linéaire à effets mixtes pour analyser des données génétiques provenant de famillesAllard, Catherine January 2015 (has links)
Nous désirons savoir quelles sont les variations génétiques qui sont associées à une tension artérielle élevée. Pour ce faire, nous avons des données provenant de plusieurs familles, c’est-à-dire qu’il y a des personnes de la même famille qui se retrouvent dans cet échantillon. Dans cette base de données, il y a de l’information sur quelques caractéristiques démographique (âge, sexe, fumeur/non fumeur), il y a aussi la pression diastolique et systolique ainsi qu’un grand nombre de variations génétiques distribuées sur tout le génome. Pour pouvoir analyser des observations qui ne sont pas indépendantes, nous devons utiliser un modèle qui diffère un peu de la régression classique. En effet, nous ne pouvons pas utiliser la régression classique, car notre échantillon ne respecte pas toutes les hypothèses du modèle. Le modèle que nous allons utiliser prend en compte la covariance entre les individus de même famille. Nous allons donc présenter la théorie du modèle linéaire à effets mixtes simple ainsi que sa généralisation pour des données génétiques provenant de familles. Nous allons terminer par une application de ce modèle généralisé à notre base de données sur la tension artérielle pour déterminer quelles parties du génome (quelles variations génétiques) expliquent le mieux la tension artérielle de cet échantillon.
|
4 |
Tests pour la dépendance entre les sections dans un modèle de PoissonRoussel, Arnaud 05 1900 (has links)
Les simulations et figures ont été réalisées avec le logiciel R. / Pour des données de panel, les mesures répétées dans le temps peuvent remettre
en cause l’hypothèse d’indépendance entre les individus. Des tests ont été
développés pour pouvoir vérifier s’il reste de la dépendance entre les résidus d’un
modèle. Les trois tests que nous présentons dans ce mémoire sont ceux de Pesaran
(2004), Friedman (1937) et Frees (1995). Ces trois tests se basent sur les résidus
(et leurs corrélations) et ont été construits pour des modèles linéaires. Nous voulons
étudier dans ce mémoire les performances de ces trois tests dans le cadre d’un
modèle linéaire généralisé de Poisson. Dans ce but, on compare tout d’abord leurs
performances (niveaux et puissances) pour deux modèles linéaires, l’un ayant un
terme autorégressif et l’autre non. Par la suite, nous nous intéressons à leurs performances
pour un modèle linéaire généralisé de Poisson en s’inspirant de Hsiao,
Pesaran et Pick (2007) qui adaptent le test de Pesaran (2004) pour un modèle
linéaire généralisé. Toutes nos comparaisons de performances se feront à l’aide de
simulations dans lesquelles nous ferons varier un certain nombre de paramètres
(nombre d’observations, force de la dépendance, etc.). Nous verrons que lorsque
les corrélations sont toutes du même signe, le test de Pesaran donne en général
de meilleurs résultats, à la fois dans les cas linéaires et pour le modèle linéaire
généralisé. Le test de Frees présentera de bonnes propriétés dans le cas où le signe
des corrélations entre les résidus alterne. / For panel data, repeated measures over time can challenge the hypothesis of
dependence between subjects. Tests were developped in order to assess if some
dependence remains among residuals. The three tests we present in this master
thesis are from Pesaran (2004), Friedman (1937) and Frees (1995). These three
tests, constructed specifically for linear models, are based on the residuals generated
from models (and their correlations). We wish to study in this master thesis
the performances of these three tests in the case of generalized linear Poisson
models. For that goal, we compare them between each other (level, power, etc.)
using two linear models, one with an autoregressive term and the other without.
Next, inspired by Hsiao, Pesaran and Pick (2007) who adapt the test from Pesaran
(2004), we will study their performances in a generalized Poisson model.
All of our comparisons are done with simulations by modifying some variables
(number of observations, strength of the dependence). We will observe that when
the correlation is always of the same sign, Pesaran’s test is the best in most cases,
for the linear models and the generalized linear model. Frees’ test will show good
performances when the sign of the correlations alternates.
|
5 |
Combinaisons markoviennes et semi-markoviennes de modèles de régression. Application à la croissance d'arbres forestiers.Chaubert-Pereira, Florence 05 November 2008 (has links) (PDF)
Ce travail est consacré à l'étude des combinaisons markoviennes et semi-markoviennes de modèles de régression, i.e. des mélanges finis de modèles de régression avec dépendances (semi-)markoviennes. Cette famille de modèles statistiques permet l'analyse de données structurées en phases successives synchrones entre individus, influencées par des covariables pouvant varier dans le temps et présentant une hétérogénéité inter-individuelle. L'algorithme d'inférence proposé pour les combinaisons (semi-)markoviennes de modèles linéaires généralisés est un algorithme du gradient EM. Pour les combinaisons (semi-)markoviennes de modèles linéaires mixtes, nous proposons des algorithmes de type MCEM où l'étape E se décompose en deux étapes de restauration conditionnelle: une pour les séquences d'états sachant les effets aléatoires (et les données observées) et une pour les effets aléatoires sachant les séquences d'états (et les données observées). Différentes méthodes de restauration conditionnelle sont présentées. Nous étudions deux types d'effets aléatoires: des effets aléatoires individuels et des effets aléatoires temporels. L'intérêt de cette famille de modèles est illustré par l'analyse de la croissance d'arbres forestiers en fonctions de facteurs climatiques. Ces modèles nous permettent d'identifier et de caractériser les trois principales composantes de la croissance (la composante ontogénique, la composante environnementale et la composante individuelle). Nous montrons que le poids de chaque composante varie en fonction de l'espèce et des interventions sylvicoles.
|
6 |
Développement et expérimentation d’une stratégie optimale de freinage régénératif pour les véhicules électriques basée sur la commande avancée du glissement de la roueBoisvert, Maxime January 2015 (has links)
En propulsion électrique, le freinage régénératif consiste à récupérer l’énergie cinétique du véhicule en freinant la roue propulsée avec la motorisation électrique. Afin d'optimiser la quantité d'énergie récupérée à partir du freinage électrique, la plupart des études antérieures proposent des stratégies qui consistent à définir le couple de freinage en fonction de la vitesse du véhicule. Dans cette étude nous proposons une stratégie originale qui consiste à commander le glissement de la roue freinée en fonction de la vitesse du véhicule. Les deux principales hypothèses qui ont motivé ce travail sont que cette stratégie de récupération, réglée à l’optimum, est moins sensible aux incertitudes et qu’elle permet d’éviter une perte d’adhérence de la roue, étant donné que le glissement est contrôlé. L’objectif ultime est de démontrer expérimentalement qu’il est possible de mettre en œuvre une telle approche sur un véhicule électrique afin d'assurer une récupération optimale de l'énergie tout en assurant la stabilité du véhicule. Le premier volet de cette étude est d’étudier l’avantage de la stratégie de commande du glissement quand elle est globalement optimisée au sens de maximiser la récupération d’énergie en considérant le rendement énergétique de la chaine électrique et des pertes mécaniques. Pour cela, un simulateur basé sur Matlab/Simulink a été développé et validé par des mesures expérimentales. La nouvelle stratégie en glissement est alors comparée en simulation à d’autres stratégies, et sa sensibilité est évaluée par rapport à des incertitudes paramétriques sur l’inclinaison de la route, la masse et les conditions routières. Les simulations numériques, validées par des essais expérimentaux, montrent qu’un freinage régénératif qui commande le glissement est la stratégie la moins sensible aux variations paramétriques. Le deuxième volet de cette étude porte sur la synthèse et la mise en œuvre d’un contrôleur temps-réel, embarqué sur un véhicule électrique à trois roues, afin de procéder à des tests routiers de la stratégie en glissement. Considérant qu'il n'est pas possible de mesurer directement le glissement, il doit être estimé en temps réel à partir des mesures des encodeurs des roues. Pour ce faire, un modèle d’état non-linéaire du comportement du système de propulsion électrique, incluant la dynamique du glissement, a été expérimentalement identifié. Ce modèle original, combiné à un modèle classique de dynamique longitudinale du véhicule, est utilisé pour la synthèse et la comparaison de deux observateurs de Kalman étendu. Finalement, un estimateur d’adhérence, basé sur un algorithme d’identification de type RLS-[lambda], est mis en place pour corriger en-ligne un facteur lié à l’adhérence. Il devient ainsi possible d’estimer avec précision le glissement de la roue motrice, même en présence de variations paramétriques importantes. Un contrôleur non-linéaire temps réel a été développé et implanté dans le but de suivre une consigne de glissement optimal. Considérant la présence d’un retard pur important dans la chaine de contrôle, le contrôleur se décompose en une partie boucle ouverte afin d’atteindre rapidement la consigne de couple et une rétroaction non-linéaire afin de corriger finement la valeur finale. La synthèse des compensateurs (boucle ouverte et rétroaction) se base sur une linéarisation par morceaux du système à contrôler: les paramètres du modèle d’état sont fixés pour une commande de couple de freinage donnée. La structure de contrôle implantée a été réduite afin de minimiser la puissance de calcul requise. La combinaison de l’observateur de glissement avec le contrôleur de glissement a permis de valider expérimentalement la stratégie de freinage par glissement sur un véhicule électrique. Les conditions de la route (niveau d’adhérence) ont été modifiées pour valider la robustesse du contrôleur sur une surface glissante.
|
7 |
Prévision linéaire des processus à longue mémoireGodet, Fanny 05 December 2008 (has links) (PDF)
Nous étudions des méthodes de prévision pour les processus à longue mémoire. Ils sont supposés stationnaires du second ordre, linéaires, causals et inversibles. Nous supposons tout d'abord que l'on connaît la loi du processus mais que l'on ne dispose que d'un nombre fini d'observations pour le prédire. Nous proposons alors deux prédicteurs linéaires : celui de Wiener-Kolmogorov tronqué et celui construit par projection sur le passé fini observé. Nous étudions leur comportement lorsque le nombre d'observations disponibles tend vers l'infini. Dans un deuxième temps nous ne supposons plus la loi du processus connue, il nous faut alors estimer les fonctions de prévision obtenues dans la première partie. Pour le prédicteur de Wiener-Kolmogorov tronqué, nous utilisons une approche paramétrique en estimant les coefficients du prédicteur grâce à l'estimateur de Whittle calculé sur une série indépendante de la série à prédire. Pour le prédicteur obtenu par projection, on estime les coefficients du prédicteur en remplaçant dans les équations de Yule-Walker les covariances par les covariances empiriques calculé sur une série indépendante ou sur la série à prédire. Pour les deux prédicteurs, on estime les erreurs quadratiques due à l'estimation des coefficients et on prouve leurs normalités asymptotiques.
|
8 |
Modélisation de la variance dans l'analyse stochastique du passif des policesDavidov, Danaïl January 2009 (has links) (PDF)
Ce mémoire fait une étude détaillée des méthodes utilisées pour modéliser les réserves actuarielles en assurance de dommages. Les méthodes stochastiques utilisent des modèles linéaires généralisés qui permettent d'associer une courbe de probabilités aux pertes futures. Une analyse approfondie de la classe de modèles de Tweedie est présentée, ce qui permet d'obtenir les formules d'un large spectre de modèles. Ensuite, l'ouvrage met en évidence une différence dans la nature du risque entre la fréquence et la sévérité qui suscite la nécessité d'utiliser un modèle qui accorde plus de liberté aux facteurs de surdispersion. Deux solutions sont abordées: les modèles de dispersion, basés sur le principe du maximum de vraisemblance, et les modèles linéaires généralisés doubles, axés sur le principe de la déviance. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Réserves actuarielles, Chain Ladder, Modèles linéaires généralisés, Loi de Tweedie, Déviance, Paramètre de surdispersion, Modèles de dispersion, Modèles linéaires généralisés doubles.
|
9 |
Encodage d'un signal audio dans un électroencéphalogrammeMoinnereau, Marc-Antoine January 2017 (has links)
Les interfaces cerveau-machine visent à établir un lien de communication entre le cerveau et un système externe à ce dernier. Les électroencéphalogrammes (EEG), dans ce contexte, ont l’avantage d’être non invasifs. Par contre, l’information sensorielle qui se retrouve dans un signal EEG est beaucoup moins ciblée que dans un signal neuronal acquis par une méthode invasive. De plus, étant donné que le cortex auditif est situé dans des repliements du tissu cortical, les neurones qui déchargent, suite à un stimulus auditif, sont parallèles à la surface corticale sur laquelle les EEG sont enregistrés. Par conséquent, l’information auditive qui se retrouve dans le canal EEG situé vis-à-vis du cortex auditif est faible. L’objectif principal de ce projet de recherche consiste donc à étudier la répartition de l’information auditive dans l’ensemble des canaux EEG. Pour ce faire, nous utilisons deux approches. Dans la première, nous tenterons d’estimer l’activité
corticale sous-jacente à partir des signaux EEG en utilisant un modèle de couplage bande fréquence. En effet, certaines bandes de fréquences sont des bons prédicteurs des décharges neuronales. Cependant, cette approche n’a pas été validée pour le système auditif, nous confronterons donc l’estimation obtenue à une autre estimation en ayant recours à un modèle spécialisé pour l’encodage du signal de parole faisant appel aux processus ponctuels. Ce modèle prend en compte les dynamiques intrasèques des neurones et également des propriétés spectrotemporelles du stimulus d’entrée. Dans la seconde approche, nous étudierons la possibilité de classifier 3 voyelles (a, i et u) en fonction du nombre de canaux EEG utilisés ainsi que leur répartition sur le cuir chevelu. Nous aurons recours, pour cela, à un réservoir de neurone à décharge récurrent activé en entrée par les données EEG. Les résultats démontrent que l’information auditive se retrouve en fait dans l’ensemble des canaux EEG et qu’elle n’est pas confinée à un nombre restreint d’électrodes. Il est également montré que lorsque l’on utilise les 64 électrodes que comporte l’EEG pour classifier les 3 voyelles, on obtient une classification de l’ordre de 80%, mais aussi qu’un nombre limité de 10 électrodes suffit pour obtenir une classification satisfaisante et, qu’en plus, la position de ces électrodes sur le cuir chevelu est peu importante.
|
10 |
Contribution à l'analyse statistique des données fontionnelles / Contribution to statistical analysis of functional dataSaumard, Mathieu 23 May 2013 (has links)
Dans cette thèse, nous nous intéressons aux données fonctionnelles. La généralisation du modèle linéaire généralisé fonctionnel au modèle défini par des équations estimantes est étudiée. Nous obtenons un théorème du type théorème de la limite centrale pour l'estimateur considéré. Les instruments optimaux sont estimés, et nous obtenons une convergence uniforme des estimateurs. Nous nous intéressons ensuite à différents tests en données fonctionnelles. Il s'agit de tests non-paramétriques pour étudier l'effet d'une covariable aléatoire fonctionnelle sur un terme d'erreur, qui peut être directement observé comme une réponse ou estimé à partir d'un modèle fonctionnel comme le modèle linéaire fonctionnel. Nous avons prouvé, pour pouvoir mettre en oeuvre les différents tests, un résultat de réduction de la dimension qui s'appuie sur des projections de la covariable fonctionnelle. Nous construisons des tests de non-effet et d'adéquation en utilisant soit un lissage par un noyau, soit un lissage par les plus proches voisins. Un test d'adéquation dans le modèle linéaire fonctionnel est proposé. Tous ces tests sont étudiés d'un point de vue théorique et pratique. / In this thesis, we are interested in the functional data. The problem of estimation in a model of estimating equations is studying. We derive a central limit type theorem for the considered estimator. The optimal instruments are estimated, and we obtain a uniform convergence of the estimators. We are then interested in various testing with functional data. We study the problem of nonparametric testing for the effect of a random functional covariate on an error term which could be directly observed as a response or estimated from a functional model like for instance the functional linear model. We proved, in order to construct the tests, a result of dimension reduction which relies on projections of the functional covariate. We have constructed no-effect tests by using a kernel smoothing or a nearest neighbor smoothing. A goodness-of-fit test in the functional linear model is also proposed. All these tests are studied from a theoretical and practical perspective.
|
Page generated in 0.0635 seconds