Spelling suggestions: "subject:"estatistics -- dethodology"" "subject:"estatistics -- methododology""
11 |
Quelques contributions à la Théorie univariée des Valeurs Extrêmes et Estimation des mesures de risque actuariel pour des pertes à queues lourdesDeme, El Hadji 05 June 2013 (has links) (PDF)
Cette thèse est divisée en cinq chapitres auxquels s'ajoutent une introduction et une conclusion. Dans le premier chapitre, nous rappelons quelques notions de base sur la théorie des valeurs extrêmes. Dans le deuxième chapitre, nous considérons un processus statistique dépendant d'un paramétre continu tau et dont chaque marge peut être considérée comme un estimateur de Hill généralis.. Ce processus statistique permet de discriminer entièrement les domaines d'attraction des valeurs extrêmes. La normalité asymptotique de ce processus statistiquea été seulement donnée pour tau > 1/2. Nous complétons cette étude pour 0 < tau< 1/2, en donnant une approximation des domaines de Gumbel et de Fréchet. Des études de simulations effectuées avec le logiciel " R ", permettent de montrer la performance de ces estimateurs. Comme illustration, nous proposons une application de notre méthodologie aux données hydrauliques. Dans le troisième chapitre, nous étendons l'étude du processus statistique précédent dans un cadre fonctionnel. Nous proposons donc un processus stochastique dépendant d'une fonctionnelle positive pour obtenir une grande classe d'estimateurs de l'indice des valeurs extrêmes dont chaque estimateur est une marge d'un seul processus stochastique. L'étude théorique de ces processus stochastiques que nous avions menée, est basée sur la théorie moderne de convergence vague fonctionnelle. Cette dernière permet de gérer des estimateurs plus complexes sous forme de processus stochastiques. Nous donnons les distributions asymptotiques fonctionnelles de ces processus et nous montrons que pour certaines classes de fonctions, nous avons un comportement asymptotique non Gaussien et qui sera entièrement caractérisé. Dans le quatrième chapitre, on s'intéresse à l'estimation du paramètre du second ordre. Notons que ce paramètre joue un rôle très important dans le choix adaptatif du nombre optimal de valeurs extrêmes utilisé lors de l'estimation de l'indice des valeurs extrêmes. L'estimation de ce paramètre est également utilisée pour la réduction du biais des estimateurs de l'indice de queue et a reçu une grande attention dans la littérature des valeurs extrêmes .Nous proposons une simple et générale approche pour estimer le paramètre du second ordre, permettant de regrouper un grand nombre d'estimateurs. Il est montré que les estimateurs cités précedemment peuvent être vus comme des cas particuliers de notre approche. Nous tirons également parti de notre formalisme pour proposer de nouveaux estimateurs asymptotiquement Gaussiens du paramètre du second ordre. Finalement, certains estimateurs sont comparés tant du point de vue asymptotique que performance sur des échantillons de tailles finies. Comme illustration, nous proposons une application sur des données d'assurance. Dans le dernier chapitre, on s'intéresse aux mesures de risque actuariel pour des phénomènes capables d'engendrer des pertes financières très importantes (ou phenomènes extrêmes c'est-à-dire à des risques dont on ne sait pas si le système d'assurance sera capable de les supporte). De nombreuses mesures de risque ou principes de calcul de la prime ont été proposés dans la littérature actuarielle. Nous nous concentrons sur la prime de risque-ajustée. Jones et Zitikis (2003) ont donné une estimation de cette dernière basée sur la distribution empirique et ont établi sa normalité asymptotique sous certaines conditions appropriées, et qui ne sont pas souvent remplies dans le cas des distributions à queues lourdes. Ainsi, nous regardons ce cadre là et nous considérons une famille d'estimateurs de la prime de risque-ajustée basée sur l'approche de la théorie des valeurs extrêmes. Nous établissons leur normalité asymptotique et nous proposons également une approche de réduction de biais pour ces estimateurs. Des études de simulation permettent d'apprécier la qualité de nos estimateurs. Comme illustration, nous proposons une application sur des données d'assurance.
|
12 |
Comparing Three Approaches for Handling a Fourth Level of Nesting Structure in Cluster-Randomized TrialsGlaman, Ryan 08 1900 (has links)
This study compared 3 approaches for handling a fourth level of nesting structure when analyzing data from a cluster-randomized trial (CRT). CRTs can include 3 levels of nesting: repeated measures, individual, and cluster levels. However, above the cluster level, there may sometimes be an additional potentially important fourth level of nesting (e.g., schools, districts, etc., depending on the design) that is typically ignored in CRT data analysis. The current study examined the impact of ignoring this fourth level, accounting for it using a model-based approach, and accounting it using a design-based approach on parameter and standard error (SE) estimates. Several fixed effect and random effect variance parameters and SEs were biased across all 3 models. In the 4-level model, most SE biases decreased as the number of level 3 clusters increased and as the number of level 4 clusters decreased. Also, random effect variance biases decreased as the number of level 3 clusters increased. In the 3-level and complex models, SEs became more biased as the weight level 4 carried increased (i.e., larger intraclass correlation, more clusters at that level). The current results suggest that if a meaningful fourth level of nesting exists, future researchers should account for it using design-based approach; the model-based approach is not recommended. If the fourth level is not practically important, researchers may ignore it altogether.
|
13 |
Une nouvelle famille de modèles linéaires généralisés (GLMs) pour l'analyse de données catégorielles ; application à la structure et au développement des plantes.Peyhardi, Jean 09 December 2013 (has links) (PDF)
Le but de cette thèse est de proposer une nouvelle classe de GLMs pour une variable réponse catégorielle structurée hiérarchiquement, comme une variable partiellement ordonnée par exemple. Une première étape a été de mettre en évidence les différences et les point communs entre les GLMs pour variables réponses nominale et ordinale. Sur cette base nous avons introduit une nouvelle spécification des GLMs pour variable réponse catégorielle, qu'elle soit ordinale ou nominale, basée sur trois composantes : le ratio de probabilitées r, la fonction de répartition F et la matrice de design Z. Ce cadre de travail nous a permis de définir une nouvelle famille de modèles pour données nominales, comparable aux familles de modèles cumulatifs, séquentiels et adjacents pour données ordinales. Puis nous avons défini la classe des modèles linéaires généralisés partitionnés conditionnels (PCGLMs) en utilisant des arbres orientés et la specification (r,F,Z). Dans notre contexte biologique, les données sont des séquences multivariées composées d'une variable réponse catégorielle (le type de production axillaire) et de variables explicatives (longueur de l'entre-noeud par exemple). Dans les combinaisons semi-markoviennes de modèles linéaires généralisés partitionnés conditionnés (SMS-PCGLM) estimées sur la base de ces séquences, la semi-chaîne de Markov sous-jacente représente la succession et les longueurs des zones de ramification, tandis que les PCGLMs représentent, l'influence des variables explicatives de croissance sur les productions axillaires dans chaque zone de ramification. En utilisant ces modèles statistiques intégratifs, nous avons montré que la croissance de la pousse influençait des événements de ramification particuliers.
|
14 |
Analyse spatio-temporelle de la variabilité hydrologique du bassin versant du Mississippi : rôle des fluctuations climatiques et déduction de l'impact des modifications du milieu physiqueRossi, Aurélien 13 December 2010 (has links) (PDF)
Les grands bassins versants d'échelle continentale, comme le Mississippi, intègrent la réponse hydrologique aux changements climatiques et environnementaux (fluctuations du climat, précipitations, débits, flux sédimentaires) à de larges échelles spatiales et temporelles, mais également les modifications du milieu physique d'origine anthropique (changements d'occupation des sols, aménagements...), ce qui rend parfois difficile l'identification des liens entre la variabilité hydrologique et la variabilité climatique. Les principaux objectifs de ce travail sont de déterminer et de quantifier les relations entre la variabilité hydrologique et les fluctuations du climat (précipitations régionalisées, indices climatiques) à l'échelle du bassin versant du Mississippi et de ses principaux sous-bassins ; via l'utilisation de méthodes d'analyses spectrales adaptées à l'étude des processus instationnaires (analyse en ondelettes continues, analyse de la cohérence par ondelettes). La variabilité hydrologique du Mississippi et de ses principaux affluents est structurée par plusieurs modes de variabilité, s'exprimant de l'échelle annuelle aux échelles inter-annuelle (2-4 ans, 3-6 ans, 5-8 ans), décennale (8-16 ans, 12-16 ans) et à plus long terme (22 ans, 22-26 ans). Ces modes de variabilité sont fortement similaires à ceux observés dans les précipitations (avec une cohérence moyenne de 77% à 89% selon les sous-bassins), et opèrent aux mêmes échelles de temps que la variabilité des principales fluctuations du climat affectant la région (ENSO, PDO, AMO, NAO, NAM et PNA), préalablement identifiés et synthétisés par une méthodologie similaire. La variabilité des débits du bassin versant du Mississippi se trouve influencée par un ensemble de téléconnections (cohérence de 63% à 66% en moyenne avec l'ensemble des indices climatiques), opérant toutefois à différentes échelles spatiales et temporelles, et qui évoluent au cours du temps (relations à divers degrés suivant les différentes échelles de temps, le mode de variabilité du climat mis en jeu et le sous-bassin versant considéré). De plus, la variabilité hydrologique du Mississippi et de ses principaux affluents s'inscrit plus largement dans le cadre d'une rupture majeure du système climatique et des systèmes hydrologiques à l'échelle globale observée vers 1970, qui se traduit notamment par une augmentation et une plus forte variabilité des débits, ainsi que des changements de la composition spectrale des paramètres hydrologiques et climatiques. En ce sens, la construction d'un indice " hydro climatique unifié " à été proposée en reprenant l'ensemble des caractéristiques globales du système climatique et celles plus spécifiques à l'échelle régionale (échelle des sous bassins versants). Enfin, même si la majorité des paramètres hydrologiques se trouve apparemment très fortement liée par les paramètres climatiques, d'autres facteurs, comme les modifications du milieu physique (occupation des sols, aménagements...), peuvent avoir une influence non négligeable sur l'évolution de certains paramètres hydrologiques (hauts et bas débits), mais qui serait beaucoup plus localisée dans le temps et dans l'espace (i.e., elle ne serait pas associée à l'existence d'oscillations dans l'hydrologie). A l'exception des flux hydrosédimentaires, marqués par de profonds changements qui ont pu être reliés aux aménagements du bassin versant et quantifiés par une méthodologie de modélisation spectrale (diminution des flux de sédiments en suspension exportés à l'exutoire d'environ 2,25.10^8 t.an-1 sur la période 1950-1975), ces influences apparaissent spatialement localisées, et restent difficiles à caractériser. Outre leurs faibles contributions, ceci provient également du fait que ces modifications du milieu physique agissent simultanément avec d'autres facteurs pouvant modifier la réponse hydrologique, comme les changements observés dans le climat, qui reste le facteur principal des changements observés.
|
15 |
Développement de méthodes statistiques nécessaires à l'analyse de données génomiques : application à l'influence du polymorphisme génétique sur les caractéristiques cutanées individuelles et l'expression du vieillissement cutané.Bernard, Anne 20 December 2013 (has links) (PDF)
Les nouvelles technologies développées ces dernières années dans le domaine de la génétique ont permis de générer des bases de données de très grande dimension, en particulier de Single Nucleotide Polymorphisms (SNPs), ces bases étant souvent caractérisées par un nombre de variables largement supérieur au nombre d'individus. L'objectif de ce travail a été de développer des méthodes statistiques adaptées à ces jeux de données de grande dimension et permettant de sélectionner les variables les plus pertinentes au regard du problème biologique considéré. Dans la première partie de ce travail, un état de l'art présente différentes méthodes de sélection de variables non supervisées et supervisées pour 2 blocs de variables et plus. Dans la deuxième partie, deux nouvelles méthodes de sélection de variables non supervisées de type "sparse" sont proposées : la Group Sparse Principal Component Analysis (GSPCA) et l'Analyse des Correspondances Multiples sparse (ACM sparse). Vues comme des problèmes de régression avec une pénalisation group LASSO elles conduisent à la sélection de blocs de variables quantitatives et qualitatives, respectivement. La troisième partie est consacrée aux interactions entre SNPs et dans ce cadre, une méthode spécifique de détection d'interactions, la régression logique, est présentée. Enfin, la quatrième partie présente une application de ces méthodes sur un jeu de données réelles de SNPs afin d'étudier l'influence possible du polymorphisme génétique sur l'expression du vieillissement cutané au niveau du visage chez des femmes adultes. Les méthodes développées ont donné des résultats prometteurs répondant aux attentes des biologistes, et qui offrent de nouvelles perspectives de recherches intéressantes
|
16 |
Caractérisation physico-chimique et sensorielle d'ingrédients cosmétiques: une approche méthodologiqueGilbert, Laura 10 December 2012 (has links) (PDF)
La texture des produits cosmétiques est une notion complexe et multidimensionnelle, qui se doit d'être étudiée d'un point de vue sensoriel, mais aussi d'un point de vue instrumental, notamment par rhéologie et analyse de texture. Bien que les deux types de caractérisation semblent être liés, très peu d'études dans le domaine cosmétique ont pu relier la perception sensorielle de la texture aux propriétés instrumentales, rhéologiques et mécaniques des produits. L'objectif de ce travail de thèse a été double : d'une part étudier l'influence d'un ingrédient particulier, le polymère en tant qu'agent texturant, sur les propriétés finales de texture conférées à des crèmes cosmétiques, et d'autre part, mettre en place un outil de prédiction des propriétés sensorielles de texture, par des mesures instrumentales simples à mettre en œuvre. Huit polymères hydrophiles, d'origine naturelle, semi-synthétique ou synthétique ont été incorporés, chacun à hauteur de 1 % massique, dans une émulsion huile dans eau de composition relativement complexe, proche d'un produit réel. Une crème contrôle, sans agent texturant, a également été formulée. Basée sur la méthode Spectrum Descriptive Analysis, une méthodologie d'analyse sensorielle de la texture des crèmes a été développée, permettant de qualifier et quantifier la contribution de chaque polymère aux propriétés de texture finales des crèmes, à l'aide de 8 descripteurs, nommément Brillance, Intégrité de la Forme, Force de Pénétration, Force de Compression, Filant, Difficulté d'Etalement, Absorption et Collant. Ensuite, une analyse rhéologique des produits, réalisée à l'aide de différents tests d'écoulement, d'oscillation en déformation et en temps, et de fluage-relaxation, a permis de caractériser de manière fine le comportement des crèmes à l'échelle microscopique ; tandis qu'une large caractérisation des propriétés mécaniques des produits a été effectuée à l'aide d'un texturomètre, en mettant notamment en place divers tests imitatifs des protocoles d'évaluation sensorielle, et en faisant varier les nombreuses conditions expérimentales. Finalement, de très bons modèles de prédiction ont été obtenus pour six des huit propriétés sensorielles étudiées en utilisant des outils de régressions uni et multivariés. La robustesse et l'efficacité de prédiction des modèles mis en place pour l'Intégrité de la Forme, la Force de Pénétration et le Filant ont été vérifiées par une étape de validation croisée en utilisant 5 nouveaux produits commerciaux. Ainsi, un test imitatif de compression/tension réalisé au texturomètre permet de prédire le Filant, tandis qu'une combinaison de paramètres issus à la fois de tests rhéologiques et mécaniques permet de prédire les deux autres propriétés, et ce pour des produits de textures variées.
|
17 |
Mélanges bayésiens de modèles d'extrêmes multivariés, Application à la prédétermination régionale des crues avec données incomplètes.Anne, Sabourin 24 September 2013 (has links) (PDF)
La théorie statistique univariée des valeurs extrêmes se généralise au cas multivarié mais l'absence d'un cadre paramétrique naturel complique l'inférence de la loi jointe des extrêmes. Les marges d'erreur associées aux estimateurs non paramétriques de la structure de dépendance sont difficilement accessibles à partir de la dimension trois. Cependant, quantifier l'incertitude est d'autant plus important pour les applications que le problème de la rareté des données extrêmes est récurrent, en particulier en hydrologie. L'objet de cette thèse est de développer des modèles de dépendance entre extrêmes, dans un cadre bayésien permettant de représenter l'incertitude. Après une introduction à la théorie des valeurs extrêmes et à l'inférence bayésienne (chapitre 1), le chapitre 2 explore les propriétés des modèles obtenus en combinant des modèles paramétriques existants, par mélange bayésien (Bayesian Model Averaging). Un modèle semi-paramétrique de mélange de Dirichlet est étudié au chapitre suivant : une nouvelle paramétrisation est introduite afin de s'affranchir d'une contrainte de moments caractéristique de la structure de dépendance et de faciliter l'échantillonnage de la loi a posteriori. Le chapitre~\ref{censorDiri} est motivé par une application hydrologique: il s'agit d'estimer la structure de dépendance spatiale des crues extrêmes dans la région cévenole des Gardons en utilisant des données historiques enregistrées en quatre points. Les données anciennes augmentent la taille de l'échantillon mais beaucoup de ces données sont censurées. Une méthode d'augmentation de données est introduite, dans le cadre du mélange de Dirichlet, palliant l'absence d'expression explicite de la vraisemblance censurée. Les perspectives sont discutées au chapitre 5.
|
18 |
Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animaleHamon, Julie 26 November 2013 (has links) (PDF)
Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant flexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les différentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diffusion.
|
19 |
Prévisions hydrologiques d'ensemble : développements pour améliorer la qualité des prévisions et estimer leur utilitéZalachori, Ioanna 19 April 2013 (has links) (PDF)
La dernière décennie a vu l'émergence de la prévision probabiliste de débits en tant qu'approche plus adaptée pour l'anticipation des risques et la mise en vigilance pour lasécurité des personnes et des biens. Cependant, au delà du gain en sécurité, la valeur ajoutée de l'information probabiliste se traduit également en gains économiques ou en une gestion optimale de la ressource en eau disponible pour les activités économiques qui en dépendent. Dans la chaîne de prévision de débits, l'incertitude des modèles météorologiques de prévision de pluies joue un rôle important. Pour pouvoir aller au-delà des limites de prévisibilité classiques, les services météorologiques font appel aux systèmes de prévision d'ensemble,générés sur la base de variations imposées dans les conditions initiales des modèlesnumériques et de variations stochastiques de leur paramétrisation. Des scénarioséquiprobables de l'évolution de l'atmosphère pour des horizons de prévision pouvant aller jusqu'à 10-15 jours sont ainsi proposés. L'intégration des prévisions météorologiques d'ensemble dans la chaîne de prévision hydrologique se présente comme une approche séduisante pour produire des prévisions probabilistes de débits et quantifier l'incertitude prédictive totale en hydrologie.
|
20 |
Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire.Giacofci, Madison 22 October 2013 (has links) (PDF)
Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte.
|
Page generated in 0.1773 seconds