Global ETD Search

1	Indices de Sobol généralisés pour variables dépendantes Chastaing, Gaëlle 23 September 2013 (has links) (PDF) Dans un modèle qui peut s'avérer complexe et fortement non linéaire, les paramètres d'entrée, parfois en très grand nombre, peuvent être à l'origine d'une importante variabilité de la sortie. L'analyse de sensibilité globale est une approche stochastique permettant de repérer les principales sources d'incertitude du modèle, c'est-à-dire d'identifier et de hiérarchiser les variables d'entrée les plus influentes. De cette manière, il est possible de réduire la dimension d'un problème, et de diminuer l'incertitude des entrées. Les indices de Sobol, dont la construction repose sur une décomposition de la variance globale du modèle, sont des mesures très fréquemment utilisées pour atteindre de tels objectifs. Néanmoins, ces indices se basent sur la décomposition fonctionnelle de la sortie, aussi connue sous le nom de décomposition de Hoeffding. Mais cette décomposition n'est unique que si les variables d'entrée sont supposées indépendantes. Dans cette thèse, nous nous intéressons à l'extension des indices de Sobol pour des modèles à variables d'entrée dépendantes. Dans un premier temps, nous proposons une généralisation de la décomposition de Hoeffding au cas où la forme de la distribution des entrées est plus générale qu'une distribution produit. De cette décomposition généralisée aux contraintes d'orthogonalité spécifiques, il en découle la construction d'indices de sensibilité généralisés capable de mesurer la variabilité d'un ou plusieurs facteurs corrélés dans le modèle. Dans un second temps, nous proposons deux méthodes d'estimation de ces indices. La première est adaptée à des modèles à entrées dépendantes par paires. Elle repose sur la résolution numérique d'un système linéaire fonctionnel qui met en jeu des opérateurs de projection. La seconde méthode, qui peut s'appliquer à des modèles beaucoup plus généraux, repose sur la construction récursive d'un système de fonctions qui satisfont les contraintes d'orthogonalité liées à la décomposition généralisée. En parallèle, nous mettons en pratique ces méthodes sur différents cas tests. [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie analyse de sensibilité décomposition fonctionnelle ANOVA variables dépendantes sélection de variables
2	Méthode des réseaux en analyse de données, application à l'analyse de concordance Tricot, Jean-Marie 29 June 1990 (has links) (PDF) Dans les différents domaines de la statistique descriptive, les données se présentent sous forme de nuages de points; sur ceux-ci, on est souvent amené à faire des études de proximité ou, plus généralement, de similarité, permettant de faire des analyses de structure. Il en est ainsi en analyse de concordance où il s'agit d'apprécier le degré d'accord entre d observateurs évaluant le même ensemble de n sujets au moyen d'une échelle de valeurs possibles prises par une variable (on peut généraliser le problème à plusieurs variables). [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Réseau Analyse de données Analyse de concordance projections révélatrice
3	Quelques contributions à la Théorie univariée des Valeurs Extrêmes et Estimation des mesures de risque actuariel pour des pertes à queues lourdes Deme, El Hadji 05 June 2013 (has links) (PDF) Cette thèse est divisée en cinq chapitres auxquels s'ajoutent une introduction et une conclusion. Dans le premier chapitre, nous rappelons quelques notions de base sur la théorie des valeurs extrêmes. Dans le deuxième chapitre, nous considérons un processus statistique dépendant d'un paramétre continu tau et dont chaque marge peut être considérée comme un estimateur de Hill généralis.. Ce processus statistique permet de discriminer entièrement les domaines d'attraction des valeurs extrêmes. La normalité asymptotique de ce processus statistiquea été seulement donnée pour tau > 1/2. Nous complétons cette étude pour 0 < tau< 1/2, en donnant une approximation des domaines de Gumbel et de Fréchet. Des études de simulations effectuées avec le logiciel " R ", permettent de montrer la performance de ces estimateurs. Comme illustration, nous proposons une application de notre méthodologie aux données hydrauliques. Dans le troisième chapitre, nous étendons l'étude du processus statistique précédent dans un cadre fonctionnel. Nous proposons donc un processus stochastique dépendant d'une fonctionnelle positive pour obtenir une grande classe d'estimateurs de l'indice des valeurs extrêmes dont chaque estimateur est une marge d'un seul processus stochastique. L'étude théorique de ces processus stochastiques que nous avions menée, est basée sur la théorie moderne de convergence vague fonctionnelle. Cette dernière permet de gérer des estimateurs plus complexes sous forme de processus stochastiques. Nous donnons les distributions asymptotiques fonctionnelles de ces processus et nous montrons que pour certaines classes de fonctions, nous avons un comportement asymptotique non Gaussien et qui sera entièrement caractérisé. Dans le quatrième chapitre, on s'intéresse à l'estimation du paramètre du second ordre. Notons que ce paramètre joue un rôle très important dans le choix adaptatif du nombre optimal de valeurs extrêmes utilisé lors de l'estimation de l'indice des valeurs extrêmes. L'estimation de ce paramètre est également utilisée pour la réduction du biais des estimateurs de l'indice de queue et a reçu une grande attention dans la littérature des valeurs extrêmes .Nous proposons une simple et générale approche pour estimer le paramètre du second ordre, permettant de regrouper un grand nombre d'estimateurs. Il est montré que les estimateurs cités précedemment peuvent être vus comme des cas particuliers de notre approche. Nous tirons également parti de notre formalisme pour proposer de nouveaux estimateurs asymptotiquement Gaussiens du paramètre du second ordre. Finalement, certains estimateurs sont comparés tant du point de vue asymptotique que performance sur des échantillons de tailles finies. Comme illustration, nous proposons une application sur des données d'assurance. Dans le dernier chapitre, on s'intéresse aux mesures de risque actuariel pour des phénomènes capables d'engendrer des pertes financières très importantes (ou phenomènes extrêmes c'est-à-dire à des risques dont on ne sait pas si le système d'assurance sera capable de les supporte). De nombreuses mesures de risque ou principes de calcul de la prime ont été proposés dans la littérature actuarielle. Nous nous concentrons sur la prime de risque-ajustée. Jones et Zitikis (2003) ont donné une estimation de cette dernière basée sur la distribution empirique et ont établi sa normalité asymptotique sous certaines conditions appropriées, et qui ne sont pas souvent remplies dans le cas des distributions à queues lourdes. Ainsi, nous regardons ce cadre là et nous considérons une famille d'estimateurs de la prime de risque-ajustée basée sur l'approche de la théorie des valeurs extrêmes. Nous établissons leur normalité asymptotique et nous proposons également une approche de réduction de biais pour ces estimateurs. Des études de simulation permettent d'apprécier la qualité de nos estimateurs. Comme illustration, nous proposons une application sur des données d'assurance. [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie Théorie des valeurs extrêmes processus statistique estimation queue lourde indice de queue paramètre du second ordre estimateur de Hill prime de risque propriétés asymptotiques
4	Une nouvelle famille de modèles linéaires généralisés (GLMs) pour l'analyse de données catégorielles ; application à la structure et au développement des plantes. Peyhardi, Jean 09 December 2013 (has links) (PDF) Le but de cette thèse est de proposer une nouvelle classe de GLMs pour une variable réponse catégorielle structurée hiérarchiquement, comme une variable partiellement ordonnée par exemple. Une première étape a été de mettre en évidence les différences et les point communs entre les GLMs pour variables réponses nominale et ordinale. Sur cette base nous avons introduit une nouvelle spécification des GLMs pour variable réponse catégorielle, qu'elle soit ordinale ou nominale, basée sur trois composantes : le ratio de probabilitées r, la fonction de répartition F et la matrice de design Z. Ce cadre de travail nous a permis de définir une nouvelle famille de modèles pour données nominales, comparable aux familles de modèles cumulatifs, séquentiels et adjacents pour données ordinales. Puis nous avons défini la classe des modèles linéaires généralisés partitionnés conditionnels (PCGLMs) en utilisant des arbres orientés et la specification (r,F,Z). Dans notre contexte biologique, les données sont des séquences multivariées composées d'une variable réponse catégorielle (le type de production axillaire) et de variables explicatives (longueur de l'entre-noeud par exemple). Dans les combinaisons semi-markoviennes de modèles linéaires généralisés partitionnés conditionnés (SMS-PCGLM) estimées sur la base de ces séquences, la semi-chaîne de Markov sous-jacente représente la succession et les longueurs des zones de ramification, tandis que les PCGLMs représentent, l'influence des variables explicatives de croissance sur les productions axillaires dans chaque zone de ramification. En utilisant ces modèles statistiques intégratifs, nous avons montré que la croissance de la pousse influençait des événements de ramification particuliers. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning fonction de lien variable nominale variable ordinale variable structurée hiérarchiquement reparametrisation de modèle motif de ramification
5	Développement de méthodes statistiques nécessaires à l'analyse de données génomiques : application à l'influence du polymorphisme génétique sur les caractéristiques cutanées individuelles et l'expression du vieillissement cutané. Bernard, Anne 20 December 2013 (has links) (PDF) Les nouvelles technologies développées ces dernières années dans le domaine de la génétique ont permis de générer des bases de données de très grande dimension, en particulier de Single Nucleotide Polymorphisms (SNPs), ces bases étant souvent caractérisées par un nombre de variables largement supérieur au nombre d'individus. L'objectif de ce travail a été de développer des méthodes statistiques adaptées à ces jeux de données de grande dimension et permettant de sélectionner les variables les plus pertinentes au regard du problème biologique considéré. Dans la première partie de ce travail, un état de l'art présente différentes méthodes de sélection de variables non supervisées et supervisées pour 2 blocs de variables et plus. Dans la deuxième partie, deux nouvelles méthodes de sélection de variables non supervisées de type "sparse" sont proposées : la Group Sparse Principal Component Analysis (GSPCA) et l'Analyse des Correspondances Multiples sparse (ACM sparse). Vues comme des problèmes de régression avec une pénalisation group LASSO elles conduisent à la sélection de blocs de variables quantitatives et qualitatives, respectivement. La troisième partie est consacrée aux interactions entre SNPs et dans ce cadre, une méthode spécifique de détection d'interactions, la régression logique, est présentée. Enfin, la quatrième partie présente une application de ces méthodes sur un jeu de données réelles de SNPs afin d'étudier l'influence possible du polymorphisme génétique sur l'expression du vieillissement cutané au niveau du visage chez des femmes adultes. Les méthodes développées ont donné des résultats prometteurs répondant aux attentes des biologistes, et qui offrent de nouvelles perspectives de recherches intéressantes [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Sélection de variables ACP sparse Acm SNP-SNP interactions Régression logique Méthodes multiblocs Méthodes sparse non supervisées
6	Caractérisation physico-chimique et sensorielle d'ingrédients cosmétiques: une approche méthodologique Gilbert, Laura 10 December 2012 (has links) (PDF) La texture des produits cosmétiques est une notion complexe et multidimensionnelle, qui se doit d'être étudiée d'un point de vue sensoriel, mais aussi d'un point de vue instrumental, notamment par rhéologie et analyse de texture. Bien que les deux types de caractérisation semblent être liés, très peu d'études dans le domaine cosmétique ont pu relier la perception sensorielle de la texture aux propriétés instrumentales, rhéologiques et mécaniques des produits. L'objectif de ce travail de thèse a été double : d'une part étudier l'influence d'un ingrédient particulier, le polymère en tant qu'agent texturant, sur les propriétés finales de texture conférées à des crèmes cosmétiques, et d'autre part, mettre en place un outil de prédiction des propriétés sensorielles de texture, par des mesures instrumentales simples à mettre en œuvre. Huit polymères hydrophiles, d'origine naturelle, semi-synthétique ou synthétique ont été incorporés, chacun à hauteur de 1 % massique, dans une émulsion huile dans eau de composition relativement complexe, proche d'un produit réel. Une crème contrôle, sans agent texturant, a également été formulée. Basée sur la méthode Spectrum Descriptive Analysis, une méthodologie d'analyse sensorielle de la texture des crèmes a été développée, permettant de qualifier et quantifier la contribution de chaque polymère aux propriétés de texture finales des crèmes, à l'aide de 8 descripteurs, nommément Brillance, Intégrité de la Forme, Force de Pénétration, Force de Compression, Filant, Difficulté d'Etalement, Absorption et Collant. Ensuite, une analyse rhéologique des produits, réalisée à l'aide de différents tests d'écoulement, d'oscillation en déformation et en temps, et de fluage-relaxation, a permis de caractériser de manière fine le comportement des crèmes à l'échelle microscopique ; tandis qu'une large caractérisation des propriétés mécaniques des produits a été effectuée à l'aide d'un texturomètre, en mettant notamment en place divers tests imitatifs des protocoles d'évaluation sensorielle, et en faisant varier les nombreuses conditions expérimentales. Finalement, de très bons modèles de prédiction ont été obtenus pour six des huit propriétés sensorielles étudiées en utilisant des outils de régressions uni et multivariés. La robustesse et l'efficacité de prédiction des modèles mis en place pour l'Intégrité de la Forme, la Force de Pénétration et le Filant ont été vérifiées par une étape de validation croisée en utilisant 5 nouveaux produits commerciaux. Ainsi, un test imitatif de compression/tension réalisé au texturomètre permet de prédire le Filant, tandis qu'une combinaison de paramètres issus à la fois de tests rhéologiques et mécaniques permet de prédire les deux autres propriétés, et ce pour des produits de textures variées. [CHIM:POLY] Chemical Sciences/Polymers [CHIM:POLY] Chimie/Polymères [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie Texture émulsions polymères prédiction sensoriel rhéologie crèmes cosmétiques
7	Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale Hamon, Julie 26 November 2013 (has links) (PDF) Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant ﬂexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les diﬀérentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diﬀusion. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [MATH:MATH_CO] Mathematics/Combinatorics Sélection de variables régression optimisation combinatoire modèle mixte grande dimension génomique animale
8	Prévisions hydrologiques d'ensemble : développements pour améliorer la qualité des prévisions et estimer leur utilité Zalachori, Ioanna 19 April 2013 (has links) (PDF) La dernière décennie a vu l'émergence de la prévision probabiliste de débits en tant qu'approche plus adaptée pour l'anticipation des risques et la mise en vigilance pour lasécurité des personnes et des biens. Cependant, au delà du gain en sécurité, la valeur ajoutée de l'information probabiliste se traduit également en gains économiques ou en une gestion optimale de la ressource en eau disponible pour les activités économiques qui en dépendent. Dans la chaîne de prévision de débits, l'incertitude des modèles météorologiques de prévision de pluies joue un rôle important. Pour pouvoir aller au-delà des limites de prévisibilité classiques, les services météorologiques font appel aux systèmes de prévision d'ensemble,générés sur la base de variations imposées dans les conditions initiales des modèlesnumériques et de variations stochastiques de leur paramétrisation. Des scénarioséquiprobables de l'évolution de l'atmosphère pour des horizons de prévision pouvant aller jusqu'à 10-15 jours sont ainsi proposés. L'intégration des prévisions météorologiques d'ensemble dans la chaîne de prévision hydrologique se présente comme une approche séduisante pour produire des prévisions probabilistes de débits et quantifier l'incertitude prédictive totale en hydrologie. [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Prévisions probabilistes d'ensemble Modèle hydrologique Evaluation Incertitude Traitement statistique Valorisation des prévisions
9	Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire. Giacofci, Madison 22 October 2013 (has links) (PDF) Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Ondelettes modèles mixtes classification non supervisée réduction de dimension algorithme EM sélection de variables
10	Contributions à la simulation des évènements rares dans les systèmes complexes Morio, Jérôme 09 December 2013 (has links) (PDF) Les trois principales parties qui composent ce dossier de synthèse HDR présentent, dans un premier temps, le contexte encadrant ces recherches et précisent les différents thèmes scientifiques abordés au cours de celles-ci, puis détaillent mes activités de publications, de communications, d'enseignement, d'administration de la recherche et enfin d'encadrement. Dans une seconde partie, ce mémoire aborde certains aboutissements de mes recherches, ici certaines contributions scientifiques que j'ai proposées, développant les méthodes d'estimation d'évènements rares dans les systèmes complexes. Enfin, un choix représentatif de cinq publications dont je suis co-auteur est proposé en conclusion de ce mémoire. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Probabilité statistiques simulation d'évènements rares systèmes complexes

Search results