Global ETD Search

1	Contributions à l'apprentissage statistique en grande dimension, adaptatif et sur données atypiques Bouveyron, Charles 29 November 2012 (has links) (PDF) Ce mémoire rend compte de mes activités de recherche depuis ma thèse de doctorat. Mes travaux s'inscrivent dans le cadre de l'apprentissage statistique et s'articulent plus précisément autour des quatre thématiques suivantes: * apprentissage statistique en grande dimension, * apprentissage statistique adaptatif, * apprentissage statistique sur données atypiques, * applications de l'apprentissage statistique. Mes contributions à ces quatre thématiques sont décrites en autant de chapitres, numérotés de 2 à 5, pouvant être lus indépendamment. Ce mémoire se veut également être, en quelque sorte, un plaidoyer pour l'usage des méthodes génératives (reposant sur un modèle probabiliste) en apprentissage statistique moderne. Il sera en effet démontré dans ce document, je l'espère de façon convaincante, que les méthodes génératives peuvent résoudre efficacement les problèmes actuels de l'apprentissage statistique tout en présentant l'avantage de l'interprétabilité des résultats et de la connaissance du risque de prédiction. [STAT:ME] Statistics/Methodology apprentissage statistique grande dimension méthodes adaptatives données atypiques
2	Détection de ruptures pour les signaux multidimensionnels. Application à la détection d'anomalies dans les réseaux. Lung-Yut-Fong, Alexandre 06 December 2011 (has links) (PDF) L'objectif de cette thèse est de proposer des méthodes non-paramétriques de détection rétrospective de ruptures. L'application principale de cette étude est la détection d'attaques dans les réseaux informatiques à partir de données recueillies par plusieurs sondes disséminées dans le réseau. Nous proposons dans un premier temps une méthode en trois étapes de détection décentralisée d'anomalies faisant coopérer des sondes n'ayant accès qu'à une partie du trafic réseau. Un des avantages de cette approche est la possibilité de traiter un flux massif de données, ce qui est permis par une étape de filtrage par records. Un traitement local est effectué dans chaque sonde, et une synthèse est réalisée dans un centre de fusion. La détection est effectuée à l'aide d'un test de rang qui est inspiré par le test de rang de Wilcoxon et étendu aux données censurées. Dans une seconde partie, nous proposons d'exploiter les relations de dépendance entre les données recueillies par les différents capteurs afin d'améliorer les performances de détection. Nous proposons ainsi une méthode non-paramétrique de détection d'une ou plusieurs ruptures dans un signal multidimensionnel. Cette méthode s'appuie sur un test d'homogénéité utilisant un test de rang multivarié. Nous décrivons les propriétés asymptotiques de ce test ainsi que ses performances sur divers jeux de données (bio-informatiques, économétriques ou réseau). La méthode proposée obtient de très bons résultats, en particulier lorsque la distribution des données est atypique (par exemple en présence de valeurs aberrantes). [STAT:ME] Statistics/Methodology détection de ruptures détection de changement test d'homogénéité test de rang segmentation signaux multivariés
3	Indices de Sobol généralisés pour variables dépendantes Chastaing, Gaëlle 23 September 2013 (has links) (PDF) Dans un modèle qui peut s'avérer complexe et fortement non linéaire, les paramètres d'entrée, parfois en très grand nombre, peuvent être à l'origine d'une importante variabilité de la sortie. L'analyse de sensibilité globale est une approche stochastique permettant de repérer les principales sources d'incertitude du modèle, c'est-à-dire d'identifier et de hiérarchiser les variables d'entrée les plus influentes. De cette manière, il est possible de réduire la dimension d'un problème, et de diminuer l'incertitude des entrées. Les indices de Sobol, dont la construction repose sur une décomposition de la variance globale du modèle, sont des mesures très fréquemment utilisées pour atteindre de tels objectifs. Néanmoins, ces indices se basent sur la décomposition fonctionnelle de la sortie, aussi connue sous le nom de décomposition de Hoeffding. Mais cette décomposition n'est unique que si les variables d'entrée sont supposées indépendantes. Dans cette thèse, nous nous intéressons à l'extension des indices de Sobol pour des modèles à variables d'entrée dépendantes. Dans un premier temps, nous proposons une généralisation de la décomposition de Hoeffding au cas où la forme de la distribution des entrées est plus générale qu'une distribution produit. De cette décomposition généralisée aux contraintes d'orthogonalité spécifiques, il en découle la construction d'indices de sensibilité généralisés capable de mesurer la variabilité d'un ou plusieurs facteurs corrélés dans le modèle. Dans un second temps, nous proposons deux méthodes d'estimation de ces indices. La première est adaptée à des modèles à entrées dépendantes par paires. Elle repose sur la résolution numérique d'un système linéaire fonctionnel qui met en jeu des opérateurs de projection. La seconde méthode, qui peut s'appliquer à des modèles beaucoup plus généraux, repose sur la construction récursive d'un système de fonctions qui satisfont les contraintes d'orthogonalité liées à la décomposition généralisée. En parallèle, nous mettons en pratique ces méthodes sur différents cas tests. [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie analyse de sensibilité décomposition fonctionnelle ANOVA variables dépendantes sélection de variables
4	Méthode des réseaux en analyse de données, application à l'analyse de concordance Tricot, Jean-Marie 29 June 1990 (has links) (PDF) Dans les différents domaines de la statistique descriptive, les données se présentent sous forme de nuages de points; sur ceux-ci, on est souvent amené à faire des études de proximité ou, plus généralement, de similarité, permettant de faire des analyses de structure. Il en est ainsi en analyse de concordance où il s'agit d'apprécier le degré d'accord entre d observateurs évaluant le même ensemble de n sujets au moyen d'une échelle de valeurs possibles prises par une variable (on peut généraliser le problème à plusieurs variables). [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Réseau Analyse de données Analyse de concordance projections révélatrice
5	Inférence statistique dans les modèles mixtes à dynamique Markovienne Delattre, Maud 04 July 2012 (has links) (PDF) La première partie de cette thèse est consacrée à l'estimation par maximum de vraisemblance dans les modèles mixtes à dynamique markovienne. Nous considérons plus précisément des modèles de Markov cachés à effets mixtes et des modèles de diffusion à effets mixtes. Dans le Chapitre 2, nous combinons l'algorithme de Baum-Welch à l'algorithme SAEM pour estimer les paramètres de population dans les modèles de Markov cachés à effets mixtes. Nous proposons également des procédures spécifiques pour estimer les paramètres individuels et les séquences d' états cachées. Nous étudions les propriétés de cette nouvelle méthodologie sur des données simulées et l'appliquons sur des données réelles de nombres de crises d' épilepsie. Dans le Chapitre 3, nous proposons d'abord des modèles de diffusion à effets mixtes pour la pharmacocin étique de population. Nous en estimons les paramètres en combinant l'algorithme SAEM a un filtre de Kalman étendu. Nous étudions ensuite les propriétés asymptotiques de l'estimateur du maximum de vraisemblance dans des modèles de diffusion observés sans bruit de mesure continûment sur un intervalle de temps fixe lorsque le nombre de sujets tend vers l'infini. Le Chapitre 4 est consacré a la s élection de covariables dans des modèles mixtes généraux. Nous proposons une version du BIC adaptée au contexte de double asymptotique où le nombre de sujets et le nombre d'observations par sujet tendent vers l'infini. Nous présentons quelques simulations pour illustrer cette procédure. [STAT:AP] Statistics/Applications [STAT:ME] Statistics/Methodology maximum de vraisemblance modèles à effets mixtes modèles de Markov cachés algorithme SAEM sélection de modèles pharmacologie
6	Quelques contributions à la Théorie univariée des Valeurs Extrêmes et Estimation des mesures de risque actuariel pour des pertes à queues lourdes Deme, El Hadji 05 June 2013 (has links) (PDF) Cette thèse est divisée en cinq chapitres auxquels s'ajoutent une introduction et une conclusion. Dans le premier chapitre, nous rappelons quelques notions de base sur la théorie des valeurs extrêmes. Dans le deuxième chapitre, nous considérons un processus statistique dépendant d'un paramétre continu tau et dont chaque marge peut être considérée comme un estimateur de Hill généralis.. Ce processus statistique permet de discriminer entièrement les domaines d'attraction des valeurs extrêmes. La normalité asymptotique de ce processus statistiquea été seulement donnée pour tau > 1/2. Nous complétons cette étude pour 0 < tau< 1/2, en donnant une approximation des domaines de Gumbel et de Fréchet. Des études de simulations effectuées avec le logiciel " R ", permettent de montrer la performance de ces estimateurs. Comme illustration, nous proposons une application de notre méthodologie aux données hydrauliques. Dans le troisième chapitre, nous étendons l'étude du processus statistique précédent dans un cadre fonctionnel. Nous proposons donc un processus stochastique dépendant d'une fonctionnelle positive pour obtenir une grande classe d'estimateurs de l'indice des valeurs extrêmes dont chaque estimateur est une marge d'un seul processus stochastique. L'étude théorique de ces processus stochastiques que nous avions menée, est basée sur la théorie moderne de convergence vague fonctionnelle. Cette dernière permet de gérer des estimateurs plus complexes sous forme de processus stochastiques. Nous donnons les distributions asymptotiques fonctionnelles de ces processus et nous montrons que pour certaines classes de fonctions, nous avons un comportement asymptotique non Gaussien et qui sera entièrement caractérisé. Dans le quatrième chapitre, on s'intéresse à l'estimation du paramètre du second ordre. Notons que ce paramètre joue un rôle très important dans le choix adaptatif du nombre optimal de valeurs extrêmes utilisé lors de l'estimation de l'indice des valeurs extrêmes. L'estimation de ce paramètre est également utilisée pour la réduction du biais des estimateurs de l'indice de queue et a reçu une grande attention dans la littérature des valeurs extrêmes .Nous proposons une simple et générale approche pour estimer le paramètre du second ordre, permettant de regrouper un grand nombre d'estimateurs. Il est montré que les estimateurs cités précedemment peuvent être vus comme des cas particuliers de notre approche. Nous tirons également parti de notre formalisme pour proposer de nouveaux estimateurs asymptotiquement Gaussiens du paramètre du second ordre. Finalement, certains estimateurs sont comparés tant du point de vue asymptotique que performance sur des échantillons de tailles finies. Comme illustration, nous proposons une application sur des données d'assurance. Dans le dernier chapitre, on s'intéresse aux mesures de risque actuariel pour des phénomènes capables d'engendrer des pertes financières très importantes (ou phenomènes extrêmes c'est-à-dire à des risques dont on ne sait pas si le système d'assurance sera capable de les supporte). De nombreuses mesures de risque ou principes de calcul de la prime ont été proposés dans la littérature actuarielle. Nous nous concentrons sur la prime de risque-ajustée. Jones et Zitikis (2003) ont donné une estimation de cette dernière basée sur la distribution empirique et ont établi sa normalité asymptotique sous certaines conditions appropriées, et qui ne sont pas souvent remplies dans le cas des distributions à queues lourdes. Ainsi, nous regardons ce cadre là et nous considérons une famille d'estimateurs de la prime de risque-ajustée basée sur l'approche de la théorie des valeurs extrêmes. Nous établissons leur normalité asymptotique et nous proposons également une approche de réduction de biais pour ces estimateurs. Des études de simulation permettent d'apprécier la qualité de nos estimateurs. Comme illustration, nous proposons une application sur des données d'assurance. [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie Théorie des valeurs extrêmes processus statistique estimation queue lourde indice de queue paramètre du second ordre estimateur de Hill prime de risque propriétés asymptotiques
7	Une nouvelle famille de modèles linéaires généralisés (GLMs) pour l'analyse de données catégorielles ; application à la structure et au développement des plantes. Peyhardi, Jean 09 December 2013 (has links) (PDF) Le but de cette thèse est de proposer une nouvelle classe de GLMs pour une variable réponse catégorielle structurée hiérarchiquement, comme une variable partiellement ordonnée par exemple. Une première étape a été de mettre en évidence les différences et les point communs entre les GLMs pour variables réponses nominale et ordinale. Sur cette base nous avons introduit une nouvelle spécification des GLMs pour variable réponse catégorielle, qu'elle soit ordinale ou nominale, basée sur trois composantes : le ratio de probabilitées r, la fonction de répartition F et la matrice de design Z. Ce cadre de travail nous a permis de définir une nouvelle famille de modèles pour données nominales, comparable aux familles de modèles cumulatifs, séquentiels et adjacents pour données ordinales. Puis nous avons défini la classe des modèles linéaires généralisés partitionnés conditionnels (PCGLMs) en utilisant des arbres orientés et la specification (r,F,Z). Dans notre contexte biologique, les données sont des séquences multivariées composées d'une variable réponse catégorielle (le type de production axillaire) et de variables explicatives (longueur de l'entre-noeud par exemple). Dans les combinaisons semi-markoviennes de modèles linéaires généralisés partitionnés conditionnés (SMS-PCGLM) estimées sur la base de ces séquences, la semi-chaîne de Markov sous-jacente représente la succession et les longueurs des zones de ramification, tandis que les PCGLMs représentent, l'influence des variables explicatives de croissance sur les productions axillaires dans chaque zone de ramification. En utilisant ces modèles statistiques intégratifs, nous avons montré que la croissance de la pousse influençait des événements de ramification particuliers. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning fonction de lien variable nominale variable ordinale variable structurée hiérarchiquement reparametrisation de modèle motif de ramification
8	Analyse spatio-temporelle de la variabilité hydrologique du bassin versant du Mississippi : rôle des fluctuations climatiques et déduction de l'impact des modifications du milieu physique Rossi, Aurélien 13 December 2010 (has links) (PDF) Les grands bassins versants d'échelle continentale, comme le Mississippi, intègrent la réponse hydrologique aux changements climatiques et environnementaux (fluctuations du climat, précipitations, débits, flux sédimentaires) à de larges échelles spatiales et temporelles, mais également les modifications du milieu physique d'origine anthropique (changements d'occupation des sols, aménagements...), ce qui rend parfois difficile l'identification des liens entre la variabilité hydrologique et la variabilité climatique. Les principaux objectifs de ce travail sont de déterminer et de quantifier les relations entre la variabilité hydrologique et les fluctuations du climat (précipitations régionalisées, indices climatiques) à l'échelle du bassin versant du Mississippi et de ses principaux sous-bassins ; via l'utilisation de méthodes d'analyses spectrales adaptées à l'étude des processus instationnaires (analyse en ondelettes continues, analyse de la cohérence par ondelettes). La variabilité hydrologique du Mississippi et de ses principaux affluents est structurée par plusieurs modes de variabilité, s'exprimant de l'échelle annuelle aux échelles inter-annuelle (2-4 ans, 3-6 ans, 5-8 ans), décennale (8-16 ans, 12-16 ans) et à plus long terme (22 ans, 22-26 ans). Ces modes de variabilité sont fortement similaires à ceux observés dans les précipitations (avec une cohérence moyenne de 77% à 89% selon les sous-bassins), et opèrent aux mêmes échelles de temps que la variabilité des principales fluctuations du climat affectant la région (ENSO, PDO, AMO, NAO, NAM et PNA), préalablement identifiés et synthétisés par une méthodologie similaire. La variabilité des débits du bassin versant du Mississippi se trouve influencée par un ensemble de téléconnections (cohérence de 63% à 66% en moyenne avec l'ensemble des indices climatiques), opérant toutefois à différentes échelles spatiales et temporelles, et qui évoluent au cours du temps (relations à divers degrés suivant les différentes échelles de temps, le mode de variabilité du climat mis en jeu et le sous-bassin versant considéré). De plus, la variabilité hydrologique du Mississippi et de ses principaux affluents s'inscrit plus largement dans le cadre d'une rupture majeure du système climatique et des systèmes hydrologiques à l'échelle globale observée vers 1970, qui se traduit notamment par une augmentation et une plus forte variabilité des débits, ainsi que des changements de la composition spectrale des paramètres hydrologiques et climatiques. En ce sens, la construction d'un indice " hydro climatique unifié " à été proposée en reprenant l'ensemble des caractéristiques globales du système climatique et celles plus spécifiques à l'échelle régionale (échelle des sous bassins versants). Enfin, même si la majorité des paramètres hydrologiques se trouve apparemment très fortement liée par les paramètres climatiques, d'autres facteurs, comme les modifications du milieu physique (occupation des sols, aménagements...), peuvent avoir une influence non négligeable sur l'évolution de certains paramètres hydrologiques (hauts et bas débits), mais qui serait beaucoup plus localisée dans le temps et dans l'espace (i.e., elle ne serait pas associée à l'existence d'oscillations dans l'hydrologie). A l'exception des flux hydrosédimentaires, marqués par de profonds changements qui ont pu être reliés aux aménagements du bassin versant et quantifiés par une méthodologie de modélisation spectrale (diminution des flux de sédiments en suspension exportés à l'exutoire d'environ 2,25.10^8 t.an-1 sur la période 1950-1975), ces influences apparaissent spatialement localisées, et restent difficiles à caractériser. Outre leurs faibles contributions, ceci provient également du fait que ces modifications du milieu physique agissent simultanément avec d'autres facteurs pouvant modifier la réponse hydrologique, comme les changements observés dans le climat, qui reste le facteur principal des changements observés. [STAT:ME] Statistics/Methodology Mississippi variabilité hydrologique fluctuations climatiques analyses spectrales transformée en ondelettes continues flux hydrosédimentaires
9	Développement de méthodes statistiques nécessaires à l'analyse de données génomiques : application à l'influence du polymorphisme génétique sur les caractéristiques cutanées individuelles et l'expression du vieillissement cutané. Bernard, Anne 20 December 2013 (has links) (PDF) Les nouvelles technologies développées ces dernières années dans le domaine de la génétique ont permis de générer des bases de données de très grande dimension, en particulier de Single Nucleotide Polymorphisms (SNPs), ces bases étant souvent caractérisées par un nombre de variables largement supérieur au nombre d'individus. L'objectif de ce travail a été de développer des méthodes statistiques adaptées à ces jeux de données de grande dimension et permettant de sélectionner les variables les plus pertinentes au regard du problème biologique considéré. Dans la première partie de ce travail, un état de l'art présente différentes méthodes de sélection de variables non supervisées et supervisées pour 2 blocs de variables et plus. Dans la deuxième partie, deux nouvelles méthodes de sélection de variables non supervisées de type "sparse" sont proposées : la Group Sparse Principal Component Analysis (GSPCA) et l'Analyse des Correspondances Multiples sparse (ACM sparse). Vues comme des problèmes de régression avec une pénalisation group LASSO elles conduisent à la sélection de blocs de variables quantitatives et qualitatives, respectivement. La troisième partie est consacrée aux interactions entre SNPs et dans ce cadre, une méthode spécifique de détection d'interactions, la régression logique, est présentée. Enfin, la quatrième partie présente une application de ces méthodes sur un jeu de données réelles de SNPs afin d'étudier l'influence possible du polymorphisme génétique sur l'expression du vieillissement cutané au niveau du visage chez des femmes adultes. Les méthodes développées ont donné des résultats prometteurs répondant aux attentes des biologistes, et qui offrent de nouvelles perspectives de recherches intéressantes [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Sélection de variables ACP sparse Acm SNP-SNP interactions Régression logique Méthodes multiblocs Méthodes sparse non supervisées
10	Caractérisation physico-chimique et sensorielle d'ingrédients cosmétiques: une approche méthodologique Gilbert, Laura 10 December 2012 (has links) (PDF) La texture des produits cosmétiques est une notion complexe et multidimensionnelle, qui se doit d'être étudiée d'un point de vue sensoriel, mais aussi d'un point de vue instrumental, notamment par rhéologie et analyse de texture. Bien que les deux types de caractérisation semblent être liés, très peu d'études dans le domaine cosmétique ont pu relier la perception sensorielle de la texture aux propriétés instrumentales, rhéologiques et mécaniques des produits. L'objectif de ce travail de thèse a été double : d'une part étudier l'influence d'un ingrédient particulier, le polymère en tant qu'agent texturant, sur les propriétés finales de texture conférées à des crèmes cosmétiques, et d'autre part, mettre en place un outil de prédiction des propriétés sensorielles de texture, par des mesures instrumentales simples à mettre en œuvre. Huit polymères hydrophiles, d'origine naturelle, semi-synthétique ou synthétique ont été incorporés, chacun à hauteur de 1 % massique, dans une émulsion huile dans eau de composition relativement complexe, proche d'un produit réel. Une crème contrôle, sans agent texturant, a également été formulée. Basée sur la méthode Spectrum Descriptive Analysis, une méthodologie d'analyse sensorielle de la texture des crèmes a été développée, permettant de qualifier et quantifier la contribution de chaque polymère aux propriétés de texture finales des crèmes, à l'aide de 8 descripteurs, nommément Brillance, Intégrité de la Forme, Force de Pénétration, Force de Compression, Filant, Difficulté d'Etalement, Absorption et Collant. Ensuite, une analyse rhéologique des produits, réalisée à l'aide de différents tests d'écoulement, d'oscillation en déformation et en temps, et de fluage-relaxation, a permis de caractériser de manière fine le comportement des crèmes à l'échelle microscopique ; tandis qu'une large caractérisation des propriétés mécaniques des produits a été effectuée à l'aide d'un texturomètre, en mettant notamment en place divers tests imitatifs des protocoles d'évaluation sensorielle, et en faisant varier les nombreuses conditions expérimentales. Finalement, de très bons modèles de prédiction ont été obtenus pour six des huit propriétés sensorielles étudiées en utilisant des outils de régressions uni et multivariés. La robustesse et l'efficacité de prédiction des modèles mis en place pour l'Intégrité de la Forme, la Force de Pénétration et le Filant ont été vérifiées par une étape de validation croisée en utilisant 5 nouveaux produits commerciaux. Ainsi, un test imitatif de compression/tension réalisé au texturomètre permet de prédire le Filant, tandis qu'une combinaison de paramètres issus à la fois de tests rhéologiques et mécaniques permet de prédire les deux autres propriétés, et ce pour des produits de textures variées. [CHIM:POLY] Chemical Sciences/Polymers [CHIM:POLY] Chimie/Polymères [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie Texture émulsions polymères prédiction sensoriel rhéologie crèmes cosmétiques

Search results