261 |
Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animaleHamon, Julie 26 November 2013 (has links) (PDF)
Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant flexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les différentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diffusion.
|
262 |
Méthodes d'analyse de données et modèles bayésiens appliqués au contexte des inégalités socio-territoriales de santé et des expositions environnementalesLalloué, Benoît 06 December 2013 (has links) (PDF)
Cette thèse a pour but d'améliorer les connaissances concernant les techniques d'analyse de données et certains modèles bayésiens dans le domaine de l'étude des inégalités sociales et environnementales de santé. À l'échelle géographique de l'IRIS sur les agglomérations de Paris, Marseille, Lyon et Lille, l'événement sanitaire étudié est la mortalité infantile dont on cherchera à expliquer le risque avec des données socio-économiques issues du recensement et des expositions environnementales comme la pollution de l'air, les niveaux de bruit et la proximité aux industries polluantes, au trafic automobile ou aux espaces verts. Deux volets principaux composent cette thèse. Le volet analyse de données détaille la mise au point d'une procédure de création d'indices socio-économiques multidimensionnels et la conception d'un package R l'implémentant, puis la création d'un indice de multi-expositions environnementales. Pour cela, on utilise des techniques d'analyse de données pour synthétiser l'information et fournir des indicateurs composites utilisables directement par les décideurs publics ou dans le cadre d'études épidémiologiques. Le second volet concerne les modèles bayésiens et explique le modèle " BYM ". Celui-ci permet de prendre en compte les aspects spatiaux des données et est mis en œuvre pour estimer le risque de mortalité infantile. Dans les deux cas, les méthodes sont présentées et différents résultats de leur utilisation dans le contexte ci-dessus exposés. On montre notamment l'intérêt de la procédure de création d'indices socio-économiques et de multi-expositions, ainsi que l'existence d'inégalités sociales de mortalité infantile dans les agglomérations étudiées.
|
263 |
Détection d'anomalies à la volée dans des flux de données de grande dimensionBellas, Anastasios 28 January 2014 (has links) (PDF)
Le thème principal de cette thèse est d'étudier la détection d'anomalies dans des flux de données de grande dimension avec une application spécifique au \emph{Health Monitoring} des moteurs d'avion. Dans ce travail, on considère que le problème de la détection d'anomalies est un problème d'apprentissage non supervisée. Les données modernes, notamment celles issues de la surveillance des systèmes industriels sont souvent des flux d'observations de grande dimension, puisque plusieurs mesures sont prises à de hautes fréquences et à un horizon de temps qui peut être infini. De plus, les données peuvent contenir des anomalies (pannes) du système surveillé. La plupart des algorithmes existants ne peuvent pas traiter des données qui ont ces caractéristiques. Nous introduisons d'abord un algorithme de clustering probabiliste offline dans des sous-espaces pour des données de grande dimension qui repose sur l'algorithme d'espérance-maximisation (EM) et qui est, en plus, robuste aux anomalies grâce à la technique du trimming. Ensuite, nous nous intéressons à la question du clustering probabiliste online de flux de données de grande dimension en développant l'inférence online du modèle de mélange d'analyse en composantes principales probabiliste. Pour les deux méthodes proposées, nous montrons leur efficacité sur des données simulées et réelles, issues par exemple des moteurs d'avion. Enfin, nous développons une application intégrée pour le Health Monitoring des moteurs d'avion dans le but de détecter des anomalies de façon dynamique. Le système proposé introduit des techniques originales de détection et de visualisation d'anomalies reposant sur les cartes auto-organisatrices. Des résultats de détection sont présentés et la question de l'identification des anomalies est aussi discutée.
|
264 |
Estimation récursive pour les modèles semi-paramétriquesNguyen, Thi Mong Ngoc 26 November 2010 (has links) (PDF)
Dans cette th ese, nous nous int eressons au mod ele semi-param etrique de r egression de la forme y = f( \theta'x; \epsilon), lorsque x \in R^p et y\in R. Notre objectif est d' etudier des probl emes d'estimation des param etres \theta et f de ce mod ele avec des m ethodes r ecursives. Dans la premi ere partie, l'approche que nous d eveloppons est fond ee sur une m ethode introduite par Li (1991), appel ee Sliced Inverse Regression (SIR). Nous proposons des m ethodes SIR r ecursives pour estimer le param etre . Dans le cas particulier o u l'on consid ere le nombre de tranches egal a 2, il est possible d'obtenir une expression analytique de l'estimateur de la direction de . Nous proposons une forme r ecursive pour cet estimateur, ainsi qu'une forme r ecursive de l'estimateur de la matrice d'int er^et. Ensuite, nous proposons une nouvelle approche appell ee \SIRoneslice" (r ecursive ou non r ecursive) de la m ethode SIR bas ee sur l'utilisation de l'information contenue dans une seule tranche optimale (qu'il faudra choisir parmi un nombre quelconque de tranches). Nous proposons egalement un crit ere \bootstrap na f" pour le choix du nombre de tranches. Des r esultats asymptotiques sont donn es et une etude sur des simulations d emontre le bon comportement num erique des approches r ecursives propos ees et l'avantage principal de l'utilisation la version r ecursive de SIR et de SIRoneslice du point de vue des temps de calcul. Dans la second partie, nous travaillons sur des donn ees de valvom etrie mesur ees sur des bivalves. Sur ces donn ees, nous comparons le comportement num erique de trois estimateurs non param etrique de la fonction de r egression : celui de Nadaraya-Watson, celui de Nadaraya-Watson r ecursif et celui de R ev esz qui est lui aussi r ecursif. Dans la derni ere partie de cette th ese, nous proposons une m ethode permettant de combiner l'estimation r ecursive de la fonction de lien f par l'estimateur de Nadaraya- Watson r ecursif et l'estimation du param etre via l'estimateur SIR r ecursif. Nous etablissons une loi des grands nombres ainsi qu'un th eor eme de limite centrale. Nous illustrons ces r esultats th eoriques par des simulations montrant le bon comportement num erique de la m ethode d'estimation propos ee.
|
265 |
Simulation d'événements rares par Monte Carlo dans les réseaux hautement fiablesSaggadi, Samira 08 July 2013 (has links) (PDF)
Le calcul de la fiabilité des réseaux est en général un problème NP-difficile. On peut par exemple, s'intéresser à la fiabilité des systèmes de télécommunications où l'on veut évaluer la probabilité qu'un groupe sélectionné de noeuds (qui peut être juste une paire) puissent communiquer, ou s'intéresser aux systèmes d'alimentation électriques où l'on veut estimer le risque que l'électricité n'est pas fournie à certains noeuds, ou encore, étudier la fiabilité des systèmes de transport, où les liens représentent les routes et sont soumis à des dommages. Dans tous ces cas, un ensemble de noeuds déconnectés peut avoir des conséquences critiques, que ce soit financières ou au niveau de la sécurité. Une estimation précise de la fiabilité est ainsi nécessaire. Les réseaux de communication moderne se caractérisent par leur grande taille, donc l'estimation via la simulation de Monte Carlo devient souvent un choix favorable. Un algorithme de Monte Carlo sous sa forme standard, échantillonne N réalisations du graphe (représentant le réseau) indépendantes, et la défiabilité est estimée à partir de la proportion des N réalisations pour lesquelles les noeuds sélectionnés ne sont pas connectés. Dans ces réseaux, les probabilités de défaillance des liens (arcs) sont généralement petites et donc les pannes d'un réseau deviennent des événements rares. Cela pose un défi majeur pour estimer la fiabilité d'un réseau. Dans cette thèse, nous présentons différentes techniques basées sur l'échantillonnage préférentiel (Importance Sampling en anglais IS), pour l'estimation de la fiabilité d'un réseau. Grace à cette technique les probabilités originales d'échantillonnage des arcs sont remplacées par de nouvelles probabilités, puis multiplier l'ancien estimateur par le quotient de vraisemblance (likelihood ratio) pour rester sans biais. On s'intéresse tout particulièrement à l'étude et au calcul de la fiabilité des réseaux hautement fiables et représentés par des graphes statiques. Dans ce cas la défiabilité est très petite, parfois de l'ordre de 10−10, ce qui rend l'approche standard de Monte Carlo inutile, car pour pouvoir estimer cette probabilité il nous faut un échantillon de taille supérieure à dix milliards. Pour une bonne estimation de la fiabilité des réseaux au moindre coût, nous avons étudié, analysé et développé les points suivants : - En premier lieu nous avons développé une méthode basée sur l'échantillonnage préférentiel. Le processus d'échantillonnage de tous les arcs du graphe sous la nouvelle probabilité est représenté par une chaîne de Markov, telle qu'à chaque étape on détermine l'état d'un arc avec une nouvelle probabilité déterminée en fonction de l'état de tous les arcs précédemment échantillonnés. Les fonctions valeurs de la nouvelle probabilité sont approchées par les coupes minimales possédant la plus grande probabilité de défiabilité, elle est le produit des défiabilités des arcs de la coupe. Des preuves de bonnes propriétés de l'estimateur basé sur l'échantillonnage préférentiel sont faites. - Un deuxième point a été abordé et développé, consiste à appliquer des techniques de réduction série-parallèle à chaque étape de l'échantillonnage IS précédemment décrit, afin de réduire substantiellement et la variance et le temps de simulation. - Le dernier point consiste à combiner pour approximation de l'estimateur à variance nulle, l'approximation de la défiabilité par une coupe minimale qui sous-estime la défiabilité avec une autre approximation basée sur les chemins minimaux qui la sur-estime. Des algorithmes d'optimisation sont utilisés pour rechercher le facteur optimal d'ajustement des deux approximations pour minimiser la variance.
|
266 |
Contributions à l'apprentissage statistique dans les modèles parcimonieuxAlquier, Pierre 06 December 2013 (has links) (PDF)
Ce mémoire d'habilitation a pour objet diverses contributions à l'estimation et à l'apprentissage statistique dans les modeles en grande dimension, sous différentes hypothèses de parcimonie. Dans une première partie, on introduit la problématique de la statistique en grande dimension dans un modèle générique de régression linéaire. Après avoir passé en revue les différentes méthodes d'estimation populaires dans ce modèle, on présente de nouveaux résultats tirés de (Alquier & Lounici 2011) pour des estimateurs agrégés. La seconde partie a essentiellement pour objet d'étendre les résultats de la première partie à l'estimation de divers modèles de séries temporelles (Alquier & Doukhan 2011, Alquier & Wintenberger 2013, Alquier & Li 2012, Alquier, Wintenberger & Li 2012). Enfin, la troisième partie présente plusieurs extensions à des modèles non param\étriques ou à des applications plus spécifiques comme la statistique quantique (Alquier & Biau 2013, Guedj & Alquier 2013, Alquier, Meziani & Peyré 2013, Alquier, Butucea, Hebiri, Meziani & Morimae 2013, Alquier 2013, Alquier 2008). Dans chaque section, des estimateurs sont proposés, et, aussi souvent que possible, des inégalités oracles optimales sont établies.
|
267 |
Prévisions hydrologiques d'ensemble : développements pour améliorer la qualité des prévisions et estimer leur utilitéZalachori, Ioanna 19 April 2013 (has links) (PDF)
La dernière décennie a vu l'émergence de la prévision probabiliste de débits en tant qu'approche plus adaptée pour l'anticipation des risques et la mise en vigilance pour lasécurité des personnes et des biens. Cependant, au delà du gain en sécurité, la valeur ajoutée de l'information probabiliste se traduit également en gains économiques ou en une gestion optimale de la ressource en eau disponible pour les activités économiques qui en dépendent. Dans la chaîne de prévision de débits, l'incertitude des modèles météorologiques de prévision de pluies joue un rôle important. Pour pouvoir aller au-delà des limites de prévisibilité classiques, les services météorologiques font appel aux systèmes de prévision d'ensemble,générés sur la base de variations imposées dans les conditions initiales des modèlesnumériques et de variations stochastiques de leur paramétrisation. Des scénarioséquiprobables de l'évolution de l'atmosphère pour des horizons de prévision pouvant aller jusqu'à 10-15 jours sont ainsi proposés. L'intégration des prévisions météorologiques d'ensemble dans la chaîne de prévision hydrologique se présente comme une approche séduisante pour produire des prévisions probabilistes de débits et quantifier l'incertitude prédictive totale en hydrologie.
|
268 |
Méthodes de méta-analyse pour l'estimation des émissions de N2O par les sols agricolesPhilibert, Aurore 16 November 2012 (has links) (PDF)
Le terme de méta-analyse désigne l'analyse statique d'un large ensemble de résultats provenant d'études individuelles pour un même sujet donné. Cette approche est de plus en plus étudiée dans différents domaines, notamment en agronomie. Dans cette discipline, une revue bibliographique réalisée dans le cadre de la thèse a cependant montré que les méta-analyses n'étaient pas toujours de bonne qualité. Les méta-analyses effectuées en agronomie étudient ainsi très rarement la robustesse de leurs conclusions aux données utilisées et aux méthodes statistiques. L'objectif de cette thèse est de démontrer et d'illustrer l'importance des analyses de sensibilité dans le cadre de la méta-analyse en s'appuyant sur l'exemple de l'estimation des émissions de N2O provenant des sols agricoles. L'estimation des émissions de protoxyde d'azote (N2O) est réalisée à l'échelle mondaile par le Groupe d'experts intergouvernemental sur l'évolution du climat (GIEC). Le N2O est un puissant gaz à effet de serre avec un pouvoir de réchauffement 298 fois plus puissant que le CO2 sur une période de 100 ans. Les émissions de N2O ont la particularité de présenter une forte variabilité spatiale et temporelle. Deux bases de données sont utilisées dans ce travail : la base de données de Rochette et Janzen (2005) et celle de Stehfest et Bouwman (2006). Elles recensent de nombreuses mesures d'émissions de N2O réparties dans le monde provenant d'études publiées et ont joué un rôle important lors des estimations d'émissions de N2O réalisées par le GIEC. Les résultats montrent l'intérêt des modèles à effets aléatoires pour estimer les émissions de NO2 issues de sols agricoles. Ils sont bien adaptés à la structure des données (observations répétées sur un même site pour différentes doses d'engrais, avec plusieurs sites considérés). Ils permettent de distinguer la variabilité inter-sites de la variabilité intra-site et d'estimer l'effet de la dose d'engrais azoté sur les émissions de NO2. Dans ce mémoire, l'analyse de la sensibilité des estimations à la forme de la relation "Emission de N2O / Dose d'engrais azoté" a montré qu'une relation exponentielle était plus adaptée. Il apparait ainsi souhaitable de remplacer le facteur d'émission constant du GIEC (1% d'émission quelque soit la dose d'engrais azoté) par un facteur variable qui augmenterait en fonction de la dose. Nous n'avons par contre pas identifié de différence importante entre les méthodes d'inférence fréquentiste et bayésienne. Deux approches ont été proposées pour inclure des variables de milieu et de pratiques culturales dans les estimations de N2O. La méthode Random Forest permet de gérer les données manquantes et présente les meilleures prédictions d'émission de N2O. Les modèles à effets aléatoires permettent eux de prendre en compte ces variables explicatives par le biais d'une ou plusieurs mesures d'émission de N2O. Cette méthode permet de prédire les émissions de N2O pour des doses non testées comme le cas non fertilisé en parcelles agricoles. Les résultats de cette méthode sont cependant sensibles au plan d'expérience utilisé localement pour mesurer les émissions de N2O.
|
269 |
Contribution à la statistique des processus : modélisation et applicationsGegout-Petit, Anne 19 November 2012 (has links) (PDF)
Nous présentons d'abord les problématiques liées à l'utilisation des processus pour la modélisation des modèles d'histoire de vie et de survie, écriture de vraisemblance, définition d'indépendance locale entre processus et interprétation causale. De manière indépendante, nous présentons ensuite des modèles de processus de bifurcation, les méthodes d'estimation associées avec application à la division cellulaire. Enfin nous regardons des problèmes liés aux PDMP : modélisation de propagation de fissures, de HUMS et estimation du taux de saut. Quelques exemples de collaborations avec des chercheurs d'autres disciplines sont donnés dans le dernier chapitre.
|
270 |
Détection des ruptures dans les processus causaux: Application aux débits du bassin versant de la Sanaga au CamerounKengne, William Charky 03 May 2012 (has links) (PDF)
Cette thèse porte sur la détection de rupture dans les processus causaux avec application aux débits du bassin versant de la Sanaga. Nous considérons une classe semi-paramétrique de modèles causaux contenant des processus classique tel que l'AR, ARCH, TARCH. Le chapitre 1 est une synthèse des travaux. Il présente le modèle avec des exemples et donne les principaux résultats obtenus aux chapitres 2, 3,4. Le chapitre 2 porte sur la détection off-line de ruptures multiples en utilisant un critère de vraisemblance pénalisée. Le nombre de rupture, les instants de rupture et les paramètres du modèle sur chaque segment sont inconnus. Ils sont estimés par maximisation d'un contraste construit à partir des quasi-vraisemblances et pénalisées par le nombre de ruptures. Nous donnons les choix possibles du paramètre de pénalité et montrons que les estimateurs des paramètres du modèle sont consistants avec des vitesses optimales. Pour des applications pratiques, un estimateur adaptatif du paramètre de pénalité basé sur l'heuristique de la pente est proposé. La programmation dynamique est utilisée pour réduire le coût numérique des opérations, celui-ci est désormais de l'ordre de $\mathcal{O}(n^2)$. Des comparaisons faites avec des résultats existants montrent que notre procédure est plus stable et plus robuste. Le chapitre 3 porte toujours sur la détection off-line de ruptures multiples, mais cette fois en utilisant une procédure de test. Nous avons construit une nouvelle procédure qui, combinée avec un algorithme de type ICSS (Itereted Cumulative Sums of Squares) permet de détecter des ruptures multiples dans des processus causaux. Le test est consistant en puissance et la comparaison avec des procédures existantes montre qu'il est plus puissant. Le chapitre 4 étudie la détection des ruptures on-line dans la classe de modèle considéré aux chapitres 2 et 3. Une procédure basée sur la quasi-vraisemblance des observations a été développée. La procédure est consistante en puissance et le délai de détection est meilleur que celui des procédures existantes. Le chapitre 5 est consacré aux applications aux débits du bassin versant de la Sanaga, les procédures décrites aux chapitres 2 et 3 ont été utilisées en appliquant un modèle ARMA sur les données désaisonnalisées et standardisées. Ces deux procédures ont détecté des ruptures qui sont "proches".
|
Page generated in 0.027 seconds