• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 45
  • 43
  • 4
  • Tagged with
  • 88
  • 88
  • 47
  • 24
  • 23
  • 20
  • 18
  • 18
  • 18
  • 15
  • 15
  • 14
  • 14
  • 13
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Statistical approaches to detect epistasis in genome wide association studies / Approches statistiques pour la détection d’épistasie dans les études d’associations pangénomiques

Stanislas, Virginie 18 December 2017 (has links)
De nombreux travaux de recherche portent sur la détection et l’étude des interactions dans les études d’association pangénomique (GWAS). La plupart des méthodes proposées se concentrent principalement sur les interactions entre polymorphismes simples de l’ADN (SNPs), mais des stratégies de regroupement peuvent également être envisagées.Dans cette thèse, nous développons une approche originale pour la détection des interactions à l’échelle des gènes. De nouvelles variables représentant les interactions entre deux gènes sont définies à l’aide de méthodes de réduction de dimension. Ainsi, toutes les informations apportées par les marqueurs génétiques sont résumées au niveau du gène. Ces nouvelles variables d’interaction sont ensuite introduites dans un modèle de régression. La sélection des effets significatifs est réalisée à l’aide d’une méthode de régression pénalisée basée sur le Group LASSO avec contrôle du taux de fausse découvertes.Nous comparons les différentes méthodes de modélisation des variables d’interaction à travers des études de simulations afin de montrer les bonnes performances de notre approche. Enfin, nous illustrons son utilisation pratique pour identifier des interactions entre gènes en analysant deux jeux de données réelles. / A large amount of research has been devoted to the detection and investigation of epistatic interactions in Genome-Wide Association Studies (GWAS). Most of the literature focuses on interactions between single-nucleotide polymorphisms (SNPs), but grouping strategies can also be considered.In this thesis, we develop an original approach for the detection of interactions at the gene level. New variables representing the interactions between two genes are defined using dimensionality reduction methods. Thus, all information brought from genetic markers is summarized at the gene level. These new interaction variables are then introduced into a regression model. The selection of significant effects is done using a penalized regression method based on Group LASSO controlling the False Discovery Rate.We compare the different methods of modeling interaction variables through simulations in order to show the good performance of our proposed approach. Finally, we illustrate its practical use for identifying gene-gene interactions by analyzing two real data sets.
2

Optimisation combinatoire pour la sélection de variables en régression en grande dimension : application en génétique animale / Combinatorial optimization for variable selection in high dimensional regression : application in animal genetic

Hamon, Julie 26 November 2013 (has links)
Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d’information génomique.L’objectif de ce travail est, dans le cadre de la sélection génomique animale,de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d’animaux génotypés est largement inférieur au nombre de marqueurs étudiées.Ce manuscrit présente un état de l’art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d’optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d’optimisation combinatoire, la recherche locale itérée et l’algorithme génétique, combinées avec une régression linéaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant flexible, nous proposons une adaptation permettant de prendre en considération ces relations familiales via l’utilisation d’un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d’animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage.Les différentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diffusion. / Advances in high-throughput sequencing and genotyping technologies allow tomeasure large amounts of genomic information.The aim of this work is dedicated to the animal genomic selection is to select asubset of relevant genetic markers to predict a quantitative trait, in a context wherethe number of genotyped animals is widely lower than the number of markersstudied. This thesis introduces a state-of-the-art of existing methods to address the problem.We then suggest to deal with the variable selection in high dimensional regressionproblem combining combinatorial optimization methods and statistical models.We start by experimentally set two combinatorial optimization methods, theiterated local search and the genetic algorithm, combined with a linear multipleregression and we evaluate their relevance. In the context of animal genomic, familyrelationships between animals are known and can be an important information.As our approach is flexible we suggest an adaptation to consider these familialrelationships through the use of a mixed model. Moreover, the problem of overfittingis particularly present in such data due to the large imbalance between thenumber of variables studied and the number of animals available, so we suggest animprovement of our approach in order to reduce this over-fitting.The different suggested approaches are validated on data from the literature as wellas on real data of Gènes Diffusion.
3

Sélection de groupes de variables corrélées en grande dimension / Selection of groups of correlated variables in a high dimensionnal setting

Grimonprez, Quentin 14 December 2016 (has links)
Le contexte de cette thèse est la sélection de variables en grande dimension à l'aide de procédures de régression régularisée en présence de redondance entre variables explicatives. Parmi les variables candidates, on suppose que seul un petit nombre est réellement pertinent pour expliquer la réponse. Dans ce cadre de grande dimension, les approches classiques de type Lasso voient leurs performances se dégrader lorsque la redondance croît, puisqu'elles ne tiennent pas compte de cette dernière. Regrouper au préalable ces variables peut pallier ce défaut, mais nécessite usuellement la calibration de paramètres supplémentaires. L'approche proposée combine regroupement et sélection de variables dans un souci d'interprétabilité et d'amélioration des performances. D'abord une Classification Ascendante Hiérarchique (CAH) fournit à chaque niveau une partition des variables en groupes. Puis le Group-lasso est utilisé à partir de l'ensemble des groupes de variables des différents niveaux de la CAH à paramètre de régularisation fixé. Choisir ce dernier fournit alors une liste de groupe candidats issus potentiellement de différents niveaux. Le choix final des groupes est obtenu via une procédure de tests multiples. La procédure proposée exploite la structure hiérarchique de la CAH et des pondérations dans le Group-lasso. Cela permet de réduire considérablement la complexité algorithmique induite par la flexibilité. / This thesis takes place in the context of variable selection in the high dimensional setting using penalizedregression in presence of redundancy between explanatory variables. Among all variables, we supposethat only a few number is relevant for predicting the response variable. In this high dimensional setting,performance of classical lasso-based approaches decreases when redundancy increases as they do not takeit into account. Firstly aggregating variables can overcome this problem but generally requires calibrationof additional parameters. The proposed approach combines variables aggregation and selection in order to improve interpretabilityand performance. First, a hierarchical clustering procedure provides at each level a partition of the variablesinto groups. Then the Group-lasso is used with the set of groups of variables from the different levels ofthe hierarchical clustering and a fixed regularization parameter. Choosing this parameter provides a list ofcandidates groups potentially coming from different levels. The final choice of groups is done by a multipletesting procedure. The proposed procedure exploits the hierarchical structure from hierarchical clustering and some weightsin Group-lasso. This allows to greatly reduce the algorithm complexity induced by the possibility to choosegroups coming from different levels of the hierarchical clustering.
4

Gaussian geometry and tools for compressed sensing / Méthodes gaussiennes et application à l'acquisition comprimée

Mourareau, Stéphane 24 June 2016 (has links)
Cette thèse s'inscrit dans le cadre de l'analyse statistique en grande dimension. Plus précisé- ment, l'objet de cette thèse est d'étudier la possible application d'outils issus de la théorie des processus Gaussiens afin de redémontrer certaines propriétés des matrices à entrées Gaussiennes et d'étendre certaines procédures de test du modèle linéaire Gaussien standard. Dans la première partie, nous nous concentrons sur les matrices Gaussiennes. Notre objectif est de démontrer, via des formules du type Kac-Rice, qu'une telle matrice satisfait, avec très grande probabilité, la Null Space Property (NSP) et la Propriété d'Isométrie Restreinte (RIP). De plus, nous déduisons des transitions de phases dépendant des paramètres classiques de la régression parcimonieuse, à savoir le nombre d'observations, le nombre de prédicteurs et le degré de sparsité. Dans la seconde partie, nous traitons le cas du test de nullité globale des paramètres pour le modèle linéaire Gaussien, afin de l'appliquer au cas de la sélection de modèle. Dans ces travaux, qui s'inscrivent dans la continuité de Taylor, Loftus et Tibshirani, nous proposons un test non conditionnel pour l'hypothèse de nullité globale dans le cadre du lasso et discutons autour de sa puissance. De plus, nous généralisons ces résultats aux processus Gaussiens, pour inclure, par exemple, la cas de la super-résolution. Dans une troisième partie, nous présentons quelques applications de la formule de Rice visantà calculer la fonction de répartition du maximum d'un processus Gaussien afin d'en déduire une version numériquement implémentable. Dans un deuxième temps, nous discutons de l'efficacité ou non de certaines approximations classiques pour la fonction de répartition du maximum. Enfin, nous étudions le comportement asymptotique du nombre de franchissements d'un niveau donné u sur un intervalle de temps [0,T] pour un processus Gaussien dérivable. / This thesis fallin within the context of high-dimensional data analysis. More specificaly, the purpose is to study the possible application of some Gaussian tools to prove classical results on matrices with Gaussian entries and to extend existing test procedures for Gaussian linear models. In a first part, we focus on Gaussian matrices. Our aim is to prove, using a Kac-Rice formula on Gaussian processes, that such a matrice satisfies, with overwhelming probability, the Null Space Property (NSP) and the Restricted Isometry Property (RIP). Moreover, we derive phase transition graphs depending on the classical parameters of sparse regression, namely the number of observations, the number of predictors and the level of sparsity. In a second part, we deal with global null testing for Gaussian linear models, with application to Compressed Sensing. Following recent works of Taylor, Loftus and Tibshirani, we purpose a test for global null hypothesis in the lasso case and discuss about its power. Furthermore, we generalize these method to Gaussian processes, to include, for instance, the super-resolution case. In a third part, we present some applications of Rice formula to compute the cumulative distribution function of the maximum of a Gaussian process and derive corresponding numerical routines to investigate the efficiency of classical approximations. Finaly, we consider the asymp- totical comportement of the number of crossings of a differentiable Gaussian process for a given level u and time interval [0,T].
5

Modèles Graphiques Probabilistes pour l'Estimation de Densité en grande dimension : applications du principe Perturb & Combine pour les mélanges d'arbres

Ammar, Sourour 10 December 2010 (has links) (PDF)
Dans les applications actuelles, le nombre de variables continue d'augmenter, ce qui rend difficile l'estimation de densité. En effet, le nombre de paramètres nécessaire pour l'estimation croit exponentiellement par rapport à la dimension du problème. Les modèles graphiques probabilistes fournissent une aide non négligeable pour lutter contre ce problème en fournissant une factorisation de la loi jointe mais souffrent d'un problème de passage à l'échelle. Le problème de grande dimension s'accentue du fait que le nombre d'observations avec lequel on effectue l'estimation de densité n'augmente pas dans les mêmes proportions, et reste même extrêmement faible dans certains domaines d'applications. La factorisation de la loi jointe s'avère non suffisante pour effectuer une estimation de densité de qualité lorsqu'il y a très peu de données. Le principe du Perturb & Combine, initialement appliqué en classification, permet de lutter contre ce genre de problèmes. Dans le cadre de cette thèse, nous proposons un algorithme générique d'estimation de densité en appliquant le principe du Perturb et Combine à une famille de modèles graphiques probabilistes "simples" , les structures arborescentes "manipulables" avec une complexité au pire quadratique. Plusieurs variantes de cet algorithme sont proposées en exploitant à deux niveaux le principe de perturbation: perturbation de la génération des modèles simples et perturbation des données d'apprentissage. Les expérimentations effectuées lors de ce travail montrent que nos premières approches sont concluantes en ce qui concerne la qualité d'approximation, pour une complexité algorithmique quadratique encore insuffisante en grande dimension. Notre seconde contribution concerne donc une nouvelle application du principe de perturbation, permettant d'arriver à une complexité algorithmique proche du quasi-linéaire pour une même qualité d'approximation.
6

Contribution à la Tolérance aux Défauts des Systèmes Complexes basée sur la Génération de Graphes Causaux / Contribution to Fault Tolerance of Complex Systems based on Causal Graphs Generation

Kabadi, Mohamed Ghassane 10 June 2016 (has links)
Le travail de thèse, qui s'inscrit dans le cadre du projet européen PAPYRUS (Plug and Play monitoring and control architecture for optimization of large scale production processes) du 7ème PCRD, a concerné tout d'abord la synthèse et la mise en œuvre d'une approche de modélisation, de diagnostic et de reconfiguration originale. Celle-ci se fonde sur la génération de graphes causaux permettant de modéliser en temps réel le comportement d'un système complexe dans un premier temps. La cible de cette première étude a été la papeterie Stora Enso d'Imatra en Finlande, qui était le procédé d'application du projet PAPYRUS. En suite logique à cette première partie, une approche permettant l'accommodation du système à certains défauts particuliers a été définie par l'ajustement des signaux de consigne de diverses boucles de régulation. Le manuscrit est structuré en trois parties. Dans la première, le projet européen PAPYRUS est présenté. Le rôle de chaque partenaire y est décrit au travers des différents « workpackages » et le travail de thèse y est positionné. La seconde partie de la thèse a pour objectif la génération d'un modèle utile au diagnostic en se fondant uniquement sur les différents signaux mesurés du système. Plus précisément, un modèle causal graphique est présenté par la mise en évidence des liens de causalité entre les différentes variables mesurées. Des analyses à base d'inter-corrélation, de transfert d'entropie et du test de causalité de Granger sont effectuées. Une approche de diagnostic fondée sur le modèle graphique ainsi obtenu est ensuite proposée en utilisant un test d'hypothèse séquentiel. La dernière partie est dédiée au problème d'accommodation aux défauts. Le graphe utilisé pour établir le diagnostic du système est remanié afin de faire apparaitre les différentes boucles de régulation du système. Une stratégie permettant la sélection de consignes influentes est alors proposée avec l'objectif d'ajuster ces dernières afin de compenser l'effet du défaut survenu / The thesis deals with modelling, diagnosis and fault tolerance of large scale processes. It is a part of the European project PAPYRUS (7th FWP). First, the European PAPYRUS project is described with details on the role of each partner through work package descriptions. The positioning of the thesis in this respect is also given. The second part of the thesis is about modelling graphical models for diagnosis purpose; more precisely, graphical causal model is used to highlight the causal links between the different variables of the process. To obtain such a model from data, several methods are proposed based on cross-correlation, entropy transfer and Granger causality. A diagnosis-based approach on the resulting graphical model is then proposed using statistical test and causal model of the process. This approach is illustrated using data from an industrial process and results are validated. The final section addresses fault tolerance based on digraph inferences and reference governor. This approach is illustrated using a MATLAB simulation which has a functional architecture similar to Board Machine 4 of Stora Enso IMATRA in Finland
7

Krigeage pour la conception de turbomachines : grande dimension et optimisation multi-objectif robuste / Kriging for turbomachineries conception : high dimension and multi-objective robust optimization

Ribaud, Mélina 17 October 2018 (has links)
Dans le secteur de l'automobile, les turbomachines sont des machines tournantes participant au refroidissement des moteurs des voitures. Leur performance dépend de multiples paramètres géométriques qui déterminent leur forme. Cette thèse s'inscrit dans le projet ANR PEPITO réunissant industriels et académiques autour de l'optimisation de ces turbomachines. L'objectif du projet est de trouver la forme du ventilateur maximisant le rendement en certains points de fonctionnement. Dans ce but, les industriels ont développé des codes CFD (computational fluid dynamics) simulant le fonctionnement de la machine. Ces codes sont très coûteux en temps de calcul. Il est donc impossible d'utiliser directement le résultat de ces simulations pour conduire une optimisation.Par ailleurs, lors de la construction des turbomachines, on observe des perturbations sur les paramètres d'entrée. Elles sont le reflet de fluctuations des machines de production. Les écarts observés sur la forme géométrique finale de la turbomachine peuvent provoquer une perte de performance conséquente. Il est donc nécessaire de prendre en compte ces perturbations et de procéder à une optimisation robuste à ces fluctuations. Dans ce travail de thèse, nous proposons des méthodes basées sur du krigeage répondant aux deux principales problématiques liées à ce contexte de simulations coûteuses :• Comment construire une bonne surface de réponse pour le rendement lorsqu'il y a beaucoup de paramètres géométriques ?• Comment procéder à une optimisation du rendement efficace tout en prenant en compte les perturbations des entrées ?Nous répondons à la première problématique en proposant plusieurs algorithmes permettant de construire un noyau de covariance pour le krigeage adapté à la grande dimension. Ce noyau est un produit tensoriel de noyaux isotropes où chacun de ces noyaux est lié à un sous groupe de variables d'entrée. Ces algorithmes sont testés sur des cas simulés et sur une fonction réelle. Les résultats montrent que l'utilisation de ce noyau permet d'améliorer la qualité de prédiction en grande dimension. Concernant la seconde problématique, nous proposons plusieurs stratégies itératives basées sur un co-krigeage avec dérivées pour conduire l'optimisation robuste. A chaque itération, un front de Pareto est obtenu par la minimisation de deux objectifs calculés à partir des prédictions de la fonction coûteuse. Le premier objectif représente la fonction elle-même et le second la robustesse. Cette robustesse est quantifiée par un critère estimant une variance locale et basée sur le développement de Taylor. Ces stratégies sont comparées sur deux cas tests en petite et plus grande dimension. Les résultats montrent que les meilleures stratégies permettent bien de trouver l'ensemble des solutions robustes. Enfin, les méthodes proposées sont appliquées sur les cas industriels propres au projet PEPITO. / The turbomachineries are rotary machines used to cool down the automotive engines. Their efficiency is impacted by a high number of geometric parameters that describe the shape.My thesis is fully funded by the ANR project PEPITO where industrials and academics collaborate. The aim of this project is to found the turbomachineries shape that maximizes the efficiency.That is why, industrials have developed numerical CFD (Computational fluid dynamics) codes that simulate the work of turbomachineries. However, the simulations are time-consuming. We cannot directly use the simulations provided to perform the optimization.In addition, during the production line, the input variables are subjected to perturbations. These perturbations are due to the production machineries fluctuations. The differences observed in the final shape of the turbomachinery can provoke a loss of efficiency. These perturbations have to be taken into account to conduct an optimization robust to the fluctuations. In this thesis, since the context is time consuming simulations we propose kriging based methods that meet the requirements of industrials. The issues are: • How can we construct a good response surface for the efficiency when the number of input variables is high?• How can we lead to an efficient optimization on the efficiency that takes into account the inputs perturbations?Several algorithms are proposed to answer to the first question. They construct a covariance kernel adapted to high dimension. This kernel is a tensor product of isotropic kernels in each subspace of input variables. These algorithms are benchmarked on some simulated case and on a real function. The results show that the use of this kernel improved the prediction quality in high dimension. For the second question, seven iterative strategies based on a co-kriging model are proposed to conduct the robust optimization. In each iteration, a Pareto front is obtained by the minimization of two objective computed from the kriging predictions. The first one represents the function and the second one the robustness. A criterion based on the Taylor theorem is used to estimate the local variance. This criterion quantifies the robustness. These strategies are compared in two test cases in small and higher dimension. The results show that the best strategies have well found the set of robust solutions. Finally, the methods are applied on the industrial cases provided by the PEPITO project.
8

Forêts aléatoires : aspects théoriques, sélection de variables et applications

Genuer, Robin 24 November 2010 (has links) (PDF)
Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.
9

Contributions à l'apprentissage statistique en grande dimension, adaptatif et sur données atypiques

Bouveyron, Charles 29 November 2012 (has links) (PDF)
Ce mémoire rend compte de mes activités de recherche depuis ma thèse de doctorat. Mes travaux s'inscrivent dans le cadre de l'apprentissage statistique et s'articulent plus précisément autour des quatre thématiques suivantes: * apprentissage statistique en grande dimension, * apprentissage statistique adaptatif, * apprentissage statistique sur données atypiques, * applications de l'apprentissage statistique. Mes contributions à ces quatre thématiques sont décrites en autant de chapitres, numérotés de 2 à 5, pouvant être lus indépendamment. Ce mémoire se veut également être, en quelque sorte, un plaidoyer pour l'usage des méthodes génératives (reposant sur un modèle probabiliste) en apprentissage statistique moderne. Il sera en effet démontré dans ce document, je l'espère de façon convaincante, que les méthodes génératives peuvent résoudre efficacement les problèmes actuels de l'apprentissage statistique tout en présentant l'avantage de l'interprétabilité des résultats et de la connaissance du risque de prédiction.
10

Apprentissage dans les espaces de grande dimension : Application à la caractérisation de tumeurs noires de la peau à partir d'images

Tenenhaus, Arthur 08 December 2006 (has links) (PDF)
L'objectif de la thèse est de définir les bases conceptuelles permettant de développer des méthodes efficaces et adaptées à la classification dans les espaces de grande dimension. Dans ce contexte, les méthodes à noyau s'avèrent particulièrement adaptées. En effet, au-delà de leurs propriétés de régularisation - régularisation de type Tikhonov (Régression Ridge, Support Vector Machines, ... ) ou réduction de dimension (Partial Least Squares, Régression sur Composantes Principales,...) – elles offrent des avantages algorithmiques majeurs lorsque la dimension des données est supérieure au nombre d'observations. Ces méthodes ont fait l'objet d'une étude approfondie à la fois du point de vue théorique et appliqué dans les deux premiers chapitres de la thèse.<br /><br />Les deux chapitres suivants proposent de nouvelles méthodes, découlant de cette étude. Elles se fondent sur des principes de réduction de dimension supervisée en se focalisant principalement sur la régression PLS, particulièrement bien adaptée à la gestion de données de grande dimension. Il s'agissait de concevoir des algorithmes de classification s'appuyant sur les principes algorithmiques de la régression PLS. Nous avons proposé, la Kernel Logistic PLS, modèle de classification nonlinéaire et binaire basé à la fois sur la construction de variables latentes et sur des transformations du type Empirical Kernel Map. Nous avons étendu la KL-PLS au cas où la variable à prédire est polytomique donnant naissance à la Kernel Multinomial Logistic PLS regression.<br />Enfin dans les deux derniers chapitres, nous avons appliqué ces méthodes à de nombreux domaines, notamment en analyse d'images. Nous avons ainsi contribué au développement d'une application en vraie grandeur dans le domaine médical en élaborant un outil d'aide au diagnostic de tumeurs noires de la peau à partir d'images.

Page generated in 0.1099 seconds