Global ETD Search

11	Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures Celisse, Alain 09 December 2008 (has links) (PDF) L'objet de cette thèse est l'étude d'un certain type d'algorithmes de rééchantillonnage regroupés sous le nom de validation-croisée, et plus particulièrement parmi eux, du leave-p-out. Très utilisés en pratique, ces algorithmes sont encore mal compris d'un point de vue théorique, notamment sur un plan non-asymptotique. Notre analyse du leave-p-out s'effectue dans les cadres de l'estimation de densité et de la régression. Son objectif est de mieux comprendre la validation-croisée en fonction du cardinal $p$ de l'ensemble test dont elle dépend. D'un point de vue général, la validation-croisée est destinée à estimer le risque d'un estimateur. Dans notre cas, le leave-$p$-out n'est habituellement pas applicable en pratique, à cause d'une trop grande complexité algorithmique. Pourtant, nous parvenons à obtenir des formules closes (parfaitement calculables) de l'estimateur leave-p-out du risque, pour une large gamme d'estimateurs très employés. Nous envisageons le problème de la sélection de modèle par validation-croisée sous deux aspects. L'un repose sur l'estimation optimale du risque en termes d'un compromis biais-variance, ce qui donne lieu à une procédure d'estimation de densité basée sur un choix de $p$ entièrement fondé sur les données. Une application naturelle au problème des tests multiples est envisagée. L'autre aspect est lié à l'interprétation de l'estimateur validation-croisée comme critère pénalisé. Sur le plan théorique, la qualité de la procédure leave-$p$-out est garantie par des inégalités oracle ainsi qu'un résultat d'adaptativité dans le cadre de l'estimation de densité. Le problème de la détection de ruptures est également abordé au travers d'une vaste étude de simulations, basée sur des considérations théoriques. Sur cette base, nous proposons une procédure entièrement tournée vers le rééchantillonnage, permettant de traiter le cas difficile de données hétéroscédastiques avec une complexité algorithmique raisonnable. [MATH] Mathematics Rééchantillonnage Validation-croisée Leave-$p$-out Statistique non-paramétrique Sélection de modèles Inégalité oracle Adaptativité Estimation de densité Détection de ruptures Tests multiples FDR
12	Rééchantillonnage et Sélection de modèles Arlot, Sylvain 13 December 2007 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique. <br /><br />La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.<br /><br />Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau. [MATH] Mathematics statistique non-paramétrique apprentissage statistique rééchantillonnage non-asymptotique validation croisée V-fold bootstrap sélection de modèles pénalisation régression non-paramétrique adaptation hétéroscédastique régions de confiance tests multiples
13	Méthodes pour l'analyse des champs profonds extragalactiques MUSE : démélange et fusion de données hyperspectrales ;détection de sources étendues par inférence à grande échelle / Methods for the analysis of extragalactic MUSE deep fields : hyperspectral unmixing and data fusion;detection of extented sources with large-scale inference Bacher, Raphael 08 November 2017 (has links) Ces travaux se placent dans le contexte de l'étude des champs profonds hyperspectraux produits par l'instrument d'observation céleste MUSE. Ces données permettent de sonder l'Univers lointain et d'étudier les propriétés physiques et chimiques des premières structures galactiques et extra-galactiques. La première problématique abordée dans cette thèse est l'attribution d'une signature spectrale pour chaque source galactique. MUSE étant un instrument au sol, la turbulence atmosphérique dégrade fortement le pouvoir de résolution spatiale de l'instrument, ce qui génère des situations de mélange spectral pour un grand nombre de sources. Pour lever cette limitation, des approches de fusion de données, s'appuyant sur les données complémentaires du télescope spatial Hubble et d'un modèle de mélange linéaire, sont proposées, permettant la séparation spectrale des sources du champ. Le second objectif de cette thèse est la détection du Circum-Galactic Medium (CGM). Le CGM, milieu gazeux s'étendant autour de certaines galaxies, se caractérise par une signature spatialement diffuse et de faible intensité spectrale. Une méthode de détection de cette signature par test d'hypothèses est développée, basée sur une stratégie de max-test sur un dictionnaire et un apprentissage des statistiques de test sur les données. Cette méthode est ensuite étendue pour prendre en compte la structure spatiale des sources et ainsi améliorer la puissance de détection tout en conservant un contrôle global des erreurs. Les codes développés sont intégrés dans la bibliothèque logicielle du consortium MUSE afin d'être utilisables par l'ensemble de la communauté. De plus, si ces travaux sont particulièrement adaptés aux données MUSE, ils peuvent être étendus à d'autres applications dans les domaines de la séparation de sources et de la détection de sources faibles et étendues. / This work takes place in the context of the study of hyperspectral deep fields produced by the European 3D spectrograph MUSE. These fields allow to explore the young remote Universe and to study the physical and chemical properties of the first galactical and extra-galactical structures.The first part of the thesis deals with the estimation of a spectral signature for each galaxy. As MUSE is a terrestrial instrument, the atmospheric turbulences strongly degrades the spatial resolution power of the instrument thus generating spectral mixing of multiple sources. To remove this issue, data fusion approaches, based on a linear mixing model and complementary data from the Hubble Space Telescope are proposed, allowing the spectral separation of the sources.The second goal of this thesis is to detect the Circum-Galactic Medium (CGM). This CGM, which is formed of clouds of gas surrounding some galaxies, is characterized by a spatially extended faint spectral signature. To detect this kind of signal, an hypothesis testing approach is proposed, based on a max-test strategy on a dictionary. The test statistics is learned on the data. This method is then extended to better take into account the spatial structure of the targets, thus improving the detection power, while still ensuring global error control.All these developments are integrated in the software library of the MUSE consortium in order to be used by the astrophysical community.Moreover, these works can easily be extended beyond MUSE data to other application fields that need faint extended source detection and source separation methods. Démélange spectral Fusion de données Hyperspectral Inférence à grande échelle Tests multiples Contrôle global d'erreurs Spectral unmixing Data fusion Hyperspectral Large-Scale inference Multiple testing Global error control 620
14	Statistiques en grande dimension pour la détection d'anomalies dans les données fonctionnelles issues des satellites / High Dimension Statistics for Space Applications on functional data deriving from satellites Barreyre, Clementine 18 May 2018 (has links) Ce travail de thèse consiste au développement de méthodes statistiques pour détecter des com- portements anormaux dans les données fonctionnelles que produit le satellite tout au long de sa vie. Un premier travail a été de comprendre comment mettre en évidence les anomalies grâce à des projections sur des bases de fonctions. En complément de cette revue des projections, nous avons appliqué plusieurs méthodes de détection d’anomalies, telles que la One-Class SVM et le Local Outlier Factor (LOF). En plus de ces deux méthodes, nous avons développé notre propre méthode pour prendre en compte la saisonnalité des courbes que nous considérons. En se basant sur cette étude, nous avons développé une nouvelle procédure pour sélectionner automatiquement les coefficients les plus intéressants pour la détection d’anomalies dans un cadre semi-supervisé. Notre méthode est une procédure de tests multiples où nous appliquons un test à deux échantillons à tous les niveaux de coefficients. Nous nous sommes également intéressés aux covariances des télémesures entre elles pour la détection d’anomalies. Pour cela, nous cherchons à comparer les covariances entre un groupe de télémesures pour deux journées, ou périodes consécutives. Nous avons appliqué trois tests sta- tistiques ayant des angles d’approche différents. Nous avons également développé dans ce but un nouveau test asymptotique. Outre la démonstration de la convergence de notre test, nous démontrons par des exemples que ce test est dans la pratique le plus puissant sur les données dont nous disposons. Dans cette thèse, nous avons abordé plusieurs aspects de la détection d’anomalies dans les données fonctionnelles issues des satellites. Pour chacune des méthodes, nous avons pu détecter toutes les anomalies, améliorant sensiblement le taux de fausses alarmes. / In this PhD, we have developed statistical methods to detect abnormal events in all the functional data produced by the satellite all through its lifecycle. The data we are dealing with come from two main phases in the satellite’s life, telemetries and test data. A first work on this thesis was to understand how to highlight the outliers thanks to projections onto functional bases. On these projections, we have also applied several outlier detection methods, such as the One-Class SVM, the Local Outlier Factor (LOF). In addition to these two methods, we have developed our own outlier detection method, by taking into account the seasonality of the data we consider. Based on this study, we have developed an original procedure to select automatically the most interesting coefficients in a semi-supervised framework for the outlier detection, from a given projection. Our method is a multiple testing procedure where we apply the two sample-test to all the levels of coefficients.We have also chosen to analyze the covariance matrices representing the covariance of the te- lemetries between themselves for the outlier detection in multivariate data. In this purpose, we are comparing the covariance of a cluster of several telemetries deriving from two consecutive days, or consecutive orbit periods. We have applied three statistical tests targeting this same issue with different approaches. We have also developed an original asymptotic test, inspired by both first tests. In addition to the proof of the convergence of this test, we demonstrate thanks to examples that this new test is the most powerful. In this PhD, we have tackled several aspects of the anomaly detection in the functional data deriving from satellites. For each of these methods, we have detected all the major anomalies, improving significantly the false discovery rate. Détection d’anomalies Données Fonctionnelles , Apprentissage non Supervisé Tests Multiples Données Satellites Outlier Detection Functional Data Unsupervised learning Multiple Tes- ting Satellites Data 510
15	Stochastic modelling using large data sets : applications in ecology and genetics / Modélisation stochastique de grands jeux de données : applications en écologie et en génétique Coudret, Raphaël 16 September 2013 (has links) Deux parties principales composent cette thèse. La première d'entre elles est consacrée à la valvométrie, c'est-à-dire ici l'étude de la distance entre les deux parties de la coquille d'une huître au cours du temps. La valvométrie est utilisée afin de déterminer si de tels animaux sont en bonne santé, pour éventuellement tirer des conclusions sur la qualité de leur environnement. Nous considérons qu'un processus de renouvellement à quatre états sous-tend le comportement des huîtres étudiées. Afin de retrouver ce processus caché dans le signal valvométrique, nous supposons qu'une densité de probabilité reliée à ce signal est bimodale. Nous comparons donc plusieurs estimateurs qui prennent en compte ce type d'hypothèse, dont des estimateurs à noyau.Dans un second temps, nous comparons plusieurs méthodes de régression, dans le but d'analyser des données transcriptomiques. Pour comprendre quelles variables explicatives influent sur l'expression de gènes, nous avons réalisé des tests multiples grâce au modèle linéaire FAMT. La méthode SIR peut être envisagée pour trouver des relations non-linéaires. Toutefois, elle est principalement employée lorsque la variable à expliquer est univariée. Une version multivariée de cette approche a donc été développée. Le coût d'acquisition des données transcriptomiques pouvant être élevé, la taille n des échantillons correspondants est souvent faible. C'est pourquoi, nous avons également étudié la méthode SIR lorsque n est inférieur au nombre de variables explicatives p. / There are two main parts in this thesis. The first one concerns valvometry, which is here the study of the distance between both parts of the shell of an oyster, over time. The health status of oysters can be characterized using valvometry in order to obtain insights about the quality of their environment. We consider that a renewal process with four states underlies the behaviour of the studied oysters. Such a hidden process can be retrieved from a valvometric signal by assuming that some probability density function linked with this signal, is bimodal. We then compare several estimators which take this assumption into account, including kernel density estimators.In another chapter, we compare several regression approaches, aiming at analysing transcriptomic data. To understand which explanatory variables have an effect on gene expressions, we apply a multiple testing procedure on these data, through the linear model FAMT. The SIR method may find nonlinear relations in such a context. It is however more commonly used when the response variable is univariate. A multivariate version of SIR was then developed. Procedures to measure gene expressions can be expensive. The sample size n of the corresponding datasets is then often small. That is why we also studied SIR when n is less than the number of explanatory variables p. Données transcriptomiques Estimateur à noyau Processus de renouvellement Régression inverse par tranches Tests multiples Valvométrie Kernel density estimator Multiple testing Renewal process Sliced inverse regression Transcriptomics Valvometry
16	Étude des déterminants de la puissance statistique en spectrométrie de masse / Statistical power determinants in mass-spectrometry Jouve, Thomas 03 December 2009 (has links) La spectrométrie de masse fait partie des technologies haut débit et offre à ce titre un regard inédit, à une échelle nouvelle, sur les protéines contenues dans divers échantillons biologiques. Les études biomédicales utilisant cette technologie sont de plus en plus nombreuses et visent à détecter de nouveaux biomarqueurs de différents processus biologiques, notamment de processus pathologiques à l'origine de cancers. Cette utilisation comme outil de criblage pose des questions quant à la capacité même des expériences de spectrométrie de masse dans cette détection. La puissance statistique traduit cette capacité et rappelle que les études doivent être calibrées pour offrir des garanties suffisantes de succès. Toutefois, cette exploration de la puissance statistique en spectrométrie de masse n'a pas encore été réalisée. L'objet de cette thèse est précisément l'étude des déterminants de la puissance pour la détection de biomarqueurs en spectrométrie de masse. Une revue de la littérature a été réalisée, reprenant l'ensemble des étapes nécessaires du traitement du signal, afin de bien comprendre les techniques utilisées. Les méthodes statistiques disponibles pour l'analyse du signal ainsi traité sont revues et mises en perspective. Les situations de tests multiples, qui émergent notamment de ces données de spectrométrie de masse, suggèrent une redéfinition de la puissance, détaillée par la suite. La puissance statistique dépend du plan d'expérience. La taille d'échantillon, la répartition entre groupes étudiés et l'effet différentiel ont été investigués, par l'intermédiaire de simulations d'expériences de spectrométrie de masse. On retrouve ainsi les résultats classiques de la puissance, faisant notamment ressortir le besoin crucial d'augmenter la tailles des études pour détecter des biomarqueurs, particulièrement lorsque ceux-ci présentent un faible effet différentiel. Au delà de ces déterminants classiques de la puissance, des déterminants propres à la spectrométrie de masse apparaissent. Une chute importante de puissance est mise en évidence, due à l'erreur de mesure des technologies de spectrométrie de masse. Une synergie péjorative existe de plus entre erreur de mesure et procédure de contrôle du risque de première espèce de type FDR. D'autre part, les méthodes de détection des pics, par leurs imperfections (faux pics et pics manqués), induisent un contrôle suboptimal de ce risque de première espèce, conduisant à une autre chute de puissance. Ce travail de thèse met ainsi en évidence trois niveaux d'intervention possibles pour améliorer la puissance des études : la meilleure calibration des plans d'expérience, la minimisation de l'erreur de mesure et l'amélioration des algorithmes de prétraitement. La technologie même de spectrométrie de masse ne pourra conduire de façon fiable à la détection de nouveaux biomarqueurs qu'au prix d'un travail à ces trois niveaux. / Mass-spectrometry (MS) belongs to the high-throughput technologies and therefore offers an originalperspective on proteins contained in various biological samples, at a new scale. Biomedicalstudies using this technology are increasingly frequent. They aim at detecting new biomarkersof different biological processes, especially pathological processes leading to cancer. This use asa screening tool asks questions regarding the very detection effectiveness of MS experiments.Statistical power is the direct translation of this effectiveness and reminds us that calibratedstudies are required to offer sufficient guarantees of success. However, this exploration of statisticalpower in mass-spectrometry has not been performed yet. The theme of this work is preciselythe study of power determinants for the detection of biomarkers in MS studies.A literature review was performed, summarizing all necessary pretreatment steps of thesignal analysis, in order to understand the utilized techniques. Available statistical methods forthe analysis of this pretreated signal are also reviewed and put into perspective. Multiple testingsettings arising from MS data suggest a power redefinition. This power redefinition is detailed.Statistical power depends on the study design. Sample sizes, group repartition and the differentialeffect were investigated through MS experiment simulations. Classical results of statisticalpower are acknowledged, with an emphasis on the crucial need to increase sample sizes forbiomarker detection, especially when these markers show low differential effects.Beyond these classical power determinants, mass-spectrometry specific determinants appear.An important power drop is experienced when taking into account the high measurement variabilityencountered in mass-spectrometry. A detrimental synergy exists between measurementvariability and type 1 error control procedures (e.g. FDR). Furtheremore, the imperfections ofpeak detection methods (false and missed peaks) induce a sub-optimal control of this type 1error, leading to another power drop.This work shows three possible intervention levels if we want to improve power in MS studies: a better study design, measurement variability minimisation and pretreatment algorithmsimprovements. Only a work at these three levels can guarantee reliable biomarker detections inthese studies. Puissance statistique Protéomique Spectrométrie de masse Haut-débit Calibration Tests multiples Perte séquentielle de puissance Statistical power Proteomics Mass-spectrometry High-throughput Calibration Multiple testing Sequential power los
17	Multiplicité des tests, et calculs de taille d'échantillon en recherche clinique / Multiplicity of tests, and sample size determination of clinical trials Riou, Jérémie 11 December 2013 (has links) Ce travail a eu pour objectif de répondre aux problématiques inhérentes aux tests multiples dans le contexte des essais cliniques. A l’heure actuelle un nombre croissant d’essais cliniques ont pour objectif d’observer l’effet multifactoriel d’un produit, et nécessite donc l’utilisation de co-critères de jugement principaux. La significativité de l’étude est alors conclue si et seulement si nous observons le rejet d’au moins r hypothèses nulles parmi les m hypothèses nulles testées. Dans ce contexte, les statisticiens doivent prendre en compte la multiplicité induite par cette pratique. Nous nous sommes consacrés dans un premier temps à la recherche d’une correction exacte pour l’analyse des données et le calcul de taille d’échantillon pour r = 1. Puis nous avons travaillé sur le calcul de taille d’´echantillon pour toutes valeurs de r, quand les procédures en une étape, ou les procédures séquentielles sont utilisées. Finalement nous nous sommes intéressés à la correction du degré de signification engendré par la recherche d’un codage optimal d’une variable explicative continue dans un modèle linéaire généralisé / This work aimed to meet multiple testing problems in clinical trials context. Nowadays, in clinical research it is increasingly common to define multiple co-primary endpoints in order to capture a multi-factorial effect of the product. The significance of the study is concluded if and only if at least r null hypotheses are rejected among the m null hypotheses. In this context, statisticians need to take into account multiplicity problems. We initially devoted our work on exact correction of the multiple testing for data analysis and sample size computation, when r = 1. Then we worked on sample size computation for any values of r, when stepwise and single step procedures are used. Finally we are interested in the correction of significance level generated by the search for an optimal coding of a continuous explanatory variable in generalized linear model. Calcul de taille d’´echantillon Co-critères de jugement principaux Essais cliniques Tests multiples Clinical trials Co-primary endpoints Multiple Testing Sample-size Computation
18	Stratégies de recherches de phénomènes d’interactions dans les maladies multifactorielles / Research strategies for finding genetic interaction phenomena in multifactorial diseases Greliche, Nicolas 18 February 2013 (has links) Les études d'associations en génome entier ("GWAS") ont récemment permis la découverte de nombreux polymorphismes génétiques impliqués dans la susceptibilité aux maladies multifactorielles. Cependant, ces polymorphismes n'expliquent qu'une faible part de l'héritabilité génétique de ces maladies, nous poussant ainsi à explorer de nouvelles pistes de recherche. Une des hypothèses envisagées serait qu'une partie de cette héritabilité manquante fasse intervenir des phénomènes d'interactions entre polymorphismes génétiques. L'objectif de cette thèse est d'explorer cette hypothèse en adoptant une stratégie de recherche d'interactions basée sur des critères statistiques et biologiques à partir de données issues de différentes études "GWAS". Ainsi, en utilisant différentes méthodes statistiques, nous avons commencé par rechercher des interactions entre polymorphismes qui pourraient influencer le risque de thrombose veineuse. Cette recherche n'a malheureusement pas abouti à l'identification de résultats robustes vis à vis du problème des tests multiples. Dans un deuxième temps, à partir d'hypothèses "plus biologiques", nous avons tenté de mettre en évidence des interactions entre polymorphismes impliqués dans les mécanismes de régulation de l'expression génique associés aux microARNs. Nous avons pu ainsi montrer de manière robuste dans deux populations indépendantes qu'un polymorphisme au sein de la séquence du microARN hsa-mir-219-1 interagissait avec un polymorphisme du gène HLA-DPB1 pour en moduler l'expression monocytaire. Nous avons également montré que l'expression monocytaire du gène H1F0 était influencée par un phénomène d'interaction impliquant un polymorphisme du microARN hsa-mir-659. En apportant sa propre contribution à l'engouement récent que suscite la recherche d'interactions entre polymorphismes dans les maladies dites complexes, ce travail de thèse illustre clairement la difficulté d'une telle tâche et l'importance de réfléchir à de nouvelles stratégies de recherches. / Recently, Genome-Wide Association Studies (GWAS) have led to the discovery of numerous genetic polymorphisms involved in complex human diseases. However, these polymorphisms contribute only a little to the overall genetic variability of these diseases, suggesting the need for new kind of investigations in order to disentangle the so-called "missing heritability". The purpose of my PhD project was to investigate how different research strategies relying on statistical and biological considerations could help in determining whether part of this missing heritability could reside in interaction phenomena between genetic polymorphisms. Firstly, we applied different statistical methodologies and looked for interactions between polymorphisms that could influence the risk of venous thrombosis (VT). Even though this study was based on two large GWAS datasets, we were not able to identify pairwise interactions that survive multiple testing. This work suggests that strong interactive phenomena between common SNPs are unlikely to contribute much to the risk of VT. Second, by adopting a hypothesis-driven approach relying on biological arguments, we sought for interactions between microRNA related polymorphisms that could alter genetic expression. Using two large GWAS datasets in which genome-wide monocyte expression was also available, we were able to demonstrate the existence of two pairwise interaction phenomena on monocyte expression involving miRNAs polymorphisms: 1/ the expression of HLA-DPB1 was modulated by a polymorphism in its 3'UTR region with a polymorphism in the hsa-mir-219-1 microRNA sequence; 2/ similarly, the expression of H1F0 was influenced by a polymorphism in its 3'UTR region interacting with a polymorphism in the microRNA hsa-mir-659. Altogether, this project supports for the role of gene x gene interactions in the interindividual variability of biological processes but their identifications remain a tedious task requiring large samples and the development of new research strategies and methodologies. Interaction MicroARN Thrombose veineuse Monocyte Génétique GWAS Statistique Puissance Tests multiples Charlie Pondération Héritabilité Épidémiologie génétique PNS Maladies complexes MiRNA Interaction MicroARN Venous thrombosis Monocyte Genetics GWAS Statistics Power Multiple testing Waldo Wally Heritability Genetic SNP Complex diseases MiRNA
19	Recherche statistique de biomarqueurs du cancer et de l'allergie à l'arachide Collignon, Olivier 16 October 2009 (has links) (PDF) La première partie de la thèse traite de la recherche de biomarqueurs du cancer. Lors de la transcription, il apparaît que certains nucléotides peuvent être remplacés par un autre nucléotide. On s'intéresse alors à la comparaison des probabilités de survenue de ces infidélités de transcription dans des ARNm cancéreux et dans des ARNm sains. Pour cela, une procédure de tests multiples menée sur les positions des séquences de référence de 17 gènes est réalisée via les EST (Expressed Sequence Tag). On constate alors que ces erreurs de transcription sont majoritairement plus fréquentes dans les tissus cancéreux que dans les tissus sains. Ce phénomène conduirait ainsi à la production de protéines dites aberrantes, dont la mesure permettrait par la suite de détecter les patients atteints de formes précoces de cancer. La deuxième partie de la thèse s'attache à l'étude de l'allergie à l'arachide. Afin de diagnostiquer l'allergie à l'arachide et de mesurer la sévérité des symptômes, un TPO (Test de Provocation Orale) est réalisé en clinique. Le protocole consiste à faire ingérer des doses croissantes d'arachide au patient jusqu'à l'apparition de symptômes objectifs. Le TPO pouvant se révéler dangereux pour le patient, des analyses discriminantes de l'allergie à l'arachide, du score du TPO, du score du premier accident et de la dose réactogène sont menées à partir d'un échantillon de 243 patients, recrutés dans deux centres différents, et sur lesquels sont mesurés 6 dosages immunologiques et 30 tests cutanés. Les facteurs issus d'une Analyse Factorielle Multiple sont également utilisés comme prédicteurs. De plus, un algorithme regroupant simultanément en classes des intervalles comprenant les doses réactogènes et sélectionnant des variables explicatives est proposé, afin de mettre ensuite en compétition des règles de classement. La principale conclusion de cette étude est que les mesures de certains anticorps peuvent apporter de l'information sur l'allergie à l'arachide et sa sévérité, en particulier ceux dirigés contre rAra-h1, rAra-h2 et rAra-h3. [MATH] Mathematics [SDV] Life Sciences tests multiples ARNm cancer Expressed Sequence Tag substitution de nucléotides infidélité de transcription Analyse Factorielle Multiple analyse discriminante apprentissage statistique classification supervisée sélection de variables allergie à l'arachide test de provocation orale immunologie
20	Stratégies de recherches de phénomènes d'interactions dans les maladies multifactorielles Greliche, Nicolas 18 February 2013 (has links) (PDF) Les études d'associations en génome entier ("GWAS") ont récemment permis la découverte de nombreux polymorphismes génétiques impliqués dans la susceptibilité aux maladies multifactorielles. Cependant, ces polymorphismes n'expliquent qu'une faible part de l'héritabilité génétique de ces maladies, nous poussant ainsi à explorer de nouvelles pistes de recherche. Une des hypothèses envisagées serait qu'une partie de cette héritabilité manquante fasse intervenir des phénomènes d'interactions entre polymorphismes génétiques. L'objectif de cette thèse est d'explorer cette hypothèse en adoptant une stratégie de recherche d'interactions basée sur des critères statistiques et biologiques à partir de données issues de différentes études "GWAS". Ainsi, en utilisant différentes méthodes statistiques, nous avons commencé par rechercher des interactions entre polymorphismes qui pourraient influencer le risque de thrombose veineuse. Cette recherche n'a malheureusement pas abouti à l'identification de résultats robustes vis à vis du problème des tests multiples. Dans un deuxième temps, à partir d'hypothèses "plus biologiques", nous avons tenté de mettre en évidence des interactions entre polymorphismes impliqués dans les mécanismes de régulation de l'expression génique associés aux microARNs. Nous avons pu ainsi montrer de manière robuste dans deux populations indépendantes qu'un polymorphisme au sein de la séquence du microARN hsa-mir-219-1 interagissait avec un polymorphisme du gène HLA-DPB1 pour en moduler l'expression monocytaire. Nous avons également montré que l'expression monocytaire du gène H1F0 était influencée par un phénomène d'interaction impliquant un polymorphisme du microARN hsa-mir-659. En apportant sa propre contribution à l'engouement récent que suscite la recherche d'interactions entre polymorphismes dans les maladies dites complexes, ce travail de thèse illustre clairement la difficulté d'une telle tâche et l'importance de réfléchir à de nouvelles stratégies de recherches. Interaction MicroARN Thrombose veineuse Monocyte Génétique GWAS Statistique Puissance Tests multiples Charlie Pondération Héritabilité Épidémiologie génétique PNS Maladies complexes MiRNA

Search results