Spelling suggestions: "subject:"tests multiples"" "subject:"tests ultiples""
1 |
Analyse de descendances : une approche bio-informatique pour estimer le risque d'hypertension et d'obésitéGauthier, François January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
2 |
Recherche statistique de biomarqueurs du cancer et de l'allergie à l'arachide / Development of statistical methods for the discovery of novel biomarkers for cancer or peanut allergyCollignon, Olivier 16 October 2009 (has links)
La première partie de la thèse traite de la recherche de biomarqueurs du cancer. Lors de la transcription, il apparaît que certains nucléotides peuvent être remplacés par un autre nucléotide. On s'intéresse alors à la comparaison des probabilités de survenue de ces infidélités de transcription dans des ARNm cancéreux et dans des ARNm sains. Pour cela, une procédure de tests multiples menée sur les positions des séquences de référence de 17 gènes est réalisée via les EST (Expressed Sequence Tag). On constate alors que ces erreurs de transcription sont majoritairement plus fréquentes dans les tissus cancéreux que dans les tissus sains. Ce phénomène conduirait ainsi à la production de protéines dites aberrantes, dont la mesure permettrait par la suite de détecter les patients atteints de formes précoces de cancer. La deuxième partie de la thèse s'attache à l'étude de l'allergie à l'arachide. Afin de diagnostiquer l'allergie à l'arachide et de mesurer la sévérité des symptômes, un TPO (Test de Provocation Orale) est réalisé en clinique. Le protocole consiste à faire ingérer des doses croissantes d'arachide au patient jusqu'à l'apparition de symptômes objectifs. Le TPO pouvant se révéler dangereux pour le patient, des analyses discriminantes de l'allergie à l'arachide, du score du TPO, du score du premier accident et de la dose réactogène sont menées à partir d'un échantillon de 243 patients, recrutés dans deux centres différents, et sur lesquels sont mesurés 6 dosages immunologiques et 30 tests cutanés. Les facteurs issus d'une Analyse Factorielle Multiple sont également utilisés comme prédicteurs. De plus, un algorithme regroupant simultanément en classes des intervalles comprenant les doses réactogènes et sélectionnant des variables explicatives est proposé, afin de mettre ensuite en compétition des règles de classement. La principale conclusion de cette étude est que les mesures de certains anticorps peuvent apporter de l'information sur l'allergie à l'arachide et sa sévérité, en particulier ceux dirigés contre rAra-h1, rAra-h2 et rAra-h3. / The first part of this doctoral dissertation deals with the research of cancer biomarkers. During transcription it was observed that some nucleotides are replaced mistakenly by others. We sought to compare the probabilities of these transcription infidelities in mRNA originating from normal and cancerous tissues. To do this, a multiple testing procedure was performed on the positions of 17 genes by considering their ESTs (Expressed Sequence Tag). The conclusion was reached that the proportions of these transcription errors are mainly increased in cancer tissues as compared to normal ones. This phenomenon would lead to the translation of aberrant proteins, whose detection could help in identifying patients with cancer. The main goals of the second part are the diagnosis of peanut allergy and the prediction of its severity. Diagnosing peanut allergy and evaluating the intensity of the symptoms are currently accomplished with a double blind placebo controlled food challenge (DBPCFC). Patients are given increasing peanut doses until the first clinical reaction appears. Since DBPCFC can result in life-threatening responses, we propose an alternate procedure with the long term goal of replacing invasive allergy tests. Discriminant analyses of peanut allergy, DBPCFC score, the eliciting dose and the first accidental exposure score were performed in 243 allergic patients using 6 immunoassays and 30 skin prick tests. A Multiple Factorial Analysis was performed to use new factors as predictors. We also developed an algorithm for simultaneously clustering eliciting dose values and selecting discriminant variables. Our main conclusion is that antibody measurements provide information on the allergy and its severity, especially those directed against the peanut allergens rAra-h1, rAra-h2 and rAra-h3.
|
3 |
Analyse de descendances : une approche bio-informatique pour estimer le risque d'hypertension et d'obésitéGauthier, François January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
|
4 |
Étude des déterminants de la puissance statistique en spectrométrie de masseJouve, Thomas 03 December 2009 (has links) (PDF)
La spectrométrie de masse fait partie des technologies haut débit et offre à ce titre un regard inédit, à une échelle nouvelle, sur les protéines contenues dans divers échantillons biologiques. Les études biomédicales utilisant cette technologie sont de plus en plus nombreuses et visent à détecter de nouveaux biomarqueurs de différents processus biologiques, notamment de processus pathologiques à l'origine de cancers. Cette utilisation comme outil de criblage pose des questions quant à la capacité même des expériences de spectrométrie de masse dans cette détection. La puissance statistique traduit cette capacité et rappelle que les études doivent être calibrées pour offrir des garanties suffisantes de succès. Toutefois, cette exploration de la puissance statistique en spectrométrie de masse n'a pas encore été réalisée. L'objet de cette thèse est précisément l'étude des déterminants de la puissance pour la détection de biomarqueurs en spectrométrie de masse. Une revue de la littérature a été réalisée, reprenant l'ensemble des étapes nécessaires du traitement du signal, afin de bien comprendre les techniques utilisées. Les méthodes statistiques disponibles pour l'analyse du signal ainsi traité sont revues et mises en perspective. Les situations de tests multiples, qui émergent notamment de ces données de spectrométrie de masse, suggèrent une redéfinition de la puissance, détaillée par la suite. La puissance statistique dépend du plan d'expérience. La taille d'échantillon, la répartition entre groupes étudiés et l'effet différentiel ont été investigués, par l'intermédiaire de simulations d'expériences de spectrométrie de masse. On retrouve ainsi les résultats classiques de la puissance, faisant notamment ressortir le besoin crucial d'augmenter la tailles des études pour détecter des biomarqueurs, particulièrement lorsque ceux-ci présentent un faible effet différentiel. Au delà de ces déterminants classiques de la puissance, des déterminants propres à la spectrométrie de masse apparaissent. Une chute importante de puissance est mise en évidence, due à l'erreur de mesure des technologies de spectrométrie de masse. Une synergie péjorative existe de plus entre erreur de mesure et procédure de contrôle du risque de première espèce de type FDR. D'autre part, les méthodes de détection des pics, par leurs imperfections (faux pics et pics manqués), induisent un contrôle suboptimal de ce risque de première espèce, conduisant à une autre chute de puissance. Ce travail de thèse met ainsi en évidence trois niveaux d'intervention possibles pour améliorer la puissance des études : la meilleure calibration des plans d'expérience, la minimisation de l'erreur de mesure et l'amélioration des algorithmes de prétraitement. La technologie même de spectrométrie de masse ne pourra conduire de façon fiable à la détection de nouveaux biomarqueurs qu'au prix d'un travail à ces trois niveaux.
|
5 |
Approches bioinformatiques pour l'exploitation des données génomiquesTaing, Lieng 27 September 2012 (has links) (PDF)
Les technologies actuelles permettent d'explorer le génome entier pour identifier des variants génétiques associés à des phénotypes particuliers, notamment de maladies. C'est le rôle de la bioinformatique de répondre à cette problématique. Dans le cadre de cette thèse, un nouvel outil logiciel a été développé qui permet de mesurer avec une bonne précision le nombre de marqueurs génétiques effectivement indépendants correspondant à un ensemble de marqueurs génotypés dans une population donnée. Cet algorithme repose sur la mesure de l'entropie de Shannon contenue au sein de ces marqueurs, ainsi que des niveaux d'information mutuelle calculés sur les paires de SNPs choisis au sein d'une fenêtre de SNPs consécutifs, dont la taille est un paramètre du programme. Il a été montré que ce nombre de marqueurs indépendants devient constant dès que la population est homogène avec une taille suffisante (N > 60 individus) et que l'on utilise une fenêtre assez grande (taille > 100 SNPs). Ce calcul peut avoir de nombreuses applications pour l'exploitation des données.Une analyse génome-entier a été réalisée sur le photo-vieillissement. Elle a porté sur 502 femmes caucasiennes pour lesquelles un grade de photo-vieillissement a été évalué selon une technologie bien établie. Les femmes ont été génotypées sur des puces Illumina OmniOne (1M SNPs), et deux gènes ont été identifiés (STXBP5L et FBX040) associés à un SNP passant le seuil de Bonferroni, dont l'implication dans le photo-vieillissement était jusqu'alors inconnue. De plus, cette association a aussi été retrouvé dans deux autres phénotypes suggérant un mécanisme moléculaire commun possible entre le relâchement cutané et les rides. On n'observe pas de réplication au niveau du critère lentigines, la troisième composante étudiée du photo-vieillissement.Ces travaux sont en cours de publication dans des revues scientifiques internationales à comité de lecture.
|
6 |
Impact de la dépendance dans les procédures de tests multiples en grande dimensionFriguet, Chloé 24 September 2010 (has links) (PDF)
Motivé par des applications dans le domaine de l'analyse de données génomiques, ce travail de thèse porte sur l'étude de l'impact de la dépendance sur les propriétés des procédures de tests multiples en grande dimension. Notre proposition consiste à considérer un modèle d'Analyse en Facteurs pour la structure de dépendance entre les variables. Un algorithme de type EM est présenté pour estimer les paramètres du modèle ainsi qu'une méthode ad hoc pour déterminer le nombre optimal de facteurs à inclure dans le modèle. De plus, ce modèle définit un cadre général pour la prise en compte de la dépendance dans les procédures de tests multiples. L'estimation du taux de faux-positifs (FDR) et de la proportion d'hypothèses nulles, paramètre important qui intervient dans le contrôle des taux d'erreurs, sont étudiés plus particulièrement. Ainsi, on montre que la dépendance entre tests entraîne une instabilité des procédures d'inférence simultanée. Une nouvelle approche est présentée : l'objectif est de réduire cette dépendance, procurant à la fois une augmentation de la puissance des tests et une diminution de la variabilité des taux d'erreurs. Enfin, ces résultats méthodologiques sont illustrés à partir de données génomiques et la procédure est implémentée dans le logiciel libre R au sein du package FAMT.
|
7 |
Détection de sources quasi-ponctuelles dans des champs de données massifs / Quasi-ponctual sources detection in massive data fieldsMeillier, Céline 15 October 2015 (has links)
Dans cette thèse, nous nous sommes intéressés à la détection de galaxies lointaines dans les données hyperspectrales MUSE. Ces galaxies, en particulier, sont difficiles à observer, elles sont spatialement peu étendues du fait de leur distance, leur spectre est composé d'une seule raie d'émission dont la position est inconnue et dépend de la distance de la galaxie, et elles présentent un rapport signal-à-bruit très faible. Ces galaxies lointaines peuvent être considérées comme des sources quasi-ponctuelles dans les trois dimensions du cube. Il existe peu de méthodes dans la littérature qui permettent de détecter des sources dans des données en trois dimensions. L'approche proposée dans cette thèse repose sur la modélisation de la configuration de galaxies par un processus ponctuel marqué. Ceci consiste à représenter la position des galaxies comme une configuration de points auxquels nous ajoutons des caractéristiques géométriques, spectrales, etc, qui transforment un point en objet. Cette approche présente l'avantage d'avoir une représentation mathématique proche du phénomène physique et permet de s'affranchir des approches pixelliques qui sont pénalisées par les dimensions conséquentes des données (300 x 300 x 3600 pixels). La détection des galaxies et l'estimation de leurs caractéristiques spatiales, spectrales ou d'intensité sont réalisées dans un cadre entièrement bayésien, ce qui conduit à un algorithme générique et robuste, où tous les paramètres sont estimés sur la base des seules données observées, la détection des objets d'intérêt étant effectuée conjointement.La dimension des données et la difficulté du problème de détection nous ont conduit à envisager une phase de prétraitement des données visant à définir des zones de recherche dans le cube. Des approches de type tests multiples permettent de construire des cartes de proposition des objets. La détection bayésienne est guidée par ces cartes de pré-détection (définition de la fonction d'intensité du processus ponctuel marqué), la proposition des objets est réalisée sur les pixels sélectionnés sur ces cartes. La qualité de la détection peut être caractérisée par un critère de contrôle des erreurs.L'ensemble des traitements développés au cours de cette thèse a été validé sur des données synthétiques, et appliqué ensuite à un jeu de données réelles acquises par MUSE suite à sa mise en service en 2014. L'analyse de la détection obtenue est présentée dans le manuscrit. / Detecting the faintest galaxies in the hyperspectral MUSE data is particularly challenging because they have a small spatial extension, a very sparse spectrum that contains only one narrow emission line, which position in the spectral range is unknown. Moreover, their signal-to-noise ratio are very low. These galaxies are modeled as quasi point sources in the three dimensions of the data cube. We propose a method for the detection of a galaxy configuration based on a marked point process in a nonparametric Bayesian framework. A galaxy is modeled by a point (its position in the spatial domain), and marks (geometrical, spectral features) are added to transform a point into an object. These processes yield a natural sparse representation of massive data (300 x 300 x 3600 pixels). The fully Bayesian framework leads to a general and robust algorithm where the parameters of the objects are estimated in a fully data-driven way. Preprocessing strategies are drawn to tackle the massive dimensions of the data and the complexity of the detection problem, they allow to reduce the exploration of the data to areas that probably contain sources. Multiple testing approaches have been proposed to build proposition map. This map is also used to define the intensity of the point process, textit{i.e.} it describes the probability density function of the point process. It also gives a global error control criterion for the detection. The performance of the proposed algorithm is illustrated on synthetic data and real hyperspectral data acquired by the MUSE instrument for young galaxy detection.
|
8 |
Approches bioinformatiques pour l'exploitation des données génomiques / Bioinformatics methods for genomic data exploitationTaing, Lieng 27 September 2012 (has links)
Les technologies actuelles permettent d'explorer le génome entier pour identifier des variants génétiques associés à des phénotypes particuliers, notamment de maladies. C’est le rôle de la bioinformatique de répondre à cette problématique. Dans le cadre de cette thèse, un nouvel outil logiciel a été développé qui permet de mesurer avec une bonne précision le nombre de marqueurs génétiques effectivement indépendants correspondant à un ensemble de marqueurs génotypés dans une population donnée. Cet algorithme repose sur la mesure de l’entropie de Shannon contenue au sein de ces marqueurs, ainsi que des niveaux d’information mutuelle calculés sur les paires de SNPs choisis au sein d’une fenêtre de SNPs consécutifs, dont la taille est un paramètre du programme. Il a été montré que ce nombre de marqueurs indépendants devient constant dès que la population est homogène avec une taille suffisante (N > 60 individus) et que l'on utilise une fenêtre assez grande (taille > 100 SNPs). Ce calcul peut avoir de nombreuses applications pour l'exploitation des données.Une analyse génome-entier a été réalisée sur le photo-vieillissement. Elle a porté sur 502 femmes caucasiennes pour lesquelles un grade de photo-vieillissement a été évalué selon une technologie bien établie. Les femmes ont été génotypées sur des puces Illumina OmniOne (1M SNPs), et deux gènes ont été identifiés (STXBP5L et FBX040) associés à un SNP passant le seuil de Bonferroni, dont l'implication dans le photo-vieillissement était jusqu'alors inconnue. De plus, cette association a aussi été retrouvé dans deux autres phénotypes suggérant un mécanisme moléculaire commun possible entre le relâchement cutané et les rides. On n'observe pas de réplication au niveau du critère lentigines, la troisième composante étudiée du photo-vieillissement.Ces travaux sont en cours de publication dans des revues scientifiques internationales à comité de lecture. / New technologies allow the exploration of the whole genome to identify genetic variants associated with various phenotypes, in particular diseases. Bioinformatics aims at helping to answer these questions. In the context of my PhD thesis, I have first developed a new software allowing to measure with a good precision the number of really independent genetic markers present in a set of markers genotyped in a given population. This algorithm relies on the Shannon's entropy contained within these markers and on the levels of mutual information computed from the pairs of SNPs chosen in a given window of consecutive SNPs, the window size is a parameter of the program. I have shown that the number of really independent markers become stable as soon as the population is homogeneous and large enough (N > 60) and as soon as the window size is large enough (size > 100 SNPs). This computation may have several applications, in particular the diminution of the Bonferroni threshold by a factor that may reach sometimes 4, the latter having little impact in practice.I have also completed a genome-wide association study on photo-ageing. This study was performed on 502 Caucasian women characterized by their grade of photo-ageing, as measured by a well-established technology. In this study, the women were genotyped with OmniOne Illumina chips (1M SNPs), and I have identified two genes (STXBP5L et FBX040) associated with a SNP that passes the Bonferroni threshold, whose implication in photo-ageing was not suspected until now. Interestingly, this association has been highlighted with two other phenotypes which suggest a possible common molecular mechanism between sagging and wrinkling. There was no replication for the lentigin criteria, the third component studied of photo ageing.These studies are on the process to be published in international peer-reviewed scientific journals.
|
9 |
Tests multiples et bornes post hoc pour des données hétérogènes / Multiple testing and post hoc bounds for heterogeneous dataDurand, Guillermo 26 November 2018 (has links)
Ce manuscrit présente mes contributions dans trois domaines des tests multiples où l'hétérogénéité des données peut être exploitée pour mieux détecter le signal tout en contrôlant les faux positifs : pondération des p-valeurs, tests discrets, et inférence post hoc. Premièrement, une nouvelle classe de procédures avec pondération données-dépendante, avec une structure de groupe et des estimateurs de la proportion de vraies nulles, est définie, et contrôle le False Discovery Rate (FDR) asymptotiquement. Cette procédure atteint aussi l'optimalité en puissance sous certaines conditions sur les estimateurs. Deuxièmement, de nouvelles procédures step-up et step-down, adaptées aux tests discrets sous indépendance, sont conçues pour contrôler le FDR pour une distribution arbitraire des marginales des p-valeurs sous l'hypothèse nulle. Finalement, de nouvelles familles de référence pour l'inférence post hoc, adaptées pour le cas où le signal est localisé, sont étudiées, et on calcule les bornes post hoc associées avec un algorithme simple. / This manuscript presents my contributions in three areas of multiple testing where data heterogeneity can be exploited to better detect false null hypotheses or improve signal detection while controlling false positives: p-value weighting, discrete tests, and post hoc inference. First, a new class of data-driven weighting procedures, incorporating group structure and true null proportion estimators, is defined, and its False Discovery Rate (FDR) control is proven asymptotically. This procedure also achieves power optimality under some conditions on the proportion estimators. Secondly, new step-up and step-down procedures, tailored for discrete tests under independence, are designed to control the FDR for arbitrary p-value null marginals. Finally, new confidence bounds for post hoc inference (called post hoc bounds), tailored for the case where the signal is localized, are studied, and the associated optimal post hoc bounds are derived with a simple algorithm.
|
10 |
Contributions à l'analyse statistique des données de puces à ADNNeuvial, Pierre 30 September 2009 (has links) (PDF)
Cette thèse traite de questions statistiques soulevées par l'analyse de données génomiques de grande dimension, dans le cadre de la recherche contre le cancer. La première partie est consacrée à l'étude des propriétés asymptotiques de procédures de tests multiples visant à contrôler l'espérance (FDR) du taux de fausses découvertes (FDP) parmi les hypothèses rejetées. On introduit un formalisme flexible qui permet de calculer la loi asymptotique du FDP et les conditions de régularité associées pour une vaste famille de procédures de tests multiples, et de comparer la puissance de ces procédures. On s'intéresse ensuite aux liens en termes de contrôle du FDR entre les bornes intrinsèques à trois problèmes de tests multiples: la détection, l'estimation, et la sélection. On relie en particulier la vitesse de convergence dans le problème d'estimation à la régularité de la loi des probabilités critiques au voisinage de 1. La seconde partie est dédiée au développement de méthodes d'analyse des données de puces à ADN en cancérologie. On propose une méthode de pré-traitement des données de puces à ADN combinant une régression robuste et un modèle de mélange avec contrainte spatiale, qui permet d'éliminer les biais spatiaux en préservant le signal biologique. On développe ensuite une méthode d'inférence de régulations entre gènes à partir de données d'expression de gènes, qui repose sur des techniques d'apprentissage informatique et de tests multiples. Enfin, on construit un test génomique permettant de déterminer, pour une patiente traitée pour un cancer du sein, si un second cancer survenant sur le même sein est ou non une récidive du premier.
|
Page generated in 0.0675 seconds