Return to search

Experimental design and statistical analysis in high throughput screening

High throughput screening (HTS) is a biotechnology that allows researchers to detect the small number of active features (e.g. small molecules, small interfering RNAs) among libraries containing up to hundreds of thousands of features. HTS assays, as with all experimental techniques, are prone to both random error resulting from the inherent variability of biological processes or experimental procedures, and systematic error which can be introduced through any number of known or unknown sources. The effect of both types of error can result in truly inactive features being labeled as active (false positives) and truly active features being labeled as inactive (false negatives). The goal of experimental design and statistical analysis is to minimize and estimate the error of an assay, although in the HTS field these methods are not always fully utilized.This thesis presents improvements in the statistical analysis and experimental design of HTS in order to improve the detection of rare biological activity. I first present a comparison of the effectiveness of normalization methods for HTS screening in two titration series experiments and extend the results in a third experiment with two differently designed but otherwise identical screens: compounds in replicate plates were either placed in the same well locations or were randomly assigned to different locations. Best results were obtained with a combination of appropriate normalization and randomization. Secondly, the Single Assay-wide Variance Experimental (SAVE) design is introduced whereby a small replicated subset of an entire screen is used to derive Empirical Bayes random error estimates which are applied to the remaining majority of unreplicated measurements. SAVE is shown to produce valid and informative P-values comparable to the P-values produced with multi-replicate data. Thirdly, the Control Plate Regression (CPR) normalization method, designed for assays such as secondary screens where there may be a majority of active features, is developed and shown to outperform current methodology. Diagnostic techniques are provided that allow researchers to predict the effectiveness and appropriateness of applying CPR. Lastly, the Statistics and dIagnostic Graphs for HTS (SIGHTS) software was developed to implement many of the techniques discussed in this thesis and is designed to be accessible to researchers with no programming experience.Combining graphical assessments, randomization procedures, normalization methods customized to the requirements of the screen, and statistical testing is shown to produce superior results to current HTS analysis techniques. / Le criblage à haut débit (CHD) est une biotechnologie qui permet l'identification d'un petit nombre de caractéristiques biologiques (petites molécules, petits ARN interférents) actifs parmi un très grand nombre de caractéristiques (jusqu'à des centaines de mille). Les expériences CHD, comme dans le cas de toute technique expérimentale, sont enclins autant aux erreurs aléatoires résultants de la variabilité inhérente des processus biologiques ou des procédures expérimentales, qu'aux erreurs systématiques qui peuvent être introduites par une multitude de sources connues ou inconnues. L'effet des deux types d'erreurs peut résulter en une identification comme actif d'activités réellement inactives (faux-positifs) et en des caractéristiques réellement actives identifiées comme étant inactives (faux-négatifs). Le but de la conception expérimentale et de l'analyse statistique est de minimiser et d'estimer l'erreur d'une expérience, bien que ces méthodes ne soient pas entièrement appliquées dans le domaine de la CHD. Cette thèse présente une suite de méthodes graphiques qui utilisent la correspondance entre les données et les attentes biologiques ou statistiques afin d'aider à évaluer la qualité de l'expérience et d'aider à choisir des techniques analytiques qui soient les plus appropriées. Une conception expérimentale randomisée (les caractéristiques sont assignées à différentes positions de puits sélectionnés de manière aléatoire au travers des réplicats de plaques) est présenté et comparé à une conception standard (les caractéristiques sont assignées aux mêmes positions de puits au travers des réplicats de plaques) et démontre qu'il est possible de mieux détecter les caractéristiques actives tout en réduisant les effets erronés. Une conception expérimentale est présenté où les valeurs p informatives peuvent être produites pour un essai à réplicat unique en utilisant le test statistique Modèle à Variance Aléatoire (MVA) avec un petit sous-ensemble de données répliquées à partir de l'essai à réplicat unique. Troisièmement, la méthode de normalisation "Control Plate Regression (CPR)" conçu pour des expériences de dépistage secondaire, ou il peut y avoir majorité d'éléments actifs, a été développée et démontre une meilleure performance que les méthode antérieures. Des techniques diagnostiques sont fournis pour permettre aux chercheurs de prédire l'efficacité et la pertinence de l'application de la méthode CPR. L'application combinée des évaluations graphiques d'une expérience, la conception expérimentale randomisé, les techniques de normalisation désignées pour des types de données spécifiques et les tests statistiques sont présentés comme ayant une capacité à produire des résultats de niveau supérieur aux techniques d'analyses CHD courantes. Le progiciel SIGHTS fut développé afin d'implémenter les techniques présentées dans cette thèse afin de rendre ces méthodes accessible aux chercheurs sans expertise en programmation.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.121125
Date January 2014
CreatorsMurie, Carl Eric
ContributorsRobert Nadon (Supervisor)
PublisherMcGill University
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formatapplication/pdf
CoverageDoctor of Philosophy (Department of Human Genetics)
RightsAll items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
RelationElectronically-submitted theses

Page generated in 0.003 seconds