• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 225
  • 63
  • 29
  • 29
  • 29
  • 29
  • 29
  • 29
  • 15
  • 10
  • 1
  • Tagged with
  • 379
  • 379
  • 119
  • 118
  • 118
  • 118
  • 118
  • 51
  • 46
  • 42
  • 38
  • 34
  • 29
  • 22
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Denoising amplicon-based metagenomic data

Gaspar, John M. 26 July 2014 (has links)
<p> Reducing the effects of sequencing errors and PCR artifacts has emerged as an essential component in amplicon-based metagenomic studies. Denoising algorithms have been written that can reduce error rates in mock community data, in which the true sequences are known, but they were designed to be used in studies of real communities. To evaluate the outcome of the denoising process, we developed methods that do not rely on <i>a priori </i> knowledge of the correct sequences, and we applied these methods to a real-world dataset. We found that the denoising algorithms had substantial negative side-effects on the sequence data. For example, in the most widely used denoising pipeline, AmpliconNoise, the algorithm that was designed to remove pyrosequencing errors changed the reads in a manner inconsistent with the known spectrum of these errors, until one of the parameters was increased substantially from its default value.</p><p> With these shortcomings in mind, we developed a novel denoising program, FlowClus. FlowClus uses a systematic approach to filter and denoise reads efficiently. When denoising real datasets, FlowClus provides feedback about the process that can be used as the basis to adjust the parameters of the algorithm to suit the particular dataset. FlowClus produced a lower error rate compared to other denoising algorithms when analyzing a mock community dataset, while retaining significantly more sequence information. Among its other attributes, FlowClus can analyze longer reads being generated from current protocols and irregular flow orders. It has processed a full plate (1.5 million reads) in less than four hours; using its more efficient (but less precise) trie analysis option, this time was further reduced, to less than seven minutes. </p>
22

Integration of Cancer-Related Mutations for Pan-Cancer Analysis

Wu, Tsung-Jung 13 August 2014 (has links)
<p> Years of sequence feature curation by UniProtKB/Swiss-Prot, PIR-PSD, NCBI-CDD, RefSeq and other database biocurators has led to a rich repository of information on functional sites of genes and proteins. This information along with variation-related annotation can be used to scan human short sequence reads from next-generation sequencing (NGS) pipelines for presence of non-synonymous single-nucleotide variations (nsSNVs) that affect functional sites. This and similar workflows are becoming more important because thousands of NGS data sets are being made available through projects such as The Cancer Genome Atlas (TCGA), and researchers want to evaluate their biomarkers in genomic data. BioMuta, an integrated sequence feature database, provides a framework for automated and manual curation and integration of cancer-related sequence features so that they can be used in NGS analysis pipelines. Sequence feature information in BioMuta is collected from the Catalogue of Somatic Mutations in Cancer (COSMIC), ClinVar, UniProtKB and through biocuration of information available from publications. Additionally, nsSNVs identified through automated analysis of NGS data from TCGA are also included in the database. Due to the petabytes of data and sequence information present in NGS primary databases, a High-performance Integrated Virtual Environment (HIVE) platform for storing, analyzing, computing and curating NGS data and associated metadata has been developed. Using HIVE, 31,979 nsSNVs were identified in TCGA-derived NGS data from breast cancer patients. All variations identified through this process are stored in a Curated Short Read archive, and the nsSNVs from the tumor samples are included in BioMuta. Currently, BioMuta has 26 cancer types with 13,896 small scale and 308,986 large scale study-derived variations. Integration of variation data allows identifications of novel or common nsSNVs that can be prioritized in validation studies.</p>
23

Experimental design and statistical analysis in high throughput screening

Murie, Carl Eric January 2014 (has links)
High throughput screening (HTS) is a biotechnology that allows researchers to detect the small number of active features (e.g. small molecules, small interfering RNAs) among libraries containing up to hundreds of thousands of features. HTS assays, as with all experimental techniques, are prone to both random error resulting from the inherent variability of biological processes or experimental procedures, and systematic error which can be introduced through any number of known or unknown sources. The effect of both types of error can result in truly inactive features being labeled as active (false positives) and truly active features being labeled as inactive (false negatives). The goal of experimental design and statistical analysis is to minimize and estimate the error of an assay, although in the HTS field these methods are not always fully utilized.This thesis presents improvements in the statistical analysis and experimental design of HTS in order to improve the detection of rare biological activity. I first present a comparison of the effectiveness of normalization methods for HTS screening in two titration series experiments and extend the results in a third experiment with two differently designed but otherwise identical screens: compounds in replicate plates were either placed in the same well locations or were randomly assigned to different locations. Best results were obtained with a combination of appropriate normalization and randomization. Secondly, the Single Assay-wide Variance Experimental (SAVE) design is introduced whereby a small replicated subset of an entire screen is used to derive Empirical Bayes random error estimates which are applied to the remaining majority of unreplicated measurements. SAVE is shown to produce valid and informative P-values comparable to the P-values produced with multi-replicate data. Thirdly, the Control Plate Regression (CPR) normalization method, designed for assays such as secondary screens where there may be a majority of active features, is developed and shown to outperform current methodology. Diagnostic techniques are provided that allow researchers to predict the effectiveness and appropriateness of applying CPR. Lastly, the Statistics and dIagnostic Graphs for HTS (SIGHTS) software was developed to implement many of the techniques discussed in this thesis and is designed to be accessible to researchers with no programming experience.Combining graphical assessments, randomization procedures, normalization methods customized to the requirements of the screen, and statistical testing is shown to produce superior results to current HTS analysis techniques. / Le criblage à haut débit (CHD) est une biotechnologie qui permet l'identification d'un petit nombre de caractéristiques biologiques (petites molécules, petits ARN interférents) actifs parmi un très grand nombre de caractéristiques (jusqu'à des centaines de mille). Les expériences CHD, comme dans le cas de toute technique expérimentale, sont enclins autant aux erreurs aléatoires résultants de la variabilité inhérente des processus biologiques ou des procédures expérimentales, qu'aux erreurs systématiques qui peuvent être introduites par une multitude de sources connues ou inconnues. L'effet des deux types d'erreurs peut résulter en une identification comme actif d'activités réellement inactives (faux-positifs) et en des caractéristiques réellement actives identifiées comme étant inactives (faux-négatifs). Le but de la conception expérimentale et de l'analyse statistique est de minimiser et d'estimer l'erreur d'une expérience, bien que ces méthodes ne soient pas entièrement appliquées dans le domaine de la CHD. Cette thèse présente une suite de méthodes graphiques qui utilisent la correspondance entre les données et les attentes biologiques ou statistiques afin d'aider à évaluer la qualité de l'expérience et d'aider à choisir des techniques analytiques qui soient les plus appropriées. Une conception expérimentale randomisée (les caractéristiques sont assignées à différentes positions de puits sélectionnés de manière aléatoire au travers des réplicats de plaques) est présenté et comparé à une conception standard (les caractéristiques sont assignées aux mêmes positions de puits au travers des réplicats de plaques) et démontre qu'il est possible de mieux détecter les caractéristiques actives tout en réduisant les effets erronés. Une conception expérimentale est présenté où les valeurs p informatives peuvent être produites pour un essai à réplicat unique en utilisant le test statistique Modèle à Variance Aléatoire (MVA) avec un petit sous-ensemble de données répliquées à partir de l'essai à réplicat unique. Troisièmement, la méthode de normalisation "Control Plate Regression (CPR)" conçu pour des expériences de dépistage secondaire, ou il peut y avoir majorité d'éléments actifs, a été développée et démontre une meilleure performance que les méthode antérieures. Des techniques diagnostiques sont fournis pour permettre aux chercheurs de prédire l'efficacité et la pertinence de l'application de la méthode CPR. L'application combinée des évaluations graphiques d'une expérience, la conception expérimentale randomisé, les techniques de normalisation désignées pour des types de données spécifiques et les tests statistiques sont présentés comme ayant une capacité à produire des résultats de niveau supérieur aux techniques d'analyses CHD courantes. Le progiciel SIGHTS fut développé afin d'implémenter les techniques présentées dans cette thèse afin de rendre ces méthodes accessible aux chercheurs sans expertise en programmation.
24

Conservation analysis of potential cis-NATs in Brassicaceae plants for crop improvement

Bouchard, Johnathan January 2014 (has links)
Canola fuels a multi-billion dollar industry in Canada. It is a Canadian trademarked name of specific cultivars derived from specific Brassicaceae plants. Cis-NATs are natural antisense transcripts that overlap a gene and are not translated into proteins. Instead, they silence their parent gene's expression through various mechanisms. Their role in humans is well established, but their role in plants is relatively obscure. The goal of this thesis project is to analyze the conservation of cis-NATs across 8 different Brassicaceae genera (9 species). This is useful for picking up targets for crop improvement in canola. Conservation was studied across the 9 species, then across two subgroups of 4 and 2 species, respectively; cis-NATs simultaneously exhibiting conservation in all three scenarios were selected. A total of 34 potential candidates were identified. The study also suggests that the type of a cis-NAT might also affect its conservation. The presented methodology is a powerful pre-screening strategy to direct experimental efforts. It can be used with genes and other transcribed non-coding DNA. / Le canola est à la base d'une industrie canadienne de plusieurs milliards de dollars. En fait, le mot canola est un acronyme canadien incluant certaines plantes dérivées d'espèces de la famille des Brassicaceae. Les cis-NATs sont des molécules d'ARN qui ne sont pas traduites en protéines. Elles réduisent plutôt l'expression des gènes qu'elles superposent à travers différents mécanismes. Leur rôle chez les humains est bien établit, mais ce n'est pas le cas chez les plantes. Le but de cette thèse est d'identifier des cis-NATs qui sont conservés à travers 8 genres différents (9 espèces) de la famille des Brassicaceae. Cela est pratique pour identifier des candidats pouvant être utilisés pour une application agronomique. La conservation a été étudiée à travers les 9 espèces, puis à travers deux sous-groupes de 4 et 2 espèces, respectivement. Les cis-NATs qui démontraient une conservation à travers 9, 4, et 2 espèces simultanément ont été sélectionnés. 34 candidats ont été identifiés. Le projet de recherche suggère aussi que le type de cis-NAT peut potentiellement influencer sa conservation. La méthode présentée est une stratégie de recherche préalable et très efficace pour diriger les efforts expérimentaux. Elle peut être aussi utilisée avec des gènes ou n'importe quel autre élément génétique non codant qui est transcrit.
25

Investigating non-canonical functions of gamma-tubulin by using genome scale structure-function (GSSF) analysis

Nguyen, Thi Thu Thao January 2010 (has links)
Gamma-tubulin is a conserved component of microtubule-organizing center (MTOC) and functions in microtubule nucleation in vivo. Recent studies suggest that gamma-tubulin might have additional roles in microtubule organization. For example, the deletion of DSYL domain at the acidic unstructured C-terminal of Tub4 abrogates the Kar9-dependent pathway for spindle positioning. In vivo, gamma-tubulin is modulated via phosphorylation and the tyrosine 445 residue was found to be one of the phosphorylation sites of Tub4. In addition, the phospho-mimetic mutation (tub4-Y445D) causes defects in chromosome segregation. We hypothesize that differential phosphorylation of Tyr445 could control the non-canonical functions of Tub4. If this is the case, it is expected that phospho-mimetic and phospho-inhibiting mutants at Tyr445 would yield specific defects that report on the distinctive functions of Tub4. / In order to test this hypothesis, Genome Scale Structure Function (GSSF) analysis has been performed. This method consists of two main steps, first high-throughput Synthetic Genetic Array (SGA) analysis and second, data clustering using hierarchical algorithm. SGA is a powerful method to reveal genetic interacting partners of gene of interest. We have extended the SGA method by using known or predicted separation-of-function query alleles to cross into the deletion collection, which facilitates not only the study of essential genes but also the dissection of different functional modalities of genes. SGA analysis was conducted between a phospho-inhibiting tub4 mutant (tub4-Y445F) and ~4600 deletion mutants. Next, data clustering using hierarchical algorithm was performed on gene interaction matrix to identify major pathways that Tub4 is involved in. In addition to tub4 mutant, the GSSF analysis has been performed on conditional alleles from two different essential genes Glc7 (glc7-E101Q) and Ame1 (ame1-4), and has revealed genetic networks which recover known-regulated pathways as well as suggest new pathways that these two genes are involved. / Here, we present the GSSF analysis of the phospho-inhibiting allele tub4-Y445F. The results revealed previously known and expected pathways of gamma-tubulin including spindle positioning, actin organization, cell cycle checkpoints and interestingly, suggested new role of gamma-tubulin in DNA damage repair machinery. Preliminary data supporting the new role of gamma-tubulin in the DNA damage repair machinery is also presented, including genetic interactions with the MRX complex and HU sensitivity. / Altogether, the data outlined indicated that gamma-tubulin functions in a much more diverse network than would be expected if it were solely a MT nucleation factor. We propose that GSSF analysis on other tub4 separation-of-function mutants such as phospho-mimetic mutant tub4-Y445D will reveal how gamma-tubulin coordinates its multiple regulatory functions in cells. / La γ-tubuline est un composant du centre d'organisation des microtubules (COMT) et intervient dans la nucléation des microtubules in vivo. Des études récentes suggèrent que le rôle de la γ-tubuline pourrait s'étendre au-delà de cette fonction. Ainsi, la délétion du domaine DSYL à l'extrémité C-terminale acide et non structurée de Tub4 abolit la voie de positionnement du fuseau mitotique dépendant de Kar9. In vivo, la γ-tubuline est modulée par phosphorylation et le résidu tyrosine 445 est un site de phosphorylation de Tub4. De plus, une mutation phospho-mimétique (tub4-Y445D) provoque des défauts de ségrégation des chromosomes. Nous posons l'hypothèse que le phosphorylation différentielle de Tyr445 dicte les fonctions non-canoniques de Tub4. Par exemple, des mutants phospho-mimétiques ou inhibants la phosphorylation au site Tyr445 produiraient des défauts de diverses fonctions de Tub4. / Pour tester cette hypothèse, nous avons entrepris une étude structure-fonction à l'échelle du génome (GSSF) où une analyse du Synthetic Genetic Array (SGA) est suivie d'un regroupement des données par un algorithme hiérarchique. Le SGA est une technique permettant de révéler des interactions génétiques entre des gènes d'intérêt. Une analyse du SGA a été conduite entre un mutant de tub4 et ~4,600 mutants de délétion. Étant l'un des rares laboratoires à utiliser des mutations conditionnelles dans des analyses de SGA, nous pouvons étudier les gènes essentiels mais aussi disséquer les différentes fonctions des gènes. Dans un second temps, le regroupement des données par un algorithme hiérarchique a été réalisé à partir d'une matrice d'interactions génétiques dans le but d'identifier les principales voies d'action de Tub4. En plus de mutants tub4, une analyse GSSF a été conduite avec des allèles conditionnels des gènes essentiels Glc7 et Ame1, glc7-E101Q and ame1-4. Les réseaux d'interactions génétiques ainsi révélés comportent des voies connues pour être régulée par ces deux génes mais aussi suggèrent de nouvelles connexions. / Nous présentons ici l'analyse GSSF de l'allèle tub4-Y445F, inhibant la phosphorylation. Les résultats confirment le rôle de la γ-tubuline dans le positionnement du fuseau mitotique, l'organisation de l'actine et les points de contrôle du cycle cellulaire. Notre étude suggère que le γ-tubuline joue un rôle dans la machinerie de réparation des dommages à l'ADN. Des résultats préliminaires tels que des interactions génétique avec le complexe MRX et de test de sensibilité à HU sont présentées pour appuyer cette nouvelle fonction. Dans leur ensemble, nos données indiquent que la γ-tubuline a un rôle plus complexe que facteur de nucléation des microtubules. Nous pensons que les études GSSF d'autres allèles conditionnels de tub4 tel que tub4-Y445D (phospho-mimétique) permettront de mieux comprendre la coordination de ses multiples fonctions.
26

Predicting transcription factor binding sites using phylogenetic footprinting and a probabilistic framework for evolutionary turnover

Parmar, Victor January 2010 (has links)
Identifying genomic locations of transcription-factor binding sites (TFBS), particularly in higher eukaryotic genomes, has been an enormous challenge. Computational methods involving identification of sequence conservation between related genomes have been the most successful since sites found in such highly conserved regions are more likely to be functional, i.e. are bound and regulate protein production. In this thesis, we present such a probabilistic algorithm for predicting TFBSs which also takes evolutionary turnovers into account. Our algorithm is validated via simulations and the results of its application on ChIP-chip data are presented. / L'identification des sites de fixation des facteurs de transcription (TFBS), particulièrement sur les génomes eucaryotiques plus élevés, a été un énorme défi. Les méthodes informatiques comportant l'identification de la conservation de séquence entre les génomes de différentes espèces ont eu beaucoup de succès parce que les sites trouvés dans de telles régions fortement conservées sont probablement fonctionnels (les facteurs de transcription se rajoutent sur le génome à ces sites-là et réglent la production de protéine). Dans cette thèse, nous présentons un algorithme probabiliste pour la prédiction de TFBSs qui prend en considération également le remuement évolutionnaire. Notre algorithme est validé par l'intermédiare des simulations et le résultats de son application sur des données ChIP-chip sont présentés
27

Bioinformatics approaches to understanding the breast cancer microenvironment

Pepin, Francois January 2010 (has links)
Breast cancer is a complex disease that requires the acquisition of several traits in order to proliferate and spread to nearby and distant tissues. However, many combinations are possible, making it harder to determine their significance. Genome-wide approaches such as gene expression profiling have provided an unbiased and global tool to investigate those traits, allowing investigators to both separate tumors into biologically meaningful categories and then to investigate their features in that context. A well-organized effort is required in order to collect and analyze the large number of samples necessary for such analyses. The Bioinformatics Integrated Application Software represents a way to facilitate both the organization of laboratory manipulation and automating subsequent analyses. / A large part of the complexity of breast cancer comes from the different types of cells that constitute the microenvironment and participate in diverse ways to tumor progression. Blood vessels play an important role in tumor progression, as additional vessels are necessary to support tumor growth. However, those new vessels are generally immature and often cannot efficiently provide nutrients to the tumor. This thesis shows that there exist two classes of tumor blood vessels that are associated with vessel maturity and differ in their expression of several antiangiogenic drug targets. / Numerous interactions occur between the various components of the tumor microenvironment. Using matched expression profiles of these cell types, it is possible to iden- tify specific processes that involve several cell types, such as Th1 and Th2 immune responses. This first step will open the door to a better mapping of the interactions and signals that occur in breast cancer. / Le cancer du sein est une maladie complexe qui requiert l'accumulation de plusieurs caractéristiques avant de pouvoir se multiplier et envahir les tissues rapprochés et éloignés. Plusieurs combinaisons sont par contre possibles, compliquant la tâche de d ́eterminer leurs importances. Les techniques d'analyse sur tout le génome comme l'expression génique sont des outils globaux et non biaisés pour étudier ces caractéristiques. Elle permettent de séparer les tumeurs en groupes biologiquement significatifs et d'étudier leurs caractéristiques dans ce contexte. Un effort concerté est nécessaire pour collecter et analyser la grande quantité de tumeurs requise. Le "Bioinformatics Integrated Application Software" est un système qui permet d'organiser les manipulations de laboratoire et d'automatiser les analyses ultérieures. / Une large proportion de la complexité du cancer du sein provient des diff ́erentes espèces de cellules faisant partie du microenvironnement et participant à la progression de la tumeur. Les vaisseaux sanguins jouent un rôle important dans la progression du cancer car des vaisseaux additionels sont nécessaires pour supporter la croissance tumorale. Ces vaisseaux sont par contre généralement immatures et ne peuvent souvent pas alimenter efficacement la tumeur. Cette thèse démontre qu'il existe deux catégories de vaisseaux sanguins tumoraux qui sont associées avec la maturité des vaisseaux et différent dans leur expression de gènes cibles de plusieurs médicaments antiangiogenèses. / De nombreuses interactions se produisent entre les différentes composantes du microenvironnement tumoral. L'utilisation de profils d'expressions concordants de différentes espèces cellulaires rend possible l'identification de procédés impliquant plusieurs espèces cellulaires, incluant des réactions immunitaires de types Th1 et Th2. Cette première étape va ouvrir la porte à une meilleure connaissance des échanges de signaux dans le cancer du sein.
28

Analysis of the relationship between gene structure, coding ability and nonsense-mediated decay in mamals

De Lima Morais, David January 2010 (has links)
Non-coding mRNAs have been, until recently, regarded as functionless products of junk DNA. However, large-scale genomic studies have enabled us to unveil complex pathways that depend on non-coding mRNAs. In this thesis, I developed a pipeline to perform large scale analysis of non-coding sequences in mammals. In Chapter II, we gathered evidences of a non-random population of pseudogenic duplicated exons (ΨEs, i.e., exons disabled by frameshifts and premature stop codons) in four mammalian genomes: human, mouse, rat and cow. I observed a consistent population of ΨEs, associated with 0.4–1.0% of genes. These ΨE populations exhibit codon substitution patterns that are typical of an endemic population of decaying sequences. Also, ΨEs are more often associated with functional categories such as 'ion binding' and 'nucleic-acid binding' than duplicated exons in general. We also found that ΨEs can participate in alternative splicing events and are not randomly distributed within the gene structure. Pseudogenic exons may function in gene regulation through generation of transcribed pseudogenes, or regulatory alternative transcripts. To further investigate the role of non-coding mRNA, we mapped more than 16 millions EST/mRNAs to genomic sequences in order to identify alternative splice forms (AS) that can be target for mRNA nonsense-mediated decay (NMD) in the same four mammalian species (Chapter IV). We found that at least 10% of the mammalian genes have an alternative splice form targeted for NMD (AS-NMD candidate). More than 25% of the genes with an AS-NMD candidate in mouse, rat and cow also have an ortholog in human that is target for NMD. This highly significant trend clearly suggests that these AS-NMD candidates have a regulatory conserved function across these species. The AS-NMD candidates also showed a similar pattern of gene ontology enrichment in all four species. Furthermore, we mapped the AS-NMD candidates to mass spectrometry-derived proteomics data. / Les ARNms non-codants ont été, depuis récemment, considéré comme des produits non-fonctionnels de l'ADN génomique sans fonction codante (DNA junk). Cependant, des études génomiques à grande échelle nous ont permis de dévoiler des sentiers (chemins) complexes qui dépendent de séquences d'ARNm non-codant. Dans cette thèse, nous développons une méthodologie afin de produire des analyses à grande échelle de séquences non codantes chez les mammifères. Dans le Chapitre II, nous avons ramassé des preuves d'une population non aléatoire d'exons pseudogéniques dupliqués (ΨEs, i.e., exons invalidés par des décalages de trame (frameshifts) et des codons d'arrêt prématurés) dans quatre génomes mammaliens: humain, souris, rat et vache. Nous avons observés une population consistante de ΨEs associée avec 0.4-1.0% des gènes. Ces populations ΨE présentent des modèles de substitution de codons qui sont typiques d'une population endémique de séquences en dégénérescence. De plus, les ΨEs sont plus souvent associés avec des catégories fonctionnelles telles que des liaisons ioniques et des liaisons d'acides nucléiques que des exons dupliqués en général. Nous avons également constaté que les ΨEs peuvent participer à des événements alternatifs d'épissage et ne sont pas distribués aléatoirement dans la structure du gène. Les exons pseudogéniques peuvent fonctionner dans la régulation des gènes à travers la génération de pseudogènes transcrits, ou de transcrits alternatifs régulateurs. Afin d'investiguer davantage le rôle d'ARNm non-codant, nous avons cartographié plus de 16 millions de EST/mRNAs a des séquences génomiques afin d'identifier des formes alternatives d'épissure ou alternative splice forms (AS) qui peuvent être la cible pour l'ARNm non-sens dégradé ou mRNA nonsense-mediated decay (NMD) dans les mêmes quatre espèces mammaliennes (Chapitre IV). Nous avons découvert qu'au moins 10% des gènes mammalien
29

Bioinformatics approaches towards facilitating drug development

Lee, Anna January 2011 (has links)
Drug development is currently a time-consuming, costly and challenging process. The process typically starts with the identification of a therapeutic target for a given disease. A therapeutic target is some biological molecule and the binding of compounds to target molecules is expected to cause a desired therapeutic effect. That is, target binding compounds have the potential to become drug candidates. However, there is a tendency for many drug candidates to fail during clinical trials, and consequently, very few candidates become approved new drugs. This trend suggests that the early stages of drug development should be improved to provide better drug candidates.The reasons for which a drug candidate may fail during clinical trials include unacceptable toxicity and insufficient efficacy observed in humans. These reasons suggest that the assessments of a compound during the early stages of drug development often inaccurately predict the effect of the compound in humans. One of the main goals of systems biology is to accurately predict how a given biological system responds to perturbations, e.g. treatment with a compound. This suggests that systems biology can help address challenges in drug development. However, there are currently gaps in our knowledge of systems. Here we use machine learning techniques to exploit existing systems data towards filling in these gaps. In particular, we developed a method that uses the occurrences of motifs in protein sequences to predict kinase-substrate interactions. We also developed a method that uses gene expression, protein-protein interaction and phenotype data to predict genetic interactions. These predicted interactions can facilitate the identification of potential therapeutic targets. Ultimately, a better selection of therapeutic targets should lead to better drug candidates.We also address the challenge of developing combinatorial therapies. Despite the fact that combinatorial therapies are advantageous, the scale of the experiments required to search for desirable chemical combinations is currently prohibitive. We therefore developed a method that uses system response data to predict chemical synergies towards facilitating the development of combinatorial therapies.Overall, this thesis shows how computational prediction in a systems biology framework can be used to facilitate and expedite the early stages of drug development. / Le développement des médicaments est actuellement un processus coûteux, difficile, et qui prend beaucoup de temps. Le processus commence généralement par l'identification d'une cible thérapeutique pour une maladie spécifique. Une cible thérapeutique est une molécule biologique et l'attachement des composés aux molécules cibles est supposé causer un effet thérapeutique. Donc, les composés qui attachent aux cibles ont le potentiel de devenir des candidats médicaments. Toutefois, beaucoup de candidats médicaments ont tendance à échouer pendant les essais cliniques, et par conséquence, très peu de candidats deviennent nouveaux médicaments approuvés. Cette tendance suggère que les premières étapes du développement de médicaments doit être amélioré afin de fournir des candidats médicaments de meilleure qualité.Les raisons pour lesquelles un candidat médicament peut échouer pendant les essais cliniques incluent une toxicité inacceptable et une éfficacité insuffisante observés chez les humains. Ces raisons suggèrent que les évaluations d'un composé pendant les premières étapes du développement de médicaments mal prédirent l'effet du composé chez les humains. Un des principaux objectifs de la biologie des systèmes est de prédire avec précision comment un système biologique répond à des perturbations, par exemple, un traitement avec un composé. Ceci suggère que la biologie des systèmes peut aider à aborder les défis du développement de médicaments. Toutefois, il existe actuellement des lacunes dans notre connaissance des systèmes. Ici, nous utilisons des techniques d'apprentissage automatique pour exploiter l'information existantes des systèmes pour combler ces lacunes. En particulier, nous avons développé une méthode qui utilise des occurrences des motifs dans les séquences de protéine pour prédire des interactions kinase-substrat. Nous avons aussi développé une méthode qui utilise d'expression des gènes, des interactions entre les protéines et d'information des phénotypes pour prédire des interactions génétiques. Ces interactions prédites peuvent faciliter l'identification des cibles thérapeutiques potentielles. En fin de compte, une meilleure sélection des cibles thérapeutiques devrait entraîner des candidats médicaments de meilleure qualité.Nous avons aussi abordé le défi de développer des thérapies combinatoires. Malgré le fait que les thérapies combinatoires sont avantageuses, l'ampleur des expériences nécessaires à la recherche de combinaisons chimiques souhaitables est actuellement prohibitif. Donc, nous avons développé une méthode qui utilise d'information de réponse des systèmes pour prédire des synergies chimiques en vue de faciliter le développement de thérapies combinatoires.Dans l'ensemble, cette thèse montre comment de calcul de prédiction dans une structure de biologie des systèmes peut être utilisés pour faciliter et accélérer les premières étapes du développement de médicaments.
30

A systems approach towards a functional annotation of the genome of Trypanosoma brucei

Shateri Najafabadi, Hamed January 2012 (has links)
The pathogenic species of trypanosomatids, including Trypanosoma brucei, T. cruzi, and Leishmania spp, cause serious human as well as animal diseases, with a very high incidence and mortality rate if untreated. Although the genome sequences of several trypanosomatids have been known for several years, many aspects of gene function and gene regulation are still unclear in these organisms. Most importantly, the lack of similarity between the majority of their genes and characterized genes of other organisms has limited our understanding of the gene functions in trypanosomatids. Not only the functions of many genes are unknown, the factors that are involved in their regulation are mostly uncharacterized. Trypanosomatids primarily rely on post-transcriptional programs for regulation of gene expression, and transcriptional regulation is of least importance. The genomes of these organisms harbour a large number of RNA-binding proteins with potential role in regulating mRNA stability and translation; however, the sequence specificity of these RNA-binding proteins and their function is mostly unknown. The focus of this thesis is on development of new methods for homology-independent functional characterization of genes in trypanosomatids, and deciphering the programs that are involved in their regulation. First, I describe a novel universal relationship between codon usage and gene function, and show the utility of this relationship for functional characterization of genes in various organisms, including trypanosomatids. This relationship most probably points to the role of codon usage in dynamic regulation of protein expression in different conditions, and helps the cell to adapt to new environments and conditions by synchronously regulating proteins with required functions. Then, I introduce a computational approach for identification of function-specific cis-acting regulatory elements, and demonstrate the utility of this approach for identification of potential regulatory elements in trypanosomatids, as well as for prediction of gene function based on the flanking regulatory sequences. I also show that combination of cis-regulatory elements and codon usage is a strong predictor of gene function in trypanosomatids. In addition to these methods, which can identify biological processes and pathways, a new method for identification of protein molecular functions based on short sequence signatures is introduced in this thesis. I show that this new method is able to identify function-specific protein short motifs that present functional sites on proteins, and demonstrate the utility of these motifs in predicting protein molecular function in trypanosomatids. In addition to these sequence-based approaches, I also explore the possibility of predicting trypanosomatid gene functions based on co-expression. I present the first co-expression network of T. brucei, which is constructed by combining several microarray datasets from different studies, and use it for predicting new components of several essential pathways in this organism. This analysis suggested the presence of a conserved post-transcriptional regulatory network in trypanosomatids, which encouraged us to develop a novel framework for identification of regulatory programs with high network-level conservation across multiple species. This framework revealed an extensive set of conserved regulatory programs in trypanosomatids, many of which could be validated using available expression datasets as well as our microarray profiles of chemical perturbations. The studies described here contribute significantly to functional annotation of genes in trypanosomatids, and identify the regulatory mechanisms that govern gene expression in these organisms. Furthermore, the introduced methods can be used for functional annotation of many uncharacterized genes and identification of gene regulatory programs in virtually all organisms with available genome sequences. / Les espèces pathogènes de l'ordre des trypanosomatida, incluant Trypanosoma brucei, T. cruzi, et différentes espèces de Leishmania sont responsables de sérieuses maladies humaines et animales, avec une très forte incidence et taux de mortalité élevé lorsque non soignées. Bien que les génomes de plusieurs trypanosomatida soient disponibles depuis plusieurs années, de nombreux aspects de la fonction et de la régulation génique restent inexplorés chez ces organismes. Les trypanosomatida se reposent principalement sur des mécanismes post-transcriptionels pour la régulation de l'expression génique, et la régulation de la transcription n'a que peu d'importance. Les génomes de ces organismes hébergent un grand nombre de protéine se liant à l'ARN avec des rôles potentiels dans la régulation de la stabilité et de la traduction des ARNm. Néanmoins, les séquences spécifiques de ces protéines se liant à l'ARN et leurs fonctions restent principalement méconnues. L'objectif de cette thèse se situe au niveau du développement de nouvelles méthodes indépendantes de l'homologie pour permettre la caractérisation fonctionnelles de gènes chez les trypanosomatida, et de déchiffrer les mécanismes impliqués dans cette régulation. Premièrement, je décris une nouvelle relation universelle entre l'utilisation des codons et la fonction génique, et montre l'utilité de cette relation pour la caractérisation de gènes dans divers organismes, incluant les trypanosomatida. Cette relation pointe probablement vers un rôle de l'utilisation des codons dans la régulation dynamique de l'expression protéique sous diverses conditions, et aide la cellule à s'adapter à de nouveaux environnements et conditions en synchronisant la régulation des protéines avec les fonctions requises. J'ai introduis une approche computationnelle pour l'identification d'éléments cis-régulateurs fonction-spécifiques et démontré l'utilité de cette approche pour l'identification d'éléments régulateurs potentiels chez les trypanosomatida, ainsi que pour la prédiction de fonctions géniques basées sur les séquences régulatrices flanquantes. En plus de ces méthodes, qui peuvent identifier biologiquement des phénomènes et des voies métaboliques, une nouvelle procédure pour l'identification des fonctions moléculaires des protéines, basée sur de courtes signatures de séquences, est introduite dans cette thèse. Outre cette approche basée sur les séquences, j'explore également la possibilité de prédire la fonction de certains gènes des trypanosomatida en me basant sur la co-expression. Je présente le premier réseau de co-expression de T. brucei, élaboré en combinant plusieurs jeux de données de microarray provenant de différentes études, et les utilise pour prédire de nouveaux éléments de multiples voies métaboliques essentielles dans cet organisme. Cette analyse suggère la présence de réseaux post-transcriptionels conservés chez les trypanosomatida, ce qui nous encourage à mettre au point un nouveau cadre expérimental pour l'identification de mécanismes régulateurs avec un fort niveau de conservation au sein de multiples espèces. Ce cadre expérimental a révélé une somme importante de mécanismes régulateurs conservés chez les trypanosomatida, dont beaucoup pourraient êtres validés en utilisant des données d'expression disponibles ainsi qu'avec des profils de perturbations chimiques de microarrays. Les études décrites ici contribuent significativement à l'annotation génique fonctionnelle chez les trypanosomatida, et permet d'identifier des mécanismes de régulation qui gouvernent l'expression génique de ces organismes. De plus, les méthodes introduites peuvent être utilisée pour l'annotation fonctionnelle de nombreux gènes non-caractérisés et l'identification de programmes de régulation génique dans virtuellement n'importe quel organisme dont le génome est disponible.

Page generated in 0.1689 seconds