1 |
Evalutating Biological Data Using Rank Correlation MethodsSlotta, Douglas J. 24 May 2005 (has links)
Analyses based upon rank correlation methods, such as Spearman's Rho and Kendall's Tau, can provide quick insights into large biological data sets. Comparing expression levels between different technologies and models is problematic due to the different units of measure. Here again, rank correlation provides an effective means of comparison between the two techniques. Massively Parallel Signature Sequencing (MPSS) transcript abundance levels to microarray signal intensities for Arabidopsis thaliana are compared. Rank correlations can be applied to subsets as well as the entire set. Results of subset comparisons can be used to improve the capabilities of predictive models, such as Predicted Highly Expressed (PHX). This is done for Escherichia coli. Methods are given to combine predictive models based upon feedback from experimental data. The problem of feature selection in supervised learning situations is also considered, where all features are drawn from a common domain and are best interpreted via ordinal comparisons with other features, rather than as numerical values. This is done for synthetic data as well as for microarray experiments examining the life cycle of Drosophila melanogaster and human leukemia cells. Two novel methods are presented based upon Rho and Tau, and their efficacy is tested with synthetic and real world data. The method based upon Spearman's Rho is shown to be more effective. / Ph. D.
|
2 |
Identificação in-silico de genes humanos submetidos à expressão alélica diferencial / In-silico identification of human genes submitted to allelic differential expressionSouza, Jorge Estefano Santana de 02 December 2008 (has links)
Estudos recentes demonstraram que a variação de expressão alelo-específica é mais comum do que se imaginou, podendo chegar, em humanos, a 50% dos genes. Identificar os genes submetidos ao controle de expressão alelo-específica é muito importante para o entendimento de várias doenças, incluindo o câncer. A identificação dos alvos desse tipo de regulação diferencial é difícil, principalmente devido à dificuldade de se avaliar a expressão de cada alelo individualmente. Neste trabalho, abordamos este problema com uma estratégia de análise in-silico, fundamentada na integração de dados públicos do genoma humano, dados de expressão (como cDNAs, SAGE e MPSS) e dados sobre polimorfismos (SNPs). Desenvolvemos um banco de dados de polimorfismos de base única (Single-Nucleotide Polymorphism - SNPs) associados a etiquetas alternativas de SAGE (Serial Analysis of Gene Expression) e MPSS (massively parallel signature sequencing). SAGE e MPSS são técnicas desenvolvidas para análise da expressão de genes em larga escala. Ambas as técnicas têm como princípio a produção de pequenas seqüências marcadoras (etiquetas), adjacentes aos sítios de enzimas de restrição que estiverem mais próximo da cauda poli-A do RNA mensageiro. Tais etiquetas são seqüenciadas em grande escala e a quantidade de etiquetas é usada para medir a abundância relativa dos RNAs mensageiros correspondentes. A presença de SNPs nos sítios de restrição ou nas seqüências das etiquetas pode gerar etiquetas distintas para alelos do mesmo gene, que denominamos etiquetas alternativas. Neste trabalho, empregamos o banco de dados de etiquetas alternativas associadas a SNPs para identificar genes com expressão alélica diferencial. Usando esta estratégia, identificamos 812 genes com expressão monoalélica, Estudos anteriores comprovaram que, dentre os 812 genes identificados, cinco estão sujeitos ao fenômeno de imprinting genômico. Durante o decorrer deste estudo, trabalhos realizados por outros grupos apontaram outros 73 genes do nosso repertório como genes que apresentam variação no nível de expressão dos alelos em heterozigotos. Com objetivo de confirmar a expressão alélica diferencial dos nossos candidatos, selecionamos 29 genes para validação experimental. Para 12 destes genes não achamos indivíduos heterozigotos, impossibilitando a análise da expressão dos alelos. Dentre os outros 17 genes, três apresentaram expressão bialélica e 14 apresentaram expressão alélica diferencial nos indivíduos heterozigotos, sendo que 3 deles apresentaram expressão monoalélica. Estes resultados sugerem que nossa estratégia pode contribuir significativamente na identificação de genes com expressão alélica diferencial. / Recent studies have shown that variation of allelic-specific gene expression is more common than previously thought, reaching up to 50% of human genes. To identify genes displaying differential expression among alleles it is important for the understanding of several diseases, including the cancer. Identification of genes submitted to allelic-specific differential expression is hard, mostly due to the difficulty in evaluating the expression levels of each allele independently. In this work, we developed an in-silico approach, based on the integration of public data about the human genome, gene expression data (such as cDNAs, SNPs, SAGE and MPSS) and data on polymorphisms (SNPs). We developed a database of Single Nucleotide Polymorphisms (SNPs) associated to alternative SAGE (Serial Analysis of Gene Expression) and MPSS (Massively Parallel Signature Sequencing) tags. SAGE and MPSS are genome-wide techniques developed for analysis of gene expression. Both techniques rely on the production of short marker sequences (known as tags), adjacent to restriction sites closer to the poly-A tail of messenger RNAs. Such tags are sequenced in a large scale and tag counts are used to measure the relative abundance of their corresponding transcripts. The presence of SNPs in the restriction sites or in the tag sequences might generate allelic-specific tags for the same gene, which we call alternative tags. In this work, we used the database of SNPs and associated alternative tags to identify genes submitted to allelic-specific differential gene expression. Using this approach, we identified 812 genes showing allelic-specific differential gene expression. Previous studies have shown that, among the 812 candidates, five genes are targets for genomic imprinting. While this study was being performed, work done by other groups suggested other 73 genes in our candidates list to have different expression levels for alleles in heterozygous. Aiming to verify whether variations in the expression levels of alleles existed among our candidate genes, we submitted 29 genes for experimental validation. For 12 genes, we couldnt find heterozygous individuals, thus rendering it impossible to ascertain whether the supposed expression variation was true. Among the other 17 genes analyzed, three genes presented bi-allelic expression and 14 genes have shown clear differential expression among alleles, three of the last ones displaying strict mono-allelic expression. These results suggest that our approach may contribute significantly to the identification of genes with allelic-specific differential expression.
|
3 |
Identificação in-silico de genes humanos submetidos à expressão alélica diferencial / In-silico identification of human genes submitted to allelic differential expressionJorge Estefano Santana de Souza 02 December 2008 (has links)
Estudos recentes demonstraram que a variação de expressão alelo-específica é mais comum do que se imaginou, podendo chegar, em humanos, a 50% dos genes. Identificar os genes submetidos ao controle de expressão alelo-específica é muito importante para o entendimento de várias doenças, incluindo o câncer. A identificação dos alvos desse tipo de regulação diferencial é difícil, principalmente devido à dificuldade de se avaliar a expressão de cada alelo individualmente. Neste trabalho, abordamos este problema com uma estratégia de análise in-silico, fundamentada na integração de dados públicos do genoma humano, dados de expressão (como cDNAs, SAGE e MPSS) e dados sobre polimorfismos (SNPs). Desenvolvemos um banco de dados de polimorfismos de base única (Single-Nucleotide Polymorphism - SNPs) associados a etiquetas alternativas de SAGE (Serial Analysis of Gene Expression) e MPSS (massively parallel signature sequencing). SAGE e MPSS são técnicas desenvolvidas para análise da expressão de genes em larga escala. Ambas as técnicas têm como princípio a produção de pequenas seqüências marcadoras (etiquetas), adjacentes aos sítios de enzimas de restrição que estiverem mais próximo da cauda poli-A do RNA mensageiro. Tais etiquetas são seqüenciadas em grande escala e a quantidade de etiquetas é usada para medir a abundância relativa dos RNAs mensageiros correspondentes. A presença de SNPs nos sítios de restrição ou nas seqüências das etiquetas pode gerar etiquetas distintas para alelos do mesmo gene, que denominamos etiquetas alternativas. Neste trabalho, empregamos o banco de dados de etiquetas alternativas associadas a SNPs para identificar genes com expressão alélica diferencial. Usando esta estratégia, identificamos 812 genes com expressão monoalélica, Estudos anteriores comprovaram que, dentre os 812 genes identificados, cinco estão sujeitos ao fenômeno de imprinting genômico. Durante o decorrer deste estudo, trabalhos realizados por outros grupos apontaram outros 73 genes do nosso repertório como genes que apresentam variação no nível de expressão dos alelos em heterozigotos. Com objetivo de confirmar a expressão alélica diferencial dos nossos candidatos, selecionamos 29 genes para validação experimental. Para 12 destes genes não achamos indivíduos heterozigotos, impossibilitando a análise da expressão dos alelos. Dentre os outros 17 genes, três apresentaram expressão bialélica e 14 apresentaram expressão alélica diferencial nos indivíduos heterozigotos, sendo que 3 deles apresentaram expressão monoalélica. Estes resultados sugerem que nossa estratégia pode contribuir significativamente na identificação de genes com expressão alélica diferencial. / Recent studies have shown that variation of allelic-specific gene expression is more common than previously thought, reaching up to 50% of human genes. To identify genes displaying differential expression among alleles it is important for the understanding of several diseases, including the cancer. Identification of genes submitted to allelic-specific differential expression is hard, mostly due to the difficulty in evaluating the expression levels of each allele independently. In this work, we developed an in-silico approach, based on the integration of public data about the human genome, gene expression data (such as cDNAs, SNPs, SAGE and MPSS) and data on polymorphisms (SNPs). We developed a database of Single Nucleotide Polymorphisms (SNPs) associated to alternative SAGE (Serial Analysis of Gene Expression) and MPSS (Massively Parallel Signature Sequencing) tags. SAGE and MPSS are genome-wide techniques developed for analysis of gene expression. Both techniques rely on the production of short marker sequences (known as tags), adjacent to restriction sites closer to the poly-A tail of messenger RNAs. Such tags are sequenced in a large scale and tag counts are used to measure the relative abundance of their corresponding transcripts. The presence of SNPs in the restriction sites or in the tag sequences might generate allelic-specific tags for the same gene, which we call alternative tags. In this work, we used the database of SNPs and associated alternative tags to identify genes submitted to allelic-specific differential gene expression. Using this approach, we identified 812 genes showing allelic-specific differential gene expression. Previous studies have shown that, among the 812 candidates, five genes are targets for genomic imprinting. While this study was being performed, work done by other groups suggested other 73 genes in our candidates list to have different expression levels for alleles in heterozygous. Aiming to verify whether variations in the expression levels of alleles existed among our candidate genes, we submitted 29 genes for experimental validation. For 12 genes, we couldnt find heterozygous individuals, thus rendering it impossible to ascertain whether the supposed expression variation was true. Among the other 17 genes analyzed, three genes presented bi-allelic expression and 14 genes have shown clear differential expression among alleles, three of the last ones displaying strict mono-allelic expression. These results suggest that our approach may contribute significantly to the identification of genes with allelic-specific differential expression.
|
4 |
Genome wide studies of mRNA 3'-end processing signals and alternative polyadenylation in plantsShen, Yingjia 14 December 2009 (has links)
No description available.
|
5 |
Métodos estatísticos para a análise de bibliotecas digitais de expressão gênica. / Statistical methods for the analysis of digital libraries of gene expressionVaruzza, Leonardo 03 September 2008 (has links)
Esta tese trata da aplicação de técnicas de estatística para a resolução de problemas encontrados na análise de dados provenientes da área de biologia molecular -- mais especificamente, dados gerados por estudos de expressão gênica obtidos pela contagem de transcritos, também chamados de perfis digitais de expressão. / This thesis is about the analysis of gene expression data produced by transcript counting methods, also known as digital gene profiles.
|
6 |
Ανάπτυξη υπολογιστικών αλγορίθμων τύπου bootstrap για την επιλογή MPSS σε περιπτώσεις ανάλυσης της αποτελεσματικότητας σε καθεστώς τεχνολογικής ετερογένειαςΒασιλείου, Παρασκευή 07 April 2011 (has links)
Σκοπός της παρούσας διπλωματικής εργασίας είναι η μελέτη της μεθόδου bootstrap και η ανάπτυξη ενός αλγορίθμου bootstrap στη γλώσσα προγραμματισμού Matlab με σκοπό την επιλογή MPSS σε περιπτώσεις ανάλυσης της αποτελεσματικότητας όταν υπάρχει τεχνολογική ετερογένεια. Εκτός από τις τιμές της τεχνικής αποτελεσματικότητας με τη μέθοδο DEA που έχουν υλοποιηθεί και βρεθεί σε προηγούμενη εργασία, της οποίας συνέχεια είναι η παρούσα, βρίσκονται οι bootstrapped τιμές της αποτελεσματικότητας, δηλαδή οι τιμές χωρίς την παρουσία του θορύβου που μπορεί να αλλοιώσει τα αποτελέσματα καθώς και το διάστημα εμπιστοσύνης των τιμών. Δημιουργείται έτσι ένα ολοκληρωμένο πακέτο ώστε ο χρήστης να μπορεί να υπολογίζει τις παραπάνω τιμές των δεδομένων που θα εισάγει και οι οποίες θα αποθηκεύονται σε μορφή κατάλληλη για περαιτέρω επεξεργασία. / The purpose of this thesis is to study the bootstrap method and develop a bootstrap algorithm in Matlab programming language to select the MPSS analysis in cases of technical efficiency where there is technological heterogeneity.Besides the values of technical efficiency with DEA method that have been implemented and found in a previous work, we compute the bootstrapped values of efficiency, ie the values without the presence of noise that can affect the results and the confidence interval values. This creates a complete package so the user can calculate the above values of the data entered and will be stored in a form suitable for further processing.
|
7 |
Métodos estatísticos para a análise de bibliotecas digitais de expressão gênica. / Statistical methods for the analysis of digital libraries of gene expressionLeonardo Varuzza 03 September 2008 (has links)
Esta tese trata da aplicação de técnicas de estatística para a resolução de problemas encontrados na análise de dados provenientes da área de biologia molecular -- mais especificamente, dados gerados por estudos de expressão gênica obtidos pela contagem de transcritos, também chamados de perfis digitais de expressão. / This thesis is about the analysis of gene expression data produced by transcript counting methods, also known as digital gene profiles.
|
Page generated in 0.0227 seconds