Spelling suggestions: "subject:"bioinformática"" "subject:"bioinformáticas""
401 |
An approach for analyzing and classifying microarray data using gene co-expression networks cycles / Uma abordagem para analisar e classificar dados microarrays usando ciclos de redes de co-expressão gênicaDillenburg, Fabiane Cristine January 2017 (has links)
Uma das principais áreas de pesquisa em Biologia de Sistemas refere-se à descoberta de redes biológicas a partir de conjuntos de dados de microarrays. Estas redes consistem de um grande número de genes cujos níveis de expressão afetam os outros genes de vários modos. Nesta tese, apresenta-se uma nova maneira de analisar os conjuntos de dados de microarrays, com base nos diferentes tipos de ciclos encontrados entre os genes das redes de co-expressão construídas com dados quantificados obtidos a partir dos microarrays. A entrada do método de análise é formada pelos dados brutos, um conjunto de genes de interesse (por exemplo, genes de uma via conhecida) e uma função (ativador ou inibidor) destes genes. A saída do método é um conjunto de ciclos. Um ciclo é um caminho fechado com todos os vértices (exceto o primeiro e o último) distintos. Graças à nova forma de encontrar relações entre os genes, é possível uma interpretação mais robusta das correlações dos genes, porque os ciclos estão associados a mecanismos de feedback, que são muito comuns em redes biológicas. A hipótese é que feedbacks negativos permitem encontrar relações entre os genes que podem ajudar a explicar a estabilidade do processo regulatório dentro da célula. Ciclos de feedback positivo, por outro lado, podem mostrar a quantidade de desequilíbrio de uma determinada célula em um determinado momento. A análise baseada em ciclos permite identificar a relação estequiométrica entre os genes da rede. Esta metodologia proporciona uma melhor compreensão da biologia do tumor. Portanto, as principais contribuições desta tese são: (i) um novo método de análise baseada em ciclos; (ii) um novo método de classificação; (iii) e, finalmente, aplicação dos métodos e a obtenção de resultados práticos. A metodologia proposta foi utilizada para analisar os genes de quatro redes fortemente relacionadas com o câncer - apoptose, glicólise, ciclo celular e NF B - em tecidos do tipo mais agressivo de tumor cerebral (Gliobastoma multiforme - GBM) e em tecidos cerebrais saudáveis. A maioria dos pacientes com GBM morrem em menos de um ano, essencialmente nenhum paciente tem sobrevivência a longo prazo, por isso estes tumores têm atraído atenção significativa. Os principais resultados nesta tese mostram que a relação estequiométrica entre genes envolvidos na apoptose, glicólise, ciclo celular e NF B está desequilibrada em amostras de GBM em comparação as amostras de controle. Este desequilíbrio pode ser medido e explicado pela identificação de um percentual maior de ciclos positivos nas redes das primeiras amostras. Esta conclusão ajuda a entender mais sobre a biologia deste tipo de tumor. O método de classificação baseado no ciclo proposto obteve as mesmas métricas de desempenho como uma rede neural, um método clássico de classificação. No entanto, o método proposto tem uma vantagem significativa em relação às redes neurais. O método de classificação proposto não só classifica as amostras, fornecendo diagnóstico, mas também explica porque as amostras foram classificadas de uma certa maneira em termos dos mecanismos de feedback que estão presentes/ausentes. Desta forma, o método fornece dicas para bioquímicos sobre possíveis experiências laboratoriais, bem como sobre potenciais genes alvo de terapias. / One of the main research areas in Systems Biology concerns the discovery of biological networks from microarray datasets. These networks consist of a great number of genes whose expression levels affect each other in various ways. We present a new way of analyzing microarray datasets, based on the different kind of cycles found among genes of the co-expression networks constructed using quantized data obtained from the microarrays. The input of the analysis method is formed by raw data, a set of interest genes (for example, genes from a known pathway) and a function (activator or inhibitor) of these genes. The output of the method is a set of cycles. A cycle is a closed walk, in which all vertices (except the first and last) are distinct. Thanks to the new way of finding relations among genes, a more robust interpretation of gene correlations is possible, because cycles are associated with feedback mechanisms that are very common in biological networks. Our hypothesis is that negative feedbacks allow finding relations among genes that may help explaining the stability of the regulatory process within the cell. Positive feedback cycles, on the other hand, may show the amount of imbalance of a certain cell in a given time. The cycle-based analysis allows identifying the stoichiometric relationship between the genes of the network. This methodology provides a better understanding of the biology of tumors. As a consequence, it may enable the development of more effective treatment therapies. Furthermore, cycles help differentiate, measure and explain the phenomena identified in healthy and diseased tissues. Cycles may also be used as a new method for classification of samples of a microarray (cancer diagnosis). Compared to other classification methods, cycle-based classification provides a richer explanation of the proposed classification, that can give hints on the possible therapies. Therefore, the main contributions of this thesis are: (i) a new cycle-based analysis method; (ii) a new microarray samples classification method; (iii) and, finally, application and achievement of practical results. We use the proposed methodology to analyze the genes of four networks closely related with cancer - apoptosis, glucolysis, cell cycle and NF B - in tissues of the most aggressive type of brain tumor (Gliobastoma multiforme – GBM) and in healthy tissues. Because most patients with GBMs die in less than a year, and essentially no patient has long-term survival, these tumors have drawn significant attention. Our main results show that the stoichiometric relationship between genes involved in apoptosis, glucolysis, cell cycle and NF B pathways is unbalanced in GBM samples versus control samples. This dysregulation can be measured and explained by the identification of a higher percentage of positive cycles in these networks. This conclusion helps to understand more about the biology of this tumor type. The proposed cycle-based classification method achieved the same performance metrics as a neural network, a classical classification method. However, our method has a significant advantage with respect to neural networks. The proposed classification method not only classifies samples, providing diagnosis, but also explains why samples were classified in a certain way in terms of the feedback mechanisms that are present/absent. This way, the method provides hints to biochemists about possible laboratory experiments, as well as on potential drug target genes.
|
402 |
A retrotransposição de mRNAs como fator de variabilidade genética no genoma humano e de outros primatas / The retrotransposition of mRNAs as a factor of genetic variability in the human and other primates genomesFábio Cassarotti Parronchi Navarro 24 September 2014 (has links)
Duplicação genica é uma das principais forças levando a evolução dos genomas eucarioto. O impacto de duplicações gênicas/genômicas vem sendo investigado a muito tempo em humanos e outros primatas. Um segundo mecanismo de duplicação gênica, a retrotransposição baseada em RNA maduros, vem sendo menos estudada devido ao seu potencial menor de gerar cópias funcionais. No entanto, recentemente, publicações descreveram retrocópias funcionais em humanos, roedores e mosca de fruta. Nesta tese, para investigar sobre retrocópias causando variabilidade genética no genoma de primatas, nós desenvolvemos a implementamos os métodos para detectar estas inserções. Utilizando nove genomas e transcriptomas publicamente disponíveis (sete primatas e dois roedores) nós confirmamos um número similar, porém, com origem independente, de retrocópias em primatas e roedores. Nós também encontramos um enriquecimento de retrocópias no genoma de Platyrrhini, possivelmente explicado pela expansão de L1PA7 e L1P3 nestes genomas. Posteriormente, nós analisamos a ortologia de retrocópias no genoma de primatas e encontramos 127 eventos específicos à linhagem humana. Nós também exploramos dados do projeto 1000 Genomes para detectar retrocópias polimórficas (retroCNVs germinativos) e encontramos 17 eventos, presentes no genoma referência humano, mas ausentes em mais de um indivíduo. Similarmente, nós investigamos novas retroduplicações de mRNAs no genoma humano, detectando 21 eventos ausentes do genoma referência. Finalmente, investigamos a existência de retroCNVs somáticos e descrevemos sete possíveis retrocópias somáticas. Apesar de sua possível insignificância, nós encontramos que algumas retrocópias compartilhadas entre todos os primatas, espécie específicas, e polimórficas podem ser expressas per se ou como transcritos quiméricos com genes hospedeiros. Sobretudo, nós encontramos que retrocópias são um fator importante da variabilidade genética inter-espécie, intra-espécie e intra-indivíduo e podem estar influenciando a evolução de mamíferos ao criar reservatórios de duplicações potencialmente funcionais. / Gene duplication is a major driving force of evolution in eukaryotic genome. The impact of gene/genomic duplication has long been investigated in human and other primates. A second mechanism of gene duplication, retrotransposition, which is based on mature RNA, has been traditionally less studied due to their lower potential to generate functional copies. Recently, however, publications described functional retrocopies in humans, murines and drosophila. Here, to gain insights of the genetic variability arising from retrocopies on primate genomes, we developed and implemented the methods to detect these insertions. Using nine publicly available reference genomes and transcriptomes (seven primates and two rodents) we described a similar number independently arisen retrocopies in primates and rodents. We also found an enrichment of retrocopies in Platyrhinni genomes, putatively explained by the expansion of L1PA7 and L1P3 in these genomes. Next, we evaluated the orthology of retrocopies in primate genomes and found 127 events specific to human lineage. We also explored 1000 Genomes Project data to detect polymorphic events (germinative retroCNVs) on human populations and found 17 events, present on the reference genome, absent in more than one individual. Conversely, we also investigated new insertions of mRNA retroduplications in the human genome, detecting 21 events absent to the human reference genome. Finally, we evaluated the existence of somatic retroCNVs and described seven putative somatic retrocopies. Despite their putative insignificance, we found that some of these shared, specie-specific and polymorphic events may be expressed per se and as chimeric transcripts within host genes. Taken together, we found that retrocopies are a great factor of genetic variation interspecie, intraspecie e intraindividual and may be affecting mammal evolution by creating reservoirs of potentially functional duplications
|
403 |
Alinhamento de seqüências com rearranjos / Sequences alignment with rearrangementsVellozo, Augusto Fernandes 18 April 2007 (has links)
Uma das tarefas mais básicas em bioinformática é a comparação de seqüências feita por algoritmos de alinhamento, que modelam as alterações evolutivas nas seqüências biológicas através de mutações como inserção, remoção e substituição de símbolos. Este trabalho trata de generalizações nos algoritmos de alinhamento que levam em consideração outras mutações conhecidas como rearranjos, mais especificamente, inversões, duplicações em tandem e duplicações por transposição. Alinhamento com inversões não tem um algoritmo polinomial conhecido e uma simplificação para o problema que considera somente inversões não sobrepostas foi proposta em 1992 por Schöniger e Waterman. Em 2003, dois trabalhos independentes propuseram algoritmos com tempo O(n^4) para alinhar duas seqüências com inversões não sobrepostas. Desenvolvemos dois algoritmos que resolvem este mesmo problema: um com tempo de execução O(n^3 logn) e outro que, sob algumas condições no sistema de pontuação, tem tempo de execução O(n^3), ambos em memória O(n^2). Em 1997, Benson propôs um modelo de alinhamento que reconhecesse as duplicações em tandem além das inserções, remoções e substituições. Ele propôs dois algoritmos exatos para alinhar duas seqüências com duplicações em tandem: um em tempo O(n^5) e memória O(n^2), e outro em tempo O(n^4) e memória O(n^3). Propomos um algoritmo para alinhar duas seqüências com duplicações em tandem em tempo O(n^3) e memória O(n^2). Propomos também um algoritmo para alinhar duas seqüências com transposons (um tipo mais geral que a duplicação em tandem), em tempo O(n^3) e memória O(n^2). / Sequence comparison done by alignment algorithms is one of the most fundamental tasks in bioinformatics. The evolutive mutations considered in these alignments are insertions, deletions and substitutions of nucleotides. This work treats of generalizations introduced in alignment algorithms in such a way that other mutations known as rearrangements are also considered, more specifically, we consider inversions, duplications in tandem and duplications by transpositions. Alignment with inversions does not have a known polynomial algorithm and a simplification to the problem that considers only non-overlapping inversions were proposed by Schöniger and Waterman in 1992. In 2003, two independent works proposed algorithms with O(n^4) time to align two sequences with non-overlapping inversions. We developed two algorithms to solve this problem: one in O(n^3 log n) time and other, considering some conditions in the scoring system, in O(n^3) time, both in O(n^2) memory. In 1997, Benson proposed a model of alignment that recognized tandem duplication, insertion, deletion and substitution. He proposed two exact algorithms to align two sequences with tandem duplication: one in O(n^5) time and O(n^2) memory, and other in O(n^4) time and O(n^3) memory. We propose one algorithm to align two sequences with tandem duplication in O(n^3) time and O(n^2) memory. We also propose one algorithm to align two sequences with transposons (a type of duplication more general than tandem duplication), in O(n^3) time and O(n^2) memory.
|
404 |
Implicações funcionais de eventos de splicing alternativo no proteoma humano / Functional implications of alternative splicing in the human proteomePassetti, Fabio 16 May 2007 (has links)
A pós-genômica surgiu como um próspero campo para que as infinidades de seqüências provenientes dos projetos genoma tenham os seus significados biológicos elucidados. Um dos mecanismos descritos na literatura capaz de gerar surpreendente diversidade protéica é o splicing alternativo (AS). Próximo de 22% das proteínas com estruturas tridimensionais resolvidas por difração de raios-X ou ressonância magnética nuclear (RMN) são humanas e pouco se sabe dos efeitos de eventos de splicing alternativo em suas funções. Uma vez que estas estruturas tridimensionais (3D) protéicas humanas são de alguma forma redundantes, o conjunto de genes humanos únicos que as correspondem é muito reduzido, em torno de 1%. Hoje em dia ainda são escassos os exemplos de duas isoformas de splicing alternativo de um mesmo gene com estruturas tridimensionais experimentais disponíveis. A variedade de proteínas que este evento pode potencialmente produzir é demasiado grande para que projetos de genômica estrutural em andamento consigam determinar suas estruturas. Isto tem inviabilizado, ainda que temporariamente, estudos sobre implicações funcionais de splicing alternativo no proteoma quando se utilizando dados estruturais experimentais. Entretanto, a bioinformática possibilita estudos deste porte com base nos dados de mapeamento no genoma, tanto de transcritos como de proteínas com estrutura tridimensional (3D) determinada. Torna-se possível, então, a prospecção de genes com isoformas de AS com estruturas 3D contendo informação adicional quando comparada à isoforma de AS. Produzimos para tal finalidade uma nova metodologia para detecção de eventos de AS no transcriptoma humano utilizando matrizes binárias para cada transcrito e estrutura de proteína 3D. Selecionadas as isoformas protéicas putativas, foram construídas 73 estruturas 3D utilizando conceitos de modelagem molecular por homologia. Foram escolhidas aleatoriamente 21 isoformas de AS para simulações por dinâmicas moleculares (SDM), e que cerca de 80% destes modelos se apresentaram estruturalmente estáveis. A anotação biológica relativa a cada fragmento não inserido na seqüência da proteína devido à sua remoção no mRNA resultante do evento de AS foi obtida e mostrou que mais de 80% delas possuem algum tipo de relevância funcional para a proteína. Concluímos que, para o nosso conjunto de dados, os eventos de splicing alternativo produzem isoformas que podem atuar como dominantes negativas, antagonistas ou atenuadoras da sua atividade biológica. / The post-genomic era has emerged as one prosper field to deal with the huge amount of sequences produced by genome projects and increase the understanding of its biological meaning. One of the most surprising mechanisms capable to generate a lot of protein diversity is alternative splicing in immature mRNAs. No more than 22% of the known protein structures elucidated by X-ray diffraction or nuclear magnetic resonance (NMR) were made using human proteins and the knowledge about alternative splicing functional implications is weak. Since those human protein three-dimensional structures (3D) are redundant, the unique number of human genes represented by them is estimated around 1%. Nowadays there are only a few cases describing two isoforms that have their own protein 3D structures done experimentally. The variety that alternative splicing can produce is large enough to structural genome projects undergoing could determinate its structures, fact that have negating, at least for a while, large-scale studies about functional implications of alternative splicing using experimental data. However, bioinformatics turn possible this kind of projects using the mapping onto the genome of transcripts and the sequence of the known protein 3D structures. Using this approach we searched for alternative splicing isoforms which have at least one known protein structure with additional biological information when compared against the isoform. We have produced a new methodology for detecting alternative splicing in the human transcriptoma using binary matrices for each transcript and known 3D protein structure. After the selection of putative isoforms, there were constructed 73 3D protein using concepts of molecular modelling by homology. There were randomly selected 21 of them to the submitted to molecular dynamics simulations and 80% of them showed that they were structurally stable. The biological annotation of each non-inserted fragment due to alternative splicing shows that 80% of them have in some degree functional importance. Then, we conclude that, for our dataset, the alternative splicing events produce isoforms that can act as negative dominants, antagonists or even regulators of their biological activity.
|
405 |
Implementação de abordagens computacionais para identificação de RNAs longos não codificadores envolvidos na diferenciação neural / Implementation of computational approaches for identification of long noncoding RNAs involved in neural differentiationZaniboni, Gabriel Francisco 03 December 2015 (has links)
Cada vez mais, RNAs longos não codificadores (lncRNAs) surgem como importantes reguladores da biologia celular, principalmente em processos de diferenciação durante o desenvolvimento. O interesse no estudo das funções e mecanismos de atuação dessa classe de transcritos durante esses processos é crescente, e mostra-se bastante relevante no processo de diferenciação neural, pelo qual são gerados neurônios e células da glia. A linhagem celular P19, uma célula pluripotente advinda de um tipo de carcinoma embrionário murino, é bem consolidada como modelo in vitro de diferenciação neural. Após tratamento com ácido retinóico, ela é capaz de se diferenciar em neurônios e células da glia (astrócitos e oligodendrócitos). Em busca de evidências que indiquem a atuação de lncRNAs durante o processo de diferenciação neural, nosso grupo realizou experimentos utilizando microarranjos para averiguar os níveis de expressão gênica de lncRNAs e genes codificadores de proteínas (mRNAs) durante a diferenciação de células P19 em neurônios (predominância após 10 dias de diferenciação) e glia (predominância em 14 dias de diferenciação). Em um primeiro momento foi realizada a reanotação das sondas referentes a esses lncRNAs da plataforma de microarranjo, visto que as informações presentes nos arquivos de anotação da mesma eram muito escassas e desatualizadas. Registros de lncRNAs e mRNAs foram obtidos a partir de bancos de dados públicos para esse fim, e ao final dessa etapa aproximadamente 25,0% das sondas que não tinham uma anotação foram reanotadas com identificadores advindos desses bancos de dados. A partir dos dados de expressão, foram identificados todos os lncRNAs e mRNAs que apresentaram expressão diferencial entre as diferentes condições estudadas. As informações dos mRNAs diferencialmente expressos foram então utilizadas para a realização de análises de enriquecimento de categorias gênicas do Gene Ontology, nas ontologias de processo biológico e função molecular. A partir das sondas reanotadas, foram realizadas análises de coexpressão entre lncRNAs e mRNAs. A partir do cruzamento das informações obtidas, foram selecionados lncRNAs que através dos princípios de guilt by association se mostraram propensos a desempenharem um papel regulatório na diferenciação neural. Assim, as informações geradas nesse trabalho servirão como base para estudos futuros de validação funcional desses lncRNAs. / Increasingly, long noncoding RNAs (lncRNAs) emerge as important regulators of cell biology, especially in differentiation processes during development. The interest in the study of functions and mechanisms of action of this class of transcripts during these processes is growing, and shows quite relevant in the neural differentiation process by which neurons and glia are generated. The P19 cell line, pluripotent cells arising from a type of murine embryonal carcinoma, is well established as an in vitro model of neural differentiation. After treatment with retinoic acid, it is capable of differentiating into neurons and glial cells (astrocytes and oligodendrocytes). In search of evidence that indicate the action of lncRNAs during the neural differentiation process, our group conducted experiments using microarrays to assess gene expression levels of lncRNAs and protein coding genes (mRNAs) during differentiation of P19 cells into neurons (mainly after 10 days of differentiation) and glial cells (mainly after 14 days of differentiation). At first was performed the reannotation of the probes relating to these microarrays lncRNAs, as the information provided in the annotation files were very scarce or outdated. LncRNAs and mRNAs records were obtained from public databases for this purpose, and at the end of this stage approximately 25.0% of the probes without annotation were reannotated with identifiers arising from these databases. From the expression data, we identified all lncRNAs and mRNAs that showed differential expression between the different studied conditions. The information of differentially expressed mRNAs were then used to perform Gene Ontology enrichment, in the ontologies biological process and molecular function. From the reannotated probes, coexpression analyses were performed for lncRNAs and mRNAs. From the crosscheck of information obtained, we selected those lncRNAs that by the principles of guilt by association proved likely to play a regulatory role in neural differentiation. Thus, the information generated in this study will serve as a basis for future studies of functional validation of these lncRNAs.
|
406 |
Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLIDLOBATO, Fábio Manoel França 01 July 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T14:22:25Z
No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T14:23:08Z (GMT) No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T14:23:08Z (GMT). No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / Os sequenciadores de nova geração como as plataformas Illumina e SOLiD geram uma
grande quantidade de dados, comumente, acima de 10 Gigabytes de arquivos-texto. Particularmente, a plataforma SOLiD permite o sequenciamento de múltiplas amostras em uma única corrida (denominada de corrida multiplex) por meio de um sistema de marcação chamado Barcode. Esta funcionalidade requer um processo computacional para separação dos dados por amostra, pois, o sequenciador fornece a mistura de todas amostras em uma única saída. Este processo deve ser seguro a fim de evitar eventuais embaralhamentos que possam prejudicar as análises posteriores. Neste contexto, o presente trabalho propõe desenvolvimento de um modelo probabilístico capaz de caracterizar sistema de marcação utilizado em sequenciamentos multiplex. Os resultados obtidos corroboraram a suficiência do modelo obtido, o qual permite,
dentre outras coisas, identificar faltas em algum passo do processo de sequenciamento; adaptar e desenvolver de novos protocolos para preparação de amostras, além de atribuir um Grau de Confiança aos dados gerados e guiar um processo de filtragem que respeite as características de cada sequenciamento, não descartando sequências úteis de forma arbitrária. / The next generation sequencers such as Illumina and SOLiD platforms generate a large amount of data, commonly above 10 Gigabytes of text files. Particularly, the SOLiD platform allows the sequencing of multiple samples in a single run (called multiplex run) through a marking
system called Barcode. This feature requires a computational process for separation of
data per sample, therefore, the sequencer provides a mixture of all samples in a single output. This process must be secure to avoid any harm that may scramble further analysis. In this context, this dissertation proposes development of a probabilistic model capable of characterizing the marking system used in multiplex sequencing. The results corroborate the adequacy of the
model obtained, which allows, among other things, identify faults in some step in the sequencing process, adapt and develop new protocols for sample preparation, and assign a grade to the reliability of data generated and guide a filtering process that respects the characteristics of each sequence, without discarding sequences useful in an arbitrary manner.
|
407 |
Estratégias de avanço no melhoramento genético de trigo: enriquecimento do germoplasma brasileiro com introgressões de Aegilops speltoides e o QTLoma da resistência à giberela / Strategies for the advance of wheat breeding: enrichment of the Brazilian wheat germplasm with introgressions from Aegilops speltoides and the QTLome of fusarium head blight resistanceVenske, Eduardo 30 October 2017 (has links)
Submitted by Gabriela Lopes (gmachadolopesufpel@gmail.com) on 2017-12-22T13:39:26Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
A TESE DE EDUARDO VENSKE.pdf: 3271378 bytes, checksum: e6fb4d7055c27ccd5e6dc3886dbf0305 (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2018-01-02T13:59:12Z (GMT) No. of bitstreams: 2
A TESE DE EDUARDO VENSKE.pdf: 3271378 bytes, checksum: e6fb4d7055c27ccd5e6dc3886dbf0305 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-01-02T13:59:12Z (GMT). No. of bitstreams: 2
A TESE DE EDUARDO VENSKE.pdf: 3271378 bytes, checksum: e6fb4d7055c27ccd5e6dc3886dbf0305 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-10-30 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / A agricultura precisa dobrar a sua produção até 2050, para atender a demanda da
crescente população por alimentos. O melhoramento genético e o trigo (Triticum
aestivum L.) têm papel fundamental neste processo. Os avanços no melhoramento
deste cereal, desde a sua domesticação, têm sido expressivos, assim como as
perspectivas futuras, o que merece uma dedicada revisão bibliográfica, tema da parte
inicial desta tese, intitulada “O melhoramento genético de trigo: um rápido
apanhado do começo ao futuro próximo, com ênfase no presente”. O trigo possui
uma naturalmente restrita variabilidade genética, algo agravado pelo melhoramento,
o que é causa de estagnação do avanço do próprio melhoramento e de vulnerabilidade
genética. Uma alternativa a este problema é a utilização de espécies do pool gênico
secundário do cereal, em programas de introgressão. Dentre estas está Aegilops
speltoides, a qual tem demonstrado poder contribuir com importantes caracteres ao
trigo. Desta forma, o Capítulo I, “O enriquecimento do germoplasma de trigo
brasileiro com a introgressão de segmentos do genoma de Aegilops
speltoides”, teve como objetivo introgredir cromatina desta espécie em uma cultivar
de trigo brasileira, na forma de distintas linhagens, e gerar informações para a futura
utilização desta variabilidade genética pelo melhoramento. Assim, foi conduzido um
programa de retrocruzamento assistido por métodos de genotipagem. Um mapa
genético de Ae. speltoides foi gerado, com 537 marcadores. Um total de 236
segmentos foram introgredidos nas linhagens, de todos os cromossomos da espécie
silvestre e nos três diferentes genomas do trigo. Esta variabilidade genética e demais
informações geradas vão permitir a continuidade do programa até a utilização destas
linhagens pelo melhoramento. A giberela é uma das mais devastadoras moléstias
para a triticultura e o tipo mais eficiente de controle é a resistência genética. Ainda que
um elevado número de QTL relacionados com esta característica tenham sido
mapeados na cultura, esta informação necessita ser refinada para ser mais
eficientemente utilizada no melhoramento e avanço da pesquisa. Isto pode ser feito
através de meta-análise. “O QTLoma da resistência à giberela em trigo como um
mapa de referência para o melhoramento genético” é o título do Capítulo II desta
obra. O objetivo deste estudo foi de analisar globalmente e em profundidade o
conjunto de loci relacionados à resistência a esta moléstia no cereal. Foi realizada
uma extensiva revisão bibliográfica buscando informações sobre estes QTL no trigo.
Um total de 556 loci foram encontrados, distribuídos em todos os genomas e
cromossomos da cultura. Destes, 365 puderam ser projetados no mapa consenso
gerado e 327 passaram por meta-análise, formando 72 meta-QTL, em 15 grupos de
ligação. Uma expressiva redução da redundância se deu no número e no tamanho
dos loci, facilitando a mineração de genes candidatos. O QTLoma descrito servirá
como um mapa de referência para o melhoramento genético e para o avanço na
compreensão dos mecanismos que levam à resistência desta cultura à esta e outras
moléstias. Novas estratégias de avanço no melhoramento do trigo são cruciais para
que a cultura cumpra com o seu papel hoje e futuramente, alimentando a humanidade. / Agriculture needs to double its production by 2050, to meet the food demand of a
growing population. Breeding and wheat (Triticum aestivum L.) have fundamental role
on this process. The advances in this cereal breeding, since its domestication, have
been expressive, as well as the future perspectives, which deserve a dedicated
bibliographic review, which is the theme of the initial part of this Thesis, entitled “Wheat
breeding: a brief overview from the beginning to the near future, with emphasis
on the present”. Wheat has a naturally restrict genetic diversity, somewhat
aggravated by the breeding, which is a cause of stagnation of the breeding progress
and genetic vulnerability. An alternative to this problem is the utilization of species
from the secondary gene pool, in introgression programs. Among these species,
Aegilops speltoides has shown great potencial to contribute with important traits to
wheat. Thus, the Chapter I, “The enrichment of the Brazilian wheat germplasm
with the introgression of genomic segments from Aegilops speltoides”, aimed to
introgress chromatin from this species into a Brazilian wheat cultivar, as distinct
introgression lines and to generate information for future use of this genetic diversity
by breeding programs. Thus, a backcrossing program assisted by genotyping methods
was conducted. A genetic map of Ae. speltoides was generated, containing 537
markers. A total of 236 segments were introgressed into the lines, from all
chromosomes of the wild species and into all three wheat genomes. This genetic
diversity and the information generated will allow the progress of this program, until the
use of this lines by breeding. Fusarium head blight is one of the most devastating wheat
diseases and the most efficient type of control is the genetic resistance. Although a
high number of QTL related to this trait has been mapped on this crop, this information
has to be refined to be more efficiently used by breeding and for the advance of the
research. It can be achieved through a meta-analysis. “The QTLome of Fusarium
Head Blight resistance in wheat as a reference map for the breeding” is the title
of the Chapter II of this masterpiece. The objective of this work was to analyse globally
and deeply the universe of loci related to the resistance of this cereal to this disease.
An extensive bibliographic review was carried out, searching for information about
these QTL in wheat. A total of 556 loci were found, distributed on all genomes and
chromosomes of this crop. From these, 365 QTL could be projected into the consensus
map generated and 327 went through meta-analysis, forming 72 meta-QTL, in 15
linkage groups. An expressive reduction of the redundancy was obtained in number
and length of loci, facilitating the mining of candidate genes. This QTLome will serve
as a reference map for breeding and the advance on the understanding of the
mechanisms conferring resistance to this crop against this and other diseases. New
strategies for wheat breeding advance are crucial to allow this crop meet its role today
and in the future feeding the humankind.
|
408 |
Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas / Data integration in gene networks inference: evaluation of biological and topological featuresFabio Fernandes da Rocha Vicente 02 May 2016 (has links)
Os componentes celulares não atuam sozinhos, mas sim em uma rede de interações. Neste sentido, é fundamental descobrir como os genes se relacionam e compreender a dinâmica do sistema biológico. Este conhecimento pode contribuir para o tratamento de doenças, para o melhoramento genético de plantas e aumento de produção agrícola, por exemplo. Muitas redes gênicas são desconhecidas ou apenas conhecidas parcialmente. Neste contexto, a inferência de Redes Gênicas surgiu como possível solução e tem por objetivo recuperar a rede a partir de dados de expressão gênica utilizando modelos probabilísticos. No entanto, um problema intrínseco da inferência de redes é formalmente descrito como maldição da dimensionalidade (a quantidade de variáveis é muito maior que a quantidade de amostras). No contexto biológico, este problema é ainda agravado pois é necessário lidar com milhares de genes e apenas um ou duas dezenas de amostras de dados de expressão. Assim, os modelos de inferência buscam contornar este problema propondo soluções que minimizem o erro de estimação. Nos modelos de predição ainda há muitos empates, isto é, apenas os dados de expressão não são suficientes para decidir pela interação correta entre os genes. Neste contexto, a proposta de integração de outros dados biológicos além do dado de expressão gênica surge como possível solução. No entanto, estes dados são heterogêneos: referem-se a interações físicas, relacionamentos funcionais, localização, dentre outros. Além disto são representados de diferentes formas: como dado quantitativo, qualitativo, como atributos nominais ou atributos ordinais. Algumas vezes organizados em estrutura hierárquica, em outras como um grafo e ainda como anotação descritiva. Além disto, não está claro como cada tipo de dado pode contribuir com a inferência e redução do erro dos modelos. Portanto, é fundamental buscar compreender a relação entre os dados biológicos disponíveis, bem como investigar como integrá-los na inferência. Assim, neste trabalho desenvolveu-se três metodologias de integração de dados e a contribuição de cada tipo foi analisada. Os resultados mostraram que o uso conjunto de dados de expressão e outros dados biológicos melhora a predição das redes. Também apontaram para diferença no potencial de redução do erro de acordo com o tipo de dado. Além disto, os resultados mostraram que o conhecimento da topologia da rede também reduz o erro além de inferir redes topologicamente coerentes com a topologia esperada / It is widely known that the cellular components do not act in isolation but through a network of interactions. In this sense, it is essential to discover how genes interact with each other and to understand the dynamics of the biological system. This knowledge can contribute for the treatment of diseases, contribute for plant breeding and increased agricultural production. In this context, the inference of Gene Networks (GNs) has emerged as a possible solution, studying how to recover the network from gene expression data through probabilistic models. However, a known problem of network inference is formally described as curse of dimensionality (the number of variables is much larger than the number of samples). In biological problems, it is even worse since there is only few samples and thousands of genes. However, there are still many ties found in the prediction models, that is, only the expression data are frequently not enough to decide the correct interaction between genes. In this context, data integration is proposed as a possible solution. However, the data are heterogeneous, refer to physical interactions and functional location. They are represented in different ways as quantitative or qualitative information, being nominal or ordinal attributes. Sometimes organized in hierarchical structure or as a graph. In addition, it is unclear how each type of data can contribute to the inference and reduction of the error. Therefore, it is very important to understand the relationship between the biological information available. Also, it is important to investigate how to integrate them in the inference algorithm. Thus, this work has developed three data integration methodologies and also, the contribution of biological information was analyzed. The results showed that the combined use of expression data and biological information improves the inference. Moreover, the results shows distinct behaviour of distinct data in error reduction. Also, experiments that include topological features into the models, shows that the knowledge of the network topology can increase the corrctness of the inferred newtorks
|
409 |
Avaliação de métodos de inferência de redes de regulação gênica. / Evaluation of gene regulatory networks inference methods.Alan Rafael Fachini 17 October 2016 (has links)
A representação do Sistema de Regulação Gênica por meio de uma Rede de Regulação Gênica (GRN) pode facilitar a compreensão dos processos biológicos no nível molecular, auxiliando no entendimento do comportamento dos genes, a descoberta da causa de doenças e o desenvolvimento de novas drogas. Através das GRNs pode-se avaliar quais genes estão ativos e quais são suas influências no sistema. Nos últimos anos, vários métodos computacionais foram desenvolvidos para realizar a inferência de redes a partir de dados de expressão gênica. Esta pesquisa apresenta uma análise comparativa de métodos de inferência de GRNs, realizando uma revisão do modelo experimental descrito na literatura atual aplicados a conjuntos de dados contendo poucas amostras. Apresenta também o uso comitês de especialistas (ensemble) para agregar o resultado dos métodos a fim de melhorar a qualidade da inferência. Como resultado obteve-se que o uso de poucas amostras de dados (abaixo de 50) não fornecem resultados interessantes para a inferência de redes. Demonstrou-se também que o uso de comitês de especialistas melhoram os resultados de inferência. Os resultados desta pesquisa podem auxiliar em pesquisas futuras baseadas em GRNs. / The representation of the gene regulation system by means of a Gene Regulatory Network (GRN) can help the understanding of biological processes at the molecular level, elucidating the behavior of genes and leading to the discovery of disease causes and the development of new drugs. GRNs allow to evaluate which genes are active and how they influence the system. In recent years, many computational methods have been developed for networks inference from gene expression data. This study presents a comparative analysis of GRN inference methods, reviewing the experimental modeling present in the state-of-art scientific publications applied to datasets with small data samples. The use of ensembles was proposed to improve the quality of the network inference. As results, we show that the use of small data samples (less than 50 samples) do not show a good result in the network inference problem. We also show that the use of ensemble improve the network inference.
|
410 |
AutoAssemblyD software para submissão e gerenciamento de montagem de genomas a partir de modelos XMLVERAS, Adonney Allan de Oliveira 24 January 2014 (has links)
Submitted by Hellen Luz (hellencrisluz@gmail.com) on 2017-07-19T15:40:07Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_AutoassemblydSoftwareSubimissao.pdf: 2984364 bytes, checksum: 513e9d5eee40bbdd016076fd6635f412 (MD5) / Approved for entry into archive by Irvana Coutinho (irvana@ufpa.br) on 2017-07-21T12:42:23Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_AutoassemblydSoftwareSubimissao.pdf: 2984364 bytes, checksum: 513e9d5eee40bbdd016076fd6635f412 (MD5) / Made available in DSpace on 2017-07-21T12:42:23Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_AutoassemblydSoftwareSubimissao.pdf: 2984364 bytes, checksum: 513e9d5eee40bbdd016076fd6635f412 (MD5)
Previous issue date: 2014-01-24 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / As tecnologias de sequenciamento de segunda geração proporcionaram um grande avanço dos estudos genômicos, tornando sua utilização um marco que revolucionou a biologia. Estas plataformas são caracterizadas pela redução no tempo de sequenciamento, alta produção de dados e baixo custo por base sequenciada, contudo, estes equipamentos em sua maioria produzem dados compostos por leituras curtas o que representa um grande desafio para reconstrução do genoma, devido a essa nova característica das leituras ferramentas computacionais tiveram que ser desenvolvidas para realizar a tarefa de montagem exemplo delas temos Velvet, Allpaths, ABySS, SOAPdenovo2, Edena. No entanto, a maioria destes aplicativos são executados através de linhas de comandos extensas compostas por vários parâmetros e devem obedecer a uma sintaxe adequada a sua utilização, pois em caso de erros existe a possibilidade de não obtenção do melhor resultado, com o intuito de resolver este problema apresentamos o AutoAssemblyD, que além de proporcionar a utilização destes montadores através de uma interface gráfica também possibilita a gerência destas execuções de forma remota. / Technologies for second-generation sequencing provided a major breakthrough of the genome, making its use a landmark that has revolutionized biology. These platforms are characterized by a reduction in sequencing time, high data production and low cost per base sequenced, however, these devices produce data mostly consist of short readings which represents a major challenge for reconstruction of the genome due to this new feature readings of computational tools had to be developed to accomplish the task of assembling their example we Velvet, AllPaths, Abyss, SOAPdenovo2, Edena. However, most of these applications are executed through command lines extended and composed of several parameters must follow the standard syntax to use, because in case of errors in the syntax is the possibility of not obtaining the best result, with the aim of solve this problem we present the AutoAssemblyD that besides providing the use of these assemblers through a graphical interface also enables the management of these executions remotely.
|
Page generated in 0.0492 seconds