Global ETD Search

1	P-MIA: padrão múltiplas instâncias autoadaptáveis : um padrão de dados para wokflows científicos Hübler, Patrícia Nogueira January 2010 (has links) Made available in DSpace on 2013-08-07T18:42:49Z (GMT). No. of bitstreams: 1 000428502-Texto+Completo-0.pdf: 4574146 bytes, checksum: 0b828e3a78fb87024bcab2a9d14b3a60 (MD5) Previous issue date: 2010 / In the search for automated solutions, professionals of different areas use similar information technology targeting information agility and reliability. The use of a workflow management system is an example, which is employed by enterprises and scientific labs in order to record executed tasks and to optimize the elapsed time. This thesis presents a workflow pattern, as a scientific workflow component, able to manage large volumes of data and to optimize their processing, identifying promising groups into such data. Bioinformatics is our application area, a multidisciplinary area that uses a lot of computing tools for its experiments, and which can spend years to be finished. The solution proposed here benefits the rational drug design inside Bioinformatics. Then, we contextualize the area of study, and a problem solution is given through the definition of a data pattern that allows a self-adaptation of workflow instances in execution. We named P-SaMI: Self-Adaptive Multiple Instances as our proposed pattern because it is capable to manage large data sets and to take actions during processing time. P-SaMI is formally defined with Petri nets concepts and it is designed by Coloured Petri nets. We performed several tests and achieved the reduction of experiments executed, preserving an acceptable level of resulted quality. / A busca de soluções informatizadas, com o objetivo de se obter agilidade e confiabilidade nas informações, faz com que profissionais de diferentes áreas utilizem tecnologias com propósitos semelhantes. A utilização de sistemas de gerenciamento de workflow é um exemplo desse tipo de solução, a qual empresas e cientistas utilizam para documentar as etapas executadas e otimizar o tempo de execução. Esta Tese apresenta um padrão capaz de manipular grandes volumes de dados e otimizar seu processamento, identificando grupos de dados promissores, como um componente de workflows científicos. A área de aplicação é a Bioinformática, uma área multidisciplinar, que se utiliza de várias ferramentas computacionais para a realização de seus experimentos, os quais podem demorar anos para serem finalizados. A solução proposta beneficia, dentro da Bioinformática, o desenho racional de fármacos. Assim, a contextualização da área de estudo é realizada, e é proposta uma solução para o problema por meio da definição de um padrão de dados que permite a autoadaptação de instâncias de workflow em execução. O P-MIA: Padrão Múltiplas Instâncias Autoadaptáveis, assim denominado por manipular um grande conjunto de dados e por, em tempo de execução, definir as ações a serem executadas sobre os dados, é formalizado com base nas definições de redes de Petri e sua representação gráfica feita por meio de redes de Petri coloridas. Sobre o padrão, são realizados testes experimentais, os quais comprovam que, com a utilização do P-MIA, é possível reduzir a quantidade de experimentos, mantendo um critério de qualidade aceitável. INFORMÁTICA BIOLOGIA COMPUTACIONAL WORKFLOW
2	Modelo de dados para um Pipeline de seqüenciamento de alto desempenho transcritômico Huacarpuma, Ruben Cruz 01 March 2012 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de CIências Exatas, Departamento de Ciência da Computação, 2012. / Submitted by Sabrina Silva de Macedo (sabrinamacedo@bce.unb.br) on 2012-07-18T14:03:22Z No. of bitstreams: 1 2012_RubemCruzHuacarpuma.pdf: 2198938 bytes, checksum: 7873175586685ed25fd99884e923ad63 (MD5) / Approved for entry into archive by Jaqueline Ferreira de Souza(jaquefs.braz@gmail.com) on 2012-07-30T12:35:11Z (GMT) No. of bitstreams: 1 2012_RubemCruzHuacarpuma.pdf: 2198938 bytes, checksum: 7873175586685ed25fd99884e923ad63 (MD5) / Made available in DSpace on 2012-07-30T12:35:11Z (GMT). No. of bitstreams: 1 2012_RubemCruzHuacarpuma.pdf: 2198938 bytes, checksum: 7873175586685ed25fd99884e923ad63 (MD5) / O rápido avanço nas técnicas de sequenciamento de alto desempenho de fragmentos de DNA/RNA criou novos desa os computacionais na área de bioinformática. Um desses desa os é administrar o enorme volume de dados gerados pelos sequenciadores automáticos, particularmente o armazenamento e a análise desses dados processados em larga escala. A existência de diferentes formatos de representação, terminologia, estrutura de arquivos e semânticas, faz muito complexa a representação e administração desses dados. Neste contexto, um modelo de dados para representar, organizar e garantir o acesso aos dados biológicos é essencial para suportar o trabalho dos pesquisadores do campo da biologia, quando fazendo uso de pipelines de sequenciamento de alto desempenho. Este trabalho propõe tanto um modelo de dados conceitual, como também seu respectivo esquema relacional, permitindo a representação e o gerenciamento de um pipeline de sequenciamento de alto desempenho para projetos transcritômicos no intuito de organizar e armazenar de maneira simples e e ciente os dados gerados em cada fase da análise do pipeline. Nesta dissertação, trabalhamos com pipelines de sequenciamento de alto desempenho com três fases: ltragem, mapeamento e análise. Para validar nosso modelo, apresentamos dois estudos de casos para identi car a expressão diferencial de genes usando dados de sequenciamento de alto desempenho transcritômico. Estes estudos de caso mostraram que introduzir o modelo de dados, e o esquema correspondente, tornou o pipeline mais e ciente, organizado, para dar suporte ao trabalho dos biólogos envolvidos em um projeto de transcritoma. _________________________________________________________________________________________ ABSTRACT / The rapid advances in high-throughput sequencing techniques of DNA/RNA fragments created new computational challenges in bioinformatics. One of these challenges is to manage the enormous volume of data generated by automatic sequencers, specially storage and analysis of these data processed on large scale. The existence of representation format, terminology, _le structure and semantics, becomes very complex representation and management of such data. In this context, a data model to represent, organize and provide access to biological data is essential to support the researchers works into biology_eld when using high-throughput sequencing. This work proposes a conceptual model as well as its database schema to representand manage a high-throughput transcriptome pipeline in order to organize and store in a simple and efficient way data generated in each pipeline phase. In this dissertation, we work with three phases high-throughput sequencing pipeline: _ltering, mapping and analysis. In order to validate our model, we present two case studies both having the objective of identifying deferentially expressed genes using high-throughput sequencing transcriptome data. These case studies showed that uses a data model, and its database schema, became the pipeline more efficient, organized, and support the biologists works involved in a transcriptome project. Biologia computacional Banco de dados
3	Proveniência de dados em workflows de bioinformática Paula, Renato de 11 July 2012 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2012. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2013-04-02T15:07:00Z No. of bitstreams: 1 2012_RenatodePaula.pdf: 7698577 bytes, checksum: dc8fd7334d6b68f154510b6f7fc82753 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-04-03T14:02:55Z (GMT) No. of bitstreams: 1 2012_RenatodePaula.pdf: 7698577 bytes, checksum: dc8fd7334d6b68f154510b6f7fc82753 (MD5) / Made available in DSpace on 2013-04-03T14:02:55Z (GMT). No. of bitstreams: 1 2012_RenatodePaula.pdf: 7698577 bytes, checksum: dc8fd7334d6b68f154510b6f7fc82753 (MD5) / Avanços tecnológicos, tanto em equipamentos quanto em algoritmos, têm tornado a execução de experimentos científicos cada vez mais rápida e eficiente. Isso permite que os cientistas executem mais experimentos e possam compará-los entre si, o que traz maior acurácia às análises. Porém, a quantidade de dados que devem ser tratados aumenta a cada novo experimento executado, o que dificulta a identificação da origem dos dados e como os mesmos foram transformados em cada experimento. Assim, tem-se a necessidade de novas ferramentas que tornem possível preservar, não só as conclusões de um experimento científico, mas também a origem dos dados utilizados e as condições e parâmetros com os quais foram executados. Estudos recentes mostram que a utilização de modelos de proveniência de dados facilita o gerenciamento dos dados tanto em ambiente científico quanto naqueles disponibilizados pela internet. Uma importante área para o uso de proveniência de dados é o da bioinformática, principalmente em projetos genoma e transcritoma de alto desempenho, visto que seus experimentos geram grande volume de dados e seus processos podem ser executados diversas vezes com diferentes ferramentas, dados e parâmetros. Neste trabalho propomos a utilização de uma estrutura de proveniência de dados baseada no modelo PROV-DM para experimentos em projetos de bioinformática a fim de permitir que os cientistas possam trabalhar com seus experimentos em detalhes e, quando necessário, possam consultá-los e reexecutá-los de forma mais planejada e controlada. _____________________________________________________________________________________________________________________________ ABSTRACT / Technological Advances, both in equipment and algorithms, have made the execution of scientific experiments increasingly faster and more e efficient. This allows scientists to execute more experiments and compare them, generating greater accuracy in analyses. However, the great quantity of data to be treated increases with each new experiment performed, which makes it difficult to identify the origin of data and how they were transformed in each experiment. Thus, there is a pressing need for new tools that make possible the preservation of, not only conclusions of scientific experiments, but also the origin of data used and the conditions and parameters with which each were performed. Recent studies show that the use of data provenance models facilitates the management of data, both in the scientific environment and those available on the internet. An important area for the use of data provenance is in bioinformatics, mainly in genome and high performance transcriptome projects, since these experiments generate a large volume of data and their process can be executed many times with different tools, data and parameters. In this work we propose the use of a data provenance structure based on the model PROV-DM for experiments in bioinformatics projects with the objective of allowing scientists to work with their experiments in ne detail, and, when necessary, consult them or re-execute them in a more planned and controlled way. Banco de dados Biologia computacional
4	Ordenação por transposições baseado no formalismo algébrico Santos, Héderson Pereira dos 14 December 2006 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006. / Submitted by Luana Patrícia de Oliveira Porto (luana_porto_23@hotmail.com) on 2009-09-29T22:25:03Z No. of bitstreams: 1 2006_HedersonPereiraSantos.pdf: 829940 bytes, checksum: 2a5c9eb3eec94eeac21dfc0bcdb86756 (MD5) / Approved for entry into archive by Luanna Maia(luanna@bce.unb.br) on 2009-10-02T15:12:08Z (GMT) No. of bitstreams: 1 2006_HedersonPereiraSantos.pdf: 829940 bytes, checksum: 2a5c9eb3eec94eeac21dfc0bcdb86756 (MD5) / Made available in DSpace on 2009-10-02T15:12:08Z (GMT). No. of bitstreams: 1 2006_HedersonPereiraSantos.pdf: 829940 bytes, checksum: 2a5c9eb3eec94eeac21dfc0bcdb86756 (MD5) Previous issue date: 2006-12-14 / Biologia Computacional é uma área da Ciência da Computação que tem por objetivo o estudo e aplicação de técnicas e ferramentas computacionais aos problemas da Biologia Molecular. Dentre os problemas pesquisados, encontra-se o de evolução molecular, onde são estudados métodos para comparar seqüências de espécies distintas, baseados em eventos mutacionais. Estes métodos geram medidas de distância, que podem ser empregadas para verificar o relacionamento em termos evolutivos entre dois organismos. Uma técnica de computar distância é comparar blocos, formados por um ou mais genes, de genomas de dois organismos. O nosso trabalho pertence à área de Rearranjo de Genomas que, de forma genérica, visa resolver o problema combinatorial de encontrar uma seqüência mínima de eventos de rearranjo (mutações) que transformam um genoma em outro. Estudamos um evento de rearranjo específico – transposição, que move uma porção de genes de um local para outro dentro do mesmo cromossomo. Este evento gera o problema da ordenação por transposições, que consiste em computar e encontrar a menor seqüência de transposições que transformam um genoma em outro. Neste trabalho propusemos dois algoritmos de aproximação baseados no formalismo algébrico de Dias e Meidanis para o problema de ordenação por transposições. Implementamos estes algoritmos utilizando a linguagem Java e comparamos os resultados obtidos com outros encontrados na literatura. Este trabalho visa contribuir para encontrar a complexidade do problema de ordenação por transposições que ainda não é conhecida. _________________________________________________________________________________________ ABSTRACT / Computational Biology is an area that aims to study and to apply techniques and computational tools to problems of molecular biology. One of these problems is molecular evolution, in which methods are proposed for comparing sequences of distinct species, based on mutational events. These methods generate distance measures that could be employed to verify the evolutionary relationship between two organisms. A technique to compute distance is to compare blocks, composed by one ore more genes, of the genomes of two organisms. This work belongs to the field of genome rearrangement, that has the objective to solve the combinatorial problem of finding a minimum sequence of rearrangement events that transform a genome into another. We studied a particular rearrangement event - transposition, that moves a portion of genes from a local to another inside one chromosome. This event generates the problem of sorting by transpositions, that consists in computing and finding the minimum sequence of transpositions that transform a genome into another. In this work, we proposed two approximation algorithms based on the algebraic formalism of Dias and Meidanis to solve the problem of sorting by transpositions. We implemented these algorithms using the Java language, and compared the results obtained with the results of other algorithms found in the literature. This work aims to contribute to find the complexity of this problem still unknown. Biologia computacional Algoritmos Genomas
5	Representações cache eficientes para montagem de fragmentos baseada em grafos de de Bruijn de sequências biológicas LIMA, Jamerson Felipe Pereira 20 February 2017 (has links) Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-08-01T20:18:15Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Jamerson Felipe Pereira Lima.pdf: 1541250 bytes, checksum: ccefce36b254aed5273279c3a4600f9f (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-08-02T20:09:33Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Jamerson Felipe Pereira Lima.pdf: 1541250 bytes, checksum: ccefce36b254aed5273279c3a4600f9f (MD5) / Made available in DSpace on 2018-08-02T20:09:33Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Jamerson Felipe Pereira Lima.pdf: 1541250 bytes, checksum: ccefce36b254aed5273279c3a4600f9f (MD5) Previous issue date: 2017-02-20 / FACEPE / O estudo dos genomas dos seres vivos têm sido impulsionado pelos avanços na biotecnologia ocorridos desde a segunda metade do Séc. XX. Particularmente, o desenvolvimento de novas plataformas de sequenciamento de alto desempenho ocasionou a proliferação de dados brutos de fragmentos de sequências nucleicas. Todavia, a montagem dos fragmentos de DNA continua a ser uma das etapas computacionais mais desafiadoras, visto que a abordagem tradicional desse problema envolve a solução de problemas intratáveis sobre grafos obtidos a partir dos fragmentos, como, por exemplo, a determinação de caminhos hamiltonianos. Mais recentemente, soluções baseadas nos grafos de de Bruijn (gdB), também obtidos a partir dos fragmentos sequenciados, têm sido adotadas. Nesse caso, o problema da montagem relaciona-se com o de encontrar caminhos eulerianos, o qual possui soluções polinomiais conhecidas. Embora apresentem custo computacional teórico mais baixo, ainda demandam, na prática, grande poder computacional, face ao volume de dados envolvido. Por exemplo, a representação empregada por algumas ferramentas para o gdB do genoma humano pode alcançar centenas de gigabytes. Faz-se necessário, portanto, o emprego de técnicas algorítmicas para manipulação eficiente de dados em memória interna e externa. Nas arquiteturas computacionais modernas, a memória é organizada de forma hierárquica em camadas: cache, memória RAM, disco, rede, etc. À medida que o nível aumenta, cresce a capacidade de armazenagem, porém também o tempo de acesso. O ideal, portanto, seria manter a informação limitada o mais possível aos níveis inferiores, diminuindo a troca de dados entre níveis adjacentes. Para tal, uma das abordagens são os chamados algoritmos cache-oblivious, que têm por objetivo reduzir o número de trocas de dados entre a memória cache e a memória principal sem que seja necessário para tanto introduzir parâmetros relativos à configuração da memória ou instruções para a movimentação explícita de blocos de memória. Uma outra alternativa que vêm ganhando ímpeto mais recentemente é o emprego de estruturas de dados ditas sucintas, ou seja, estruturas que representam a informação usando uma quantidade ótima de bits do ponto de vista da teoria da informação. Neste trabalho, foram implementadas três representações para os gdB, com objetivo de avaliar seus desempenhos em termos da utilização eficiente da memória cache. A primeira corresponde a uma implementação tradicional com listas de adjacências, usada como referência, a segunda é baseada em estruturas de dados cache-oblivious, originalmente descritas para percursos em grafos genéricos, e a terceira corresponde a uma representação sucinta específica para os gdB, com otimizações voltadas ao melhor uso da cache. O comportamento dessas representações foi avaliado quanto à quantidade de acessos à memória em dois algoritmos, nomeadamente o percurso em profundidade (DFS) e o tour euleriano. Os resultados experimentais indicam que as versões tradicional e cache-oblivious genérica apresentam, nessa ordem, os menores números absolutos de cache misses e menores tempos de execução para dados pouco volumosos. Entretanto, a versão sucinta apresenta melhor desempenho em termos relativos, considerando-se a proporção entre o número de cache misses e a quantidade de acessos à memória, sugerindo melhor desempenho geral em situações extremas de utilização de memória. / The study of genomes was boosted by advancements in biotechnology that took place since the second half of 20th century. In particular, the development of new high-throughput sequencing platforms induced the proliferation of nucleic sequences raw data. Although, DNA assembly, i.e., reconstitution of original DNA sequence from its fragments, is still one of the most computational challenging steps. Traditional approach to this problem concerns the solution of intractable problems over graphs that are built over the fragments, as the determination of Hamiltonian paths. More recently, new solutions based in the so called de Bruijn graphs, also built over the sequenced fragments, have been adopted. In this case, the assembly problem relates to finding Eulerian paths, for what polynomial solutions are known. However, those solutions, in spite of having a smaller computational cost, still demand a huge computational power in practice, given the big amount of data involved. For example, the representation employed by some assembly tools for a gdB of human genome may reach hundreds of gigabytes. Therefore, it is necessary to apply algorithmic techniques to efficiently manipulate data in internal and external memory. In modern computer architectures, memory is organized in hierarchical layers: cache, RAM, disc, network, etc. As the level grows, the storage capacity is also bigger, as is the access time (latency). That is, the speed of access is smaller. The aim is to keep information limited as much as possible in the highest levels of memory and reduce the need for block exchange between adjacent levels. For that, an approach are cache-oblivious algorithms, that try to reduce the the exchange of blocks between cache and main memory without knowing explicitly the physical parameters of the cache. Another alternative is the use of succinct data structures, that store an amount of data in space close to the minimum information-theoretical. In this work, three representations of the de Bruijn graph were implemented, aiming to assess their performances in terms of cache memory efficiency. The first implementation is based in a traditional traversal algorithm and representation for the de Bruijn graph using adjacency lists and is used as a reference. The second implementation is based in cache-oblivious algorithms originally described for traversal in general graphs. The third implementation is based in a succinct representation of the de Bruijn graph, with optimization for cache memory usage. Those implementations were assessed in terms of number of accesses to cache memory in the execution of two algorithms, namely depth-first search (DFS) and Eulerian tour. Experimental results indicate that traditional and generic cache-oblivious representations show, in this order, the least absolute values in terms of number of cache misses and least times for small amount of data. However, the succinct representation shows a better performance in relative terms, when the proportion between number of cache misses and total number of access to memory is taken into account. This suggests that this representation could reach better performances in case of extreme usage of memory. Ciência da computação Biologia computacional
6	ScreenVar - a biclustering-based methodology for evaluating structural variants NASCIMENTO JÚNIOR, Francisco do 17 February 2017 (has links) Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-08-01T20:49:02Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Francisco do Nascimento Junior.pdf: 1104753 bytes, checksum: 794ee127f9a27d065eb71104d4849c0e (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-08-03T19:38:31Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Francisco do Nascimento Junior.pdf: 1104753 bytes, checksum: 794ee127f9a27d065eb71104d4849c0e (MD5) / Made available in DSpace on 2018-08-03T19:38:31Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Francisco do Nascimento Junior.pdf: 1104753 bytes, checksum: 794ee127f9a27d065eb71104d4849c0e (MD5) Previous issue date: 2017-02-17 / CAPES / The importance of structural variants as a source of phenotypic variation has grown in recent years. At the same time, the number of tools that detect structural variations using Next- Generation Sequencing (NGS) has increased considerably with the dramatic drop in the cost of sequencing in last ten years. Then evaluating properly the detected structural variants has been featured prominently due to the uncertainty of such alterations, bringing important implications for researchers and clinicians on scrutinizing thoroughly the human genome. These trends have raised interest about careful procedures for assessing the outcomes from variant calling tools. Here, we characterize the relevant technical details of the detection of structural variants, which can affect the accuracy of detection methods and also we discuss the most important caveats related to the tool evaluation process. This study emphasizes common assumptions, a variety of possible limitations, and valuable insights extracted from the state-of-the-art in CNV (Copy Number Variation) detection tools. Among such points, a frequently mentioned and extremely important is the lack of a gold standard of structural variants, and its impact on the evaluation of existing detection tools. Next, this document describes a biclustering-based methodology to screen a collection of structural variants and provide a set of reliable events, based on a defined equivalence criterion, that is supported by different studies. Finally, we carry out experiments with the proposed methodology using as input data the Database of Genomic Variants (DGV). We found relevant groups of equivalent variants across different studies. In summary, this thesis shows that there is an alternative approach to solving the open problem of the lack of gold standard for evaluating structural variants. / A importância das variantes estruturais como fonte de variação fenotípica tem se proliferado nos últimos anos. Ao mesmo tempo, o número de ferramentas que detectam variações estruturais usando Next-Generation Sequencing (NGS) aumentou consideravelmente com a dramática queda no custo de seqüenciamento nos últimos dez anos. Neste cenário, avaliar corretamente as variantes estruturais detectadas tem recebido destaque proeminente devido à incerteza de tais alterações, trazendo implicações importantes para os pesquisadores e clínicos no exame minucioso do genoma humano. Essas tendências têm impulsionado o interesse em procedimentos criteriosos para avaliar os variantes identificados. Inicialmente, caracterizamos os detalhes técnicos relevantes em torno da detecção de variantes estruturais, os quais podem afetar a precisão. Além disso, apresentamos advertências fundamentais relacionadas ao processo de avaliação de uma ferramenta. Desta forma, este estudo enfatiza questões como suposições comuns à maioria das ferramentas, juntamente com limitações e vantagens extraídas do estadoda- arte em ferramentas de detecção de variantes estruturais. Entre esses pontos, há uma muito questão bastante citada que é a falta de um gold standard de variantes estruturais, e como sua ausência impacta na avaliação das ferramentas de detecção existentes. Em seguida, este documento descreve uma metodologia baseada em biclustering para pesquisar uma coleção de variantes estruturais e fornecer um conjunto de eventos confiáveis, com base em um critério de equivalência definido e apoiado por diferentes estudos. Finalmente, realizamos experimentos com essa metodologia usando o Database of Genomic Variants (DGV) como dados de entrada e encontramos grupos relevantes de variantes equivalentes em diferentes estudos. Desta forma, esta tese mostra que existe uma abordagem alternativa para o problema em aberto da falta de gold standard para avaliar variantes estruturais. Ciência da computação Biologia computacional
7	Desenvolvimento de um filtro de descritores moleculares geométricos para gerar um ranqueamento em banco de dados de ligantes Quevedo, Christian Vahl January 2011 (has links) Made available in DSpace on 2013-08-07T18:43:27Z (GMT). No. of bitstreams: 1 000435073-Texto+Completo-0.pdf: 3764608 bytes, checksum: 23d34083821e24bc00c6f737db4be5b8 (MD5) Previous issue date: 2011 / Public databases provide currently over 20 million ligands to users. In contrast, testing in silico with such a high volume of data is computationally very expensive, which demands the development of new solutions for reducing the number of ligands to be tested on their target receptors. However, there is no method to effectively reduce that high number in a manageable amount, thus becoming, as a major challenge of rational drug design. This work aims to develop a heuristic function to perform a virtual screening with available ligands, whose intention is to select the most promising candidates. The function is developed based on the geometry of the substrate of the receiver, filtering only the binder compatible with the cavity, derived from a fully flexible model of the receiver. To test the effectiveness of the proposed function a case study with the enzyme of Mycobacterium tuberculosis, InhA, is evaluated. The results of this filter improved the virtual screening using molecular docking, avoiding the testing of ligands that do not fit the substrate of the receptor binding pocket. / Bancos de dados de ligantes de acesso público oferecem atualmente mais de 20 milhões ligantes para os usuários. Em contrapartida, a realização de testes in silico com esse elevado volume de dados é computacionalmente muito custoso, que vem demandar o desenvolvimento de novas soluções para a redução do número de ligantes a ser testado em seus receptores alvo. No entanto, ainda não há método para efetivamente reduzir esse número elevado em um valor gerenciável, constituindo-se assim, um grande desafio do Planejamento Racional de Fármacos. Este trabalho tem o objetivo de desenvolver uma função heurística para realizar uma triagem virtual com ligantes disponíveis, cuja intenção é selecionar os candidatos mais promissores. A função desenvolvida é baseada na geometria da cavidade do substrato do receptor, filtrando apenas os ligantes compatíveis com esta cavidade considerando as variações 3D do modelo totalmente flexível do receptor. Para testar a eficácia da função proposta foram feitas duas avaliações utilizando como estudo de caso a enzima do Mycobacterium tuberculosis, a InhA. Os resultados obtidos deste filtro melhoraram o processo de triagem virtual, descartando a realização dos testes de docagem molecular dos ligantes que não se encaixam na cavidade do substrato do receptor. INFORMÁTICA BIOLOGIA COMPUTACIONAL BANCO DE DADOS
8	Uso de ferramentas de bioinformática na análise da expressão de genes antioxidantes e de genes dos fenótipos M1 e M2 em aterosclerose Rocha, Ricardo Fagundes da January 2014 (has links) A aterosclerose é uma doença pró-inflamatória, caracterizada por disfunção endotelial e pela presença de placa de ateroma, formada pela fagocitose de oxLDL por macrófagos da região subíntima. As espécies reativas apresentam um papel importante na doença, sendo responsáveis diretos pela oxidação da LDL. Os macrófagos podem apresentar dois fenótipos, o classicamente ativado, M1 (pró-inflamatório), e o alternativamente ativado, M2 (anti-inflamatório). Entretanto, o papel desses fenótipos na aterosclerose ainda carece de um maior entendimento. Portanto, nosso objetivo foi, em um primeiro momento, revisar os dados presentes na literatura sobre oxidação de LDL e fenótipos de macrófagos em aterosclerose. Em um segundo momento, objetivamos comparar (através de estudo de bioinformática) as expressões de grupos de genes antioxidantes (HAG), de genes relacionados ao fenótipo M1 e de genes relacionados ao fenótipo M2 entre macrófagos de pessoas com aterosclerose e de pessoas saudáveis e entre placas de aterosclerose humanas em estágio avançado e em estágio inicial. Os dados de expressão foram obtidos do repositório GEO (http://www.ncbi.nlm.nih.gov/geo/), enquanto as interações funcionais foram obtidas com os programas STRING (http://string-db.org/) e Medusa (http://coot.embl.de/medusa/). As análises estatísticas foram conduzidas com o programa ViaComplex (http://lief.if.ufrgs.br/pub/biosoftwares/viacomplex/) ze com a plataforma GSEA (http://www.broadinstitute.org/gsea/index.jsp). A expressão dos grupos de genes HAG e M1 aumentou nas placas em estágio avançado em comparação às placas em estágio inicial. A expressão dos grupos de genes HAG, M1 e M2 aumentou nos macrófagos de pessoas com aterosclerose em comparação com os macrófagos de pessoas saudáveis, mas somente o grupo de genes M1 teve sua expressão aumentada em células espumosas (foam cells) de pessoas com aterosclerose em comparação com pessoas saudáveis. Por outro lado, houve uma diminuição na expressão do grupo de genes M1 em foam cells de pessoas saudáveis em comparação com macrófagos do mesmo grupo de indivíduos. Portanto, nossos resultados sugerem que, diferente do que acontece em câncer, na aterosclerose não há uma polarização dos fenótipos de macrófagos. Na verdade, ambos estão aumentados e mais estudos são necessários para melhor elucidar os mecanismos envolvidos. Palavraschave: antioxidantes, aterosclerose, macrófagos, polarização, M1/M2. / Atherosclerosis is a pro-inflammatory disease, which is characterized by endothelial dysfunction and atheroma plaque formation, as a result of oxLDL phagocytosis by macrophages in subintima region. Reactive species play an important role, being involved with the LDL oxidation process. Macrophages can present two phenotypes, classically activated, M1 (pro-inflammatory), and the alternatively activated, M2 (antiinflammatory). However, the role of these phenotypes needs to be better explained. Therefore, our objective is to review the literature data about LDL oxidation and macrophage phenotypes in atherosclerosis. Thereafter, we aimed to compare, through bioinformatics study, the expression of human antioxidant genes (HAG), M1 phenotype-related genes and M2 phenotype-related genes groups between healthy people macrophages and atherosclerotic people macrophages, and between human advanced atherosclerotic plaques and human initial atherosclerotic plaques. Expression data were obtained from GEO (http://www.ncbi.nlm.nih.gov/geo/), while functional interactions were from STRING (http://string-db.org/) and Medusa (http://coot.embl.de/medusa/). The statistical analysis was conducted with ViaComplex (http://lief.if.ufrgs.br/pub/biosoftwares/viacomplex/) and GSEA (http://www.broadinstitute.org/gsea/index.jsp). The expression of HAG e M1 groups increased in advanced plaques compared to initial plaques, while the expression of HAG, M1 e M2 groups increased in atherosclerotic people macrophages compared to healthy people macrophages. Nevertheless, only M1 group had its expression elevated in atherosclerotic people foam cells compared to healthy people foam cells. On the other hand, there was a decreased expression of M1 group in healthy people foam cells compared to the macrophages from the same individuals set. Thus, our results suggest that in atherosclerosis there is not a macrophage phenotype polarization, differently of what happens for cancer. Actually, both phenotypes are increased and more studies are needed to better elucidate the involved mechanisms. Key-words: antioxidants, atherosclerosis, macrophages, polarization, M1/M2. Antioxidantes Aterosclerose Biologia computacional Macrófagos
9	Desenvolvimento de ferramentas de bioinformática para o estudo evolutivo de sistemas bioquímicos Dalmolin, Rodrigo Juliani Siqueira January 2012 (has links) O crescente corpo de informações gerado pelo desenvolvimento de técnicas de altodesempenho, como sequenciamento de DNA em larga escala, técnicas de microarranjo de DNA, hibridização de proteínas, etc., tem evidenciado uma intrincada relação entre os diversos personagens que compõe os sistemas biológicos. Alguns dos sistemas bioquímicos presentes em organismos modernos surgiram há bilhões de anos e estavam presentes em organismos primitivos, ao passo que determinados sistemas são mais recentes e específicos de alguns grupos taxonômicos. O entendimento das relações entre os diferentes personagens dos sistemas biológicos apresenta-se como fundamental para a compreensão da vida e a avaliação dos aspectos evolutivos que permearam a constituição dos sistemas bioquímicos e suas intrincadas inter-relações pode auxiliar sobremaneira no estudo da biologia. Diversas teorias encontram-se bem estabelecidas no estudo evolutivo em nível de espécies e populações. Da mesma maneira, há um extenso acervo bibliográfico acerca da evolução de genes individuais. Entretanto, o surgimento, estabelecimento e evolução dos sistemas bioquímicos permanecem escassamente estudados. Na presente tese, partimos da análise de dois sistemas bioquímicos, o sistema de apoptose e o sistema de estabilidade genômica, os quais são bastante associados em mamíferos. Apesar da íntima relação entre esses sistemas, eles foram originados em momentos diferentes da evolução. Buscamos reconstruir o cenário evolutivo que uniu os sistemas de apoptose e estabilidade genômica, onde encontramos uma relação direta entre ancestralidade, essencialidade e clusterização. Os resultados também sugerem uma relação inversa entre essas três características e plasticidade. A análise de plasticidade efetuada na rede de apoptose e estabilidade genômica foi ampliada para 4850 famílias de proteínas em 55 eucariotos, apresentando basicamente os mesmos resultados, indicando um mecanismo geral de evolução do genoma. Subsequentemente, propusemos um modelo matemático de crescimento do genoma onde a novidade genética surge por duplicação de genes muito conectados e pouco clusterizados. A rede artificial obtida mimetiza diversos aspectos topológicos das redes biológicas conhecidas. Os resultados analisados em conjunto sugerem um mecanismo geral de evolução do genoma, onde a novidade genética surge na porção mais plástica do genoma, basicamente por duplicação gênica. Essa duplicação ocorre prioritariamente nos hubs intermodulares. / The increasing body of information generated by high-throughput techniques, such as DNA sequencing, genome-wide microarray, and two-hybrid system, has unveiled an intricate relationship among different components of biological systems. Some of the biological systems found in modern organisms have their origins billion years ago and were present in primitive organisms. On the other hand, some biological systems are more recent and specifically related to some taxa. The characterization of the relationships involving the different components of biological systems is crucial to the understanding of life. Additionally, the evaluation of evolutionary aspects which work in biochemical systems construction, modeling their intricate relationship, could help improve biological research field. Several theories are well-established in evolutionary research of species and population. Likewise, there is plenty of bibliography concerning individual gene evolution. However, there is paucity of data concerning the origin, establishment, and evolution of entire biological systems. In the present thesis, we start by analyzing two biochemistry systems: apoptosis and genome stability. These systems are considerably associated in mammals. Despite its entangled functioning, each system has emerged in different points of evolution. We reconstructed the evolutionary scenario which entangled both systems. We found a direct relationship among ancestrality, essentiality, and clustering. Our results also suggest an inverse relationship of these three proprieties with plasticity. The same plasticity analysis used in apoptosis and genome stability systems was amplified to 4850 gene families in 55 eukaryotes, showing basically the same results. It suggests a general mechanism of genome evolution. We then propose a genome growth model where genetic novelty arrives through gene duplication of highly connected but not so clustered genes. The resulting artificial network reproduces several known topological aspects of biological networks. The results, when simultaneously analyzed, suggest general genome evolution mechanisms, where the genetic novelty arrives in more plastic area of the genome, basically by gene duplication. That duplication occurs mainly in intermodular hubs. Biologia computacional Bioinformática Apoptose Genômica
10	Uso de ferramentas de bioinformática na análise da expressão de genes antioxidantes e de genes dos fenótipos M1 e M2 em aterosclerose Rocha, Ricardo Fagundes da January 2014 (has links) A aterosclerose é uma doença pró-inflamatória, caracterizada por disfunção endotelial e pela presença de placa de ateroma, formada pela fagocitose de oxLDL por macrófagos da região subíntima. As espécies reativas apresentam um papel importante na doença, sendo responsáveis diretos pela oxidação da LDL. Os macrófagos podem apresentar dois fenótipos, o classicamente ativado, M1 (pró-inflamatório), e o alternativamente ativado, M2 (anti-inflamatório). Entretanto, o papel desses fenótipos na aterosclerose ainda carece de um maior entendimento. Portanto, nosso objetivo foi, em um primeiro momento, revisar os dados presentes na literatura sobre oxidação de LDL e fenótipos de macrófagos em aterosclerose. Em um segundo momento, objetivamos comparar (através de estudo de bioinformática) as expressões de grupos de genes antioxidantes (HAG), de genes relacionados ao fenótipo M1 e de genes relacionados ao fenótipo M2 entre macrófagos de pessoas com aterosclerose e de pessoas saudáveis e entre placas de aterosclerose humanas em estágio avançado e em estágio inicial. Os dados de expressão foram obtidos do repositório GEO (http://www.ncbi.nlm.nih.gov/geo/), enquanto as interações funcionais foram obtidas com os programas STRING (http://string-db.org/) e Medusa (http://coot.embl.de/medusa/). As análises estatísticas foram conduzidas com o programa ViaComplex (http://lief.if.ufrgs.br/pub/biosoftwares/viacomplex/) ze com a plataforma GSEA (http://www.broadinstitute.org/gsea/index.jsp). A expressão dos grupos de genes HAG e M1 aumentou nas placas em estágio avançado em comparação às placas em estágio inicial. A expressão dos grupos de genes HAG, M1 e M2 aumentou nos macrófagos de pessoas com aterosclerose em comparação com os macrófagos de pessoas saudáveis, mas somente o grupo de genes M1 teve sua expressão aumentada em células espumosas (foam cells) de pessoas com aterosclerose em comparação com pessoas saudáveis. Por outro lado, houve uma diminuição na expressão do grupo de genes M1 em foam cells de pessoas saudáveis em comparação com macrófagos do mesmo grupo de indivíduos. Portanto, nossos resultados sugerem que, diferente do que acontece em câncer, na aterosclerose não há uma polarização dos fenótipos de macrófagos. Na verdade, ambos estão aumentados e mais estudos são necessários para melhor elucidar os mecanismos envolvidos. Palavraschave: antioxidantes, aterosclerose, macrófagos, polarização, M1/M2. / Atherosclerosis is a pro-inflammatory disease, which is characterized by endothelial dysfunction and atheroma plaque formation, as a result of oxLDL phagocytosis by macrophages in subintima region. Reactive species play an important role, being involved with the LDL oxidation process. Macrophages can present two phenotypes, classically activated, M1 (pro-inflammatory), and the alternatively activated, M2 (antiinflammatory). However, the role of these phenotypes needs to be better explained. Therefore, our objective is to review the literature data about LDL oxidation and macrophage phenotypes in atherosclerosis. Thereafter, we aimed to compare, through bioinformatics study, the expression of human antioxidant genes (HAG), M1 phenotype-related genes and M2 phenotype-related genes groups between healthy people macrophages and atherosclerotic people macrophages, and between human advanced atherosclerotic plaques and human initial atherosclerotic plaques. Expression data were obtained from GEO (http://www.ncbi.nlm.nih.gov/geo/), while functional interactions were from STRING (http://string-db.org/) and Medusa (http://coot.embl.de/medusa/). The statistical analysis was conducted with ViaComplex (http://lief.if.ufrgs.br/pub/biosoftwares/viacomplex/) and GSEA (http://www.broadinstitute.org/gsea/index.jsp). The expression of HAG e M1 groups increased in advanced plaques compared to initial plaques, while the expression of HAG, M1 e M2 groups increased in atherosclerotic people macrophages compared to healthy people macrophages. Nevertheless, only M1 group had its expression elevated in atherosclerotic people foam cells compared to healthy people foam cells. On the other hand, there was a decreased expression of M1 group in healthy people foam cells compared to the macrophages from the same individuals set. Thus, our results suggest that in atherosclerosis there is not a macrophage phenotype polarization, differently of what happens for cancer. Actually, both phenotypes are increased and more studies are needed to better elucidate the involved mechanisms. Key-words: antioxidants, atherosclerosis, macrophages, polarization, M1/M2. Antioxidantes Aterosclerose Biologia computacional Macrófagos

Search results