Spelling suggestions: "subject:"bioinformática"" "subject:"bioinformáticas""
511 |
Ambiente de Realidade Virtual Automático para Visualização de Dados Biológicos / Automatic Virtual Environment for Biological Data VisualizationPaulo Roberto Trenhago 23 March 2009 (has links)
Este trabalho descreve o desenvolvimento de uma estrutura lógica de software para o controle do CAVE do LNCC e sua utilização na visualização de dados biológicos. Configuramos e adaptamos o framework InstantReality para fazer funcionar todos os componentes singulares do CAVE do LNCC ( uma parede não ortogonal, duas paredes com cinco lados, projetores convencionais, entre outros ) por meio de uma tecnologia emergente, o X3D, usado para distribuir conteúdo 3D multimídia pela Internet.
Propomos um processo para o rápido desenvolvimento, recorrendo ou não a uma linguagem de programação, de aplicações para visualização de dados biológicos, tais como: descrição geométrica de parte do sistema cardiovascular humano, de parte de uma larva, visualização de modelos de proteínas e capsídios de vírus. Apresentamos questões importantes na visualização de superfícies complexas, como a importância do modelo de iluminação utilizado e descrevemos a implementação de um modelos de iluminação em GPU. Adicionalmente, justificamos o emprego da Realidade Virtual como ferramenta valiosa para a visualização em bioinformática, e mesmo na biologia.
Finalmente, avaliamos a eficiência geral do CAVE e de cada componente,através dos resultados obtidos na visualização de cenários temáticos de interesse biológico. Identificamos possíveis problemas e sugerimos opções para uma melhoria geral do desempenho. / This work describes the development of a software structure that currently controls the CAVE at LNCC, as well as its use for biological data visualization. This work also includes the adaptation and configuration of the InstantReality framework considering all particularities of the CAVE built at LNCC, which amongst other things does not have square walls all around (two walls have a particular shape). In order to accompish this task we make use of the emerging X3D technology.
This work also proposes a process for fast development of biological data visualization. Such process has been used to develop a series of sample applications, which included geometric description of parts of the human cardiovascular system as well as other structures such as parts of worms and other creatures, visualization of proteine models and virus envelops both relying or not on some programming language. This work also introduces important aspects of complex surface visualization and describes the implementation of a GPU based ilumination model. Additionally, some justifications are presented regarding the use of Virtual Reality as a tool for bioinformatics visuzalization or biologic applications.
Finally, this work evaluates the CAVE prototype, considering each of its components, in the light of the results achieved in the biologic visualization applications developed. Problems are identified and further improvements are proposed.
|
512 |
Desenvolvimento e validação de protocolos para a anotação automática de sequências ORESTES de Eimeria spp. de galinha doméstica. / Development and validation of protocols for automated annotation of ORESTES sequences of Eimeria spp. of domestic fowl.Milene Ferro 08 December 2008 (has links)
A coccidiose aviária é uma doença entérica causada por protozoários parasitas do gênero Eimeria. Visando uma maior compreensão dos mecanismos moleculares envolvidos na regulação do ciclo de vida dos parasitas, foram geradas 15.000 seqüências expressas (ORESTES) para cada uma das três espécies mais importantes: E. tenella, E. maxima e E. acervulina. O presente trabalho consistiu no desenvolvimento de componentes de anotação automática de seqüências para o sistema EGene, plataforma previamente desenvolvida pelo nosso grupo (Durham et al. Bioinformatics 21: 2812-2813, 2005) para a construção de processamentos encadeados (pipelines). Estes componentes foram utilizados para a construção de pipelines de anotação automática de seqüências-consenso obtidas a partir da montagem dos ORESTES de Eimeria spp. A anotação consistiu na identificação dos genes e atribuição da função dos respectivos produtos protéicos, baseando-se em um conjunto de evidências. As seqüências também foram classificadas e quantificadas utilizando-se um vocabulário controlado de termos de ontologia gênica (GO). / Avian coccidiosis is an enteric disease caused by protozoan parasites of the genus Eimeria. Aiming at obtaining a better understanding of the molecular mechanisms that regulate the life cycle of the parasites, our group generated 15,000 expressed sequences (ORESTES) for each one of the three most important species: E. tenella, E. maxima and E. acervulina. In the present work, we report the development of a set of components for the automated sequence annotation through EGene, a platform for pipeline construction previously described by our group (Durham et al. Bioinformatics 21: 2812-2813, 2005). These components were used to construct pipelines for the automated annotation of assembled sequences of ORESTES of Eimeria spp. The annotation process consisted in the identification of genes and the corresponding protein function based on a set of evidences. The sequences were also mapped and quantified using a controlled vocabulary of gene ontology (GO) terms.
|
513 |
SimAffling um ambiente computacional para suporte e simulação do processo de DNA shufflingCheung, Luciana Montera 06 November 2008 (has links)
Made available in DSpace on 2016-06-02T19:02:39Z (GMT). No. of bitstreams: 1
2372.pdf: 3456814 bytes, checksum: 7894f1e8062bb948621e2d222d01e3b0 (MD5)
Previous issue date: 2008-11-06 / Financiadora de Estudos e Projetos / The Molecular Evolution of the living organisms is a slow process that occurs over the years producing mutations and recombinations at the genetic material, i.e. at the DNA. The mutations can occur as nucleotide remotion, insertion and/or substitution at the DNA chain. The Directed Molecular Evolution is an in vitro process that tries to improve biological functions of specific molecules producing mutations at the molecule s genetic material, mimicking the natural process
of evolution. Many technics that simulate in vitro molecular evolution, among them the DNA shuffling, have been used aiming to improve specific properties of a variety of commercially important products as pharmaceutical proteins, vaccines and enzymes used in industries. The original DNA shuffling methodology can be sumarized by the following steps: 1) selection of the parental sequences; 2) random fragmentation of the parental sequences by an enzyme; 3)
repeated cycles of PCR (Polymerase Chain Reaction), in order to reassemble the DNA fragments produced in the previous step; 4) PCR amplification of the reassembled sequences obtained in step 3). The DNA shuffling technic success can be measured by the number of recombinat molecules found at the DNA shuffling library obtained, since these recombinant molecules potentially have improved functionalities in relation to their parent since their sequence may accumulate beneficial mutations originated from distinct parent sequences. Nowadays some few models can be found in the literature whose purpose is to suggest optimization to this process aiming the increase of the genetic diversity of the DNA shuffling library obtained. This research work presents a comparative study of four models used to predict/estimate the DNA shuffling results. In addition a computational tool for simulating the DNA shuffling proccess is proposed and implemented in an environment where other functionalities related to the analyses of the parental sequences and the resulting sequences from the DNA shuffling library is also
implemented. / A Evolução Molecular dos organismos vivos é um processo lento que ocorre ao longo dos anos e diz respeito às mutações e recombinações sofridas por um determinado organismo em seu material genético, ou seja, em seu DNA. As mutações ocorrem na forma de remoções, inserções e/ou substituições de nucleotídeos ao logo da cadeia de DNA. A Evolução Molecular Direta é um processo laboratorial, ou seja, in vitro, que visa melhorar funções biológicas específicas de
moléculas por meio de mutações/recombinações em seu material genético, imitando o processo natural de evolução. Diversas técnicas que simulam a evolução molecular em laboratório, entre elas a técnica de DNA shuffling, têm sido amplamente utilizadas na tentativa de melhorar determinadas propriedades de uma variedade de produtos comercialmente importantes como vacinas, enzimas industriais e substâncias de interesse famacológico. A metodologia original de DNA shuffling pode ser sumarizada pelas seguintes etapas: 1) seleção dos genes de interesse, dito parentais; 2) fragmentação enzimática dos genes; 3) ciclos de PCR (Polymerase Chain Reaction), para que ocorra a remontagem dos fragmentos; 4) amplificação das seqüências remontadas cujo tamanho é igual a dos parentais. O sucesso ou não da técnica de DNA shuffling pode ser medido pelo número de moléculas recombinantes encontradas na biblioteca de DNA shuffling obtida, uma vez que estas podem apresentar melhorias funcionais em relação aos parentais pelo fato de,
possivelmente, acumularem em sua seqüência mutações benéficas presentes em parentais distintos. Atualmente podem ser encontradas na literatura algumas poucas modelagens computacionais capazes de sugerir otimizações para o processo, com vistas em aumentar a diversidade genética da biblioteca resultante. O presente trabalho apresenta um estudo comparativo de quatros modelos para predição/estimativa de resultados de experimentos de DNA shuffling encontrados na literatura bem como a proposta e implementação de uma ferramenta computacional de simulação para o processo de DNA shuffling. A ferramenta de
simulação foi implementada em um ambiente que disponibiliza outras funcionalidades referentes à análise das seqüências a serem submetidas ao shuffling bem como ferramentas para análise das seqüências resultantes do processo.
|
514 |
Gerenciamento de anotações de biosseqüências utilizando associações entre ontologias e esquemas XMLTeixeira, Marcus Vinícius Carneiro 26 May 2008 (has links)
Made available in DSpace on 2016-06-02T19:05:31Z (GMT). No. of bitstreams: 1
2080.pdf: 1369419 bytes, checksum: 4100f6c7c0400bc50f4f2f9a28621613 (MD5)
Previous issue date: 2008-05-26 / Universidade Federal de Sao Carlos / Bioinformatics aims at providing computational tools to the development of genome researches. Among those tools are the annotations systems and the Database Management Systems (DBMS) that, associated to ontologies, allow the formalization of both domain conceptual and the data scheme. The data yielded by genome researches are often textual and with no regular structures and also requires scheme evolution. Due to these aspects, semi-structured DBMS might offer great potential to manipulate those data. Thus, this work presents architecture for biosequence annotation based on XML databases. Considering this architecture, a special attention was given to the database design and also to the manual annotation task performed by researchers. Hence, this architecture presents an interface that uses an ontology-driven model for XML schemas modeling and generation, and also a manual annotation interface prototype that uses molecular biology domain ontologies, such as Gene Ontology and Sequence Ontology. These interfaces were proven by Bioinformatics and Database experienced users, who answered questionnaires to evaluate them. The answers presented good assessments to issues like utility and speeding up the database design. The proposed architecture aims at extending and improving the Bio-TIM, an annotation system developed by the Database Group from the Computer Science Department of the Federal University from São Carlos (UFSCar). / A Bioinformática é uma área da ciência que visa suprir pesquisas de genomas com ferramentas computacionais que permitam o seu desenvolvimento tecnológico. Dentre essas ferramentas estão os ambientes de anotação e os Sistemas
Gerenciadores de Bancos de Dados (SGBDs) que, associados a ontologias, permitem a formalização de conceitos do domínio e também dos esquemas de dados. Os dados produzidos em projetos genoma são geralmente textuais e sem uma estrutura de tipo regular, além de requerer evolução de esquemas. Por suas características, SGBDs semi-estruturados oferecem enorme potencial para tratar tais dados. Assim, este
trabalho propõe uma arquitetura para um ambiente de anotação de biosseqüências baseada na persistência dos dados anotados em bancos de dados XML. Neste trabalho, priorizou-se o projeto de bancos de dados e também o apoio à anotação manual realizada por pesquisadores. Assim, foi desenvolvida uma interface que utiliza ontologias para guiar a modelagem de dados e a geração de esquemas XML. Adicionalmente, um protótipo de interface de anotação manual foi desenvolvido, o qual faz uso de ontologias do domínio de biologia molecular, como a Gene Ontology e a Sequence Ontology. Essas interfaces foram testadas por usuários com experiências nas áreas de Bioinformática e Banco de Dados, os quais responderam a questionários para avaliá-las. O resultado apresentou qualificações muito boas em
diversos quesitos avaliados, como exemplo agilidade e utilidade das ferramentas. A arquitetura proposta visa estender e aperfeiçoar o ambiente de anotação Bio-TIM,
desenvolvido pelo grupo de Banco de Dados do Departamento de Computação da Universidade Federal de São Carlos (UFSCar).
|
515 |
Aprendizado semi-supervisionado e não supervisionado para análise de dados de expressão gênicaAssao, Fabiana Mari 27 May 2008 (has links)
Made available in DSpace on 2016-06-02T19:05:34Z (GMT). No. of bitstreams: 1
2160.pdf: 2987031 bytes, checksum: c428afa9febfedfbb3e778b30d48e9c0 (MD5)
Previous issue date: 2008-05-27 / Data clustering has been seen, in the last decades, as an important tool for gene expression data analysis. In recent years, due to the progress in gene annotation research, a
growing interest has been noticed for the semi-supervised clustering techniques, which use knowledge previously available about some gene functions to discover functions of other genes by means of clustering. This work investigates non-supervised and semi-supervised clustering algorithms applied to gene expression data. The goal is to perform an inspection on strengths and weaknesses of the use of such clustering methods and, based on these findings, to provide ways of obtaining results significant to biology. Algorithms with different characteristics were implemented and tested, with the objective of verifying evidences of eventual gains with the partial labeling, as compared to the non-supervised techniques. The experiments considered data sets from the gene expression domain as well as more generic domains. The obtained results were evaluated with validation measures usually applied in similar contexts. The analysis developed, though, emphasize the important role of computational techniques in biological data analysis, by accelerating the process of deriving results and conclusions, to better understand gene functions and structures. The results of this
stydy justify the large investiment in the research of behavior of semi-supervised techniques in gene expression data, as we shall see. / O agrupamento de dados destacou-se nas últimas décadas como uma importante ferramenta para a análise de dados de expressão gênica. Nos últimos anos, em função do progresso das pesquisas para rotulação de genes, surgiu um interesse pelas técnicas de agrupamento semi-supervisionado, que utilizam o conhecimento prévio disponível sobre a função de alguns genes para descobrir funções de outros genes por meio do agrupamento. Neste trabalho são investigados algoritmos de agrupamento semi-supervisionado e não supervisionados aplicados a dados de expressão gênica. O intuito é realizar uma inspeção das vantagens e desvantagens da utilização destes métodos de agrupamento e, a partir disso, prover subsídios para obtenção de resultados significativos para a área de Biologia. Foram implementados e testados algoritmos de agrupamento com diferentes características, com o
objetivo de verificar evidências de eventuais ganhos obtidos com a rotulação parcial dos genes com relação a técnicas não-supervisionadas. Os experimentos realizados consideraram
conjuntos de dados do domínio de expressão gênica e de outros domínios mais genéricos. Os resultados obtidos foram avaliados com medidas de validação usualmente aplicadas em
contextos semelhantes. Assim, as análises desenvolvidas reforçam o importante papel da computação na análise de dados biológicos, a fim de acelerar o processo de obtenção de
resultados e conclusões, na compreensão das estruturas e funções dos genes. Os resultados obtidos neste trabalho justificam o grande investimento na pesquisa do comportamento de técnicas semi-supervisionadas em dados de expressão gênica, como veremos mais adiante.
|
516 |
Docking de compostos da família das ariloxazinas em enzimas relacionadas com a malária / Docking of arilloxazines in enzymes related to malariaCorrêa, Denis da Silva 06 August 2010 (has links)
Made available in DSpace on 2016-08-17T18:39:34Z (GMT). No. of bitstreams: 1
3220.pdf: 7184046 bytes, checksum: d31437c1aa1937336c7b8cb91918b19b (MD5)
Previous issue date: 2010-08-06 / Universidade Federal de Minas Gerais / Malaria disease, caused mainly by Plasmodium falciparum parasite, afflicts about 500 million people and causes nearly one million deaths every year. For the development of new drugs against this disease, one possible approach is to identify an enzyme that plays a key role in P. falciparum development and presents significantly different properties from the corresponding human one. These differences can be exploited in the design of specific inhibitors of the parasite s protein, thus, three different enzymes were selected as possible targets. As there are evidences suggesting that increasing oxidative stress can effectively inhibit the growth of the malarial parasite the enzyme Glutathione Reductase of P. falciparum (PfGR), responsible for the parasite s antioxidant defense, has become a potential target for the design and development of inhibitors. The second target was the P. falciparum Dihydrofolate Reductase-Thymidylate Synthase (PfDHFR-TS), and in this case blocking its action stops the dTMP production and DNA synthesis in the parasite. The third chosen target was the P. falciparum Lactate Dehydrogenase (PfLDH), whose inhibition interrupts the ATP formation and thus causing the death of the parasite. So that a family of arilloxazines compounds, together with chloroquine and methylene blue, were studied by means of docking simulations in the binding sites of these enzymes and also in the corresponding human enzymes for comparison. The three-dimensional structures of the enzymes and of chloroquine and methylene blue were obtained from the Protein Data Bank (PDB). The structures of the arilloxazines compounds, in turn, were obtained by molecular modeling with HyperChem 6.01 and MOPAC2009 programs, using as starting models similar crystallographic structures deposited in the Cambridge Structural Database. Docking simulations were performed using GOLD 4.0.1. The docking results showed that the enzymes PfGR and PfDHFR-TS are not the preferential targets of chloroquine. For the methylene blue it was possible to elucidate its binding mode in hGR and PfGR. Regarding the arilloxazines it was possible to show that they present their higher affinity for hGR, followed by PfGR, hDHFR, PfDHFR-TS, PfLDH and hLDH. In the case of GRs, the interface site was the preferred binding site. The results suggest that if arilloxazines compounds with higher affinity for PfGR are desirable then a pentafluorophenyl should be attached at the N10 position, as in the 2e compound. When searching for arilloxazines with higher affinity for PfLDH, it seems to be desirable a carboxymethyl group at the N3 position (as in 5b) and a pentafluorophenyl group at N10 (as in 2e). Finally, the results suggest that in general the studied arilloxazines probably will present a higher affinity for hDHFR than PfDHFR-TS. All these results are an important starting point for the design of new arilloxazines ligands so that they can be used as lead compounds in the search for new drugs against malaria. / A malária, causada principalmente pelo Plasmodium falciparum, atinge cerca de 500 milhões de pessoas e causa aproximadamente um milhão de mortes todos os anos. Para o desenvolvimento de novos fármacos contra esta doença, uma das abordagens possível é identificar uma enzima que desempenhe papel vital no desenvolvimento do P. falciparum e apresente propriedades significantemente diferentes das enzimas humanas correspondentes, de modo que tais diferenças possam ser exploradas no design de inibidores específicos à proteína do parasita. Existem evidências sugerindo que aumentar o estresse oxidativo pode inibir eficientemente o crescimento do parasita causador da malária e, portanto, a enzima Glutationa Redutase do P. falciparum (GRPf), responsável por sua defesa antioxidante, tornou-se um alvo em potencial para o desenvolvimento de inibidores. Também, o bloqueio da ação da Diidrofolato Redutase-Timidilato Sintase do P. falciparum (DHFR-TSPf) interrompe a produção de dTMP e a síntese de DNA no parasita. Ainda, espera-se que a inibição da Lactato Desidrogenase do P. falciparum (LDHPf) interrompa a produção de ATP no parasita e, consequentemente, cause sua morte. Portanto, estudou-se o comportamento de compostos da família das ariloxazinas, da cloroquina e do azul de metileno nos sítios de ligação destas enzimas, além das enzimas humanas correspondentes para fins de comparação, por meio de cálculos de docking. As estruturas tridimensionais das enzimas foram obtidas no Protein Data Bank (PDB). As estruturas dos inibidores da família das ariloxazinas, por sua vez, foram obtidas por meio de modelagem molecular, utilizando os programas HyperChem 6.01 e MOPAC2009, a partir de estruturas cristalográficas semelhantes obtidas no Cambridge Structural Database; já as estruturas da cloroquina e do azul de metileno foram obtidas também no PDB. Os cálculos de docking destes compostos nos sítios de ligação das enzimas estudadas foram realizados utilizando o programa GOLD 4.0.1. Com base nos resultados de docking, sugere-se que as enzimas GRPf e DHFR-TSPf não são alvos preferenciais da cloroquina. Também, pôde-se elucidar o possível modo de ligação do azul de metileno nas enzimas GRh e GRPf. No geral, foi possível sugerir ainda que as ariloxazinas devam apresentar maior afinidade pela GRh, seguida por GRPf, DHFRh, DHFR-TSPf, LDHPf e LDHh, nesta ordem. Nas GRs, o sítio da interface foi o sítio preferencial de ligação. Para se buscar inibidores da família das ariloxazinas com maior afinidade pela GRPf, sugere-se considerar um pentafluorfenil como substituinte na posição N10, como no composto 2e. Ainda, na busca por ariloxazinas com maior afinidade pela LDHPf, sugere-se considerar um carboximetil na posição N3 (como o de 5b) e um pentafluorfenil na posição N10 (como em 2e). Por fim, foi obtido que as ariloxazinas estudadas possivelmente apresentarão, em geral, uma maior afinidade pela DHFRh do que pela DHFR-TSPf. Estes dados podem ser tomados como ponto de partida para o design de novos compostos da família das ariloxazinas, a fim de que possam atuar como compostos líderes na busca por novos fármacos contra a malária.
|
517 |
Formação de complexos entre compostos híbridos pirrolbenzodiazepinas-cumarinas com DNA por estudos de docking molecular / Complex formation between pirrolbenzodizepinescoumarins hybrids with DNA by molecular docking studiesRodrigues, Sergio Ricardo Pizano 24 March 2011 (has links)
Made available in DSpace on 2016-08-17T18:39:36Z (GMT). No. of bitstreams: 1
3549.pdf: 14954889 bytes, checksum: bc938e517ca5db95a3d7b52d18aea9a8 (MD5)
Previous issue date: 2011-03-24 / Financiadora de Estudos e Projetos / Compounds of the pirrolbenzodiazepine (PBD) family are known for their promising antitumor activity. Among these, the hybrids, those that have a portion PDB a chain spacer and another functional group, such as the coumarins of this work, have been extensively explored. It is also known that these compounds bind to DNA, but there is no structural data showing how it occurs. To overcome this lack of information molecular docking calculations were performed to study the formation of complexes between these PBD-hybrids and DNA. The compounds were modeled and the coordinates of complexes DNA-receptors with different ligands were obtained from the Protein Data Bank. The redocking served to validate the conditions of the experiments and the scores were used as the parameter to evaluate the complexes formed. The analysis of the intermolecular interactions, an essential knowledge for understanding the obtained structures were analyzed using high-resolution molecular imaging. The results of the in silico experiments showed the formation of complexes in the mixed-mode with the PBD ligand moiety intercalating between the DNA bases and the coumarin portion occupying the minor groove, and a preference for intercalation between GG bases. Moreover, it is possible to postulate that the complex becomes an adduct with the formation of a covalent bond between the intercalated portion PBD and a nucleotide base G. Finally, a correlation between the docking results and the biological activities of the studied compounds was established. / Compostos da família das pirrolbenzodiazepinas (PBD) são conhecidos por apresentarem atividade antitumoral promissora. Dentre elas, as chamadas híbridas que possuem uma porção PDB uma cadeia espaçadora e outro grupo funcional, como as cumarinas deste trabalho, têm sido muito exploradas. Sabe-se que estes compostos se ligam ao DNA, mas não há dados estruturais mostrando como a ligação ocorre. Para suprir esta falta de informação foram realizados cálculos de docking molecular para estudar a formação de complexos entre estas PBDs híbridas e o DNA. Os compostos estudados foram modelados e as coordenadas de complexos DNA-receptores com diferentes ligantes foram obtidas do Protein Data Bank. O redocking serviu para validar as condições dos experimentos e os escores foram utilizados como parâmetro de avaliação dos complexos formados. A análise das interações intermoleculares, conhecimento essencial para o entendimento das estruturas obtidas, foi feita utilizando visualização molecular de alta resolução. Os resultados dos experimentos in silico mostraram a formação de complexos no modo de ligação misto, com os ligantes intercalando a porção PBD entre bases do DNA e a porção cumarina ocupando o sulco menor, mostrando ter preferência pela intercalação entre bases GG. Mais ainda, é possível postular que o complexo se torne um aduto com a formação de uma ligação covalente entre a porção PBD intercalada e uma base nucleotídica G. Finalmente foi estabelecida uma correlação entre os resultados do docking e as atividades biológicas dos compostos estudados.
|
518 |
Localização de regiões potenciais para integração do kDNA de Trypanosoma cruzi no genoma humano / LOCALIZATION OF POTENTIAL REGIONS FOR INTEGRATION OF Trypanosoma cruzi KDNA IN THE HUMAN GENOMESantana, Jhonne Pedro Pedott 23 March 2016 (has links)
Submitted by Luciana Sebin (lusebin@ufscar.br) on 2016-09-26T19:33:26Z
No. of bitstreams: 1
DissJPPS.pdf: 2939420 bytes, checksum: 44366c4d259a65ba75e54d36b01b8483 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-27T19:57:29Z (GMT) No. of bitstreams: 1
DissJPPS.pdf: 2939420 bytes, checksum: 44366c4d259a65ba75e54d36b01b8483 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-27T19:57:35Z (GMT) No. of bitstreams: 1
DissJPPS.pdf: 2939420 bytes, checksum: 44366c4d259a65ba75e54d36b01b8483 (MD5) / Made available in DSpace on 2016-09-27T19:57:40Z (GMT). No. of bitstreams: 1
DissJPPS.pdf: 2939420 bytes, checksum: 44366c4d259a65ba75e54d36b01b8483 (MD5)
Previous issue date: 2016-03-23 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / Knowledge about horizontal gene transfer has been proposed even before the determination of the molecular structure of DNA. It has been experimentally shown
that micro-homologies rich in adenine and cytosine mediates the integration of
Trypanosoma cruzi’s kDNA minicircle, in the vertebrate genome. After human genome sequencing, the genome characterization of different organisms has been one of the main driving forces of science, providing a quantity of biological data for modern biomedical research, unprecedented in the history of science. However, even though traditional DNA mapping algorithms are highly accurate, they operate at a much lower rate than that needed for the next generation sequencers to accumulate new data. This great asymmetry between data generation and analysis capability requires the rapid evolution of mapping and reading algorithms so that this large volume of information can be worked through targeted searches. Thus, this work proposes an efficient, fast and easy way to search and locate multiple signatures of indicators that allow exogenous kDNA integration in the human genome, by creating a set of scripts for in silico analysis adapted to large files sequences. Three scripts based in R language were developed: to permute the elements (nucleic acids or amino acids codes); for search, grouping and plotting matches in genome; and for counting total matches and chromosomal window. All adenine and cytosine signatures were properly identified in the human genome, but no point more susceptible to T. cruzi kDNA integration was identified. With the obtained data, a genetic map was created, listing all matchings in each cytogenetic band, but it was not possible to identify which chromosome was more prone to mutations, since the bigger the chromosome is, the higher the quantity of matches are. / Com o sequenciamento do genoma humano e tantas outras espécies, abre-se agora uma nova janela de oportunidades analíticas. Podemos pensar em fazer buscas orientadas dentro dessa massa enorme de dados publicados em bancos de dados biológicos. Tendo isso em foco, buscamos estruturar uma forma automatizada de busca dentro do genoma humano, pela qual pudéssemos inferir sobre os sítios mais
prováveis de integração de DNA exógeno. Para isso utilizamos como modelo os trabalhos que indicam que a doença de Chagas é produzida pela introgressão do kDNA de Trypanosoma cruzi no genoma
hospedeiro, por meio de herança genética horizontal. Já foi demonstrado experimentalmente que micro-homologias ricas em adenina e citosina medeiam as integrações de minicírculos de kDNA do T. cruzi, no
genoma de vertebrados. Deste modo, o presente trabalho propõe uma maneira eficiente, fácil e rápida para a busca e localização de múltiplas assinaturas dos sinalizadores que propiciam a introgressão do kDNA exógeno no genoma humano, através da criação de um conjunto de scripts para análises in silico, adaptados a grandes arquivos de sequências. Foram desenvolvidos três scripts, baseados na linguagem R: para permutação de elementos (ácidos nucleicos ou aminoácidos); para busca, agrupamento e plotagem das correspondências em genoma; e para contagem total de correspondências e contagem por janela cromossômica. Todas as assinaturas compostas por adenina e citosina (motivos CA’s) foram devidamente
identificadas no genoma humano, porém não foi identificado nenhum ponto mais suscetível à integração do kDNA de T. cruzi. Com os dados obtidos, um mapa genético foi criado, listando as correspondências em cada banda citogenética, porém não foi possível identificar qual cromossomo possui maior propensão à
mutações, já que quanto maior o cromossomo, maior é a quantidade de correspondências presentes.
|
519 |
Algoritmo de evolução diferencial paralelo aplicado ao problema da predição da estrutura de proteínas utilizando o modelo AB em 2D e 3DKalegari, Diego Humberto 18 October 2010 (has links)
O problema da predição da estrutura de proteínas (PPEP) é bastante conhecido na bioinformática. A identificação da conformação nativa de uma proteína permite predizer a sua função no organismo. Este conhecimento também é útil no desenvolvimento de novos fármacos ou na compreensão do mecanismo de várias doenças. Várias técnicas tem sido propostas para resolver este problema. Porém, o alto custo envolvido levou ao surgimento de vários modelos que simplificam, em parte, as estruturas protéicas. No entanto, mesmo com os modelos mais simplificados, a complexidade do problema traz inúmeros desafios computacionais na busca da sua conformação nativa. Este trabalho utiliza o algoritmo evolucionário denominado Evolução Diferenciada (ED) para solucionar o PPEP, representando as proteínas com o modelo AB (toy model), em duas e três dimensões (2D e 3D). O trabalho apresenta a implementação de duas versões da ED, paralelizadas num ambiente de processo em cluster, com Message Passing Interface e arquitetura mestre-escravo. Para a configuração dos operadores do algoritmo de ED, foram realizados vários estudos com diferentes configurações para ambos os modelos, e análises estatísticas determinaram quais os melhores valores. Além disso, foram criados dois operadores especiais: dizimação e mutação espelhada. O primeiro poder ser considerado um operador genérico, que pode ser utilizado em qualquer problema; o segundo é específico para o problema em questão. Além do algoritmo de ED básico, também foi proposta uma versão auto-adaptável, em que alguns de seus parâmetros são atualizados no decorrer da evolução. Os experimentos realizados utilizaram 4 sequências de aminoácidos de benchmark geradas a partir da sequência de Fibonacci, contendo entre 13 e 55 aminoácidos. Os resultados dos algoritmos de ED paralelos foram comparados com os resultados obtidos em outros trabalhos. O algoritmo de ED é capaz de obter resultados excelentes, competitivos com os métodos especializados, apesar de não atingir o ótimo conhecido em algumas instâncias. Os resultados promissores obtidos nesse trabalho mostram que o algoritmo de ED é adequado para o problema. Em trabalhos futuros poderão ser estudados novos operadores especiais ou outras técnicas de inspiração biológica, buscando melhorar os resultados. / Protein structure prediction is a well-known problem in bioinformactis. Identifying protein native conformation makes it possible to predict its function within the organism. Knowing this also helps in the development of new medicines and in comprehending how some illnesses work and act. During the past year some techniques have been proposed to solve this problem, but its high cost made it necessary to build models that simplify the protein structures. However, even with the simplicity of these models identifying the protein native conformation remains a highly complex, computationally challenging problem. This paper uses an evolutionary algorithm known as Differential Evolution (DE) to solve the protein structure prediction problem. The model used to represent the protein structure is the Toy Model (also known as the AB Model) in both 2D and 3D. This work implements two versions of the ED algorithm using a parallel architecture (master-slave) based on Message Passing interface in a cluster. A large number of tests were executed to define the final configuration of the DE operators for both models. A new set of special operators were developed: explosion and mirror mutation. We can consider the first as generic, because it can be used in any problem. The second one is more specific because it requires previous knowledge of the problem. Of the two DE algorithm implemented, one is a basic DE algorithm and the second is a self-adaptive DE. All tests executed in this work used four benchmark amino acid sequences generated from the Fibonacci sequence. Each sequence has 13 to 55 amino acids. The results for both parallel DE algorithms using both 2D and 3D models were compared with other works. The DE algorithm achieved excellent results. It did not achieve the optimal known values for some sequences, but it was competitive with other specialized methods. Overall results encourage further research toward the use of knowledge-based operators and biologically inspired techniques to improve DE algorithm performance.
|
520 |
Um algoritmo genético paralelo para o problema de dobramento de proteínas utilizando o modelo 3DHP com cadeia lateralBenítez, César Manuel Vargas 30 June 2010 (has links)
CNPq / Este trabalho apresenta um algoritmo genético paralelo (AGP) para o problema de dobramento de proteínas, utilizando o modelo 3DHP-SC. Este modelo tem sido pouco abordado devido ao elevado grau de complexidade envolvido. Foi proposta uma função de fitness baseada na energia livre e na compacidade do dobramento. Operadores genéticos especiais foram desenvolvidos, além de estratégias para auxiliar o algoritmo no processo de busca de conformações de proteínas. Vários experimentos foram realizados para ajustar todos os parâmetros do sistema, incluindo os parâmetros básicos do AG (probabilidades de mutação e crossover, e o tamanho de torneio) e os parâmetros dos operadores especiais e das estratégias. O efeito da matriz de energias para o modelo no desempenho do algoritmo também foi estudado. Uma comparação com outra abordagem de computação evolucionária também foi realizada, a fim de verificar o desempenho do método proposto. Devido a não existir, até então, benchmarks para teste deste modelo, foi proposto um conjunto de 25 sequências baseado em outro modelo mais simplificado. Os resultados obtidos mostraram que o AGP alcançou um bom nível de eficiência e obteve dobramentos biologicamente coerentes, sugerindo a adequabilidade da metodologia proposta. / This work presents a parallel genetic algorithm (PGA) for the protein folding problem, using the 3DHP-SC model. This model has been sparsely studied in the literature due to its complexity. A new fitness function was proposed, based on the free-energy and compacity of the folding. Special genetic operators were developed, besides strategies to aid the algorithm in the search of protein conformations. Many experiments were done to adjust all the parameters of the system, including the basic parameters of the GA (mutation and crossover probability, and tournament size) and parameters of the special genetic operators and strategies. The effect of the energy matrix of the model in the performance of the algorithm was also studied. Moreover, a comparison with other evolutionary computation approach was done, to verify the performance of the proposed method. Since there is no benchmark available to date, a set of 25 sequences was used, based on a simpler model. Results show that the PGA achieved a good level of efficiency and obtained biologically coherent results, suggesting its adequacy for the problem.
|
Page generated in 0.0755 seconds