• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 492
  • 28
  • 26
  • 14
  • 8
  • 7
  • 7
  • 7
  • 7
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 566
  • 311
  • 93
  • 79
  • 70
  • 57
  • 56
  • 53
  • 53
  • 45
  • 43
  • 43
  • 43
  • 42
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
261

Classificação taxonômica de sequências obtidas com meta-ômicas por meio de integração de dados / Taxonomic classification of sequences obtained with meta-omics by data integration

Lima, Felipe Prata 20 August 2019 (has links)
Comunidades microbianas possuem papéis importantes em processos que ocorrem em diversos ambientes, tais como solos, oceanos e o trato gastrointestinal dos seres humanos. Portanto, é de interesse a compreensão da estrutura e do funcionamento dessas comunidades. A estrutura dessas comunidades, em termos de organismos componentes, pode ser determinada com o uso do sequenciamento de nova geração em conjunto com as técnicas meta-ômicas e pela análise taxonômica das sequências obtidas com programas de classificação taxonômica. Se por um lado diversos programas estão disponíveis, por outro lado eles cometem erros, como a identificação parcial dos organismos presentes na amostra e a identificação de organismos que não estão presentes na amostra (os falsos positivos - FPs). Algumas abordagens foram propostas para a melhoria das classificações taxonômicas obtidas por esses programas com a redução desses FPs, porém elas abordam apenas um tipo de meta-ômica, a metagenômica. Neste trabalho, propomos uma nova abordagem através da integração de diferentes meta-ômicas - metagenômicas shotgun e de amplicons de 16S, e metatranscritômica. Exploramos os resultados de classificações de dados simulados e mocks para a extração de variáveis e desenvolvemos modelos de classificação para discriminação de predições de espécies de bactérias classificadas como corretas ou incorretas. Comparamos o desempenho dos resultados obtidos entre as meta-ômicas individuais e os obtidos através da integração observando o balanceamento entre a precisão e a sensibilidade. De acordo com as medidas calculadas com nossos conjuntos de dados, nossa abordagem demonstrou melhorias na classificação com a redução de FPs e aumentos para a medida F1, quando comparada com abordagens não integrativas, inclusive com o uso de métodos de combinação de classificadores. Para facilitar seu uso, desenvolvemos o Gunga, uma ferramenta que incorpora a abordagem desenvolvida em formato de pacote do R, com funcionalidades para a integração de dados de classificação taxonômica com diferentes meta-ômicas e a classificação das predições incorretas. / Microbial communities play important roles in processes that occur in diverse environments, such as soils, oceans, and the gastrointestinal tract of humans. Therefore, it is of interest to understand the structure and functioning of these communities. The structure of these communities, in terms of component organisms, can be determined by the use of the next generation sequencing in conjunction with the meta-omics techniques and by the taxonomic analysis of the sequences obtained with taxonomic classification programs. If on the one hand several programs are available, on the other hand they make mistakes, such as the partial identification of the organisms present in the sample and the identification of organisms that are not present in the sample (the false positives - FPs). Some approaches have been proposed to improve the taxonomic classifications obtained by these programs with the reduction of these FPs, but they address only one type of meta-omics, the metagenomics. In this work, we propose a new approach by integrating different meta-omics - shotgun and 16S amplicon metagenomics, and metatranscriptomics. We explored the classifications results of simulated data and mocks for variable extraction and developed classification models for discriminating predictions of bacterial species classified as correct or incorrect. We compared the performance of the results obtained between the individual meta-omics and the obtained through the integration observing the balance between precision and sensitivity. According to the measures calculated with our data sets, our approach has shown improvements in the classification with the reduction of the FPs and increases for the F1 measure, when compared to non-integrative approaches, including the use of classifiers combination methods. To facilitate its use, we developed the Gunga, a tool that incorporates the developed approach in R package format, with features for the integration of taxonomic classification data with different meta-omics and the classification of the incorrect predictions.
262

Caracterização e identificação de linhagens de actinomicetos isoladas de amostras de água e sedimento da bacia do rio Tietê. / Characterization of actinomycetes isolated from water and sediment samples from Tietê River Basin.

Ichiwaki, Simone 22 June 2017 (has links)
A bacia do rio Tietê, é a maior região hidrográfica do Estado de São Paulo e possui biodiversidade pouco explorada. Actinomicetos são produtores de moléculas bioativas e são descritas em ambientes aquáticos. O objetivo deste estudo foi caracterizar e identificar actinomicetos isolados da água e sedimento da bacia do rio Tietê. Nove actinomicetos foram isoladas: 6 do gênero Streptomyces e 3 do gênero Micromonospora. Três dos isolados pertencem a novas espécies. Os demais isolados foram identificados como S. bingchenggensis, S. lavendulae, S. humi e S. gancidicus; M. sediminicula e M. tulbaghiae. Todos as linhagens foram capazes de hidrolisar ao menos um dos substratos lignocelulósicos testados. Todos os isolados do gênero Streptomyces apresentaram atividade antifúngica. Com exceção de 2 isolados, todos os isolados apresentaram atividade antibacteriana, inclusive contra bactérias multiresistentes a antibióticos. Os genomas dos isolados foram anotados por RAST e antiSMASH, e apresentaram clusters de PKS do tipo I, II e III, sideróforos, terpenos, NRPS, ectoínas, fenazinas, lantipeptídeos, butirolactonas e bacteriocinas. Todos os isolados deste estudo apresentaram grande potencial biotecnológico, comprovado in silico e in vitro. / The Tietê river basin is the largest hydrographic region of São Paulo and its biodiversity is underexplored. Actinomycetes are known to bioactive molecules, and are described in aquatic environments. The aim of this study was to characterize and identify actinomycetes isolated from water and sediment from the Tietê river basin. Nine strains of actinomycetes were isolated: 6 Streptomyces strains and 3 Micromonospora strains. Three isolates are new species of actinomycetes. The remaining isolates were identified as S. bingchenggensis, S. lavendulae, S. humi and S. gancidicus; M. sediminicula and M. tulbaghiae. All strains could hydrolyse at least one of the lignocellulosic substrates tested. All Streptomyces showed antifungal activity. Except for two strains, all isolates showed antibacterial activity, including against multiresistant bacteria. The genomes of all isolates were annotated by RAST and antiSMASH and showed clusters of: type I, II and III PKS, siderophores, terpenes, NRPS, ectoins, phenazines, lantipeptides, butyrolactones and bacteriocins. All isolates in this study showed a high biotechnological potential, proved by in silico and in vitro methods.
263

Estudos evolutivos entre espécies do gênero Rineloricaria (Siluriformes: Loricariidae: Loricariinae) com base em caracteres moleculares / Evolutionary studies between species Rineloricaria gender (Siluriformes: Loricariidae: Loricariinae) based on molecular characters

Silva, Guilherme José da Costa [UNESP] 28 February 2013 (has links) (PDF)
Made available in DSpace on 2015-03-03T11:52:39Z (GMT). No. of bitstreams: 0 Previous issue date: 2013-02-28Bitstream added on 2015-03-03T12:06:12Z : No. of bitstreams: 1 000808160.pdf: 3327931 bytes, checksum: 0630557b7727b605dd336a3fb8ae303a (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / O gênero Rineloricaria é composto atualmente por 65 espécies válidas, que se distribuem por quase toda a região Neotropical. Por ocuparem grande variedade de habitats, as espécies desse gênero apresentam intensa diversidade morfológica, o que dificulta o entendimento da taxonomia e, sobretudo, dos processos evolutivos das espécies e de seus caracteres morfológicos. Nesse sentido o presente trabalho buscou investigar a evolução do gênero Rineloricaria, sob os aspectos taxonômicos, ecomorfológicos e biogeográficos, baseando-se em análises filogenéticas moleculares. Os resultados demonstraram que esse gênero é um grupo monofilético que se originou há aproximadamente 15 milhões de anos na região do sistema de drenagens do paleo Amazonas-Orinoco, e que a evolução dos sistemas de drenagens neotropicais refletiu diretamente nas atuais distribuições das espécies do gênero. Por outro lado, fatores ambientais específicos nortearam a seleção de determinados conjuntos de caracteres de forma convergente, caracteres esses anteriormente utilizados na descrição de grupamentos fenéticos, que por sua vez se demonstraram não naturais / Rineloricaria currently comprises 65 valid species, which are widespread in the Neotropical Region. Because these species occupy a great variety of habitats, they present a wide intra and interspecific morphological diversity, which difficult the understanding of the taxonomical and a specially the evolutionary process of these species and of their morphological characters. In this sense, this study sought to investigate the evolution of Rineloricaria genus, under taxonomical, ecomorphological and biogeographical aspects, based on molecular phylogenetic analyses. Results show that this genus is a monophyletic group, which originated about 15 million years ago in the region of the paleo-Amazonas-Orinoco drainage system, and that the evolution of the neotropical drainage systems reflected directly in the current distribution of Rineloricaria species. On the other hand, specific environmental factors guided the evolution of some characters in a convergent way, some of them previously used in the description of phenetic groups, which in turn showed to be artificial. This study contributes to the understanding of the evolutionary processes of Rineloricaria species, and also proposes alternative routes of dispersion and colonization of neotropical fishes
264

Integração de dados e desenvolvimento de métricas escalável para análise de fatores de transcrição

Silva, Lucas Felipe da 28 March 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-06-05T23:36:23Z No. of bitstreams: 1 LucasFelipeDaSilva_DISSERT.pdf: 4203807 bytes, checksum: 59254c7da7bb001ede119f8bf4166d48 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-06-13T22:36:09Z (GMT) No. of bitstreams: 1 LucasFelipeDaSilva_DISSERT.pdf: 4203807 bytes, checksum: 59254c7da7bb001ede119f8bf4166d48 (MD5) / Made available in DSpace on 2018-06-13T22:36:09Z (GMT). No. of bitstreams: 1 LucasFelipeDaSilva_DISSERT.pdf: 4203807 bytes, checksum: 59254c7da7bb001ede119f8bf4166d48 (MD5) Previous issue date: 2018-03-28 / Atualmente há diversas ferramentas propostas para análise de Fatores de Transcrição (TF), tais como TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. No entanto, nenhuma dessas ferramentas oferece uma experiência completa, em que se possa avaliar a confiabilidade do TF, ou seja, se de fato uma proteína analisada é um TF e a sua associação com o gene alvo. Ao longo do tempo, foram construídas inúmeras bases de dados, todas elas com riquíssimas informações, porém a complexidade intrínseca do dado, o volume de informações, problemas de nomenclatura dos genes e diversos outros fatores fizeram com que tais ferramentas não oferecessem um espectro completo da análise. Por outro lado, para se trabalhar com um grande volume de dados, se requer conhecimentos avançados de computação. Entretanto, o grande público interessado em analisar esses dados são os profissionais procedentes das áreas biológicas, configurando-se como uma barreira, uma vez que a formação acadêmica desta área não oferece em seus componentes curriculares disciplinas de programação. Diante desta situação, este trabalho tem como objetivo criar uma ferramenta web destinada exclusivamente para análise dos TFs. Desse modo, foi idealizado e desenvolvido o Transcription Factor Analysis Tools (TFAT), contendo a integração de diferentes bases de dados e um conjunto de scripts para manipular estas informações, juntamente com os parâmetros cruciais definidos pelo usuário em sua análise. O cerne desta ferramenta é a análise para identificar os TFs chaves na modularização da transcrição gênica, ou seja, o enriquecimento dos TFs reguladores de uma lista de genes submetida pelo usuário, que através dos componentes da ferramenta, consulta sua base de dados, identificam os TFs que estão associados aos genes da lista e calcula o p-valor de enriquecimento. Além disso, a ferramenta verifica a confiabilidade do TF, disponibiliza as predições realizadas e converte os itens de uma lista para o GeneID ou Symbol do Entrez Gene. Outro recurso presente neste trabalho é a utilização da confiabilidade do TF aplicado em toda a ferramenta. Esse grau de confiabilidade leva em consideração evidências de diferentes bases de dados, experimentos, predições e outras características dos TFs. Este recurso de confiabilidade possui um modo padrão e um modo com parâmetros definidos pelo próprio usuário, que permite toda uma personalização por meio de filtros nas consultas e controle de análise para o usuário final. / Currently there are several tools proposed for analysis of Transcription Factors (TF), such as TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. However, none of these tools offer a complete experience in assessing the reliability of TF, checking if an analyzed protein is a TF and its association with the target gene. Over time, numerous databases were built, all of them with rich information, but the intrinsic complexity of the data, the volume of information, problems of nomenclature of the genes and several other factors led these tools to do not offer a complete spectrum of analyses. On the other hand, working with a large volume of data requires advanced computer skills. However, the general public interested in analyzing these data are professionals from the biological areas, forming a barrier since the academic formation of this area does not offer in its curricular components programming disciplines. From this situation, this work aims to create a web tool exclusively for the analysis of TFs. In this way, the Transcription Factor Analysis Tools (TFAT) was conceived and developed, containing the integration of different databases and a set of scripts to manipulate this information, along with the crucial parameters defined by the user in the analysis. The core of this tool is the analysis to identify the key TFs in the modulation of gene transcription, namely the enrichment of the regulatory TFs of a user-submitted gene list, which through the components of the tool, consults its database, identifies the TFs that are associated with those genes and computes the p-value of enrichment. In addition, the tool verifies TF reliability, makes available predictions, and converts items from a list to the Entrez Gene's GeneID or Symbol. Another feature of this work is the use of TF reliability applied throughout the tool. This degree of reliability takes into account evidences from different databases, experiments, predictions and other characteristics of TFs. This reliability feature has a standard mode and a userdefined parameter mode, which allows full customization through filters in the queries and analysis control for the end user.
265

Genoma completo de un patógeno del género Clostridium aislado de conservas y análisis bioinformático comparativo con secuencias de importancia en inocuidad alimentaria

Obispo Achallma, Daisy Maria January 2018 (has links)
Publicación a texto completo no autorizada por el autor / Realiza el secuenciamiento del genoma completo de un patógeno alimentario nativo del género Clostridium usando la tecnología NGS y el análisis bioinformático comparativo con secuencias de importancia en inocuidad alimentaria. Para ello, aisla el ADN genómico del agente patógeno proveniente de una fuente alimentaria, realiza el secuenciamiento, ensamblaje y anotación del genoma completo del patógeno alimentario nativo del género Clostridium, identifica las secuencias de importancia en inocuidad alimentaria del patógeno alimentario y realiza el análisis bioinformático. / Tesis
266

Predição de epitopos de célula B em proteínas de Leishmania infantum: uma análise in silico

Assis, Luciana Moura de January 2013 (has links)
p. 1-65 / Submitted by Antonio Geraldo Couto Barreto (ppgms@ufba.br) on 2013-10-08T13:13:03Z No. of bitstreams: 1 TESE_Luciana_VERSÃO FINAL.pdf: 730192 bytes, checksum: 547f5cb7e2a72752f841739831892186 (MD5) / Approved for entry into archive by Patricia Barroso(pbarroso@ufba.br) on 2013-10-08T16:57:30Z (GMT) No. of bitstreams: 1 TESE_Luciana_VERSÃO FINAL.pdf: 730192 bytes, checksum: 547f5cb7e2a72752f841739831892186 (MD5) / Made available in DSpace on 2013-10-08T16:57:30Z (GMT). No. of bitstreams: 1 TESE_Luciana_VERSÃO FINAL.pdf: 730192 bytes, checksum: 547f5cb7e2a72752f841739831892186 (MD5) Previous issue date: 2013 / A Leishmaniose visceral (LV) é uma doença crônica, endêmica em 62 países e representa um sério problema de saúde pública no Brasil. Os testes sorodiagnósticos convencionais empregam antígenos inteiros ou extratos solúveis que limitam a padronização do antígeno, e podem gerar reações cruzadas com outras doenças. Um método alternativo é o uso de peptídeos a partir de epitopos de célula B identificados através de ferramentas de bioinformática. Objetivou-se identificar epitopos lineares e conformacionais de célula B das proteínas de Leishmania infantum cisteína peptidase calpaina-like, redutase thiol dependente 1 (TDR1) e HSP70, bem como identificar sua estrutura secundária através de metodologia in silico; em seguida, buscou-se selecionar os epitopos lineares comuns aos diferentes métodos de predição para verificar a composição dos resíduos de aminoácidos dos mesmos. Metodologia: As ferramentas de bioinformática IEDB, BepiPred e BcePred foram usadas para predição de epitopos lineares de célula B e o programa CBtope para predição de epitopos conformacionais. A estrutura secundária das proteínas foi predita pelo servidor PHD. Resultados: As análises de predição produziram um total de 148 epitopos lineares e 164 epitopos conformacionais a partir das três proteínas, a maioria desses epitopos está localizada na mesma região. A estrutura secundária das proteínas é composta por -hélice, fita estendida e randômica. Nas proteínas TDR1 e HSP70, os epitopos preditos estão localizados principalmente em regiões de -hélice e randômica. Conclusões: Epitopos lineares e conformacionais de célula B de proteínas de L. infantum foram identificados in silico e poderão contribuir como novos antígenos com potencial aplicação no diagnóstico e controle da leishmaniose visceral. Sugere-se que vários métodos de predição de epitopos lineares sejam combinados a fim de se obter resultados mais confiáveis. / Salvador
267

Predição de epitopos de célula B em proteínas de Leishmania infantum: uma análise in silico

Assis, Luciana Moura de January 2013 (has links)
p. 1-65 / Submitted by Antonio Geraldo Couto Barreto (ppgms@ufba.br) on 2013-10-04T11:30:48Z No. of bitstreams: 1 TESE_Luciana_VERSÃO FINAL.pdf: 730192 bytes, checksum: 547f5cb7e2a72752f841739831892186 (MD5) / Approved for entry into archive by Patricia Barroso (pbarroso@ufba.br) on 2013-10-30T19:39:53Z (GMT) No. of bitstreams: 1 TESE_Luciana_VERSÃO FINAL.pdf: 730192 bytes, checksum: 547f5cb7e2a72752f841739831892186 (MD5) / Made available in DSpace on 2013-10-30T19:39:53Z (GMT). No. of bitstreams: 1 TESE_Luciana_VERSÃO FINAL.pdf: 730192 bytes, checksum: 547f5cb7e2a72752f841739831892186 (MD5) Previous issue date: 2013 / A Leishmaniose visceral (LV) é uma doença crônica, endêmica em 62 países e representa um sério problema de saúde pública no Brasil. Os testes sorodiagnósticos convencionais empregam antígenos inteiros ou extratos solúveis que limitam a padronização do antígeno, e podem gerar reações cruzadas com outras doenças. Um método alternativo é o uso de peptídeos a partir de epitopos de célula B identificados através de ferramentas de bioinformática. Objetivou-se identificar epitopos lineares e conformacionais de célula B das proteínas de Leishmania infantum cisteína peptidase calpaina-like, redutase thiol dependente 1 (TDR1) e HSP70, bem como identificar sua estrutura secundária através de metodologia in silico; em seguida, buscou-se selecionar os epitopos lineares comuns aos diferentes métodos de predição para verificar a composição dos resíduos de aminoácidos dos mesmos. Metodologia: As ferramentas de bioinformática IEDB, BepiPred e BcePred foram usadas para predição de epitopos lineares de célula B e o programa CBtope para predição de epitopos conformacionais. A estrutura secundária das proteínas foi predita pelo servidor PHD. Resultados: As análises de predição produziram um total de 148 epitopos lineares e 164 epitopos conformacionais a partir das três proteínas, a maioria desses epitopos está localizada na mesma região. A estrutura secundária das proteínas é composta por -hélice, fita estendida e randômica. Nas proteínas TDR1 e HSP70, os epitopos preditos estão localizados principalmente em regiões de -hélice e randômica. Conclusões: Epitopos lineares e conformacionais de célula B de proteínas de L. infantum foram identificados in silico e poderão contribuir como novos antígenos com potencial aplicação no diagnóstico e controle da leishmaniose visceral. Sugere-se que vários métodos de predição de epitopos lineares sejam combinados a fim de se obter resultados mais confiáveis. / Salvador
268

Linking chemistry and biology: protein sequences / Enlazando química y biología: secuencias de proteínas

Laos, Roberto, Benner, Steven A. 25 September 2017 (has links)
En los últimos veinte años el número de genomas completos que han sido secuenciados y depositados en bancos de datos  ha crecido dramáticamente. Esta abundancia de información de secuencias ha servido de base para la creación de una disciplina llamada paleogenética. En este artículo, sin ahondar en algoritmos complejos, presentamos algunos conceptos clave para comprender cómo las proteínas han evolucionado con el tiempo. Luego ilustraremos como la paleogenética es utilizada en biotecnología. Estos ejemplos resaltan la conexión entre la química y la biología, dos disciplinas que quizás veinte años atrás parecían ser mucho más distintas que lo que parecen ser hoy. / In the last twenty years, the number of complete genomes that have been sequenced and deposited in data banks has grown dramatically. This abundance in sequence information has supported the creation of the discipline known as  paleogenetics. In this article, without going into complex algorithms, we present some key concepts for understanding how proteins have evolved in time. We then illustrate how paleogenetic analysis can be used in biotechnology. These examples highlight the connection between chemistry and biology, two disciplines that twenty years ago seemed to be more different than what they seem to be today.
269

Arquiteturas em FPGA para comparação de sequências biológicas em espaço linear / FPGA architectures for biological sequence comparison in linear space

Corrêa, Jan Mendonça 05 1900 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2008. / Submitted by Jaqueline Oliveira (jaqueoliveiram@gmail.com) on 2008-12-04T18:50:12Z No. of bitstreams: 1 TESE_2008_JanMendoncaCorrea.pdf: 1697042 bytes, checksum: 1f33d862081703c73ca93cae5ea50d48 (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-02-12T17:40:49Z (GMT) No. of bitstreams: 1 TESE_2008_JanMendoncaCorrea.pdf: 1697042 bytes, checksum: 1f33d862081703c73ca93cae5ea50d48 (MD5) / Made available in DSpace on 2009-02-12T17:40:50Z (GMT). No. of bitstreams: 1 TESE_2008_JanMendoncaCorrea.pdf: 1697042 bytes, checksum: 1f33d862081703c73ca93cae5ea50d48 (MD5) / O alinhamento de seqüências biológicas é uma das operações mais básicas em bioinformática, tendo por objetivo determinar a similaridade entre as seqüências. A solução deste problema envolve geralmente a comparação de seqüências através de programação dinâmica. Este tipo de comparação gera resultados ótimos mas possui complexidade quadrática de tempo, justificando métodos para sua aceleração em hardware como o FPGA. Na presente tese foram projetadas arquiteturas wavefront em FPGA utilizando espaço linear para três diferentes algoritmos. O primeiro algoritmo foi o de Smith-Waterman. Ele foi implementado na forma de um vetor wavefront e foi utilizado na aceleração da fase inicial de um algoritmo de alinhamento. Esta arquitetura foi capaz de recuperar o maior escore e posição em espaço linear. Esta arquitetura foi sintetizada em FPGA e o melhor resultado da arquitetura foi 246,9 vezes mais rápido que em software, demonstrando a utilidade da arquitetura. A seguir, foi projetada uma arquitetura para a recuperação do escore ótimo do algoritmo de programação dinâmica DIALIGN também em espaço linear. Foram obtidos resultados até 383,41 vezes superiores ao programa em software. Para recuperar o alinhamento ótimo no DIALIGN é necessário espaço quadrático. Assim, foi projetada uma variante do DIALIGN capaz de recuperar o alinhamento de duas seqüências em espaço linear. Após a implementação em hardware, os resultados obtidos foram até 141,38 vezes mais rápido que a implementação em software. ______________________________________________________________________________________ ABSTRACT / The alignment of biological sequences is one of the more basic operations in bioinformatics. Its purpose is to find the similarity between sequences. The solution to this problem generally involves sequence comparison through dynamic programming. This kind of comparison yields optimal results but has quadratic time complexity thus justifying its hardware acceleration in FPGA. In this thesis, linear space wavefront architectures were designed in FPGA for three different algorithms. The first algorithm was Smith-Waterman. It was implemented in a wavefront array and utilized to accelerate the initial phase of a sequence alignment algorithm. This architecture was able to retrieve the largest score and its position in linear space. It was synthesized in FPGA and the best result was 246,9 times faster than software, showing the appropriateness of the architecture. Also, an architecture to retrieve the optimal DIALIGN score in linear space was designed. The results were up to 383,41 times better than software. The retrieval of the optimal alignment for DIALIGN needs quadratic space. Therefore, a variant for the DIALIGN dynamic programming algorithm was proposed to retrieve the alignment in linear space. This variant was implemented in hardware and the results were up to 141,38 times faster than the software implementation.
270

Predição de rotas metabólicas de enzimas utilizando aprendizado de máquina

Almeida, Rodrigo de Oliveira January 2018 (has links)
Orientador: Guilherme Targino Valente / Resumo: Enzimas são uma classe de proteínas responsáveis por catalisar diversos tipos de reações químicas presentes em diferentes rotas metabólicas, sendo assim o principal foco de estudo nas áreas de engenharia metabólica e biologia sintética. Contudo, a anotação de enzimas e a identificação da rota metabólica em que atuam, são frequentemente baseados na similaridade de sequências previamente descritas. A falta e dificuldade de anotação das enzimas se devem pela diversidade funcional em sequências similares de famílias proteicas, sequências espécie-específicas e a dificuldade na definição de homologia em larga escala. De modo a auxiliar a superar tais problemas, o presente trabalho objetivou criar um classificador de rotas metabólicas de enzimas baseado inteiramente nas características da estrutura primária de enzimas e utilizando aprendizado de máquina. A ferramenta computacional criada (mAppLe - Metabolic Pathway Prediction of Enzymes) é composta por 11 preditores de rotas metabólicas de fungos, podendo assim auxiliar nas anotações dos bancos de dados e em trabalhos nas diferentes áreas de pesquisa, como biologia sintética e engenharia metabólica. As performances médias de predição foram de 94% de acurácia, 44% de taxa de falsa descoberta, 67% de F-​ score , ​ 98% de sensitividade, 93% de especificidade e 0,69 para coeficiente de correlação de Matthews​ . Com base no desempenho dos preditores criados, constata-se que a ferramenta computacional criada pode ser aplicada com grande s... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Enzymes are a class of proteins that are responsible for catalyzing chemical reactions in numerous metabolic pathways and are often "main targets" in metabolic engineering and synthetic biology. However, enzyme annotation and metabolic pathway identifications are often based on sequence similarities to previously well-described enzymes. Functional diversity in similar sequences of protein families, species-specificity, and difficult-to-define large-scale homologies results in difficulties and a lack of annotation. Here, we present the mAppLe (Metabolic Pathway Prediction of Enzymes), the first metabolic pathway classifier for enzymes based only on primary structure features and a machine learning approach, surpassing limitations imposed by sequence similarities. This tool is composed of 11 pathways predictors for fungi, that can help databank annotations and several type of researches like synthetic biology and metabolic engineering. Results show an average performance of 94% to accuracy, 44% false discovery rate, 67% F-score, 98% sensitivity, 93% specificity and 0.69 to Matthews coefficient correlation. Based on the performance of this predictors, the computational tool created (mAppLe) can be applied successfully to predict pathways of enzymes of the fungi, independent of sequence similarity. / Doutor

Page generated in 0.0997 seconds