Return to search

Modelo de dados para um Pipeline de seqüenciamento de alto desempenho transcritômico

Dissertação (mestrado)—Universidade de Brasília, Instituto de CIências Exatas, Departamento de Ciência da Computação, 2012. / Submitted by Sabrina Silva de Macedo (sabrinamacedo@bce.unb.br) on 2012-07-18T14:03:22Z
No. of bitstreams: 1
2012_RubemCruzHuacarpuma.pdf: 2198938 bytes, checksum: 7873175586685ed25fd99884e923ad63 (MD5) / Approved for entry into archive by Jaqueline Ferreira de Souza(jaquefs.braz@gmail.com) on 2012-07-30T12:35:11Z (GMT) No. of bitstreams: 1
2012_RubemCruzHuacarpuma.pdf: 2198938 bytes, checksum: 7873175586685ed25fd99884e923ad63 (MD5) / Made available in DSpace on 2012-07-30T12:35:11Z (GMT). No. of bitstreams: 1
2012_RubemCruzHuacarpuma.pdf: 2198938 bytes, checksum: 7873175586685ed25fd99884e923ad63 (MD5) / O rápido avanço nas técnicas de sequenciamento de alto desempenho de fragmentos de
DNA/RNA criou novos desa os computacionais na área de bioinformática. Um desses desa
os é administrar o enorme volume de dados gerados pelos sequenciadores automáticos,
particularmente o armazenamento e a análise desses dados processados em larga escala.
A existência de diferentes formatos de representação, terminologia, estrutura de arquivos
e semânticas, faz muito complexa a representação e administração desses dados. Neste
contexto, um modelo de dados para representar, organizar e garantir o acesso aos dados
biológicos é essencial para suportar o trabalho dos pesquisadores do campo da biologia,
quando fazendo uso de pipelines de sequenciamento de alto desempenho.
Este trabalho propõe tanto um modelo de dados conceitual, como também seu respectivo
esquema relacional, permitindo a representação e o gerenciamento de um pipeline
de sequenciamento de alto desempenho para projetos transcritômicos no intuito de organizar
e armazenar de maneira simples e e ciente os dados gerados em cada fase da
análise do pipeline. Nesta dissertação, trabalhamos com pipelines de sequenciamento de
alto desempenho com três fases: ltragem, mapeamento e análise. Para validar nosso modelo,
apresentamos dois estudos de casos para identi car a expressão diferencial de genes
usando dados de sequenciamento de alto desempenho transcritômico. Estes estudos de
caso mostraram que introduzir o modelo de dados, e o esquema correspondente, tornou o
pipeline mais e ciente, organizado, para dar suporte ao trabalho dos biólogos envolvidos
em um projeto de transcritoma. _________________________________________________________________________________________ ABSTRACT / The rapid advances in high-throughput sequencing techniques of DNA/RNA fragments created new computational challenges in bioinformatics. One of these challenges is to manage the enormous volume of data generated by automatic sequencers, specially storage and analysis of these data processed on large scale. The existence of representation format, terminology, _le structure and semantics, becomes very complex representation and management of such data. In this context, a data model to represent, organize and provide access to biological data is essential to support the researchers works into biology_eld when using high-throughput sequencing. This work proposes a conceptual model as well as its database schema to representand manage a high-throughput transcriptome pipeline in order to organize and store in a simple and efficient way data generated in each pipeline phase. In this dissertation, we work with three phases high-throughput sequencing pipeline: _ltering, mapping and analysis. In order to validate our model, we present two case studies both having the objective of identifying deferentially expressed genes using high-throughput sequencing transcriptome data. These case studies showed that uses a data model, and its database schema, became the pipeline more efficient, organized, and support the biologists works involved in a transcriptome project.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/11037
Date01 March 2012
CreatorsHuacarpuma, Ruben Cruz
ContributorsHolanda, Maristela Terto de
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds