Return to search

[en] WORKFLOW FOR BIOINFORMATICS / [pt] WORKFLOW PARA BIOINFORMÁTICA

[pt] Os projetos para estudo de genomas partem de uma fase de
sequenciamento onde são gerados em laboratório dados
brutos, ou seja, sequências de DNA sem significado
biológico. As sequências de DNA possuem códigos
responsáveis pela produção de proteínas e RNAs, enquanto
que as proteínas participam de todos os fenômenos
biológicos, como a replicação celular, produção de energia,
defesa imunológica, contração muscular, atividade
neurológica e reprodução. As sequências de DNA, RNA e
proteínas são chamadas nesta tese de biossequências.
Porém, o grande desafio destes projetos consiste em
analisar essas biossequências, e obter informações
biologicamente relevantes. Durante a fase de análise, os
pesquisadores usam diversas ferramentas, programas de
computador, e um grande volume de informações armazenadas
em fontes de dados de Biologia Molecular. O crescente
volume e a distribuição das fontes de dados e a
implementação de novos processos em Bioinformática
facilitaram enormemente a fase de análise, porém criaram
uma demanda por ferramentas e sistemas semi-automáticos para
lidar com tal volume e complexidade. Neste cenário, esta
tese aborda o uso de workflows para compor processos de
Bioinformática, facilitando a fase de análise.
Inicialmente apresenta uma ontologia modelando processos e
dados comumente utilizados em Bioinformática. Esta
ontologia foi derivada de um estudo cuidadoso, resumido na
tese, das principais tarefas feitas pelos pesquisadores em
Bioinformática. Em seguida, a tese propõe um framework para
um sistema de gerência de análises em biossequências,
composto por dois sub-sistemas. O primeiro é um sistema de
gerência de workflows de Bioinformática, que auxilia os
pesquisadores na definição, validação, otimização e
execução de workflows necessários para se realizar as
análises. O segundo é um sistema de gerência de dados em
Bioinformática, que trata do armazenamento e da manipulação
dos dados envolvidos nestas análises. O framework inclui um
gerente de ontologias, armazenando ontologias para
Bioinformática, nos moldes da apresentada anteriormente.
Por fim, a tese descreve instanciações do framework para
três tipos de ambiente de trabalho comumente encontrados e
sugestivamente chamados de ambiente pessoal, ambiente de
laboratório e ambiente de comunidade. Para cada um destes
ambientes, a tese discute em detalhe os aspectos
particulares da execução e otimização de workflows. / [en] Genome projects usually start with a sequencing phase,
where experimental data, usually DNA sequences, is
generated, without any biological interpretation. DNA
sequences have codes which are responsible for the
production of protein and RNA sequences, while protein
sequences participate in all biological phenomena, such as
cell replication, energy production, immunological defense,
muscular contraction, neurological activity and
reproduction. DNA, RNA and protein sequences are called
biosequences in this thesis. The fundamental challenge
researchers face lies exactly in analyzing these sequences
to derive information that is biologically relevant. During
the analysis phase, researchers use a variety of analysis
programs and access large data sources holding Molecular
Biology data. The growing number of Bioinformatics data
sources and analysis programs indeed enormously facilitated
the analysis phase. However, it creates a demand for
systems that facilitate using such computational resources.
Given this scenario, this thesis addresses the use of
workflows to compose Bioinformatics analysis programs that
access data sources, thereby facilitating the analysis
phase. An ontology modeling the analysis program and data
sources commonly used in Bioinformatics is first described.
This ontology is derived from a careful study, also
summarized in the thesis, of the computational resources
researchers in Bioinformatics presently use. A framework
for biosequence analysis management systems is next
described. The system is divided into two major components.
The first component is a Bioinformatics workflow
management system that helps researchers define, validate,
optimize and run workflows combining Bioinformatics
analysis programs. The second component is a Bioinformatics
data management system that helps researchers manage large
volumes of Bioinformatics data. The framework includes an
ontology manager that stores Bioinformatics ontologies,
such as that previously described. Lastly, instantiations
for the Bioinformatics workflow management system framework
are described. The instantiations cover three types of
working environments commonly found and suggestively called
personal environment, laboratory environment and community
environment. For each of these instantiations, aspects
related to workflow optimization and execution are
carefully discussed.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:5928
Date11 February 2005
CreatorsMELISSA LEMOS
ContributorsMARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguageEnglish
TypeTEXTO

Page generated in 0.0024 seconds