1 |
[en] WORKFLOW FOR BIOINFORMATICS / [pt] WORKFLOW PARA BIOINFORMÁTICAMELISSA LEMOS 11 February 2005 (has links)
[pt] Os projetos para estudo de genomas partem de uma fase de
sequenciamento onde são gerados em laboratório dados
brutos, ou seja, sequências de DNA sem significado
biológico. As sequências de DNA possuem códigos
responsáveis pela produção de proteínas e RNAs, enquanto
que as proteínas participam de todos os fenômenos
biológicos, como a replicação celular, produção de energia,
defesa imunológica, contração muscular, atividade
neurológica e reprodução. As sequências de DNA, RNA e
proteínas são chamadas nesta tese de biossequências.
Porém, o grande desafio destes projetos consiste em
analisar essas biossequências, e obter informações
biologicamente relevantes. Durante a fase de análise, os
pesquisadores usam diversas ferramentas, programas de
computador, e um grande volume de informações armazenadas
em fontes de dados de Biologia Molecular. O crescente
volume e a distribuição das fontes de dados e a
implementação de novos processos em Bioinformática
facilitaram enormemente a fase de análise, porém criaram
uma demanda por ferramentas e sistemas semi-automáticos para
lidar com tal volume e complexidade. Neste cenário, esta
tese aborda o uso de workflows para compor processos de
Bioinformática, facilitando a fase de análise.
Inicialmente apresenta uma ontologia modelando processos e
dados comumente utilizados em Bioinformática. Esta
ontologia foi derivada de um estudo cuidadoso, resumido na
tese, das principais tarefas feitas pelos pesquisadores em
Bioinformática. Em seguida, a tese propõe um framework para
um sistema de gerência de análises em biossequências,
composto por dois sub-sistemas. O primeiro é um sistema de
gerência de workflows de Bioinformática, que auxilia os
pesquisadores na definição, validação, otimização e
execução de workflows necessários para se realizar as
análises. O segundo é um sistema de gerência de dados em
Bioinformática, que trata do armazenamento e da manipulação
dos dados envolvidos nestas análises. O framework inclui um
gerente de ontologias, armazenando ontologias para
Bioinformática, nos moldes da apresentada anteriormente.
Por fim, a tese descreve instanciações do framework para
três tipos de ambiente de trabalho comumente encontrados e
sugestivamente chamados de ambiente pessoal, ambiente de
laboratório e ambiente de comunidade. Para cada um destes
ambientes, a tese discute em detalhe os aspectos
particulares da execução e otimização de workflows. / [en] Genome projects usually start with a sequencing phase,
where experimental data, usually DNA sequences, is
generated, without any biological interpretation. DNA
sequences have codes which are responsible for the
production of protein and RNA sequences, while protein
sequences participate in all biological phenomena, such as
cell replication, energy production, immunological defense,
muscular contraction, neurological activity and
reproduction. DNA, RNA and protein sequences are called
biosequences in this thesis. The fundamental challenge
researchers face lies exactly in analyzing these sequences
to derive information that is biologically relevant. During
the analysis phase, researchers use a variety of analysis
programs and access large data sources holding Molecular
Biology data. The growing number of Bioinformatics data
sources and analysis programs indeed enormously facilitated
the analysis phase. However, it creates a demand for
systems that facilitate using such computational resources.
Given this scenario, this thesis addresses the use of
workflows to compose Bioinformatics analysis programs that
access data sources, thereby facilitating the analysis
phase. An ontology modeling the analysis program and data
sources commonly used in Bioinformatics is first described.
This ontology is derived from a careful study, also
summarized in the thesis, of the computational resources
researchers in Bioinformatics presently use. A framework
for biosequence analysis management systems is next
described. The system is divided into two major components.
The first component is a Bioinformatics workflow
management system that helps researchers define, validate,
optimize and run workflows combining Bioinformatics
analysis programs. The second component is a Bioinformatics
data management system that helps researchers manage large
volumes of Bioinformatics data. The framework includes an
ontology manager that stores Bioinformatics ontologies,
such as that previously described. Lastly, instantiations
for the Bioinformatics workflow management system framework
are described. The instantiations cover three types of
working environments commonly found and suggestively called
personal environment, laboratory environment and community
environment. For each of these instantiations, aspects
related to workflow optimization and execution are
carefully discussed.
|
2 |
[en] QEEF: AN EXTENSIBLE QUERY EXECUTION ENGINE / [pt] QEEF: UMA MÁQUINA DE EXECUÇÃO DE CONSULTASFAUSTO VERAS MARANHAO AYRES 30 June 2004 (has links)
[pt] O processamento de consultas em Sistemas de Gerência de
Banco de Dados tradicionais tem sido largamente estudado na
literatura e utilizado comercialmente com enorme sucesso.
Isso é devido, em parte, à eficiência das Máquinas de
Execução de Consultas (MEC) no suporte ao modelo de
execução tradicional. Porém, o surgimento de novos cenários
de aplicação, principalmente em conseqüência do modelo
computacional da web, motivou a pesquisa de novos modelos
de execução, tais como: modelo adaptável e modelo contínuo,
além da pesquisa de modelos de dados semi-estruturados, tal
como o XML, ambos não suportados pelas MEC tradicionais. O
objetivo desta tese consiste no desenvolvimento de uma MEC
extensível frente a diferentes modelos de execução e de
dados. Adicionalmente, esta proposta trata de maneira
ortogonal o modelo de execução e o modelo de dados, o que
permite a avaliação de planos de execução de consultas
(PEC) com fragmentos em diferentes modelos. Utilizou-se a
técnica de framework de software para a especificação da
MEC extensível, produzindo o framework QEEF (Query
Execution Engine Framework). A extensibilidade da
solução reflete-se em um meta-modelo, denominado QUEM
(QUery Execution Meta-model), capaz de exprimir diferentes
modelos em um meta-PEC. O framework QEEF pré-processa um
meta-PEC e produz um PEC final a ser avaliado pela MEC
instanciada. Como parte da validação desta proposta,
instanciou-se o QEEF para diferentes modelos de execução e
de dados. / [en] Querying processing in traditional Database Management
Systems (DBMS) has been extensively studied in the
literature and adopted in industry. Such success is, in
part, due to the performance of their Query Execution
Engines (QEE) for supporting the traditional query
execution model. The advent of new query scenarios, mainly
due to the web computational model, has motivate the
research on new execution models such as: adaptive and
continuous, and on semistructured data models, such as XML,
both not natively supported by traditional query engines.
This thesis proposes the development of an extensible QEE
adapted to the new execution and data models. Achieving
this goal, we use a software design approach based on
framework technique to produce the Query Execution Engine
Framework (QEEF). Moreover, we address the question of the
orthogonality between execution and data models, witch
allows for executing query execution plans (QEP) with
fragments in different models. The extensibility of our
solution is specified by in a QEP by an execution meta-
model named QUEM (QUery Execution Meta-model) used to
express different models in a meta-QEP. During query
evaluation, the latter is pre-processed by the QEEF
producing a final QEP to be evaluated by the running QEE.
The QEEF is instantiated for different execution and data
models as part of the validation of this proposal.
|
Page generated in 0.0526 seconds