11 |
[en] SEMANTIC DATA INTEGRATION WITH AN ONTOLOGY FEDERATION. / [pt] INTEGRAÇÃO SEMÂNTICA DE DADOS ATRAVÉS DE FEDERAÇÃO DE ONTOLOGIASSANDRA APARECIDA DIAS 16 October 2006 (has links)
[pt] O advento da WEB propiciou a disseminação de bases de
dados distribuídas
e heterogêneas. Por vezes, a resposta a uma consulta
demanda o uso de várias
destas bases. É necessário, então, algum nível de
integração destas. A publicação
dessas bases nem sempre segue um padrão semântico. Em
função disso parece ser
essencial existir um meio de relacionar os diferentes
dados para satisfazer tais
consultas. Este processo é comumente denominado de
integração de dados. A
comunidade de Banco de Dados tem conhecimento de métodos
para dar conta
desta integração no contexto de federações de Bancos de
Dados heterogêneos. No
entanto, atualmente existem descrições mais ricas e com
mais possibilidades de
semântica, tais como aquelas induzidas pelo conceito de
ontologia. A comunidade
de Banco de Dados tem considerado ontologias na solução do
problema da
integração de Banco de Dados. O alinhamento ou merge de
ontologias são
algumas das propostas conhecidas da comunidade de WEB
semântica. Este
trabalho propõe o uso de métodos de merge de ontologias
como solução ao
problema da construção de uma federação de ontologias como
método integrador
de fontes de dados. O trabalho inclui a implementação de
um estudo de caso na
ferramenta Protegé. Este estudo de caso permite discutir
aspectos de
escalabilidade e de aplicabilidade da proposta como uma
solução
tecnologicamente viável. / [en] The WEB has spread out the use of heterogeneous
distributed databases.
Sometimes, the answer to a query demands the use of more
than one database.
Some level of integration among these databases is
desired. However, frequently,
the bases were not designed according a unique semantic
pattern. Thus, it seems
essential to relate the different data, in the respective
base, in order to provide an
adequate answer to the query. The process of building this
relationship is often
called data integration. The Data Base community has
acquired enough
knowledge to deal with this in the context of Data Base
Heterogeneous
Federation. Nowadays, there are more expressive model
descriptions, namely
ontologies. The Data Base community has also considered
ontologies as a tool to
contribute as part of a solution to the data integration
problem. The Semantic
WEB community defined alignment or merge of ontologies as
one of the possible
solutions to the some of this integration problem. This
work has the aim of using
merge of ontologies methods as a mean to define the
construction of a
Federation of ontologies as a mean to integrate source of
data. The dissertation
includes a case study written in the Protegé tool. From
this case study, a
discussion follows on the scalability and applicability of
the proposal as a feasible
technological solution for data integration.
|
12 |
[en] DEALING WITH DEVICE DATA OVERFLOW IN THE CLOUD / [pt] UTILIZANDO A NUVEM PARA LIDAR COM A SOBRECARGA DE DADOS EM DISPOSITIVOS FIXOS E MÓVEIS18 January 2017 (has links)
[pt] A Computação em Nuvem torna-se a cada dia mais importante como plataforma para pesquisa na Engenharia de Software. Apesar da vasta literatura disponível para uso da Nuvem em ambientes comerciais, ainda há pouca pesquisa feita para que se modelem, desenhem e implementem novos aplicativos que façam uso inteligente da Nuvem. Nesta dissertação é proposta uma abstração que explora um aspecto fundamental dos sistemas em Nuvem - a elasticidade de dados. A abstração Container Database (CDB) provê uma solução baseada em Nuvem para a falta de espaço para armazenamento local de dados em dispositivos eletrônicos. Para demonstrar a viabilidade desta abordagem, é apresentada uma implementação da abstração CDB como uma API que funciona nos sistemas operacionais Windows 7 e Windows Mobile Phone 7. / [en] Cloud computing is rapidly becoming an important platform for research in Software Engineering. Despite the vibe and huge literature on commercial Cloud environments, there is, however, little research on how to capture, model, design and implement new software applications that can make intelligent use of the Cloud. In this paper we propose a new abstraction that explores a fundamental aspect of Cloud systems – data elasticity. The Container Database (CDB) abstraction provides a Cloud-based solution for scenarios where device local storage is not sufficient for manipulating data. To demonstrate the viability of the proposed approach we present an implementation of the CDB abstraction as an Object-Oriented API designed to work on Windows 7 and Windows Mobile Phone 7 Operation Systems.
|
13 |
[en] VELVETH-DB: A ROBUST DATABASE APPROACH FOR THE ASSEMBLY PROCESS OF BIOLOGICAL SEQUENCES / [pt] VELVETH-DB: UMA ABORDAGEM ROBUSTA DE BANCO DE DADOS NO PROCESSO DE MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICASMARCOS VINICIUS MARQUES DA SILVA 03 November 2016 (has links)
[pt] Avanços tecnológicos recentes, tanto nos métodos de sequenciamento quanto nos algoritmos de montagem de fragmentos, têm facilitado a reconstrução de todo o DNA de espécies sem a necessidade de um genoma de referência. A montagem da cadeia completa envolve a leitura um grande volume de fragmentos do genoma (short reads), um desafio significativo em termos computacionais. Todos os principais algoritmos de montagem de fragmentos existentes têm como gargalo principal o alto consumo de memória principal. Consonante a isso, essa dissertação de mestrado visa estudar a implementação de um destes algoritmos, Velvet, que é amplamente usado e recomendado. A mesma possuiu um módulo, VelvetH que realiza um pré-processamento dos dados com o intuito de reduzir o consumo de memória principal. Após um estudo minucioso do código e alternativas de melhorias, foram feitas alterações pontuais e proposta uma solução com persistência de dados em memória secundária visando obter eficácia e robustez. / [en] Recent technological advances, both in assembly algorithms and in sequencing methods, have enabled the reconstruction of whole DNA even without a reference genome available. The assembly of the complete chain involves reading a large volume of genome fragments, called short-reads, which makes the problem a significant computational challenge. A major bottleneck for all existing fragmentassembly algorithms is the high consumption of RAM. This dissertation intends to study the implementation of one of these algorithms, called Velvet, which is widely used and recommended. The same possessed a module, VelvetH that performs a pre-processing data with the aim of reducing the consumption of main memory. After a thorough study of code improvements and alternatives, specific changes have been made and proposed a solution with data persistence in secondary memory in order to obtain effectiveness and robustness.
|
14 |
[en] AN AGENT-BASED ARCHITECTURE FOR DBMS GLOBAL SELF-TUNING / [pt] UMA ARQUITETURA PARA AUTO-SINTONIA GLOBAL DE SGBDS USANDO AGENTESANOLAN YAMILE MILANES BARRIENTOS 13 October 2004 (has links)
[pt] O aumento da complexidade dos SGBDs comerciais e a carga
que suportam, além da crescente utilização destes por
pessoal pouco familiarizado com a administração de bancos
de dados, entre outras causas, sugerem a introdução de
técnicas que automatizem o processo de sintonia de bancos
de dados. A auto-sintonia (self-tuning) é uma tecnologia
que permite criar sistemas adaptáveis que possam manter um
bom desempenho, minimizando no possível a interação do
administrador com o sistema. Este trabalho propõe uma
abordagem para o ajuste automático dos parâmetros em um
SGBD usando agentes de software. A tarefa de sintonia é
tratada nesta pesquisa como um problema global, dado que
alterações de um parâmetro podem se refletir em outros. Os
detalhes da arquitetura, sua implementação e avaliação de
funcionamento são também discutidos nesta dissertação. / [en] The increasing complexity of the commercial DBMSs as well
the workload they manage, besides the fact that many users
do not have deep knowledge about database administration,
among other reasons, strongly suggests the introduction of
techniques that automates the database tuning process. Self-
Tuning, or auto-tuning, is a feature that makes systems
adaptable in order to keep a good overall performance,
reducing as possible the interaction between the
administrator and the system. This work proposes an
approach for the automatic tuning of DBMSs parameters using
an architecture based on software agents. We consider
tuning as a global issue, given that changes of a single
parameter can be reflected in others. The architecture
details, ets implementation and a practical evaluation are
also discussed in this dissertation.
|
15 |
[en] A TRANSACTION MODEL FOR DBMS INTEGRATION TO A MOBILE COMPUTATION ENVIRONMENT / [pt] UM MODELO DE TRANSAÇÕES PARA INTEGRAÇÃO DE SGBD A UM AMBIENTE DE COMPUTAÇÃO MÓVELSERGIO DA COSTA CORTES 17 December 2004 (has links)
[pt] Dispositivos portáteis dotados de computador são cada vez
mais utilizados em diversos domínios de aplicações.
Juntamente com as redes de telecomunicações provêem a base
tecnológica para a computação móvel. Neste ambiente, os
Sistemas de Gerência de Bancos de Dados (SGBDs) podem
fornecer todos os mecanismos para confiança, segurança,
disponibilidade, integridade e acesso eficiente a dados
persistentes. Estes SGBDs podem estar localizados na rede
com fio (fixa), desempenhando seu papel convencional de
servidor de banco de dados, ou podem prover dados para
computadores móveis e tecnologias relacionadas. Vários
modelos para transações em banco de dados para o ambiente
de computação móvel têm sido propostos. No entanto, não
satisfazem plenamente as características únicas deste tipo
de ambiente, tais como desconexões freqüentes, fraca
conectividade na rede sem fio e a movimentação dos
clientes. Esta tese tem por objetivo propor um modelo de
computação que permita a integração de um SGBD a um
ambiente de computação móvel. É apresentado um novo modelo
de transações de banco de dados em múltiplos níveis no
sentido de garantir o atendimento dos requisitos da
computação móvel e as propriedades ACID de transações, onde
há participação efetiva do SGBD. O modelo é definido em
lógica de primeira ordem seguindo o formalismo ACTA. A
implementação desse modelo de transações é apresentada em
uma arquitetura que faz uso das abordagens de frameworks
orientados a objetos e agentes de software, de forma a
tratar com maior eficiência as especificidades do ambiente
de computação móvel. Finalmente, é feita uma comparação
entre alguns dos modelos mais relevantes de transações para
bancos de dados no ambiente de computação móvel e o modelo
proposto nesta tese, ressaltando o tratamento dado às
propriedades ACID das transações de banco de dados. / [en] Portable computerized devices have become widely used in
many different
application domains and are, together with
telecommunication networks,
the underlying technology for mobile computing. In this
environment Data-
base Management Systems (DBMS) may provide reliability,
security and
availability, besides data integrity and efficiency
persistent data access.
These DBMS might be located either in conventional (fixed)
networks, with
the conventional data server role, or might serve global
and local data for
mobile computers and related technology. There are many
transaction models for mobile database management. However,
the particular characteristics of this mobile environment,
such as frequent disconnections, weak and
intermittent connectivity of wireless networks and clients
movement, are not
always well addressed. The goal of this thesis is to
propose a computational
model that enables the integration of a DBMS to a mobile
environment.
Indeed, we present a new multi-level database transactional
model in order
to handle mobile requirements and ACID transaction
properties, where a
DBMS is present. Our model is defined using the ACTA
formalism based
in first-order logic. The implementation of proposed
transaction model becomes feasible through the use of
object-oriented frameworks and software
agents, with gave support to deal with the particularities
of the mobile
computing environment. Finally, we give a comparison
between the most
relevant transaction models for the mobile computing
environment and our
proposed model, emphasizing the treatment given to the ACID
transactions
properties.
|
16 |
[en] A CONCEPTUAL MODEL FOR MOLECULAR BIOLOGY / [pt] UM MODELO CONCEITUAL PARA BIOLOGIA MOLECULARJOSE ANTONIO FERNANDES DE MACEDO 17 March 2006 (has links)
[pt] Projetos de genômica e biológica molecular estão gerando
dados cujos volumes e complexidades jamais foram
observados nesta área. Além disso, fontes de dados e de
conhecimento são produzidas e utilizadas por grupos de
pesquisa os quais utilizam terminologias diferentes
(sinônimos, apelido e fórmulas), sintaxes diferentes
(estrutura de arquivos e separadores) e semânticas
diferentes (intra e interdisciplinares homônimos). O
sucesso da pesquisa em biologia dependerá da correta
representação e manipulação dos dados biológicos
permitindo os cientistas criarem, gerenciarem,
manipularem, integrarem e analisarem os dados de forma a
gerar informação e conhecimento. Neste trabalho, estudamos
os problemas para representação de dados biológicos
apresentados nas principais linguagens de modelagem
tradicionais. Em seguida, levantamos os requisitos para um
novo modelo de dados conceitual para biologia molecular.
Finalmente, propomos um novo modelo conceitual contendo
construtores específicos para solucionar alguns dos
problemas estudados. Além disso, formalizamos o modelo
proposto usando lógica de primeira ordem e utilizamos esta
descrição lógica para realizar inferências que auxiliem o
trabalho do projetista de banco de dados durante a criação
de um esquema de banco de dados. / [en] Genomic and molecular biology projects are generating
knowledge data whose volume and complexity are
unparalleled in this research area. In addition, data and
knoweledge sources produced and used by research groups
have terminological differences (synonyms, aliases and
formulae), syntactic differences (file structure,
separators and spelling) and semantic differences (intra-
and interdisciplinary homonyms). In this context, data
management techniques play a fundamental role for
biological applications development because it offers
adequate abstractions to desing, implement, access and
manage data, in order to generate knowledge. In this work,
we study the representation problems presentd in
traditional languages. Following, we raise the main
requiremants for a new conceptual data model specially
conceived for molecular biology. Finally, we propose a new
conceptual data model with special types of constructor
tryng to solve some of the representation problems
discurssed before. In addition, we formalize our proposed
model using first-order logic and we use this logical
description to infer some properties that may help
database designer during the elaboration of database
schema.
|
17 |
[en] WORKFLOW FOR BIOINFORMATICS / [pt] WORKFLOW PARA BIOINFORMÁTICAMELISSA LEMOS 11 February 2005 (has links)
[pt] Os projetos para estudo de genomas partem de uma fase de
sequenciamento onde são gerados em laboratório dados
brutos, ou seja, sequências de DNA sem significado
biológico. As sequências de DNA possuem códigos
responsáveis pela produção de proteínas e RNAs, enquanto
que as proteínas participam de todos os fenômenos
biológicos, como a replicação celular, produção de energia,
defesa imunológica, contração muscular, atividade
neurológica e reprodução. As sequências de DNA, RNA e
proteínas são chamadas nesta tese de biossequências.
Porém, o grande desafio destes projetos consiste em
analisar essas biossequências, e obter informações
biologicamente relevantes. Durante a fase de análise, os
pesquisadores usam diversas ferramentas, programas de
computador, e um grande volume de informações armazenadas
em fontes de dados de Biologia Molecular. O crescente
volume e a distribuição das fontes de dados e a
implementação de novos processos em Bioinformática
facilitaram enormemente a fase de análise, porém criaram
uma demanda por ferramentas e sistemas semi-automáticos para
lidar com tal volume e complexidade. Neste cenário, esta
tese aborda o uso de workflows para compor processos de
Bioinformática, facilitando a fase de análise.
Inicialmente apresenta uma ontologia modelando processos e
dados comumente utilizados em Bioinformática. Esta
ontologia foi derivada de um estudo cuidadoso, resumido na
tese, das principais tarefas feitas pelos pesquisadores em
Bioinformática. Em seguida, a tese propõe um framework para
um sistema de gerência de análises em biossequências,
composto por dois sub-sistemas. O primeiro é um sistema de
gerência de workflows de Bioinformática, que auxilia os
pesquisadores na definição, validação, otimização e
execução de workflows necessários para se realizar as
análises. O segundo é um sistema de gerência de dados em
Bioinformática, que trata do armazenamento e da manipulação
dos dados envolvidos nestas análises. O framework inclui um
gerente de ontologias, armazenando ontologias para
Bioinformática, nos moldes da apresentada anteriormente.
Por fim, a tese descreve instanciações do framework para
três tipos de ambiente de trabalho comumente encontrados e
sugestivamente chamados de ambiente pessoal, ambiente de
laboratório e ambiente de comunidade. Para cada um destes
ambientes, a tese discute em detalhe os aspectos
particulares da execução e otimização de workflows. / [en] Genome projects usually start with a sequencing phase,
where experimental data, usually DNA sequences, is
generated, without any biological interpretation. DNA
sequences have codes which are responsible for the
production of protein and RNA sequences, while protein
sequences participate in all biological phenomena, such as
cell replication, energy production, immunological defense,
muscular contraction, neurological activity and
reproduction. DNA, RNA and protein sequences are called
biosequences in this thesis. The fundamental challenge
researchers face lies exactly in analyzing these sequences
to derive information that is biologically relevant. During
the analysis phase, researchers use a variety of analysis
programs and access large data sources holding Molecular
Biology data. The growing number of Bioinformatics data
sources and analysis programs indeed enormously facilitated
the analysis phase. However, it creates a demand for
systems that facilitate using such computational resources.
Given this scenario, this thesis addresses the use of
workflows to compose Bioinformatics analysis programs that
access data sources, thereby facilitating the analysis
phase. An ontology modeling the analysis program and data
sources commonly used in Bioinformatics is first described.
This ontology is derived from a careful study, also
summarized in the thesis, of the computational resources
researchers in Bioinformatics presently use. A framework
for biosequence analysis management systems is next
described. The system is divided into two major components.
The first component is a Bioinformatics workflow
management system that helps researchers define, validate,
optimize and run workflows combining Bioinformatics
analysis programs. The second component is a Bioinformatics
data management system that helps researchers manage large
volumes of Bioinformatics data. The framework includes an
ontology manager that stores Bioinformatics ontologies,
such as that previously described. Lastly, instantiations
for the Bioinformatics workflow management system framework
are described. The instantiations cover three types of
working environments commonly found and suggestively called
personal environment, laboratory environment and community
environment. For each of these instantiations, aspects
related to workflow optimization and execution are
carefully discussed.
|
18 |
[en] CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS / [pt] CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOSCARLOS HENRIQUE PEREIRA LOPES 19 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de Algoritmos
Genéticos (AG) no processo de descoberta de conhecimento
implícito em Banco de Dados (KDD - Knowledge Discovery
Database). O objetivo do trabalho foi avaliar o desempenho
de Algoritmos Genéticos no processo de classificação de
registros em Bancos de Dados (BD). O processo de
classificação no contexto de Algoritmos Genéticos consiste
na evolução de regras de associação que melhor
caracterizem, através de sua acurácia e abrangência, um
determinado grupo de registros do BD. O trabalho consistiu
de 4 etapas principais: um estudo sobre a área de
Knowledge Discovery Database (KDD); a definição de um
modelo de AG aplicado à Mineração de Dados (Data Mining);
a implementação de uma ferramenta (Rule-Evolver) de
Mineração de Dados; e o estudo de casos.
O estudo sobre a área de KDD envolveu todo o processo de
descoberta de conhecimento útil em banco de dados:
definição do problema; seleção dos dados; limpeza dos
dados; pré-processamento dos dados; codificação dos dados;
enriquecimento dos dados; mineração dos dados e a
interpretação dos resultados. Em particular, o estudo
destacou a fase de Mineração de Dados e os algoritmos e
técnicas empregadas (Redes Neurais, Indução de regras,
Modelos Estatísticos e Algoritmos Genéticos). Deste estudo
resultou um survey sobre os principais projetos de
pesquisa na área.
A modelagem do Algoritmo Genético consistiu
fundamentalmente na definição de uma representação dos
cromossomas, da função de avaliação e dos operadores
genéticos. Em mineração de dados por regras de associação
é necessário considerar-se atributos quantitativos e
categóricos. Atributos quantitativos representam variáveis
contínuas (faixa de valores) e atributos categóricos
variáveis discretas. Na representação definida, cada
cromossoma representa uma regra e cada gene corresponde a
um atributo do BD, que pode ser quantitativo ou categórico
conforme a aplicação. A função de avaliação associa um
valor numérico à regra encontrada, refletindo assim uma
medida da qualidade desta solução. A Mineração de Dados
por AG é um problema de otimização onde a função de
avaliação deve apontar para as melhores regras de
associação. A acurácia e a abrangência são medidas de
desempenho e, em alguns casos, se mantém nulas durante
parte da evolução. Assim, a função de avaliação deve ser
uma medida que destaca cromossomas contendo regras
promissoras em apresentar acurácia e abrangência
diferentes de zero. Foram implementadas 10 funções de
avaliação. Os operadores genéticos utilizados (crossover e
mutação) buscam recombinar as cláusulas das regras, de
modo a procurar obter novas regras com maior acurácia e
abrangência dentre as já encontradas. Foram implementados
e testados 4 operadores de cruzamento e 2 de mutação.
A implementação de uma ferramenta de modelagem de AG
aplicada à Mineração de Dados, denominada Rule-Evolver,
avaliou o modelo proposto para o problema de classificação
de registros. O Rule-Evolver analisa um Banco de Dados e
extrai as regras de associação que melhor diferenciem um
grupo de registros em relação a todos os registros do
Banco de Dados. Suas características principais são:
seleção de atributos do BD; informações estatísticas dos
atributos; escolha de uma função de avaliação entre as 10
implementadas; escolha dos operadores genéticos;
visualização gráfica de desempenho do sistema; e
interpretação de regras. Um operador genético é escolhido
a cada reprodução em função de uma taxa preestabelecida
pelo usuário. Esta taxa pode permanecer fixa ou variar
durante o processo evolutivo. As funções de avaliação
também podem ser alteradas (acrescidas de uma recompensa)
em função da abrangência e da acurácia da regra. O Rule-
Evolver possui uma interface entre o BD e o AG, necessária
para tor / [en] This dissertation investigates the application of Genetic
Algorithms (GAs) to the process of implicit knowledge
discovery over databases (KDD - Knowledge Discovery
Database). The objective of the work has been the
assessment of the Genetic Algorithms (GA) performance in
the classification process of database registers. In the
context of Genetic Algorithms, this classification process
consists in the evolution of association rules that
characterise, through its accuracy and range, a particular
group of database registers. This work has encompassed
four main steps: a study over the area of Knowledge
Discovery Databases; the GA model definition applied to
Data Mining; the implementation of the Data Mining Rule
Evolver; and the case studies.
The study over the KDD area included the overall process
of useful knowledge discovery; the problem definition;
data organisation; data pre-processing; data encoding;
data improvement; data mining; and results´
interpretation. Particularly, the investigation emphasied
the data mining procedure, techniques and algorithms
(neural Networks, rule Induction, Statistics Models and
Genetic Algorithms). A survey over the mais research
projects in this area was developed from this work.
The Genetic Algorithm modelling encompassed fundamentally,
the definition of the chromosome representation, the
fitness evaluation function and the genetic operators.
Quantitative and categorical attributes must be taken into
account within data mining through association rules.
Quantitative attribites represent continuous variables
(range of values), whereas categorical attributes are
discrete variable. In the representation employed in this
work, each chromosome represents a rule and each gene
corresponds to a database attribute, which can be
quantitative or categorical, depending on the application.
The evaluation function associates a numerical value to
the discovered rule, reflecting, therefore, the fitness
evaluation function should drive the process towards the
best association rules. The accuracy and range are
performance statistics and, in some cases, their values
stay nil during part of the evolutionary process.
Therefore, the fitness evaluation function should reward
chromosomes containing promising rules, which present
accuracy and range different of zero. Ten fitness
evaluation functions have been implemented. The genetic
operators used in this work, crossover and mutation, seek
to recombine rules´clauses in such a way to achieve rules
of more accuracy and broader range when comparing the ones
already sampled. Four splicing operators and two mutation
operators have been experimented.
The GA modeling tool implementation applied to Data Mining
called Rule Evolever, evaluated the proposed model to the
problem of register classification. The Rule Evolver
analyses the database and extracts association rules that
can better differentiate a group of registers comparing to
the overall database registers. Its main features are:
database attributes selection; attributes statistical
information; evaluation function selection among ten
implemented ones; genetic operators selection; graphical
visualization of the system performance; and rules
interpretation. A particular genetic operator is selected
at each reproduction step, according to a previously
defined rate set by the user. This rate may be kept fix or
may very along the evolutionary process. The evolutionary
process. The evaluation functions may also be changed (a
rewarding may be included) according to the rule´s range
and accuracy. The Rule Evolver implements as interface
between the database and the GA, endowing the KDD process
and the Data Mining phase with flexibility. In order to
optimise the rules´ search process and to achieve better
quality rules, some evolutionary techniques have been
implemented (linear rank and elitism), and different
random initialisation methods have been used as well;
global averag
|
19 |
[en] EXECUTION AND DATA AVAILABILITY CONTROL FOR APPLICATIONS ON BIOLOGICAL SEQUENCES: THE CASE OF BLAST / [pt] CONTROLE DA EXECUÇÃO E DISPONIBILIZAÇÃO DE DADOS PARA APLICATIVOS SOBRE SEQÜÊNCIAS BIOLÓGICAS: O CASO BLASTMAIRA FERREIRA DE NORONHA 25 April 2007 (has links)
[pt] Este trabalho consiste na criação de uma ferramenta
provedora de dados
para o BLAST, denominada BioProvider. Esta é usada para
prover dados
realizando um gerenciamento de buffer eficiente para o
BLAST, controlando
também o escalonamento dos processos do mesmo. A
comunicação entre o
BioProvider e os processos do BLAST, assim como o controle
de concorrência e
bloqueios, é feita por meio de um driver, que substitui as
chamadas a funções de
leitura e escrita de arquivos do banco de dados. Deste
modo, o código do BLAST
não precisa ser modificado para ser realizar a comunicação
com o BioProvider e
este pode ser usado para diferentes versões do BLAST. O
desenvolvimento do
BioProvider é a primeira etapa para a criação de uma
solução aplicável também a
outras ferramentas de Bioinformática. Por ser transparente
aos programas, a
ferramenta desenvolvida é facilmente extensível, podendo
ser futuramente
modificada para prover dados para outros aplicativos, usar
outras estratégias de
gerência de buffer ou prover dados armazenados em formatos
diferentes dos lidos
por processos clientes, convertendo-os em tempo de
execução. O BioProvider foi
testado com a versão recente do NCBI BLAST, obtendo
consideráveis melhoras
de desempenho, e seu funcionamento foi verificado também
com a versão do
WU-BLAST com código aberto. Foram realizadas análises de
variações no
algoritmo de gerenciamento de buffer e dos fatores que
influenciam o desempenho
dos processos BLAST. / [en] This work consists on the creation of a tool named
BioProvider to provide
data to BLAST. The tool provides the data using buffer
management techniques
that are efficient for BLAST and controls process
scheduling. The communication
between BioProvider and the BLAST processes, as well as
the concurrency and
blocking control, is done through a device driver that
substitutes the read and
write function calls to the database files. By this means,
the application code can
remain unchanged and BioProvider can be used with
different versions of
BLAST. The development of BioProvider was the first stage
to the creation of a
solution that can be applied as well to other
Bioinformatics tools. Due to its
transparency in the view of other applications,
BioProvider can be easily extended
in the future to provide data to other applications, to
use other buffer management
techniques or to provide data stored in different formats
of those read by the client
processes, converting the data in runtime. BioProvider has
been tested with the
most recent version of NCBI BLAST and considerable
improvement has been
verified. The tool has been shown to work as well with the
open source version of
WU-BLAST. Some variations on the buffer management
algorithm were studied,
as well as the different factors that influence the
performance of BLAST
processes.
|
20 |
[en] QEEF-G: ADAPTIVE PARALLEL EXECUTION OF ITERATIVE QUERIES / [pt] QEEF-G: EXECUÇÃO PARALELA ADAPTATIVA DE CONSULTAS ITERATIVASVINICIUS FONTES VIEIRA DA SILVA 25 April 2007 (has links)
[pt] O processamento de consulta paralelo tradicional utilize-
se de nós
computacionais para reduzir o tempo de processamento de
consultas. Com o
surgimento das grades computacionais, milhares de nós
podem ser utilizados,
desafiando as atuais técnicas de processamento de consulta
a oferecerem um
suporte massivo ao paralelismo em um ambiente onde as
condições variam todo a
instante. Em adição, as aplicações científicas executadas
neste ambiente oferecem
novas características de processamento de dados que devem
ser integradas em um
sistema desenvolvido para este ambiente. Neste trabalho
apresentamos o sistema
de processamento de consulta paralelo do CoDIMS-G, e seu
novo operador Orbit
que foi desenvolvido para suportar a avaliação de
consultas iterativas. Neste
modelo de execução as tuplas são constantemente avaliadas
por um fragmento
paralelo do plano de execução. O trabalho inclui o
desenvolvimento do sistema de
processamento de consulta e um novo algoritmo de
escalonamento que, considera
as variações de rede e o throughput de cada nó, permitindo
ao sistema se adaptar
constantemente as variações no ambiente. / [en] Traditional parallel query processing uses multiple
computing nodes to
reduce query response time. Within a Grid computing
context, the availability of
thousands of nodes challenge current parallel query
processing techniques to
support massive parallelism in a constantly varying
environment conditions. In
addition, scientific applications running on Grids offer
new data processing
characteristics that shall be integrated in such a
framework. In this work we
present the CoDIMS-G parallel query processing system with
a full-fledged new
query execution operator named Orbit. Orbit is designed
for evaluating massive
iterative based data processing. Tuples in Orbit iterate
over a parallelized
fragment of the query execution plan. This work includes
the development of the
query processing system and a new scheduling algorithm
that considers variation
on network and the throughput of each node. Such algorithm
permits the system
to adapt constantly to the changes in the environment.
|
Page generated in 0.0488 seconds