• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 32
  • 2
  • Tagged with
  • 34
  • 34
  • 34
  • 32
  • 9
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

[en] SEMANTIC DATA INTEGRATION WITH AN ONTOLOGY FEDERATION. / [pt] INTEGRAÇÃO SEMÂNTICA DE DADOS ATRAVÉS DE FEDERAÇÃO DE ONTOLOGIAS

SANDRA APARECIDA DIAS 16 October 2006 (has links)
[pt] O advento da WEB propiciou a disseminação de bases de dados distribuídas e heterogêneas. Por vezes, a resposta a uma consulta demanda o uso de várias destas bases. É necessário, então, algum nível de integração destas. A publicação dessas bases nem sempre segue um padrão semântico. Em função disso parece ser essencial existir um meio de relacionar os diferentes dados para satisfazer tais consultas. Este processo é comumente denominado de integração de dados. A comunidade de Banco de Dados tem conhecimento de métodos para dar conta desta integração no contexto de federações de Bancos de Dados heterogêneos. No entanto, atualmente existem descrições mais ricas e com mais possibilidades de semântica, tais como aquelas induzidas pelo conceito de ontologia. A comunidade de Banco de Dados tem considerado ontologias na solução do problema da integração de Banco de Dados. O alinhamento ou merge de ontologias são algumas das propostas conhecidas da comunidade de WEB semântica. Este trabalho propõe o uso de métodos de merge de ontologias como solução ao problema da construção de uma federação de ontologias como método integrador de fontes de dados. O trabalho inclui a implementação de um estudo de caso na ferramenta Protegé. Este estudo de caso permite discutir aspectos de escalabilidade e de aplicabilidade da proposta como uma solução tecnologicamente viável. / [en] The WEB has spread out the use of heterogeneous distributed databases. Sometimes, the answer to a query demands the use of more than one database. Some level of integration among these databases is desired. However, frequently, the bases were not designed according a unique semantic pattern. Thus, it seems essential to relate the different data, in the respective base, in order to provide an adequate answer to the query. The process of building this relationship is often called data integration. The Data Base community has acquired enough knowledge to deal with this in the context of Data Base Heterogeneous Federation. Nowadays, there are more expressive model descriptions, namely ontologies. The Data Base community has also considered ontologies as a tool to contribute as part of a solution to the data integration problem. The Semantic WEB community defined alignment or merge of ontologies as one of the possible solutions to the some of this integration problem. This work has the aim of using merge of ontologies methods as a mean to define the construction of a Federation of ontologies as a mean to integrate source of data. The dissertation includes a case study written in the Protegé tool. From this case study, a discussion follows on the scalability and applicability of the proposal as a feasible technological solution for data integration.
12

[en] DEALING WITH DEVICE DATA OVERFLOW IN THE CLOUD / [pt] UTILIZANDO A NUVEM PARA LIDAR COM A SOBRECARGA DE DADOS EM DISPOSITIVOS FIXOS E MÓVEIS

18 January 2017 (has links)
[pt] A Computação em Nuvem torna-se a cada dia mais importante como plataforma para pesquisa na Engenharia de Software. Apesar da vasta literatura disponível para uso da Nuvem em ambientes comerciais, ainda há pouca pesquisa feita para que se modelem, desenhem e implementem novos aplicativos que façam uso inteligente da Nuvem. Nesta dissertação é proposta uma abstração que explora um aspecto fundamental dos sistemas em Nuvem - a elasticidade de dados. A abstração Container Database (CDB) provê uma solução baseada em Nuvem para a falta de espaço para armazenamento local de dados em dispositivos eletrônicos. Para demonstrar a viabilidade desta abordagem, é apresentada uma implementação da abstração CDB como uma API que funciona nos sistemas operacionais Windows 7 e Windows Mobile Phone 7. / [en] Cloud computing is rapidly becoming an important platform for research in Software Engineering. Despite the vibe and huge literature on commercial Cloud environments, there is, however, little research on how to capture, model, design and implement new software applications that can make intelligent use of the Cloud. In this paper we propose a new abstraction that explores a fundamental aspect of Cloud systems – data elasticity. The Container Database (CDB) abstraction provides a Cloud-based solution for scenarios where device local storage is not sufficient for manipulating data. To demonstrate the viability of the proposed approach we present an implementation of the CDB abstraction as an Object-Oriented API designed to work on Windows 7 and Windows Mobile Phone 7 Operation Systems.
13

[en] VELVETH-DB: A ROBUST DATABASE APPROACH FOR THE ASSEMBLY PROCESS OF BIOLOGICAL SEQUENCES / [pt] VELVETH-DB: UMA ABORDAGEM ROBUSTA DE BANCO DE DADOS NO PROCESSO DE MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS

MARCOS VINICIUS MARQUES DA SILVA 03 November 2016 (has links)
[pt] Avanços tecnológicos recentes, tanto nos métodos de sequenciamento quanto nos algoritmos de montagem de fragmentos, têm facilitado a reconstrução de todo o DNA de espécies sem a necessidade de um genoma de referência. A montagem da cadeia completa envolve a leitura um grande volume de fragmentos do genoma (short reads), um desafio significativo em termos computacionais. Todos os principais algoritmos de montagem de fragmentos existentes têm como gargalo principal o alto consumo de memória principal. Consonante a isso, essa dissertação de mestrado visa estudar a implementação de um destes algoritmos, Velvet, que é amplamente usado e recomendado. A mesma possuiu um módulo, VelvetH que realiza um pré-processamento dos dados com o intuito de reduzir o consumo de memória principal. Após um estudo minucioso do código e alternativas de melhorias, foram feitas alterações pontuais e proposta uma solução com persistência de dados em memória secundária visando obter eficácia e robustez. / [en] Recent technological advances, both in assembly algorithms and in sequencing methods, have enabled the reconstruction of whole DNA even without a reference genome available. The assembly of the complete chain involves reading a large volume of genome fragments, called short-reads, which makes the problem a significant computational challenge. A major bottleneck for all existing fragmentassembly algorithms is the high consumption of RAM. This dissertation intends to study the implementation of one of these algorithms, called Velvet, which is widely used and recommended. The same possessed a module, VelvetH that performs a pre-processing data with the aim of reducing the consumption of main memory. After a thorough study of code improvements and alternatives, specific changes have been made and proposed a solution with data persistence in secondary memory in order to obtain effectiveness and robustness.
14

[en] AN AGENT-BASED ARCHITECTURE FOR DBMS GLOBAL SELF-TUNING / [pt] UMA ARQUITETURA PARA AUTO-SINTONIA GLOBAL DE SGBDS USANDO AGENTES

ANOLAN YAMILE MILANES BARRIENTOS 13 October 2004 (has links)
[pt] O aumento da complexidade dos SGBDs comerciais e a carga que suportam, além da crescente utilização destes por pessoal pouco familiarizado com a administração de bancos de dados, entre outras causas, sugerem a introdução de técnicas que automatizem o processo de sintonia de bancos de dados. A auto-sintonia (self-tuning) é uma tecnologia que permite criar sistemas adaptáveis que possam manter um bom desempenho, minimizando no possível a interação do administrador com o sistema. Este trabalho propõe uma abordagem para o ajuste automático dos parâmetros em um SGBD usando agentes de software. A tarefa de sintonia é tratada nesta pesquisa como um problema global, dado que alterações de um parâmetro podem se refletir em outros. Os detalhes da arquitetura, sua implementação e avaliação de funcionamento são também discutidos nesta dissertação. / [en] The increasing complexity of the commercial DBMSs as well the workload they manage, besides the fact that many users do not have deep knowledge about database administration, among other reasons, strongly suggests the introduction of techniques that automates the database tuning process. Self- Tuning, or auto-tuning, is a feature that makes systems adaptable in order to keep a good overall performance, reducing as possible the interaction between the administrator and the system. This work proposes an approach for the automatic tuning of DBMSs parameters using an architecture based on software agents. We consider tuning as a global issue, given that changes of a single parameter can be reflected in others. The architecture details, ets implementation and a practical evaluation are also discussed in this dissertation.
15

[en] A TRANSACTION MODEL FOR DBMS INTEGRATION TO A MOBILE COMPUTATION ENVIRONMENT / [pt] UM MODELO DE TRANSAÇÕES PARA INTEGRAÇÃO DE SGBD A UM AMBIENTE DE COMPUTAÇÃO MÓVEL

SERGIO DA COSTA CORTES 17 December 2004 (has links)
[pt] Dispositivos portáteis dotados de computador são cada vez mais utilizados em diversos domínios de aplicações. Juntamente com as redes de telecomunicações provêem a base tecnológica para a computação móvel. Neste ambiente, os Sistemas de Gerência de Bancos de Dados (SGBDs) podem fornecer todos os mecanismos para confiança, segurança, disponibilidade, integridade e acesso eficiente a dados persistentes. Estes SGBDs podem estar localizados na rede com fio (fixa), desempenhando seu papel convencional de servidor de banco de dados, ou podem prover dados para computadores móveis e tecnologias relacionadas. Vários modelos para transações em banco de dados para o ambiente de computação móvel têm sido propostos. No entanto, não satisfazem plenamente as características únicas deste tipo de ambiente, tais como desconexões freqüentes, fraca conectividade na rede sem fio e a movimentação dos clientes. Esta tese tem por objetivo propor um modelo de computação que permita a integração de um SGBD a um ambiente de computação móvel. É apresentado um novo modelo de transações de banco de dados em múltiplos níveis no sentido de garantir o atendimento dos requisitos da computação móvel e as propriedades ACID de transações, onde há participação efetiva do SGBD. O modelo é definido em lógica de primeira ordem seguindo o formalismo ACTA. A implementação desse modelo de transações é apresentada em uma arquitetura que faz uso das abordagens de frameworks orientados a objetos e agentes de software, de forma a tratar com maior eficiência as especificidades do ambiente de computação móvel. Finalmente, é feita uma comparação entre alguns dos modelos mais relevantes de transações para bancos de dados no ambiente de computação móvel e o modelo proposto nesta tese, ressaltando o tratamento dado às propriedades ACID das transações de banco de dados. / [en] Portable computerized devices have become widely used in many different application domains and are, together with telecommunication networks, the underlying technology for mobile computing. In this environment Data- base Management Systems (DBMS) may provide reliability, security and availability, besides data integrity and efficiency persistent data access. These DBMS might be located either in conventional (fixed) networks, with the conventional data server role, or might serve global and local data for mobile computers and related technology. There are many transaction models for mobile database management. However, the particular characteristics of this mobile environment, such as frequent disconnections, weak and intermittent connectivity of wireless networks and clients movement, are not always well addressed. The goal of this thesis is to propose a computational model that enables the integration of a DBMS to a mobile environment. Indeed, we present a new multi-level database transactional model in order to handle mobile requirements and ACID transaction properties, where a DBMS is present. Our model is defined using the ACTA formalism based in first-order logic. The implementation of proposed transaction model becomes feasible through the use of object-oriented frameworks and software agents, with gave support to deal with the particularities of the mobile computing environment. Finally, we give a comparison between the most relevant transaction models for the mobile computing environment and our proposed model, emphasizing the treatment given to the ACID transactions properties.
16

[en] A CONCEPTUAL MODEL FOR MOLECULAR BIOLOGY / [pt] UM MODELO CONCEITUAL PARA BIOLOGIA MOLECULAR

JOSE ANTONIO FERNANDES DE MACEDO 17 March 2006 (has links)
[pt] Projetos de genômica e biológica molecular estão gerando dados cujos volumes e complexidades jamais foram observados nesta área. Além disso, fontes de dados e de conhecimento são produzidas e utilizadas por grupos de pesquisa os quais utilizam terminologias diferentes (sinônimos, apelido e fórmulas), sintaxes diferentes (estrutura de arquivos e separadores) e semânticas diferentes (intra e interdisciplinares homônimos). O sucesso da pesquisa em biologia dependerá da correta representação e manipulação dos dados biológicos permitindo os cientistas criarem, gerenciarem, manipularem, integrarem e analisarem os dados de forma a gerar informação e conhecimento. Neste trabalho, estudamos os problemas para representação de dados biológicos apresentados nas principais linguagens de modelagem tradicionais. Em seguida, levantamos os requisitos para um novo modelo de dados conceitual para biologia molecular. Finalmente, propomos um novo modelo conceitual contendo construtores específicos para solucionar alguns dos problemas estudados. Além disso, formalizamos o modelo proposto usando lógica de primeira ordem e utilizamos esta descrição lógica para realizar inferências que auxiliem o trabalho do projetista de banco de dados durante a criação de um esquema de banco de dados. / [en] Genomic and molecular biology projects are generating knowledge data whose volume and complexity are unparalleled in this research area. In addition, data and knoweledge sources produced and used by research groups have terminological differences (synonyms, aliases and formulae), syntactic differences (file structure, separators and spelling) and semantic differences (intra- and interdisciplinary homonyms). In this context, data management techniques play a fundamental role for biological applications development because it offers adequate abstractions to desing, implement, access and manage data, in order to generate knowledge. In this work, we study the representation problems presentd in traditional languages. Following, we raise the main requiremants for a new conceptual data model specially conceived for molecular biology. Finally, we propose a new conceptual data model with special types of constructor tryng to solve some of the representation problems discurssed before. In addition, we formalize our proposed model using first-order logic and we use this logical description to infer some properties that may help database designer during the elaboration of database schema.
17

[en] WORKFLOW FOR BIOINFORMATICS / [pt] WORKFLOW PARA BIOINFORMÁTICA

MELISSA LEMOS 11 February 2005 (has links)
[pt] Os projetos para estudo de genomas partem de uma fase de sequenciamento onde são gerados em laboratório dados brutos, ou seja, sequências de DNA sem significado biológico. As sequências de DNA possuem códigos responsáveis pela produção de proteínas e RNAs, enquanto que as proteínas participam de todos os fenômenos biológicos, como a replicação celular, produção de energia, defesa imunológica, contração muscular, atividade neurológica e reprodução. As sequências de DNA, RNA e proteínas são chamadas nesta tese de biossequências. Porém, o grande desafio destes projetos consiste em analisar essas biossequências, e obter informações biologicamente relevantes. Durante a fase de análise, os pesquisadores usam diversas ferramentas, programas de computador, e um grande volume de informações armazenadas em fontes de dados de Biologia Molecular. O crescente volume e a distribuição das fontes de dados e a implementação de novos processos em Bioinformática facilitaram enormemente a fase de análise, porém criaram uma demanda por ferramentas e sistemas semi-automáticos para lidar com tal volume e complexidade. Neste cenário, esta tese aborda o uso de workflows para compor processos de Bioinformática, facilitando a fase de análise. Inicialmente apresenta uma ontologia modelando processos e dados comumente utilizados em Bioinformática. Esta ontologia foi derivada de um estudo cuidadoso, resumido na tese, das principais tarefas feitas pelos pesquisadores em Bioinformática. Em seguida, a tese propõe um framework para um sistema de gerência de análises em biossequências, composto por dois sub-sistemas. O primeiro é um sistema de gerência de workflows de Bioinformática, que auxilia os pesquisadores na definição, validação, otimização e execução de workflows necessários para se realizar as análises. O segundo é um sistema de gerência de dados em Bioinformática, que trata do armazenamento e da manipulação dos dados envolvidos nestas análises. O framework inclui um gerente de ontologias, armazenando ontologias para Bioinformática, nos moldes da apresentada anteriormente. Por fim, a tese descreve instanciações do framework para três tipos de ambiente de trabalho comumente encontrados e sugestivamente chamados de ambiente pessoal, ambiente de laboratório e ambiente de comunidade. Para cada um destes ambientes, a tese discute em detalhe os aspectos particulares da execução e otimização de workflows. / [en] Genome projects usually start with a sequencing phase, where experimental data, usually DNA sequences, is generated, without any biological interpretation. DNA sequences have codes which are responsible for the production of protein and RNA sequences, while protein sequences participate in all biological phenomena, such as cell replication, energy production, immunological defense, muscular contraction, neurological activity and reproduction. DNA, RNA and protein sequences are called biosequences in this thesis. The fundamental challenge researchers face lies exactly in analyzing these sequences to derive information that is biologically relevant. During the analysis phase, researchers use a variety of analysis programs and access large data sources holding Molecular Biology data. The growing number of Bioinformatics data sources and analysis programs indeed enormously facilitated the analysis phase. However, it creates a demand for systems that facilitate using such computational resources. Given this scenario, this thesis addresses the use of workflows to compose Bioinformatics analysis programs that access data sources, thereby facilitating the analysis phase. An ontology modeling the analysis program and data sources commonly used in Bioinformatics is first described. This ontology is derived from a careful study, also summarized in the thesis, of the computational resources researchers in Bioinformatics presently use. A framework for biosequence analysis management systems is next described. The system is divided into two major components. The first component is a Bioinformatics workflow management system that helps researchers define, validate, optimize and run workflows combining Bioinformatics analysis programs. The second component is a Bioinformatics data management system that helps researchers manage large volumes of Bioinformatics data. The framework includes an ontology manager that stores Bioinformatics ontologies, such as that previously described. Lastly, instantiations for the Bioinformatics workflow management system framework are described. The instantiations cover three types of working environments commonly found and suggestively called personal environment, laboratory environment and community environment. For each of these instantiations, aspects related to workflow optimization and execution are carefully discussed.
18

[en] CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS / [pt] CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOS

CARLOS HENRIQUE PEREIRA LOPES 19 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de Algoritmos Genéticos (AG) no processo de descoberta de conhecimento implícito em Banco de Dados (KDD - Knowledge Discovery Database). O objetivo do trabalho foi avaliar o desempenho de Algoritmos Genéticos no processo de classificação de registros em Bancos de Dados (BD). O processo de classificação no contexto de Algoritmos Genéticos consiste na evolução de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros do BD. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Knowledge Discovery Database (KDD); a definição de um modelo de AG aplicado à Mineração de Dados (Data Mining); a implementação de uma ferramenta (Rule-Evolver) de Mineração de Dados; e o estudo de casos. O estudo sobre a área de KDD envolveu todo o processo de descoberta de conhecimento útil em banco de dados: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados e a interpretação dos resultados. Em particular, o estudo destacou a fase de Mineração de Dados e os algoritmos e técnicas empregadas (Redes Neurais, Indução de regras, Modelos Estatísticos e Algoritmos Genéticos). Deste estudo resultou um survey sobre os principais projetos de pesquisa na área. A modelagem do Algoritmo Genético consistiu fundamentalmente na definição de uma representação dos cromossomas, da função de avaliação e dos operadores genéticos. Em mineração de dados por regras de associação é necessário considerar-se atributos quantitativos e categóricos. Atributos quantitativos representam variáveis contínuas (faixa de valores) e atributos categóricos variáveis discretas. Na representação definida, cada cromossoma representa uma regra e cada gene corresponde a um atributo do BD, que pode ser quantitativo ou categórico conforme a aplicação. A função de avaliação associa um valor numérico à regra encontrada, refletindo assim uma medida da qualidade desta solução. A Mineração de Dados por AG é um problema de otimização onde a função de avaliação deve apontar para as melhores regras de associação. A acurácia e a abrangência são medidas de desempenho e, em alguns casos, se mantém nulas durante parte da evolução. Assim, a função de avaliação deve ser uma medida que destaca cromossomas contendo regras promissoras em apresentar acurácia e abrangência diferentes de zero. Foram implementadas 10 funções de avaliação. Os operadores genéticos utilizados (crossover e mutação) buscam recombinar as cláusulas das regras, de modo a procurar obter novas regras com maior acurácia e abrangência dentre as já encontradas. Foram implementados e testados 4 operadores de cruzamento e 2 de mutação. A implementação de uma ferramenta de modelagem de AG aplicada à Mineração de Dados, denominada Rule-Evolver, avaliou o modelo proposto para o problema de classificação de registros. O Rule-Evolver analisa um Banco de Dados e extrai as regras de associação que melhor diferenciem um grupo de registros em relação a todos os registros do Banco de Dados. Suas características principais são: seleção de atributos do BD; informações estatísticas dos atributos; escolha de uma função de avaliação entre as 10 implementadas; escolha dos operadores genéticos; visualização gráfica de desempenho do sistema; e interpretação de regras. Um operador genético é escolhido a cada reprodução em função de uma taxa preestabelecida pelo usuário. Esta taxa pode permanecer fixa ou variar durante o processo evolutivo. As funções de avaliação também podem ser alteradas (acrescidas de uma recompensa) em função da abrangência e da acurácia da regra. O Rule- Evolver possui uma interface entre o BD e o AG, necessária para tor / [en] This dissertation investigates the application of Genetic Algorithms (GAs) to the process of implicit knowledge discovery over databases (KDD - Knowledge Discovery Database). The objective of the work has been the assessment of the Genetic Algorithms (GA) performance in the classification process of database registers. In the context of Genetic Algorithms, this classification process consists in the evolution of association rules that characterise, through its accuracy and range, a particular group of database registers. This work has encompassed four main steps: a study over the area of Knowledge Discovery Databases; the GA model definition applied to Data Mining; the implementation of the Data Mining Rule Evolver; and the case studies. The study over the KDD area included the overall process of useful knowledge discovery; the problem definition; data organisation; data pre-processing; data encoding; data improvement; data mining; and results´ interpretation. Particularly, the investigation emphasied the data mining procedure, techniques and algorithms (neural Networks, rule Induction, Statistics Models and Genetic Algorithms). A survey over the mais research projects in this area was developed from this work. The Genetic Algorithm modelling encompassed fundamentally, the definition of the chromosome representation, the fitness evaluation function and the genetic operators. Quantitative and categorical attributes must be taken into account within data mining through association rules. Quantitative attribites represent continuous variables (range of values), whereas categorical attributes are discrete variable. In the representation employed in this work, each chromosome represents a rule and each gene corresponds to a database attribute, which can be quantitative or categorical, depending on the application. The evaluation function associates a numerical value to the discovered rule, reflecting, therefore, the fitness evaluation function should drive the process towards the best association rules. The accuracy and range are performance statistics and, in some cases, their values stay nil during part of the evolutionary process. Therefore, the fitness evaluation function should reward chromosomes containing promising rules, which present accuracy and range different of zero. Ten fitness evaluation functions have been implemented. The genetic operators used in this work, crossover and mutation, seek to recombine rules´clauses in such a way to achieve rules of more accuracy and broader range when comparing the ones already sampled. Four splicing operators and two mutation operators have been experimented. The GA modeling tool implementation applied to Data Mining called Rule Evolever, evaluated the proposed model to the problem of register classification. The Rule Evolver analyses the database and extracts association rules that can better differentiate a group of registers comparing to the overall database registers. Its main features are: database attributes selection; attributes statistical information; evaluation function selection among ten implemented ones; genetic operators selection; graphical visualization of the system performance; and rules interpretation. A particular genetic operator is selected at each reproduction step, according to a previously defined rate set by the user. This rate may be kept fix or may very along the evolutionary process. The evolutionary process. The evaluation functions may also be changed (a rewarding may be included) according to the rule´s range and accuracy. The Rule Evolver implements as interface between the database and the GA, endowing the KDD process and the Data Mining phase with flexibility. In order to optimise the rules´ search process and to achieve better quality rules, some evolutionary techniques have been implemented (linear rank and elitism), and different random initialisation methods have been used as well; global averag
19

[en] EXECUTION AND DATA AVAILABILITY CONTROL FOR APPLICATIONS ON BIOLOGICAL SEQUENCES: THE CASE OF BLAST / [pt] CONTROLE DA EXECUÇÃO E DISPONIBILIZAÇÃO DE DADOS PARA APLICATIVOS SOBRE SEQÜÊNCIAS BIOLÓGICAS: O CASO BLAST

MAIRA FERREIRA DE NORONHA 25 April 2007 (has links)
[pt] Este trabalho consiste na criação de uma ferramenta provedora de dados para o BLAST, denominada BioProvider. Esta é usada para prover dados realizando um gerenciamento de buffer eficiente para o BLAST, controlando também o escalonamento dos processos do mesmo. A comunicação entre o BioProvider e os processos do BLAST, assim como o controle de concorrência e bloqueios, é feita por meio de um driver, que substitui as chamadas a funções de leitura e escrita de arquivos do banco de dados. Deste modo, o código do BLAST não precisa ser modificado para ser realizar a comunicação com o BioProvider e este pode ser usado para diferentes versões do BLAST. O desenvolvimento do BioProvider é a primeira etapa para a criação de uma solução aplicável também a outras ferramentas de Bioinformática. Por ser transparente aos programas, a ferramenta desenvolvida é facilmente extensível, podendo ser futuramente modificada para prover dados para outros aplicativos, usar outras estratégias de gerência de buffer ou prover dados armazenados em formatos diferentes dos lidos por processos clientes, convertendo-os em tempo de execução. O BioProvider foi testado com a versão recente do NCBI BLAST, obtendo consideráveis melhoras de desempenho, e seu funcionamento foi verificado também com a versão do WU-BLAST com código aberto. Foram realizadas análises de variações no algoritmo de gerenciamento de buffer e dos fatores que influenciam o desempenho dos processos BLAST. / [en] This work consists on the creation of a tool named BioProvider to provide data to BLAST. The tool provides the data using buffer management techniques that are efficient for BLAST and controls process scheduling. The communication between BioProvider and the BLAST processes, as well as the concurrency and blocking control, is done through a device driver that substitutes the read and write function calls to the database files. By this means, the application code can remain unchanged and BioProvider can be used with different versions of BLAST. The development of BioProvider was the first stage to the creation of a solution that can be applied as well to other Bioinformatics tools. Due to its transparency in the view of other applications, BioProvider can be easily extended in the future to provide data to other applications, to use other buffer management techniques or to provide data stored in different formats of those read by the client processes, converting the data in runtime. BioProvider has been tested with the most recent version of NCBI BLAST and considerable improvement has been verified. The tool has been shown to work as well with the open source version of WU-BLAST. Some variations on the buffer management algorithm were studied, as well as the different factors that influence the performance of BLAST processes.
20

[en] QEEF-G: ADAPTIVE PARALLEL EXECUTION OF ITERATIVE QUERIES / [pt] QEEF-G: EXECUÇÃO PARALELA ADAPTATIVA DE CONSULTAS ITERATIVAS

VINICIUS FONTES VIEIRA DA SILVA 25 April 2007 (has links)
[pt] O processamento de consulta paralelo tradicional utilize- se de nós computacionais para reduzir o tempo de processamento de consultas. Com o surgimento das grades computacionais, milhares de nós podem ser utilizados, desafiando as atuais técnicas de processamento de consulta a oferecerem um suporte massivo ao paralelismo em um ambiente onde as condições variam todo a instante. Em adição, as aplicações científicas executadas neste ambiente oferecem novas características de processamento de dados que devem ser integradas em um sistema desenvolvido para este ambiente. Neste trabalho apresentamos o sistema de processamento de consulta paralelo do CoDIMS-G, e seu novo operador Orbit que foi desenvolvido para suportar a avaliação de consultas iterativas. Neste modelo de execução as tuplas são constantemente avaliadas por um fragmento paralelo do plano de execução. O trabalho inclui o desenvolvimento do sistema de processamento de consulta e um novo algoritmo de escalonamento que, considera as variações de rede e o throughput de cada nó, permitindo ao sistema se adaptar constantemente as variações no ambiente. / [en] Traditional parallel query processing uses multiple computing nodes to reduce query response time. Within a Grid computing context, the availability of thousands of nodes challenge current parallel query processing techniques to support massive parallelism in a constantly varying environment conditions. In addition, scientific applications running on Grids offer new data processing characteristics that shall be integrated in such a framework. In this work we present the CoDIMS-G parallel query processing system with a full-fledged new query execution operator named Orbit. Orbit is designed for evaluating massive iterative based data processing. Tuples in Orbit iterate over a parallelized fragment of the query execution plan. This work includes the development of the query processing system and a new scheduling algorithm that considers variation on network and the throughput of each node. Such algorithm permits the system to adapt constantly to the changes in the environment.

Page generated in 0.0488 seconds