• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 68
  • 2
  • Tagged with
  • 70
  • 70
  • 37
  • 28
  • 14
  • 14
  • 11
  • 11
  • 10
  • 10
  • 10
  • 10
  • 9
  • 9
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Padrões de Fluxos de Processos em Banco de Dados Relacionais / Control-Flow Patterns in Relational Databases

Kelly Rosa Braghetto 23 June 2006 (has links)
A representação e execução de processos de negócio têm gerado importantes desafios na área de Ciência da Computação. Um desses desafios é a escolha do melhor arcabouço formal para a especificação dos controles de fluxo padrões. Algumas linguagens defendem o uso de redes de Petri ou álgebras de processos como base formal. O uso de redes de Petri para especificar workflows clássicos é uma abordagem bastante conhecida. Entretanto, pesquisas recentes vêm difundindo o uso de novas extensões da álgebra de processos como uma alternativa para a especificação formal de workflows. A principal contribuição deste trabalho é a definição da Navigation Plan Definition Language (NPDL). A NPDL foi implementada como uma extensão da linguagem SQL. Ela é uma alternativa para a representação de workflows que utiliza a álgebra de processos como arcabouço formal. A NPDL promove uma separação explícita entre o ambiente de especificação e o ambiente de execução de um workflow. Esta separação propicia o reaproveitamento de passos de negócio e o uso das propriedades da álgebra de processos não só na modelagem, mas também no controle da execução dos processos. Após a especificação de um workflow por meio da NPDL, a execução dos passos que o definem é controlada pela ferramenta NavigationPlanTool. Essa ferramenta é a segunda contribuição deste trabalho de pesquisa. / The representation and execution of business processes have generated some important challenges in Computer Science. An important related concern is the choosing of the best formal foundation to represent control-flow patterns. Some of the workflow languages advocate the Petri nets or process algebra as formal foundation. The use of Petri nets is a famous approach to support classic workflows. On the other hand some researches are introducing modern process algebra extensions as an alternative formal foundation for representing workflows. The first contribution of this research is the definition of the Navigation Plan Definition Language (NPDL). NPDL was implemented as an extension of SQL language. It is an alternative to represent business processes using process algebra as formal foundation. NPDL provides the explicit separation between specification and execution workflow environment. This separation allows reusing of business steps and usage of process algebra properties in the process modeling and execution controlling tasks. After the definition of a workflow using NPDL, the business steps execution is carried out and controlled by a tool called NavigationPlanTool. This tool is the second contribution of this research.
22

Uma abordagem transacional para o tratamento de exceções em processos de negócio. / A transactional approach to exception handling in business process.

Pedro Paulo de Souza Bento da Silva 12 June 2013 (has links)
Com o intuito de tornarem-se mais eficientes, muitas organizações -- empresas, órgãos governamentais, centros de pesquisa, etc. -- optam pela utilização de ferramentas de software para apoiar a realização de seus processos. Uma opção que vem se tornando cada vez mais popular é a utilização de sistemas de Gestão de Processos de Negócio (GPN), que são ferramentas genéricas, ou seja, não são específicas a nenhuma organização, altamente configuráveis e ajustáveis às necessidades dos objetos de atuação de cada organização. Uma das principais responsabilidades de um sistema de GPN é prover mecanismos de tratamento de exceções à execução de instâncias de processos de negócio. Exceções, se forem ignoradas ou se não forem corretamente tratadas, podem causar o aborto da execução de instâncias e, dependendo da gravidade da situação, podem causar falhas em sistemas de GPN ou até mesmo em sistemas subjacentes (sistema operacional, sistema gerenciador de banco de dados, etc.). Sendo assim, mecanismos de tratamento de exceções têm por objetivo resolver a situação excepcional ou conter seus efeitos colaterais garantindo, ao menos, uma degradação controlada (graceful degradation) do sistema. Neste trabalho, estudamos algumas das principais deficiências de modelos atuais de tratamento de exceções, no contexto de sistemas de GPN, e apresentamos soluções baseadas em Modelos Transacionais Avançados para contorná-las. Isso é feito por meio do aprimoramento dos mecanismos de tratamento de exceções da abordagem de modelagem e gerenciamento de execução de processos de negócio WED-flow. Por fim, estendemos a ferramenta WED-tool, uma implementação da abordagem WED-flow, através do desenvolvimento de seu gerenciador de recuperação de falhas. / With the aim of becoming more efficient, many organizations -- companies, governmental entities, research centers, etc -- choose to use software tools for supporting the accomplishment of its processes. An option that becomes more popular is the usage of Business Process Management Systems (BPM), which are generic tools, that is, not specific to any organization and highly configurable to the domain needs of any organization. One of the main responsibilities of BPM Systems is to provide exception handling mechanisms for the execution of business process instances. Exceptions, if ignored or incorrectly handled, may induce the abortion of instance executions and, depending on the gravity of the situation, induce failures on BPM Systems or even on subjacent systems (operational system, database management systems, etc.). Thus, exception handling mechanisms aim to solve the exceptional situation or stopping its collateral effects by ensuring, at least, a graceful degradation to the system. In this work, we study some of the main deficiencies of present exception handling models -- in the context of BPM Systems -- and present solutions based on Advanced Transaction Models to bypass them. We do this through the improvement of exception handling mechanisms from WED-flow, a business process modelling and instance execution managing approach. Lastly, we extend the WED-tool, an implementation of WED-flow approach, through the development of its failure recovery manager.
23

Representação de variabilidade estrutural de dados por meio de famílias de esquemas de banco de dados / Representing structural data variability using families of database schemas

Larissa Cristina Moraes Rodrigues 09 December 2016 (has links)
Diferentes organizações dentro de um mesmo domínio de aplicação costumam ter requisitos de dados bastante semelhantes. Apesar disso, cada organização também tem necessidades específicas, que precisam ser consideradas no projeto e desenvolvimento dos sistemas de bancos de dados para o domínio em questão. Dessas necessidades específicas, resultam variações estruturais nos dados das organizações de um mesmo domínio. As técnicas tradicionais de modelagem conceitual de banco de dados (como o Modelo Entidade-Relacionamento - MER - e a Linguagem Unificada de Modelagem - UML) não nos permitem expressar em um único esquema de dados essa variabilidade. Para abordar esse problema, este trabalho de mestrado propôs um novo método de modelagem conceitual baseado no uso de Diagramas de Características de Banco de Dados (DBFDs, do inglês Database Feature Diagrams). Esse método foi projetado para apoiar a criação de famílias de esquemas conceituais de banco de dados. Uma família de esquemas conceituais de banco de dados compreende todas as possíveis variações de esquemas conceituais de banco de dados para um determinado domínio de aplicação. Os DBFDs são uma extensão do conceito de Diagrama de Características, usado na Engenharia de Linhas de Produtos de Software. Por meio dos DBFDs, é possível gerar esquemas conceituais de banco de dados personalizados para atender às necessidades específicas de usuários ou organizações, ao mesmo tempo que se garante uma padronização no tratamento dos requisitos de dados de um domínio de aplicação. No trabalho, também foi desenvolvida uma ferramenta Web chamada DBFD Creator, para facilitar o uso do novo método de modelagem e a criação dos DBFDs. Para avaliar o método proposto neste trabalho, foi desenvolvido um estudo de caso no domínio de dados experimentais de neurociência. Por meio do estudo de caso, foi possível concluir que o método proposto é viável para modelar a variabilidade de dados de um domínio de aplicação real. Além disso, foi realizado um estudo exploratório com um grupo de pessoas que receberam treinamentos, executaram tarefas e preencheram questionários de avaliação sobre o método de modelagem e a sua ferramenta de software de apoio. Os resultados desse estudo exploratório mostraram que o método proposto é reprodutível e que a ferramenta de software tem boa usabilidade, amparando de forma apropriada a execução do passo-a-passo do método. / Different organizations within the same application domain usually have very similar data requirements. Nevertheless, each organization also has specific needs that should be considered in the design and development of database systems for that domain. These specific needs result in structural variations in data from organizations of the same domain. The traditional techniques of database conceptual modeling (such as Entity Relationship Model - ERM - and Unified Modeling Language - UML) do not allow to express this variability in a single data schema. To address this problem, this work proposes a new conceptual modeling method based on the use of Database Feature Diagrams (DBFDs). This method was designed to support the creation of families of conceptual database schemas. A family of conceptual database schemas includes all possible variations of database conceptual schemas for a particular application domain. The DBFDs are an extension of the concept of Features Diagram used in the Software Product Lines Engineering. Through DBFDs, it is possible to generate customized database conceptual schemas to address the specific needs of users or organizations at the same time we ensure a standardized treatment of the data requirements of an application domain. At this work, a Web tool called DBFD Creator was also developed to facilitate the use of the new modeling method and the creation of DBFDs. To evaluate the method proposed in this work, a case study was developed on the domain of neuroscience experimental data. Through the case study, it was possible to conclude that the proposed method is feasible to model data variability of a real application domain. In addition, an exploratory study was conducted with a group of people who have received training, executed tasks and filled out evaluation questionnaires about the modeling method and its supporting software tool. The results of this exploratory study showed that the proposed method is reproducible and that the software tool has good usability, properly supporting the execution of the method\'s step-by-step procedure.
24

[en] DATABASE SELF-TUNING WITH PARTIAL INDEXES / [pt] SINTONIA FINA AUTOMÁTICA COM ÍNDICES PARCIAIS

ALAIN DOMINGUEZ FUENTES 27 April 2017 (has links)
[pt] Os índices parciais são estruturas de acesso no nível físico dos bancos de dados que permitem definir um subconjunto das tuplas de uma tabela, através de uma expressão condicional. Nesta dissertação estuda-se a identificação e subsequente criação automática de índices parciais que possam contribuir na melhoria do desempenho de um sistema de banco de dados. É proposto um algoritmo que examina, para cada consulta relevante, os conjuntos de atributos indexáveis para os quais a criação de um índice parcial poderia influenciar o otimizador de consultas na geração de planos mais eficientes. É realizada uma mineração de padrões de atributos indexáveis para se obter atributos correlacionados segundo a frequência das consultas na carga de trabalho considerada. Chega-se a uma proposta para um conjunto de índices parciais candidatos também se considerando uma heurística de benefícios. Realiza-se uma análise de sintonia fina em função da seleção de uma configuração de índices parciais e índices completos. A implementação das técnicas e algoritmos propostos nesta pesquisa é feita no framework DBX, que permite instanciar técnicas de sintonia fina local e global para bancos de dados relacionais. / [en] Partial indexes are access structures on the physical level of the databases. They are indexes that allow the definition of a subset of tuples in a table through a conditional expression. This dissertation studies the identification and subsequent automatic creation of partial indexes that can contribute in improving the performance of a database system. We propose an algorithm that examines, for each relevant query, the indexable attributes set, for which the creation of a partial index could influence the query optimizer to generate plans that are more efficient. We perform data mining on indexable attributes patterns to obtain correlated attributes according to their frequency in queries within the particular workload. We obtain a proposal for a set of candidate partial indexes considering also a benefit heuristics. We may consider a self-tuning analysis of an index configuration with both complete and partial indexes. We have implemented techniques and algorithms proposed in this research into DBX, a framework that allows local and global self-tuning regarding relational databases.
25

[en] PARTITIONING AS A TUNING ACTION FOR RELATIONAL DATABASES / [pt] PARTICIONAMENTO COMO AÇÃO DE SINTONIA FINA EM BANCOS DE DADOS RELACIONAIS

ANTONY SEABRA DE MEDEIROS 27 July 2017 (has links)
[pt] As principais estratégias de sintonia fina utilizadas por administradores de bancos de dados relacionais são a construção de estruturas de acesso, como índices, índices parciais e visões materializadas, e técnicas como desnormalização e reescrita de consultas. Estas técnicas e estruturas de acesso, juntas ou separadas, podem melhorar o desempenho das consultas submetidas ao banco de dados. O particionamento de tabelas do banco de dados, técnica tradicionalmente utilizada para distribuição de dados, também possui potencial para sintonia fina, pois permite que a varredura das tabelas seja realizada somente nas partições que satisfazem os predicados das consultas. Mesmo em consultas com predicados de seletividade alta, cujos planos de execução frequentemente utilizam índices, o particionamento pode oferecer um benefício ainda maior. Esta dissertação de mestrado propõe avaliar o particionamento como ação de sintonia fina de bancos de dados relacionais e, para tanto, desenvolve heurísticas para seleção de estratégias de particionamento e avaliação do seu benefício. Uma avaliação da qualidade dos resultados obtidos é realizada através de experimentos com um benchmark padrão para este tipo de pesquisa e mostramos que, em certos casos, é vantajoso particionar dados. / [en] The main fine tuning strategies used by relational database administrators are the construction of access structures, such as indexes, partial indexes and materialized views, and techniques such as denormalization and query rewriting. These techniques and access structures, together or separately, can improve the performance of queries submitted to the database. Database partitioning, a technique traditionally used for data distribution, has also the potential for fine tuning, since it allows the scanning of tables to be performed only on partitions that satisfy query predicates. Even in queries with high selectivity predicates, whose execution plans often use indexes, partitioning can offer even greater benefit. This dissertation proposes to evaluate the partitioning as a fine tuning action of relational databases and, for that, develops heuristics for selection of partitioning strategies and evaluation of its benefit. An evaluation of the quality of the results obtained is carried out through experiments with a standard benchmark for this type of research and we have shown that, in certain cases, it is advantageous to partition data.
26

Métodos de mineração de dados para extração de conhecimento em bioinformática: aplicação em dados de Geminivirus e predição de novas proteínas ribossomais / Data mining methods for knowledge extraction in bioinformatics: Application on Geminivirus data and prediction of new ribosomal pro-teins

Carvalho, Thales Francisco Mota 25 July 2016 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:24:21Z No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) / Made available in DSpace on 2017-02-10T10:24:21Z (GMT). No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) Previous issue date: 2016-07-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. / Data mining (DM) is a pattern discovery process that can extract information and knowledge in large volumes of data. Its main techniques are based on prediction, classification, and clustering. These techniques have been used in bioinformatics to identify gene expression profiles, find patterns in DNA sequences, evaluate protein folding structure, among other applications. In this work, advanced techniques of DM were applied to the development of a specific Data Warehouse for geminivi- ruses (geminivirus.org) to assist in organization, correction, and normalization of data related to geminivirus. In this Data Warehouse, we also propose methodo- logies based on rules and machine learning (ML) to classify DNA sequences and their genes. The Geminiviridae family consists of small circular single-stranded DNA viruses which infect a wide variety of plants and cause serious economic losses wordwide. Improvements in amplification of viral DNA and sequencing techniques have led to an enormous growth of public databases. Thus, in a second endeavor in this work, we realized the need to apply DM techniques, following the process of KDD (knowledge-discovery in databases), to extract yet-unknown information. Furthermore, natural language processing techniques (NLP) were used to extract information in abstracts of paper related to geminivirus. In this way, the scientific literature can be explored in a contextualized manner. Finally, a third effort using data mining approaches was carried out, this time directed to the identification of new ribosomal proteins. Recent research has shown that plants suppress the ove- rall mechanism of translation as a strategy for antiviral immunity. However, few ribosomal proteins are referred to integrate pathways of plant defense mechanisms. Ribosomal proteins (RPs) have a fundamental role in living cells, as they are the main component of ribosomes. Furthermore, these proteins are involved in various physiological and pathological processes. Therefore, we developed a ML method to identify new ribosomal proteins, called Rama. Rama uses innovative approaches in comparison to currently existing computational methods. In in silico experiments, Rama presented average results of precision, accuracy, sensitivity, and specificity of 0.9203, 0.9214, 0.9214, and 0.8236, respectively. In addition, two proteins not yet characterized were predicted as RPs by Rama, whereas other methods could not achieve the same success. In vitro experiments confirmed the veracity of our result.
27

Uma abordagem para publicação de visões RDF de dados relacionais / One approach to publishing RDF views of relational data

Teixeira Neto, Luis Eufrasio January 2014 (has links)
TEIXEIRA NETO, Luis Eufrasio. Uma abordagem para publicação de visões RDF de dados relacionais. 2014. 97 f. Dissertação (Mestrado em ciência da computação)- Universidade Federal do Ceará, Fortaleza-CE, 2014. / Submitted by Elineudson Ribeiro (elineudsonr@gmail.com) on 2016-07-11T18:31:26Z No. of bitstreams: 1 2014_dis_leteixeiraneto.pdf: 2039098 bytes, checksum: 476ca3810a4d9341414016b0440023ba (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2016-07-20T11:55:57Z (GMT) No. of bitstreams: 1 2014_dis_leteixeiraneto.pdf: 2039098 bytes, checksum: 476ca3810a4d9341414016b0440023ba (MD5) / Made available in DSpace on 2016-07-20T11:55:57Z (GMT). No. of bitstreams: 1 2014_dis_leteixeiraneto.pdf: 2039098 bytes, checksum: 476ca3810a4d9341414016b0440023ba (MD5) Previous issue date: 2014 / The Linked Data initiative brought new opportunities for building the next generation of Web applications. However, the full potential of linked data depends on how easy it is to transform data stored in conventional, relational databases into RDF triples. Recently, the W3C RDB2RDF Working Group proposed a standard mapping language, called R2RML, to specify customized mappings between relational schemas and target RDF vocabularies. However, the generation of customized R2RML mappings is not an easy task. Thus, it is mandatory to define: (a) a solution that maps concepts from a relational schema to terms from a RDF schema; (b) a process to support the publication of relational data into RDF, and (c) a tool that implements this process. Correspondence assertions are proposed to formalize the mappings between relational schemas and RDF schemas. Views are created to publish data from a database to a new structure or schema. The definition of RDF views over relational data allows providing this data in terms of an OWL ontology structure without having to change the database schema. In this work, we propose a three-tier architecture – database, SQL views and RDF views – where the SQL views layer maps the database concepts into RDF terms. The creation of this intermediate layer facilitates the generation of R2RML mappings and prevents that changes in the data layer result in changes on R2RML mappings. Additionally, we define a three-step process to generate the RDF views of relational data. First, the user defines the schema of the relational database and the target OWL ontology. Then, he defines correspondence assertions that formally specify the relational database in terms of the target ontology. Using these assertions, an exported ontology is generated automatically. The second step produces the SQL views that perform the mapping defined by the assertions and a R2RML mapping between these views and the exported ontology. This dissertation describes a formalization of the correspondence assertions, the three-tier architecture, the publishing process steps, the algorithms needed, a tool that supports the entire process and a case study to validate the results obtained. / A iniciativa Linked Data trouxe novas oportunidades para a construção da nova geração de aplicações Web. Entretanto, a utilização das melhores práticas estabelecidas por este padrão depende de mecanismos que facilitem a transformação dos dados armazenados em bancos relacionais em triplas RDF. Recentemente, o grupo de trabalho W3C RDB2RDF propôs uma linguagem de mapeamento padrão, denominada R2RML, para especificar mapeamentos customizados entre esquemas relacionais e vocabulários RDF. No entanto, a geração de mapeamentos R2RML não é uma tarefa fácil. É imperativo, então, definir: (a) uma solução para mapear os conceitos de um esquema relacional em termos de um esquema RDF; (b) um processo que suporte a publicação dos dados relacionais no formato RDF; e (c) uma ferramenta para facilitar a aplicação deste processo. Assertivas de correspondência são propostas para formalizar mapeamentos entre esquemas relacionais e esquemas RDF. Visões são usadas para publicar dados de uma base de dados em uma nova estrutura ou esquema. A definição de visões RDF sobre dados relacionais permite que esses dados possam ser disponibilizados em uma estrutura de termos de uma ontologia OWL, sem que seja necessário alterar o esquema da base de dados. Neste trabalho, propomos uma arquitetura em três camadas – de dados, de visões SQL e de visões RDF – onde a camada de visões SQL mapeia os conceitos da camada de dados nos termos da camada de visões RDF. A criação desta camada intermediária de visões facilita a geração dos mapeamentos R2RML e evita que alterações na camada de dados impliquem em alterações destes mapeamentos. Adicionalmente, definimos um processo em três etapas para geração das visões RDF. Na primeira etapa, o usuário define o esquema do banco de dados relacional e a ontologia OWL alvo e cria assertivas de correspondência que mapeiam os conceitos do esquema relacional nos termos da ontologia alvo. A partir destas assertivas, uma ontologia exportada é gerada automaticamente. O segundo passo produz um esquema de visões SQL gerado a partir da ontologia exportada e um mapeamento R2RML do esquema de visões para a ontologia exportada, de forma automatizada. Por fim, no terceiro passo, as visões RDF são publicadas em um SPARQL endpoint. Neste trabalho são detalhados as assertivas de correspondência, a arquitetura, o processo, os algoritmos necessários, uma ferramenta que suporta o processo e um estudo de caso para validação dos resultados obtidos.
28

Mineração multi-relacional: o algoritmo GFP-growth.

Pizzi, Luciene Cristina 25 May 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:21Z (GMT). No. of bitstreams: 1 DissLCP.pdf: 1200368 bytes, checksum: 728208bb18c724a37e9c9e51c0521b56 (MD5) Previous issue date: 2006-05-25 / Financiadora de Estudos e Projetos / Data mining is the phase of the knowledge discovery in database process where an algorithm is applied to the available data, in order to prove a hypothesis or discover a still unknown pattern. The traditional data mining techniques can deal only with single tables; however it is interesting to look for patterns involving several related tables, aiming to analyze the existing relation between the entities present in one table and the data of the same entities present in another table. Depending on the relationship existing between these tables, applying a traditional algorithm to the joint table is not sufficient, as the joint table may contain duplicated attribute values which interfere in the analysis process of the generated rules. In order to solve this problem, this project adopts an approach which consists on looking for association rules mining the joint table. The adopted process considers the groups of tuples, where each group is formed by tuples of the same entity. Following this approach the GFP-Growth algorithm was developed, which is presented in this monograph along with its results and comparisons with other multi-relational algorithms. / A mineração de dados é a etapa do processo de descoberta de conhecimento na qual um algoritmo é aplicado sobre os dados disponíveis, com o intuito de provar uma hipótese ou descobrir algum padrão até então desconhecido. As técnicas tradicionais de mineração de dados tratam uma única tabela, no entanto é interessante buscar padrões que envolvam múltiplas tabelas relacionadas, com o intuito de analisar a relação existente entre os dados de uma entidade presentes em uma tabela e os dados dessa mesma entidade presentes em uma outra tabela. Dependendo do tipo de relacionamento existente entre essas tabelas, não basta realizar a junção das mesmas para aplicar um algoritmo tradicional de mineração de dados na tabela resultante, pois essa tabela pode conter duplicação de valores de atributos que interferem no processo de análise das regras geradas. Para resolver esse problema, este trabalho adota uma abordagem que consiste na busca por regras de associação, realizando a mineração na tabela resultante da junção. O processo adotado considera agrupamentos de tuplas, sendo que cada agrupamento é formado pelas tuplas de uma mesma entidade. Seguindo essa abordagem foi desenvolvido o algoritmo GFP-Growth, o qual é apresentado nesta monografia juntamente com seus resultados e comparações com outros algoritmos multi-relacionais.
29

Bio-TIM - Ambiente para convergência de informações em Bioinformática.

Oliveira, Gustavo Borges de 31 August 2005 (has links)
Made available in DSpace on 2016-06-02T19:06:28Z (GMT). No. of bitstreams: 1 DissGBO.pdf: 1833938 bytes, checksum: 24ceae16595b3b1073dda4958829de16 (MD5) Previous issue date: 2005-08-31 / Currently, some genomas of creatures are being mapping, so enormous amounts of data are being generated. This data is sometimes stored in different data sources and at many times, these sources are heterogeneous and distributed, which results in the necessity of the use of new query techniques and integration of data. After this, the biologists can usufruct greaters and better resources during the research process. This work has the proposal of to build a Bioinformatics environment for the integration of different data sources and their reorganization in a centered source that supports a flexible and efficient manner to build queries. The environment is called as Bio-TIM, which is composed by three layers. The main one is called "Mediator" and it is composed by a connection manager for databases management systems, by wrappers, by a Data Warehouse and by a specific database. / Atualmente, vários genomas de seres vivos estão sendo mapeados gerando enormes quantidades de dados, as quais são armazenadas em diferentes fontes de informações. O fato dos dispositivos de armazenamento de dados serem heterogêneos e distribuídos resulta na necessidade de criação de técnicas de consulta e integração de dados para que os biólogos possam usufruir de maiores e melhores recursos durante o processo de pesquisa. Este trabalho propôs um ambiente de bioinformática para a integração de diferentes fontes de dados e sua reorganização em uma fonte centralizada propiciando consultas flexíveis e eficientes. O ambiente foi denominado Bio-TIM, o qual é composto por três camadas, sendo a principal denominada Mediador . Ela é composta por um gerenciador de conexões a sistemas gerenciadores de bancos de dados, por tradutores, por um Data Warehouse e por um banco de dados específico.
30

[en] TUNING OF DATABASE MANAGEMENT SYSTEMS IN VIRTUALIZED ENVIRONMENTS / [pt] SINTONIA FINA DE SISTEMAS DE GERENCIAMENTO DE BANCO DE DADOS EM AMBIENTES VIRTUALIZADOS

LIESTER CRUZ CASTRO 29 May 2018 (has links)
[pt] Devido à enorme quantidade de dados nas aplicações atuais, observa-se o uso crescente dos Sistemas Gerenciadores de Bancos de Dados Relacionais (SGBDR) em ambientes virtualizados. Isto contribui para aumentar os requisitos das operações de entrada e saída (E/S) das cargas de trabalho relacionadas. É introduzida uma grande sobrecarga para aplicações intensivas em operações de E/S, devida à virtualização dos dispositivos e ao escalonamento das máquinas virtuais. Este trabalho tem por objetivo propor estratégias que permitam aumentar o rendimento das operações de E/S gerenciadas pelos SGBDR em ambientes virtualizados. Por meio da alocação de recursos computacionais, realizamos uma sintonia fina nas ações do escalonador do ambiente virtualizado e também nos parâmetros dos bancos de dados envolvidos. Para isso, foi desenvolvido um sistema que trabalha de maneira coordenada com as diferentes camadas de virtualização. Foram realizados experimentos que permitem avaliar e medir o impacto da abordagem aqui proposta. / [en] Due to the huge amount of data present in current applications there is a growing use of Relational Database Management Systems (RDBMS) in virtualized environments. This fact increases the workloads input/output (I/O) requirements with respect to the corresponding workloads. This is due to resources virtualization and virtual machines scheduling. Our work s goal is to propose strategies that enable better performances for the I/O operations managed by the RDBMS. Considering an intelligent assignment of computational resources, we have executed fine tuning actions at the virtualized environment and on database parameters. We consider a system that works coordinately with distinct virtualization layers. We show some experimental results that evaluate and measure the impact of our proposed approach.

Page generated in 0.0798 seconds