• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 76
  • 12
  • 11
  • 11
  • 11
  • 7
  • 4
  • 3
  • 3
  • 3
  • 3
  • 1
  • Tagged with
  • 81
  • 81
  • 28
  • 22
  • 21
  • 20
  • 17
  • 11
  • 11
  • 10
  • 10
  • 9
  • 9
  • 8
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Desenvolvimento de um sistema computacional para gerenciamento e análise de dados eólicos

ALVAREZ, Frederico Steinmetz 31 January 2013 (has links)
Submitted by Victor Hugo Albuquerque Rizzo (victor.rizzo@ufpe.br) on 2015-04-14T14:46:40Z No. of bitstreams: 2 DISSERTAÇÃO Frederico Alvarez.pdf: 5141765 bytes, checksum: 3e123a71478d296a912188ec63c57ca2 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-14T14:46:40Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Frederico Alvarez.pdf: 5141765 bytes, checksum: 3e123a71478d296a912188ec63c57ca2 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013 / O objetivo do presente trabalho é o desenvolvimento de um sistema computacional, utilizando um banco de dados integrado a um software estatístico, tendo como finalidade o armazenamento, gerenciamento e análise de dados eólicos. Inicialmente, foi realizado o processo de seleção de softwares livre, preferencialmente de código aberto, para a montagem da plataforma sobre a qual seria implementado o sistema computacional. Em seguida, foram desenvolvidos estudos com especialistas da área de estatística para determinação do software estatístico mais indicado para a realização do acesso direto à base de dados e que atendesse ao conjunto de requisitos do projeto. Após as análises, realizou-se a escolha do banco de dados SQLite para o gerenciamento dos dados e pelo software estatístico R. Esses softwares foram os que melhor atendiam as necessidades do projeto. Concomitantemente à escolha dos softwares a serem utilizados, foi desenvolvida a modelagem do sistema e sua respectiva implantação. Em seguida, foram desenvolvidos os processos de análise estatística, com suas respectivas gerações de gráficos. Finalmente, foi efetuada a validação do sistema e suas conclusões.
62

Adaptação de hierarquias de dados conectados para análise de informação

Sacenti, Juarez Angelo Piazza January 2016 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016. / Made available in DSpace on 2016-05-24T17:57:13Z (GMT). No. of bitstreams: 1 339454.pdf: 2256514 bytes, checksum: 03289f73726043dd181ecda93a630121 (MD5) Previous issue date: 2016 / Diversas abordagens têm sido propostas para o enriquecimento semântico de dados sobre movimento, incluindo propostas para a sua anotação com dados abertos conectados (LOD). Contudo, ainda há uma carência de soluções para modelagem dimensional de dados semanticamente anotados, visando sua análise em data warehouses. Este trabalho de pesquisa propõe um método para a geração automatizada de dimensões de análise de dados a partir da adaptação de hierarquias de recursos (sobre instâncias e conceitos) de LOD usados para anotar semanticamente tais dados. Este método extrai hierarquias de recursos de coleções de LOD por meio da exploração de relações de ordenamento parcial (como part of e is a) e adapta tais hierarquias, reduzindo o número de recursos de acordo com o número de vezes que um recurso aparece em anotações semânticas de uma dada coleção de dados. Dimensões assim produzidas são potencialmente menores que a hierarquia usada para gerá-las, pois escondem recursos com baixa frequência de uso em anotações. Isso tem potencial para propiciar ganhos de eficiência e facilidade de uso em data warehouses, entre outros benefícios. Resultados de experimentos com a adaptação de hierarquias de recursos para a análise de tweets anotados com LOD sugerem a viabilidade do método. Os resultados mostram considerável redução no número de recursos de hierarquias adaptadas a medida que se aumenta o limiar de frequência de uso de recursos em anotações semânticas.<br> / Abstract : Several approaches have been proposed to semantic enrich data about movement, including proposals to annotate it with linked open data (LOD). However, there is still a lack of solutions for multidimensional modelling semantic annotated data, in order to analyse it in data warehouses. This research work proposes a method for automated generation of data analysis dimensions from the adaptation of hierarchies of resources (about instances and concepts) of LOD used to annotate semantically such data. This method extract hierarchies of resources from LOD collections through exploration of partial ordering relations (like part of and is a) and adapt such hierarchies, reducing the number of resources according to the number of times a resource appears in semantic annotations of a particular dataset. Thus produced dimensions are potentially lower than the hierarchy used to generate them, because they hide resources having low frequency of use in annotations. This has the potential to provide efficiency gains and ease of use in data warehouses, among other benefits. Experiments results in adaptation of hierarchies of resources for the analysis of tweets annotated with LOD suggest the feasibility of the method. The results show considerable reduction of the number of adapted hierarchies' resources as it increases the threshold of frequency of use of resources in semantic annotations.
63

Sequential and parallel approaches to reduce the data cube size.

Joubert de Castro Lima 08 May 2009 (has links)
Since the introduction of Data Warehouse (DW) and Online Analytical Processing (OLAP) technologies, efficient computation of data cubes has become one of the most relevant and pervasive problems in the DW area. The data cube operator has exponential complexity; therefore, the materialization of a data cube involves both huge amount of memory and substantial amount of time for its generation. Reducing the size of data cubes, without loss of generality, thus becomes one of the essential aspects for achieving effective OLAP services. Previous approaches reduce substantially the cube size using graph representations. A data cube can be viewed as a set of sub-graphs. In general, the approaches eliminate prefix redundancy and part of suffix redundancy of a data cube. In this work, we propose three major contributions to reduce the data cube size: MDAG, MCG and p-Cube Approaches. The MDAG approach eliminates the wildcard all (*), which represents an entire aggregation, from the cube representation, using the dimensional ID. It also uses the internal nodes to reduce the cube representation height, number of branches and number of common suffixed nodes. Unfortunately, the MDAG approach just reduces the data cube suffix redundancy, so in order to complete eliminate prefix/suffix redundancies we propose the MCG approach. The MCG approach produces a full cube with a reduction ratio of 70-90% when compared to a Star full cube representation. In the same scenarios, the new Star approach, proposed in 2007, reduces only 10-30%, Dwarf 30-50% and MDAG 40-60% of memory consumption when compared to Star approach. Our approaches are, on average, 20-50% faster than Dwarf and Star approaches. In this work, we also propose a parallel cube approach, named p-Cube. The p-Cube approach improves the runtime of Star, MDAG and MCG approaches, while keeping their low memory consumption benefits. The p-Cube approach uses an attribute-based data cube decomposition strategy which combines both task and data parallelism. It uses the dimensions attribute values to partition the data cube into a set of disjoint sub-cubes with similar size. The p-Cube approach provides similar memory consumption among its threads. Its logical design can be implemented in shared-memory, distributed-memory and hybrid architectures with minimal adaptation.
64

RAPID: uma metodologia para a recuperação, armazenamento e reconhecimento de padrões em imagens digitalizadas.

Marco Antonio Pizani Domiciano 00 December 2003 (has links)
Este trabalho trata do importante problema relacionado com o armazenamento, a recuperação e o reconhecimento de padrões em imagens digitalizadas no âmbito do Ministério da Defesa, mais especificamente no Comando da Aeronáutica - COMAER. Ele mostra a falta de uma sistemática padronizada no COMAER capaz de propiciar processamento apropriado de imagens digitalizadas tornando os sistemas existentes ineficientes. Uma metodologia foi desenvolvida para melhorar a eficiência dos sistemas existentes, facilitar o trabalho dos fotointérpretes, aumentar a precisão das informações armazenadas e recuperadas e reduzir o desperdício de recursos envolvidos. Esta metodologia pode servir como guia para implementação de um Aplicativo de Banco de Dados que atenda aos requisitos dos usuários e também às Normas e Procedimentos diários. Aplicou-se a metodologia de orientação a objeto para o desenvolvimento do protótipo de validação, utilizou-se da Metodologia OMT adaptada ao padrão UML para uma rápida e precisa modelagem do sistema, utilizando-se de ferramentas CASE e propiciando um desenvolvimento mais rápido. Esta estratégia adotada tornou possível a geração dos diagramas e documentação necessários de forma automática, utilizando-se de Ambientes de Programação que proporcionaram flexibilidade e agilidade no desenvolvimento. Em conseqüência disso pôde-se aproveitar melhor o tempo durante o processo de implementação.
65

Abordagens para cubo de dados massivos com alta dimensionalidade baseadas em memória principal e memória externa : HIC e BCubing

Rodrigo Rocha Silva 27 November 2015 (has links)
Abordagens para computação de cubos de dados utilizando a estratégia de índices invertidos, tais como Frag-Cubing, são alternativas eficientes em relação às tradicionais abordagens para computação de cubos de dados com alta dimensionalidade, entretanto tais abordagens são limitadas pela memória principal (RAM) disponível. Neste trabalho, é apresentadado duas abordgens iniciais: qCube e H-Frag. qCube é uma extensão da abordagem Frag-Cubing que possibilita consultas de intervalo e H-Frag é uma abordagem que utiliza memória principal e memória externa a partir de definições do usuário. Com base nas abordagens iniciais, propomos duas outras que utilizam o sistema de memória composto por memória principal e memória externa, o qual chamamos de sistema híbrido de memória, para computar e manter atualizado cubos com alta dimensionalidade e elevado número de tuplas: HIC e bCubing. Em HIC, partições de cubos são armazenados em RAM e na memória externa utilizando a mesma representação de Frag-Cubing, contudo valores de atributos frequentes são armazenados em memória principal e valores de atributos pouco frequentes são armazenados em memória externa. HIC utiliza um parâmetro, chamado frequência acumulada crítica, para definir quais os valores de atributo são armazenados em memória principal ou em memória externa. bCubing particiona uma lista de identificadores de tuplas (TIDs) implementando a inversão de tuplas em dois níveis: um nível onde o identificador é o índice de bloco (BID) e o segundo nível onde o identificador é o índice da tupla (TID). As listas de TIDs dos valores de atributos são armazenadas em memória externa. As listas de BIDs são mantidas em memória principal e indexadas pelos valores de atributos. bCubing é capaz de calcular e manter atualizadas medidas holísticas de forma exata em cubos com alta dimensionalidade e elevado número de tuplas. Experimentos utilizando uma relação com 480 dimensões e 107 tuplas mostram que a abordagem bCubing é apenas 30% mais lenta do que Frag-Cubing para computação de cubos e aproximadamente 3 vezes mais rápida para responder consultas multidimensionais complexas a partir de tais relações. Um cubo massivo com 60 dimensões e 109 tuplas foi computado por bCubing usando 84 GB de RAM, enquanto o Frag-Cubing não computou tal cubo em uma máquina com 128 GB de RAM sem realizar operações de swap do sistema operacional. O impacto do cálculo de medidas holísticas em um cubo de dados com alta dimensionalidade também foi avaliado e os resultados demonstram que a abordagem bCubing gasta, em média, 10% mais tempo ao calcular medidas holísticas do que consultas com medidas COUNT. A abordagem bCubing respondeu consultas em um cubo de dados com 1.2 bilhões de tuplas em até 4 minutos, sendo uma destas consultas Q composta por dois operadores de subcubo e um operador EQUAL. A consulta Q calculou três medidas holísticas de forma exata: desvio padrão, mediana e moda.
66

Gerenciamento de transação e mecanismo de serialização baseado em Snapshot /

Almeida, Fábio Renato de January 2014 (has links)
Orientador: Carlos Roberto Valêncio / Banca: Elaine Parros Machado de Sousa / Banca: Rogéria Cristiane Gratão de Souza / Resumo: Dentre os diversos níveis de isolamento sob os quais uma transação pode executar, Snapshot se destaca pelo fato de lidar com uma visão isolada da base de dados. Uma transação sob o isolamento Snapshot nunca bloqueia e nunca é bloqueada quando solicita uma operação de leitura, permitindo portanto uma maior concorrência quando a mesma é comparada a uma execução sob um isolamento baseado em bloqueios. Entretanto, Snapshot não é imune a todos os problemas decorrentes da concorrência e, portanto, não oferece garantia de serialização. Duas estratégias são comumente empregadas para se obter tal garantia. Na primeira delas o próprio Snapshot é utilizado, mas uma alteração estratégica na aplicação e na base de dados, ou até mesmo a inclusão de um componente de software extra, são empregados como auxiliares para se obter apenas históricos serializáveis. Outra estratégia, explorada nos últimos anos, tem sido a construção de algoritmos fundamentados no protocolo de Snapshot, mas adaptados de modo a impedir as anomalias decorrentes do mesmo e, portanto, garantir serialização. A primeira estratégia traz como vantagem o fato de se aproveitar os benefícios de Snapshot, principalmente no que diz respeito ao monitoramento apenas dos elementos que são escritos pela transação. Contudo, parte da responsabilidade em se lidar com problemas de concorrência é transferida do Sistema Gerenciador de Banco de Dados (SGBD) para a aplicação. Por sua vez, a segunda estratégia deixa apenas o SGBD como responsável pelo controle de concorrência, mas os algoritmos até então apresentados nesta categoria tem exigido também o monitoramento dos elementos lidos. Neste trabalho é desenvolvida uma técnica onde os benefícios de Snapshot são mantidos e a garantia de serialização é obtida sem a necessidade de adaptação do código da aplicação ou da introdução de uma camada de software extra. A técnica proposta é ... / Abstract: Among the various isolation levels under which a transaction can execute, Snapshot stands out because of its capacity to work on an isolated view of the database. A transaction under the Snapshot isolation never blocks and is never blocked when requesting a read operation, thus allowing a higher level of concurrency when it is compared to an execution under a lock-based isolation. However, Snapshot is not immune to all the problems that arise from the competition, and therefore no serialization warranty exists. Two strategies are commonly employed to obtain such assurance. In the first one Snapshot itself is used, but a strategic change in the application and database, or even the addition of an extra software component, are employed as assistants to get only serializable histories. Another strategy, explored in recent years, has been the coding of algorithms based on the Snapshot protocol, but adapted to prevent the anomalies arising from it, and therefore ensure serialization. The first strategy has the advantage of exploring the benefits of Snapshot, especially with regard to monitoring only the elements that are written by the transaction. However, part of the responsibility for dealing with competition issues is transferred from the Database Management System (DBMS) to the application. In turn, the second strategy leaves only the DBMS as responsible for concurrency control, but the algorithms presented so far in this category also require the monitoring of the elements that the transaction reads. In this work we developed a technique where the benefits of Snapshot use are retained and serialization warranty is achieved without the need for adaptation of application code or the addition of an extra software layer. The proposed technique is implemented in a prototype of a DBMS that has temporal features and has been built to demonstrate the applicability of the technique in systems that employ the object-oriented model. However, the ... / Mestre
67

Processamento e análise de vídeos utilizando floresta de caminhos ótimos /

Martins, Guilherme Brandão. January 2016 (has links)
Orientador: João Paulo Papa / Coorientador: Jurandy Gomes de Almeida Junior / Banca: Fábio Faria / Banca: José Remo Ferreira Brega / Resumo: Com os avanços relacionados às tecnologias de redes computacionais e armazenamento de dados observa-se que, atualmente, uma grande quantidade de conteúdo digital está sendo disponibilizada via internet, em especial por meio de redes sociais. A fim de explorar esse contexto, abordagens relacionadas ao processamento e apredizado de padrões em vídeos têm recebido crescente atenção nos últimos anos. Sistemas de recomendação de filmes, amplamente empregados em lojas virtuais, são umas das principais aplicações no que se refere aos avanços de pesquisa na área de processamento de vídeos. Com o objetivo de acelerar o processo de recomendação e redução de armazenamento, técnicas para classificação e sumarização de vídeos por meio de aprendizado de máquina têm sido utilizadas para explorar conteúdo informativo e também redundante. Por meio de técnicas de agrupamento e descrição de dados, é possível identificar quadros-chave de um conjunto de amostras a fim de que, posteriormente, estes sejam usados para sumarização do vídeo. Além disso, por meio de bases de vídeos rotulados, podemos classificar amostras de modo a organizá-las por gêneros de vídeo. O presente trabalho objetiva utilizar o classificador Floresta de Caminhos Ótimos para sumarização automática e classificação de vídeos por gênero, bem como o estudo de sua viabilidade nestes contextos. Os resultados obtidos mostram que o referido classificador obteve desempenho bastante promissor e próximo à algumas das técnicas de sumarização automática e classificação de vídeos que, atualmente, representam o estado-da-arte no atual contexto / Abstract: Currently, a number of improvements related to computational networks and data storage technologies have allowed a considerable amount of digital content to be provided on the internet, mainly through social networks. In order to exploit this context, video processing and pattern recognition approaches have received a considerable attention in the last years. Movie recommendation systems are widely employed in virtual stores, thus being one of the main applications regarding to research advances in the video processing field. Aiming to boost the content recommendation and storage cutback, different video categorization and video summarization techniques have been applied to handle with more informative and redundant content. By availing clustering and data description techniques, it is possible to identify keyframes from a given samples set in order to consider them as part of the video summarization process. Furthermore, through labeled video data collections it is possible to classify samples in order to arrange them by video genres. The main goal of this work is to employ the Optimum-Path Forest classifier in both video summarization and video genre classification processes as well as to conduct a viability study of such classifier in the aforementioned contexts. The results have shown this classifier can achieve promising performance, being very close in terms of summary quality and consistent recognition rates to some state-of-the-art video summarization and classification approaches / Mestre
68

Ambiente independente de idioma para suporte a identificação de tuplas duplicadas por meio da similaridade fonética e numérica: otimização de algoritmo baseado em multithreading /

Andrade, Tiago Luís de. January 2011 (has links)
Resumo: Com o objetivo de garantir maior confiabilidade e consistência dos dados armazenados em banco de dados, a etapa de limpeza de dados está situada no início do processo de Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Database - KDD). Essa etapa tem relevância significativa, pois elimina problemas que refletem fortemente na confiabilidade do conhecimento extraído, como valores ausentes, valores nulos, tuplas duplicadas e valores fora do domínio. Trata-se de uma etapa importante que visa a correção e o ajuste dos dados para as etapas posteriores. Dentro dessa perspectiva, são apresentadas técnicas que buscam solucionar os diversos problemas mencionados. Diante disso, este trabalho tem como metodologia a caracterização da detecção de tuplas duplicadas em banco de dados, apresentação dos principais algoritmos baseados em métricas de distância, algumas ferramentas destinadas para tal atividade e o desenvolvimento de um algoritmo para identificação de registros duplicados baseado em similaridade fonética e numérica independente de idioma, desenvolvido por meio da funcionalidade multithreading para melhorar o desempenho em relação ao tempo de execução do algoritmo. Os testes realizados demonstram que o algoritmo proposto obteve melhores resultados na identificação de registros duplicados em relação aos algoritmos fonéticos existentes, fato este que garante uma melhor limpeza da base de dados / Abstract: In order to ensure greater reliability and consistency of data stored in the database, the data cleaning stage is set early in the process of Knowledge Discovery in Database - KDD. This step has significant importance because it eliminates problems that strongly reflect the reliability of the knowledge extracted as missing values, null values, duplicate tuples and values outside the domain. It is an important step aimed at correction and adjustment for the subsequent stages. Within this perspective, techniques are presented that seek to address the various problems mentioned. Therefore, this work is the characterization method of detecting duplicate tuples in the database, presenting the main algorithms based on distance metrics, some tools designed for such activity and the development of an algorithm to identify duplicate records based on phonetic similarity numeric and language-independent, developed by multithreading functionality to improve performance over the runtime of the algorithm. Tests show that the proposed algorithm achieved better results in identifying duplicate records regarding phonetic algorithms exist, a fact that ensures better cleaning of the database / Orientador: Carlos Roberto Valêncio / Coorientador: Maurizio Babini / Banca: Pedro Luiz Pizzigatti Corrêa / Banca: José Márcio Machado / Mestre
69

Teste baseado em defeitos para ambientes de data warehouse

Oliveira, Itelvina Silva de 13 August 2015 (has links)
As organizações necessitam gerenciar informações para obter a melhoria contínua dos seus processos de negócios e agregar conhecimento que ofereça suporte ao processo decisório. Estas informações, muitas vezes, são disponibilizadas por ambientes de Data Warehouse (DW), nos quais os dados são manipulados e transformados. A qualidade dos dados nesses ambientes é essencial para a correta tomada de decisão, tornando-se imprescindível a aplicação de testes. O objetivo deste trabalho é elaborar e validar a aplicação de uma abordagem de teste para DW com o emprego de critérios da técnica de teste baseado em defeitos. A aplicação da abordagem possibilitou testar três fases de desenvolvimento do DW, nas quais estão as Fontes de Dados, processo ETL (Extraction, Transformation and Load) e dados do DW. O critério de teste Análise de Mutantes foi aplicado ao processo ETL por meio de operadores de mutação SQL e a Análise de Instâncias de Dados Alternativas foi aplicada nas fontes de dados e nos dados do DW por meio de classes de defeito nos dados. Essas classes foram geradas por meio da análise e associação dos problemas de qualidade de dados nas fases de desenvolvimento do DW. Os resultados obtidos em estudos de caso permitiram a validação da aplicabilidade e eficácia da técnica de teste baseado em defeitos para ambientes de DW, possibilitando assim revelar quais defeitos podem ocorrer na geração do DW que poderiam prejudicar a qualidade dos dados armazenados nesses ambientes. / Organizations need to manage information for a continuous improvement of its business processes and aggregate knowledge that help in the decision-making process. This information often is provided by Data Warehouse environments (DW), in which data are handled and processed. The quality of data in these environments is essential to make correct decisions, becoming it necessary the application of tests. The objective of this work is to develop and validate the implementation of a testing approach for DW using criteria of Fault-based Testing techniques. The application of the approach enabled tests in three phases of development of the DW, which are the data sources, ETL and DW data. The test criteria Mutation Analysis was applied to the ETL process (Extraction, Transformation and Load) through SQL mutation operators and the Alternative Data Instances Analysis was applied to the data sources and DW data through fault classes on the data. These classes were generated by analyzing and associating of data quality problems in the DW development stages. The results obtained through the case studies allowed assessment of the applicability and effectiveness of testing technique fault for DW environments, thus enabling to reveal faults, which may occur in the generation of DW that could harm the quality of the data stored in these environments.
70

Teste baseado em defeitos para ambientes de data warehouse

Oliveira, Itelvina Silva de 13 August 2015 (has links)
As organizações necessitam gerenciar informações para obter a melhoria contínua dos seus processos de negócios e agregar conhecimento que ofereça suporte ao processo decisório. Estas informações, muitas vezes, são disponibilizadas por ambientes de Data Warehouse (DW), nos quais os dados são manipulados e transformados. A qualidade dos dados nesses ambientes é essencial para a correta tomada de decisão, tornando-se imprescindível a aplicação de testes. O objetivo deste trabalho é elaborar e validar a aplicação de uma abordagem de teste para DW com o emprego de critérios da técnica de teste baseado em defeitos. A aplicação da abordagem possibilitou testar três fases de desenvolvimento do DW, nas quais estão as Fontes de Dados, processo ETL (Extraction, Transformation and Load) e dados do DW. O critério de teste Análise de Mutantes foi aplicado ao processo ETL por meio de operadores de mutação SQL e a Análise de Instâncias de Dados Alternativas foi aplicada nas fontes de dados e nos dados do DW por meio de classes de defeito nos dados. Essas classes foram geradas por meio da análise e associação dos problemas de qualidade de dados nas fases de desenvolvimento do DW. Os resultados obtidos em estudos de caso permitiram a validação da aplicabilidade e eficácia da técnica de teste baseado em defeitos para ambientes de DW, possibilitando assim revelar quais defeitos podem ocorrer na geração do DW que poderiam prejudicar a qualidade dos dados armazenados nesses ambientes. / Organizations need to manage information for a continuous improvement of its business processes and aggregate knowledge that help in the decision-making process. This information often is provided by Data Warehouse environments (DW), in which data are handled and processed. The quality of data in these environments is essential to make correct decisions, becoming it necessary the application of tests. The objective of this work is to develop and validate the implementation of a testing approach for DW using criteria of Fault-based Testing techniques. The application of the approach enabled tests in three phases of development of the DW, which are the data sources, ETL and DW data. The test criteria Mutation Analysis was applied to the ETL process (Extraction, Transformation and Load) through SQL mutation operators and the Alternative Data Instances Analysis was applied to the data sources and DW data through fault classes on the data. These classes were generated by analyzing and associating of data quality problems in the DW development stages. The results obtained through the case studies allowed assessment of the applicability and effectiveness of testing technique fault for DW environments, thus enabling to reveal faults, which may occur in the generation of DW that could harm the quality of the data stored in these environments.

Page generated in 0.0901 seconds