• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 22
  • 2
  • 2
  • 2
  • 2
  • 2
  • Tagged with
  • 22
  • 22
  • 22
  • 8
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Uma abordagem lógica para o gerenciamento de identificadores de objetos em sistemas gerenciadores de banco de dados não convencionais /

Ferrizzi, André Cid. January 2010 (has links)
Orientador: Carlos Roberto Valêncio / Banca: Rogéria Cristiane Gratão de Souza / Banca: Marilde Terezinha Prado Santos / Resumo: Os Sistemas Gerenciadores de Banco de Dados Não Convencionais são utilizados por aplicações que necessitam de e ciência no gerenciamento de objetos complexos. Um dos conceitos fundamentais nestes sistemas e o de identidade de objetos, pois em uma base de dados cada objeto possui um identificador unico que e utilizado para acessá-lo e referenciá-lo em relacionamentos com outros objetos. A implementação de identidade pode ser feita com OIDs físicos ou OIDs lógicos. A abordagem física apresenta o problema de fragmentação da base de dados, pois os OIDs são formados diretamente pelos endereções dos objetos. Já a abordagem lógica não tem este problema, e as técnicas são arvore-B, hashing e mapeamento direto. Cada uma destas abordagens apresenta um determinado problema: arvore-B pode ocupar muita mem oria e o tempo de mapeamento possui complexidade logar tmica; em hashing ocorrem colisões pois o conhecimento prévio do tamanho da tabela hash se torna inviável em base de dados, que crescem de maneira imprevisível; e por ultimo, mapeamento direto, que apesar de possuir o menor tempo de mapeamento dentre as três abordagens, não permite a relocação de todas as páginas da base de dados. Uma outra abordagem lógica é utilizada no Núcleo Gerenciador de Dados Multimídia (NUGEM), o qual vem sendo desenvolvido junto ao Grupo de Banco de Dados do IBILCE de São José do Rio Preto com o intuito de gerenciar dados não convencionais. Neste trabalho e proposta uma nova estrutura e funcionalidades para a t ecnica de gerenciamento de OIDs, cuja experimenta cão foi efetivada junto ao NUGEM, caracterizando uma nova abordagem com um menor tempo de manipulação dos OIDs, a qual pode ser nomeada de mapeamento indireto. E tamb em avaliado o esgotamento de OIDs, comprovando-se que este não representa um problema para a abordagem de mapeamento indireto. Em comparaçãocom as abordagens... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Non-Conventional Database Management Systems are used for applications that require e cient management of complex objects. One fundamental concept of these systems is object identity, because in a database each object has a unique identi er that is used to access it and reference it in relationships with another objects. The implementation of identity can be made with physical OIDs or logical OIDs. The physical approach presents the problem of fragmenting the database, because the OIDs are formed directly by addresses of objects. The logical approach does not have this problem, and the techniques are B-tree, hashing and direct mapping. Each of these approaches presents a particular problem: B-tree can occupy a lot of memory and its mapping time is logarithmic, in hashing collisions occur because the prior knowledge of the table size becomes a problem in databases, which grow in unpredictable ways, and nally, direct mapping, which despite having the smallest mapping time of the three approaches, does not allow the relocation of all pages in the database. Another logical approach is used in the Multimedia Data Manager Kernel (NUGEM), which is being developed by the Database Group at IBILCE, S~ao Jos e do Rio Preto, S~ao Paulo, Brazil, in order to manage non-conventional data. This work proposes a new structure and features for the OID management, which was tested in NUGEM, featuring a new approach with a shorter handling time of OIDs, that can be named indirect mapping. It is also evaluated the exhaustion of OIDs, proving that this is not a problem for the indirect mapping approach. Compared with the approaches of the literature, the approach of indirect mapping has constant mapping time, uses less memory than the B-tree approach, has no problems like collisions and, unlike direct mapping, allows total exibility for relocating pages in the database / Mestre
12

Uma abordagem lógica para o gerenciamento de identificadores de objetos em sistemas gerenciadores de banco de dados não convencionais

Ferrizzi, André Cid [UNESP] 21 May 2010 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:41Z (GMT). No. of bitstreams: 0 Previous issue date: 2010-05-21Bitstream added on 2014-06-13T18:39:30Z : No. of bitstreams: 1 ferrizzi_ac_me_sjrp.pdf: 598030 bytes, checksum: 77b6ef0379d56ab11ae68873cafa2f56 (MD5) / Os Sistemas Gerenciadores de Banco de Dados Não Convencionais são utilizados por aplicações que necessitam de e ciência no gerenciamento de objetos complexos. Um dos conceitos fundamentais nestes sistemas e o de identidade de objetos, pois em uma base de dados cada objeto possui um identificador unico que e utilizado para acessá-lo e referenciá-lo em relacionamentos com outros objetos. A implementação de identidade pode ser feita com OIDs físicos ou OIDs lógicos. A abordagem física apresenta o problema de fragmentação da base de dados, pois os OIDs são formados diretamente pelos endereções dos objetos. Já a abordagem lógica não tem este problema, e as técnicas são arvore-B, hashing e mapeamento direto. Cada uma destas abordagens apresenta um determinado problema: arvore-B pode ocupar muita mem oria e o tempo de mapeamento possui complexidade logar tmica; em hashing ocorrem colisões pois o conhecimento prévio do tamanho da tabela hash se torna inviável em base de dados, que crescem de maneira imprevisível; e por ultimo, mapeamento direto, que apesar de possuir o menor tempo de mapeamento dentre as três abordagens, não permite a relocação de todas as páginas da base de dados. Uma outra abordagem lógica é utilizada no Núcleo Gerenciador de Dados Multimídia (NUGEM), o qual vem sendo desenvolvido junto ao Grupo de Banco de Dados do IBILCE de São José do Rio Preto com o intuito de gerenciar dados não convencionais. Neste trabalho e proposta uma nova estrutura e funcionalidades para a t ecnica de gerenciamento de OIDs, cuja experimenta cão foi efetivada junto ao NUGEM, caracterizando uma nova abordagem com um menor tempo de manipulação dos OIDs, a qual pode ser nomeada de mapeamento indireto. E tamb em avaliado o esgotamento de OIDs, comprovando-se que este não representa um problema para a abordagem de mapeamento indireto. Em comparaçãocom as abordagens... / Non-Conventional Database Management Systems are used for applications that require e cient management of complex objects. One fundamental concept of these systems is object identity, because in a database each object has a unique identi er that is used to access it and reference it in relationships with another objects. The implementation of identity can be made with physical OIDs or logical OIDs. The physical approach presents the problem of fragmenting the database, because the OIDs are formed directly by addresses of objects. The logical approach does not have this problem, and the techniques are B-tree, hashing and direct mapping. Each of these approaches presents a particular problem: B-tree can occupy a lot of memory and its mapping time is logarithmic, in hashing collisions occur because the prior knowledge of the table size becomes a problem in databases, which grow in unpredictable ways, and nally, direct mapping, which despite having the smallest mapping time of the three approaches, does not allow the relocation of all pages in the database. Another logical approach is used in the Multimedia Data Manager Kernel (NUGEM), which is being developed by the Database Group at IBILCE, S~ao Jos e do Rio Preto, S~ao Paulo, Brazil, in order to manage non-conventional data. This work proposes a new structure and features for the OID management, which was tested in NUGEM, featuring a new approach with a shorter handling time of OIDs, that can be named indirect mapping. It is also evaluated the exhaustion of OIDs, proving that this is not a problem for the indirect mapping approach. Compared with the approaches of the literature, the approach of indirect mapping has constant mapping time, uses less memory than the B-tree approach, has no problems like collisions and, unlike direct mapping, allows total exibility for relocating pages in the database
13

Gerenciamento de transação e mecanismo de serialização baseado em Snapshot

Almeida, Fábio Renato de [UNESP] 28 February 2014 (has links) (PDF)
Made available in DSpace on 2015-04-09T12:28:25Z (GMT). No. of bitstreams: 0 Previous issue date: 2014-02-28Bitstream added on 2015-04-09T12:47:36Z : No. of bitstreams: 1 000811822.pdf: 1282272 bytes, checksum: ffbcb6d3dc96adfefe2d6b8418c1e323 (MD5) / Dentre os diversos níveis de isolamento sob os quais uma transação pode executar, Snapshot se destaca pelo fato de lidar com uma visão isolada da base de dados. Uma transação sob o isolamento Snapshot nunca bloqueia e nunca é bloqueada quando solicita uma operação de leitura, permitindo portanto uma maior concorrência quando a mesma é comparada a uma execução sob um isolamento baseado em bloqueios. Entretanto, Snapshot não é imune a todos os problemas decorrentes da concorrência e, portanto, não oferece garantia de serialização. Duas estratégias são comumente empregadas para se obter tal garantia. Na primeira delas o próprio Snapshot é utilizado, mas uma alteração estratégica na aplicação e na base de dados, ou até mesmo a inclusão de um componente de software extra, são empregados como auxiliares para se obter apenas históricos serializáveis. Outra estratégia, explorada nos últimos anos, tem sido a construção de algoritmos fundamentados no protocolo de Snapshot, mas adaptados de modo a impedir as anomalias decorrentes do mesmo e, portanto, garantir serialização. A primeira estratégia traz como vantagem o fato de se aproveitar os benefícios de Snapshot, principalmente no que diz respeito ao monitoramento apenas dos elementos que são escritos pela transação. Contudo, parte da responsabilidade em se lidar com problemas de concorrência é transferida do Sistema Gerenciador de Banco de Dados (SGBD) para a aplicação. Por sua vez, a segunda estratégia deixa apenas o SGBD como responsável pelo controle de concorrência, mas os algoritmos até então apresentados nesta categoria tem exigido também o monitoramento dos elementos lidos. Neste trabalho é desenvolvida uma técnica onde os benefícios de Snapshot são mantidos e a garantia de serialização é obtida sem a necessidade de adaptação do código da aplicação ou da introdução de uma camada de software extra. A técnica proposta é ... / Among the various isolation levels under which a transaction can execute, Snapshot stands out because of its capacity to work on an isolated view of the database. A transaction under the Snapshot isolation never blocks and is never blocked when requesting a read operation, thus allowing a higher level of concurrency when it is compared to an execution under a lock-based isolation. However, Snapshot is not immune to all the problems that arise from the competition, and therefore no serialization warranty exists. Two strategies are commonly employed to obtain such assurance. In the first one Snapshot itself is used, but a strategic change in the application and database, or even the addition of an extra software component, are employed as assistants to get only serializable histories. Another strategy, explored in recent years, has been the coding of algorithms based on the Snapshot protocol, but adapted to prevent the anomalies arising from it, and therefore ensure serialization. The first strategy has the advantage of exploring the benefits of Snapshot, especially with regard to monitoring only the elements that are written by the transaction. However, part of the responsibility for dealing with competition issues is transferred from the Database Management System (DBMS) to the application. In turn, the second strategy leaves only the DBMS as responsible for concurrency control, but the algorithms presented so far in this category also require the monitoring of the elements that the transaction reads. In this work we developed a technique where the benefits of Snapshot use are retained and serialization warranty is achieved without the need for adaptation of application code or the addition of an extra software layer. The proposed technique is implemented in a prototype of a DBMS that has temporal features and has been built to demonstrate the applicability of the technique in systems that employ the object-oriented model. However, the ...
14

Visualização da informação colaborativa por meio de um ambiente multiprojetado e dispositivos móveis /

Moraes, Alessandro Campanhã de January 2015 (has links)
Orientador: José Remo Ferreira Brega / Banca: Alexandre Cardoso / Banca: Roberta Spolon / Resumo: A ampla disponibilidade de sistemas de bancos de dados e o baixo custo de hardware permitem às empresas e pesquisadores a oportunidade de armazenarem grandes volumes de dados. O grande desafio passou então a ser a compreensão desses dados. Para superar esse problema, técnicas de Visualização da Informação são empregadas para ampliar a capacidade cognitiva dos seres humanos através de representações gráficas que expressem as propriedades e relacionamentos dos dados. Este trabalho apresenta um sistema de Visualização da Informação que busca resolver a escalabilidade visual por meio de um ambiente multiprojetado, possibilitando assim a exploração de um grande conjunto de dados. Adicionalmente, esta abordagem permite interação e exploração dos dados de forma colaborativa por meio do uso de dispositivos móveis, tais como tablets e smartphones. Após o desenvolvimento, o sistema foi validado por meio de testes com usuários, de forma colaborativa, em um estudo da estrutura relacional da Base de Dados Corporativa da UNESP, onde foi possível identificar características essencias, tais como: alto acoplamento entre sistemas, principais entidades e pontos críticos. O experimento realizado evidenciou a capacidade do sistema de proporcionar um correto entendimento dos dados e a descoberta de novas informações / Abstract: The wide availability of database systems and low cost of hardware allow enterprises and researchers the opportunity to store large data collections. The challenge then became the understanding of these data. To overcome this problem Information Visualization techniques have been employed to amplify the human cognitive ability through graphical data representations, that show properties and relationships from these data. This work presents a Information Visualization system that aims to overcome the visual scalability by using a Multi-projection system, allowing the exploration of large datasets. Additionally, this approach allows collaborative interaction and exploration by using mobile devices like tablets and smartphones. After the development, the system was validated through collaborative user tests, in an analysis about the relational sctructure of the UNESP Corporate Database, where was possible to identify essential characteristics like: high coupling between systems, main entities and critical points. The experiment showed the system capacity to provide correct data understanding and discovery of new information / Mestre
15

Viquen

Gueiber, Ezequiel 25 October 2010 (has links)
No description available.
16

Análise da aplicabilidade das regras de ouro ao tuning de sistemas gerenciadores de bancos de dados relacionais em ambientes de computação em nuvem

Bini, Tarcizio Alexandre January 2014 (has links)
Orientador : Prof. Dr. Marcos Sfair Sunye / Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 07/03/2014 / Inclui referências / Resumo: A computação em nuvem oferece um ambiente bastante propício para o provimento de serviços de TI. A virtualização, tecnologia que compõe sua base possibilita simular sobre um computador físico, uma ou mais estações de trabalho chamadas máquinas virtuais, que permitem maior exibilidade e melhor racionalização de sua infraestrutura. A incorporação de sistemas legados aos ambientes em nuvem como forma de contenção de custo é uma demanda frequente e altamente relevante. Para isso, é comum o emprego do modelo multi-inquilino do tipo shared-hardware, no qual o sistema gerenciador de banco de dados e o sistema legado ficam hospedados em máquinas virtuais que competem, junto às demais, por recursos computacionais. Neste ambiente, é vital o emprego de estratégias de tuning que objetivam melhorias no desempenho do banco de dados. Porém, os sistemas gerenciadores de banco de dados relacionais não foram inicialmente projetados para serem executados em ambientes shared-hardware. Consequentemente, seus parâmetros de configuração, comumente alvos de regras de tuning, não consideram o fato de que os recursos disponíveis variam ao longo do tempo, devido ao provisionamento dinâmico comum em ambientes elásticos. Esta tese propõe um método de avaliação que, por meio da simulação de cargas de trabalho de acesso a disco oriundas de máquinas virtuais concorrentes, demonstra a inadequação do emprego das regras de tuning, conhecidas como regras-de-ouro, encontradas na literatura e/ou recomendadas por experts. Nossos resultados apontam para a definição de novas regras-de-ouro, específicas para ambientes virtualizados, além de viabilizar a criação de um modelo para o tuning automático de sistemas gerenciadores de banco de dados relacionais em ambientes de computação em nuvem. Palavras-Chave: sistema gerenciador de banco de dados relacional, virtualização, tuning, sistema legados, computação em nuvem / Abstract: Cloud computing currently o_ers a very propitious environment for IT service provision. The virtualization, technology that compose their base enables to simulate in a physical computer one or more workstations called virtual machines that allow greater exibility and better use of its infrastructure. The incorporation of legacy systems to the cloud environments as a means of cost containment is a frequent and highly relevant demand. Therefore, it is common the use the multi-tenant model of shared-hardware type on which the database and legacy system are hosted on virtual machines that compete, with others, for computational resources. In this environment it is vital the use of tuning strategies that aim to improve the performance of the database. However, the relational database management systems were not initially designed to execute on shared-hardware environments. Consequently, its con_guration parameters, commonly targets of tuning rules, do not consider the fact that the available resources vary over time due to the common dynamic provisioning that is common in elastic environments. This thesis proposes an evaluation methodology that, simulates I/O workloads from concurrent virtual machines and demonstrates the inadequacy of the use of tuning rules, known as rules-ofthumb, found in literature and/or recommended by experts. Our results point to the new rules-of-thumb, speci_c to virtualized environments while also make feasible the creation of a model for automatic tuning of database in cloud computing environments. Keywords: relational database management system, virtualization, tuning, legacy systems, cloud computing.
17

MaTrigs

Soares, Sandramara Scandelari Kusano de Paula 10 February 2011 (has links)
Resumo: O presente trabalho consiste em desenvolver um projeto de interfaces para visualizar triggers no modelo ERC+, Entidade Relacionamento Complexo Estendido, utilizando conceitos da Interação Ser Humano-Computador, como a Engenharia Cognitiva e a Engenharia Semiótica. No conceito de integração de esquemas de Banco de Dados, quanto mais informações a respeito das bases de dados a serem integradas estiverem disponíveis, mais o processo será facilitado. Atualmente, somente os aspectos estáticos são considerados para integração de bases de dados, deixando de lado os aspectos dinâmicos, em particular os triggers, que podem ser cruciais para identificar novas correspondências de dados ou até descartá-las. A contribuição deste trabalho se dá, não somente para o campo da integração de esquemas, mas também como ferramenta para consultar e visualizar os triggers em bases de dados isoladas, facilitando sua manipulação e gerenciamento.
18

Ambiente independente de idioma para suporte a identificação de tuplas duplicadas por meio da similaridade fonética e numérica: otimização de algoritmo baseado em multithreading

Andrade, Tiago Luís de [UNESP] 05 August 2011 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:40Z (GMT). No. of bitstreams: 0 Previous issue date: 2011-08-05Bitstream added on 2014-06-13T19:38:58Z : No. of bitstreams: 1 andrade_tl_me_sjrp.pdf: 1077520 bytes, checksum: 1573dc8642ce7969baffac2fd03d22fb (MD5) / Com o objetivo de garantir maior confiabilidade e consistência dos dados armazenados em banco de dados, a etapa de limpeza de dados está situada no início do processo de Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Database - KDD). Essa etapa tem relevância significativa, pois elimina problemas que refletem fortemente na confiabilidade do conhecimento extraído, como valores ausentes, valores nulos, tuplas duplicadas e valores fora do domínio. Trata-se de uma etapa importante que visa a correção e o ajuste dos dados para as etapas posteriores. Dentro dessa perspectiva, são apresentadas técnicas que buscam solucionar os diversos problemas mencionados. Diante disso, este trabalho tem como metodologia a caracterização da detecção de tuplas duplicadas em banco de dados, apresentação dos principais algoritmos baseados em métricas de distância, algumas ferramentas destinadas para tal atividade e o desenvolvimento de um algoritmo para identificação de registros duplicados baseado em similaridade fonética e numérica independente de idioma, desenvolvido por meio da funcionalidade multithreading para melhorar o desempenho em relação ao tempo de execução do algoritmo. Os testes realizados demonstram que o algoritmo proposto obteve melhores resultados na identificação de registros duplicados em relação aos algoritmos fonéticos existentes, fato este que garante uma melhor limpeza da base de dados / In order to ensure greater reliability and consistency of data stored in the database, the data cleaning stage is set early in the process of Knowledge Discovery in Database - KDD. This step has significant importance because it eliminates problems that strongly reflect the reliability of the knowledge extracted as missing values, null values, duplicate tuples and values outside the domain. It is an important step aimed at correction and adjustment for the subsequent stages. Within this perspective, techniques are presented that seek to address the various problems mentioned. Therefore, this work is the characterization method of detecting duplicate tuples in the database, presenting the main algorithms based on distance metrics, some tools designed for such activity and the development of an algorithm to identify duplicate records based on phonetic similarity numeric and language-independent, developed by multithreading functionality to improve performance over the runtime of the algorithm. Tests show that the proposed algorithm achieved better results in identifying duplicate records regarding phonetic algorithms exist, a fact that ensures better cleaning of the database
19

Gerenciamento de transação e mecanismo de serialização baseado em Snapshot /

Almeida, Fábio Renato de January 2014 (has links)
Orientador: Carlos Roberto Valêncio / Banca: Elaine Parros Machado de Sousa / Banca: Rogéria Cristiane Gratão de Souza / Resumo: Dentre os diversos níveis de isolamento sob os quais uma transação pode executar, Snapshot se destaca pelo fato de lidar com uma visão isolada da base de dados. Uma transação sob o isolamento Snapshot nunca bloqueia e nunca é bloqueada quando solicita uma operação de leitura, permitindo portanto uma maior concorrência quando a mesma é comparada a uma execução sob um isolamento baseado em bloqueios. Entretanto, Snapshot não é imune a todos os problemas decorrentes da concorrência e, portanto, não oferece garantia de serialização. Duas estratégias são comumente empregadas para se obter tal garantia. Na primeira delas o próprio Snapshot é utilizado, mas uma alteração estratégica na aplicação e na base de dados, ou até mesmo a inclusão de um componente de software extra, são empregados como auxiliares para se obter apenas históricos serializáveis. Outra estratégia, explorada nos últimos anos, tem sido a construção de algoritmos fundamentados no protocolo de Snapshot, mas adaptados de modo a impedir as anomalias decorrentes do mesmo e, portanto, garantir serialização. A primeira estratégia traz como vantagem o fato de se aproveitar os benefícios de Snapshot, principalmente no que diz respeito ao monitoramento apenas dos elementos que são escritos pela transação. Contudo, parte da responsabilidade em se lidar com problemas de concorrência é transferida do Sistema Gerenciador de Banco de Dados (SGBD) para a aplicação. Por sua vez, a segunda estratégia deixa apenas o SGBD como responsável pelo controle de concorrência, mas os algoritmos até então apresentados nesta categoria tem exigido também o monitoramento dos elementos lidos. Neste trabalho é desenvolvida uma técnica onde os benefícios de Snapshot são mantidos e a garantia de serialização é obtida sem a necessidade de adaptação do código da aplicação ou da introdução de uma camada de software extra. A técnica proposta é ... / Abstract: Among the various isolation levels under which a transaction can execute, Snapshot stands out because of its capacity to work on an isolated view of the database. A transaction under the Snapshot isolation never blocks and is never blocked when requesting a read operation, thus allowing a higher level of concurrency when it is compared to an execution under a lock-based isolation. However, Snapshot is not immune to all the problems that arise from the competition, and therefore no serialization warranty exists. Two strategies are commonly employed to obtain such assurance. In the first one Snapshot itself is used, but a strategic change in the application and database, or even the addition of an extra software component, are employed as assistants to get only serializable histories. Another strategy, explored in recent years, has been the coding of algorithms based on the Snapshot protocol, but adapted to prevent the anomalies arising from it, and therefore ensure serialization. The first strategy has the advantage of exploring the benefits of Snapshot, especially with regard to monitoring only the elements that are written by the transaction. However, part of the responsibility for dealing with competition issues is transferred from the Database Management System (DBMS) to the application. In turn, the second strategy leaves only the DBMS as responsible for concurrency control, but the algorithms presented so far in this category also require the monitoring of the elements that the transaction reads. In this work we developed a technique where the benefits of Snapshot use are retained and serialization warranty is achieved without the need for adaptation of application code or the addition of an extra software layer. The proposed technique is implemented in a prototype of a DBMS that has temporal features and has been built to demonstrate the applicability of the technique in systems that employ the object-oriented model. However, the ... / Mestre
20

Ambiente independente de idioma para suporte a identificação de tuplas duplicadas por meio da similaridade fonética e numérica: otimização de algoritmo baseado em multithreading /

Andrade, Tiago Luís de. January 2011 (has links)
Resumo: Com o objetivo de garantir maior confiabilidade e consistência dos dados armazenados em banco de dados, a etapa de limpeza de dados está situada no início do processo de Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Database - KDD). Essa etapa tem relevância significativa, pois elimina problemas que refletem fortemente na confiabilidade do conhecimento extraído, como valores ausentes, valores nulos, tuplas duplicadas e valores fora do domínio. Trata-se de uma etapa importante que visa a correção e o ajuste dos dados para as etapas posteriores. Dentro dessa perspectiva, são apresentadas técnicas que buscam solucionar os diversos problemas mencionados. Diante disso, este trabalho tem como metodologia a caracterização da detecção de tuplas duplicadas em banco de dados, apresentação dos principais algoritmos baseados em métricas de distância, algumas ferramentas destinadas para tal atividade e o desenvolvimento de um algoritmo para identificação de registros duplicados baseado em similaridade fonética e numérica independente de idioma, desenvolvido por meio da funcionalidade multithreading para melhorar o desempenho em relação ao tempo de execução do algoritmo. Os testes realizados demonstram que o algoritmo proposto obteve melhores resultados na identificação de registros duplicados em relação aos algoritmos fonéticos existentes, fato este que garante uma melhor limpeza da base de dados / Abstract: In order to ensure greater reliability and consistency of data stored in the database, the data cleaning stage is set early in the process of Knowledge Discovery in Database - KDD. This step has significant importance because it eliminates problems that strongly reflect the reliability of the knowledge extracted as missing values, null values, duplicate tuples and values outside the domain. It is an important step aimed at correction and adjustment for the subsequent stages. Within this perspective, techniques are presented that seek to address the various problems mentioned. Therefore, this work is the characterization method of detecting duplicate tuples in the database, presenting the main algorithms based on distance metrics, some tools designed for such activity and the development of an algorithm to identify duplicate records based on phonetic similarity numeric and language-independent, developed by multithreading functionality to improve performance over the runtime of the algorithm. Tests show that the proposed algorithm achieved better results in identifying duplicate records regarding phonetic algorithms exist, a fact that ensures better cleaning of the database / Orientador: Carlos Roberto Valêncio / Coorientador: Maurizio Babini / Banca: Pedro Luiz Pizzigatti Corrêa / Banca: José Márcio Machado / Mestre

Page generated in 0.0906 seconds