Return to search

Casamento de esquemas de banco de dados aplicando aprendizado ativo

Submitted by Geyciane Santos (geyciane_thamires@hotmail.com) on 2015-06-18T13:54:27Z
No. of bitstreams: 1
Dissertação - Diego de Azevedo Rodrigues.pdf: 8601801 bytes, checksum: 6c2dde718a0b6857ac6e14fd715e240c (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-19T21:02:00Z (GMT) No. of bitstreams: 1
Dissertação - Diego de Azevedo Rodrigues.pdf: 8601801 bytes, checksum: 6c2dde718a0b6857ac6e14fd715e240c (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-19T21:03:00Z (GMT) No. of bitstreams: 1
Dissertação - Diego de Azevedo Rodrigues.pdf: 8601801 bytes, checksum: 6c2dde718a0b6857ac6e14fd715e240c (MD5) / Made available in DSpace on 2015-06-19T21:03:00Z (GMT). No. of bitstreams: 1
Dissertação - Diego de Azevedo Rodrigues.pdf: 8601801 bytes, checksum: 6c2dde718a0b6857ac6e14fd715e240c (MD5)
Previous issue date: 2013-03-12 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Given two database schemas within the same domain, the schema matching problem
is the task of finding pairs of schema elements that have the same semantics for that
domain. Usually, this task was performed manually by a specialist making it tedious
and costly because the specialist should know the schemas and their domain. Currently
this process is assisted by semi-automatic schema matching methods. Current,
methods use some heuristics to generate matchings and many of them share a common
modeling: they build a similarity matrix between the elements from functions called
matchers and, based on the matrix values, decide according to a criterion which of
the matchings are correct. This thesis presents an active-learning based method that
uses the similarity matrix generated by the matchers, a machine learning algorithm
and specialist interventions to generate matchings. The presented method di↵ers from
others because it has no fixed heuristic and uses the specialist expertise only when
necessary. In our experiments, we evaluate the proposed method against a baseline on
two datasets: the first one was the same used by the baseline and the second containing
schemas of a benchmark for schema integration. We show that baseline achieves
good results on its original dataset, but its fixed strategy is not as e↵ective for other
schemas. Moreover, the proposed method based on active learning is shown more consistent achieving, on average, F-measure value of 0.64. / Dados dois esquemas de bancos de dados pertencentes ao mesmo domíınio, o problema de Casamento de Esquemas consiste em encontrar pares de elementos desses esquemas que possuam a mesma semântica para aquele domínio. Tradicionalmente, tal tarefa era realizada manualmente por um especialista, tornando-a custosa e cansativa pois, este deveria conhecer bem os esquemas e o domíınio em que estes estavam inseridos. Atualmente, esse processo é assistido por métodos semi-automáticos de casamento de esquemas. Os métodos atuais utilizam diversas heurísticas para gerar os casamentos e muitos deles compartilham uma modelagem em comum: constroem uma matriz de similaridade entre os elementos a partir de funções chamadas matchers e, baseados nos valores dessa matriz, decidem segundo algum critério quais os casamentos válidos. Esta dissertação apresenta um método baseado em aprendizado ativo que utiliza a matriz de similaridade gerada pelos matchers e um algoritmo de aprendizagem de máquina, além de intervenções de um especialista, para gerar os casamentos. O método apresentado se diferencia dos outros por não possuir uma heurística fixa e por utilizar a experiência do especialista apenas quando necessário. Em nossos experimentos, avaliamos o método proposto contra um baseline em dois datasets: o primeiro que foi o mesmo utilizado pelo baseline e o segundo contendo esquemas propostos em um benchmark para integração de esquemas. Mostramos que o baseline alcança bons resultados no dataset em que foi originalmente testado, mas que sua estratégia fixa não é tão efetiva para outros esquemas. Por outro lado, o método baseado em aprendizado ativo que propomos se mostra consistente em ambos os datasets, alcançando, em média, um valor de medida-F igual a 0, 64.

Identiferoai:union.ndltd.org:IBICT/oai:http://localhost:tede/4146
Date12 March 2013
CreatorsRodrigues, Diego de Azevedo
ContributorsSilva, Altigran Soares da
PublisherUniversidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM
Rightsinfo:eu-repo/semantics/openAccess
Relation-312656415484870643, 600

Page generated in 0.0023 seconds