Orientador: Prof. Dr. Márcio Katsumi Oikawa / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / Através do relacionamento probabilístico de bases de dados é possível obter informações
que a análise individual ou manual de bases de dados não proporcionaria. Esse
trabalho visa encontrar, através do relacionamento probabilístico de registros, doadores
de sangue da base de dados da Fundação Pró-Sangue (FPS) no Sistema de Informações
sobre Mortalidade (SIM), nos anos de 2001 a 2006, favorecendo assim a manutenção
de hemoderivados da instituição, inferindo se determinado doador veio à óbito. Para
tal, foram avaliadas a eficiência de diferentes chaves de blocking que foram aplicadas
em um conjunto de softwares gratuitos de record linkage e no software implementado
para uso específico do estudo, intitulado SortedLink. Nos estudos, os registros foram
padronizados e apenas os que possuíam dados da mãe cadastrados foram utilizados.
Para avaliar a eficiência das chaves de blocking, foram selecionados 100.000 registros
aleatoriamente das bases de dados SIM e FPS, e adicionados 30 registros de validação
para cada conjunto. Sendo que o software SortedLink, implementado no trabalho, foi
o que apresentou os melhores resultados e foi utilizado para obter os resultados dos
possíveis pares de registros na base total de dados, 1.709.819 de registros para o SIM
e 334.077 para o FPS. Além disso, o estudo também avalia a eficiência dos algoritmos
de codificação fonética SOUNDEX, tipicamente utilizado no processo de record linkage,
e do BRSOUND, desenvolvido para codificação de nomes e sobrenomes oriundos da
língua portuguesa do Brasil. / Through probabilistic record linkage of databases is possible to obtain information
that the individual or manual analysis of databases do not provide. This work aims
to find, through probabilistic record relationship, blood donors from the database of
Fundação Pró-Sangue (FPS) in the Sistema de Informações sobre Mortalidade (SIM)
from Brazil, in the year 2001 to 2006, thus favoring maintenance blood products of the
institution, inferring whether a donor came to death. For this purpose, we evaluated the
effectiveness of different blocking keys that were applied to a set of free software record
linkage and a software implemented for specific use of the study, entitled SortedLink. In
the studies, the records were standardized and only those who had registered mother
information were used. To assess the effectiveness of blocking keys were selected
randomly 100, 000 records of SIM and FPS databases, and added 30 validation records
for each set. Since the SortedLink software, implemented in this work, showed the best
results, it was used to obtain the results of the possible pairs of records in the total
database, 1.709.819 records from SIM and 334.077 from FPS. In addition, the study also
evaluated the efficiency of SOUNDEX phonetic encoding algorithms, typically used
in the record linkage process and the BRSOUND, developed for encoding names and
surnames derived from the Portuguese language of Brazil.
Identifer | oai:union.ndltd.org:IBICT/oai:BDTD:90444 |
Date | January 2016 |
Creators | Pinha, André Teixeira |
Contributors | Oikawa, Marcio Katsumi, Medeiros, Debora Maria Rossi de, Sakata, Tiemi Christine |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf, 100 f. : il. |
Source | reponame:Repositório Institucional da UFABC, instname:Universidade Federal do ABC, instacron:UFABC |
Rights | info:eu-repo/semantics/openAccess |
Relation | http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=90444&midiaext=71993, http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=90444&midiaext=71994, Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=90444 |
Page generated in 0.0044 seconds