Global ETD Search

1	Monitoramento de doadores de sangue através de integração de bases de texto heterogêneas Pinha, André Teixeira January 2016 (has links) Orientador: Prof. Dr. Márcio Katsumi Oikawa / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / Através do relacionamento probabilístico de bases de dados é possível obter informações que a análise individual ou manual de bases de dados não proporcionaria. Esse trabalho visa encontrar, através do relacionamento probabilístico de registros, doadores de sangue da base de dados da Fundação Pró-Sangue (FPS) no Sistema de Informações sobre Mortalidade (SIM), nos anos de 2001 a 2006, favorecendo assim a manutenção de hemoderivados da instituição, inferindo se determinado doador veio à óbito. Para tal, foram avaliadas a eficiência de diferentes chaves de blocking que foram aplicadas em um conjunto de softwares gratuitos de record linkage e no software implementado para uso específico do estudo, intitulado SortedLink. Nos estudos, os registros foram padronizados e apenas os que possuíam dados da mãe cadastrados foram utilizados. Para avaliar a eficiência das chaves de blocking, foram selecionados 100.000 registros aleatoriamente das bases de dados SIM e FPS, e adicionados 30 registros de validação para cada conjunto. Sendo que o software SortedLink, implementado no trabalho, foi o que apresentou os melhores resultados e foi utilizado para obter os resultados dos possíveis pares de registros na base total de dados, 1.709.819 de registros para o SIM e 334.077 para o FPS. Além disso, o estudo também avalia a eficiência dos algoritmos de codificação fonética SOUNDEX, tipicamente utilizado no processo de record linkage, e do BRSOUND, desenvolvido para codificação de nomes e sobrenomes oriundos da língua portuguesa do Brasil. / Through probabilistic record linkage of databases is possible to obtain information that the individual or manual analysis of databases do not provide. This work aims to find, through probabilistic record relationship, blood donors from the database of Fundação Pró-Sangue (FPS) in the Sistema de Informações sobre Mortalidade (SIM) from Brazil, in the year 2001 to 2006, thus favoring maintenance blood products of the institution, inferring whether a donor came to death. For this purpose, we evaluated the effectiveness of different blocking keys that were applied to a set of free software record linkage and a software implemented for specific use of the study, entitled SortedLink. In the studies, the records were standardized and only those who had registered mother information were used. To assess the effectiveness of blocking keys were selected randomly 100, 000 records of SIM and FPS databases, and added 30 validation records for each set. Since the SortedLink software, implemented in this work, showed the best results, it was used to obtain the results of the possible pairs of records in the total database, 1.709.819 records from SIM and 334.077 from FPS. In addition, the study also evaluated the efficiency of SOUNDEX phonetic encoding algorithms, typically used in the record linkage process and the BRSOUND, developed for encoding names and surnames derived from the Portuguese language of Brazil. RELACIONAMENTO DE REGISTROS RELACIONAMENTO PROBABILÍSTICO LIMPEZA DE DADOS RECORD LINKAGE DATA LINKAGE DATA CLEANING
2	Ambiente para extração de informação epidemiológica a partir da mineração de dez anos de dados do Sistema Público de Saúde / Environment for epidemiological information extraction by data mining ten years of data from the health public system Pires, Fábio Antero 22 September 2011 (has links) A utilização de bases de dados para estudos epidemiológicos, avaliação da qualidade e quantidade dos serviços de saúde vem despertando a atenção dos pesquisadores no contexto da Saúde Pública. No Brasil, as bases de dados do Sistema Único de Saúde (SUS) são exemplos de repositórios importantes que reúnem informações fundamentais sobre a Saúde. Entretanto, apesar dos avanços em termos de coleta e de ferramentas públicas para a pesquisa nessas bases de dados, tais como o TABWIN e o TABNET, esses recursos ainda não fazem uso de técnicas mais avançadas para a produção de informação gerencial, como as disponíveis em ferramentas OLAP (On Line Analytical Processing) e de mineração de dados. A situação é extremamente agravada pelo fato dos dados da Saúde Pública, produzidos por vários sistemas isolados, não estarem integrados, impossibilitando pesquisas entre diferentes bases de dados. Consequentemente, a produção de informação gerencial torna-se uma tarefa extremamente difícil. Por outro lado, a integração dessas bases de dados pode constituir um recurso indispensável e fundamental para a manipulação do enorme volume de dados disponível nesses ambientes e, assim, possibilitar a produção de informação e conhecimento relevantes, que contribuam para a melhoria da gestão em Saúde Pública. Acompanhar o seguimento de pacientes e comparar diferentes populações são outras importantes limitações das atuais bases de dados, uma vez que não há um identificador unívoco do paciente que possibilite executar tais tarefas. Esta Tese teve como objetivo a construção de um armazém de dados (data warehouse), a partir da análise de dez anos (período de 2000 a 2009) das principais bases de dados do SUS. Os métodos propostos para coleta, limpeza, padronização das estruturas dos bancos de dados, associação de registros ao paciente e integração dos sistemas de informação do SUS permitiram a identificação e o seguimento do paciente com sensibilidade de 99,68% e a especificidade de 97,94%. / The use of databases for epidemiologic studies, quality and quantity evaluation of health services have attracted the attention of researchers in the context of Public Health. In Brazil, the databases of the Sistema Único de Saúde (SUS) are examples of important repositories, which store fundamental information about health. However, despite of the advances in terms of load and public tools for research in those databases, such as TABWIN and TABNET, these resources do not use advanced techniques to produce management information as available in OLAP (On Line Analytical Processing) and data mining tools. The situation is drastically increased for the fact that data in public health, produced for different systems, are not integrated. This makes impossible to do research between different databases. As a consequence, the production of management information is a very difficult task. On the other hand, the integration of these databases can offer an important and fundamental resource to manipulate the enormous volume of data available in those environments and, in this way, to permit the production of relevant information and knowledge to improve the management of public health. The patient follow up and the comparison of different populations are other important limitations of the available databases, due to the absence of a common patient identifier. The objective of this Thesis was the construction of a data warehouse to analyze ten years (period from 2000 to 2009) of the principal databases of SUS. The proposed methods to load, clean, database structure standardization, patient record linkage and SUS information systems integration have been permitted patient identification and follow up with sensitivity of 99.6% and specificity of 97.94%. Armazém de dados Brazilian Public Healthcare Data mining Data warehouse Epidemiologic studies Estudos epidemiológicos Mineração de dados Record linkage Relacionamento de registros Sistema Único de Saúde
3	Ambiente para extração de informação epidemiológica a partir da mineração de dez anos de dados do Sistema Público de Saúde / Environment for epidemiological information extraction by data mining ten years of data from the health public system Fábio Antero Pires 22 September 2011 (has links) A utilização de bases de dados para estudos epidemiológicos, avaliação da qualidade e quantidade dos serviços de saúde vem despertando a atenção dos pesquisadores no contexto da Saúde Pública. No Brasil, as bases de dados do Sistema Único de Saúde (SUS) são exemplos de repositórios importantes que reúnem informações fundamentais sobre a Saúde. Entretanto, apesar dos avanços em termos de coleta e de ferramentas públicas para a pesquisa nessas bases de dados, tais como o TABWIN e o TABNET, esses recursos ainda não fazem uso de técnicas mais avançadas para a produção de informação gerencial, como as disponíveis em ferramentas OLAP (On Line Analytical Processing) e de mineração de dados. A situação é extremamente agravada pelo fato dos dados da Saúde Pública, produzidos por vários sistemas isolados, não estarem integrados, impossibilitando pesquisas entre diferentes bases de dados. Consequentemente, a produção de informação gerencial torna-se uma tarefa extremamente difícil. Por outro lado, a integração dessas bases de dados pode constituir um recurso indispensável e fundamental para a manipulação do enorme volume de dados disponível nesses ambientes e, assim, possibilitar a produção de informação e conhecimento relevantes, que contribuam para a melhoria da gestão em Saúde Pública. Acompanhar o seguimento de pacientes e comparar diferentes populações são outras importantes limitações das atuais bases de dados, uma vez que não há um identificador unívoco do paciente que possibilite executar tais tarefas. Esta Tese teve como objetivo a construção de um armazém de dados (data warehouse), a partir da análise de dez anos (período de 2000 a 2009) das principais bases de dados do SUS. Os métodos propostos para coleta, limpeza, padronização das estruturas dos bancos de dados, associação de registros ao paciente e integração dos sistemas de informação do SUS permitiram a identificação e o seguimento do paciente com sensibilidade de 99,68% e a especificidade de 97,94%. / The use of databases for epidemiologic studies, quality and quantity evaluation of health services have attracted the attention of researchers in the context of Public Health. In Brazil, the databases of the Sistema Único de Saúde (SUS) are examples of important repositories, which store fundamental information about health. However, despite of the advances in terms of load and public tools for research in those databases, such as TABWIN and TABNET, these resources do not use advanced techniques to produce management information as available in OLAP (On Line Analytical Processing) and data mining tools. The situation is drastically increased for the fact that data in public health, produced for different systems, are not integrated. This makes impossible to do research between different databases. As a consequence, the production of management information is a very difficult task. On the other hand, the integration of these databases can offer an important and fundamental resource to manipulate the enormous volume of data available in those environments and, in this way, to permit the production of relevant information and knowledge to improve the management of public health. The patient follow up and the comparison of different populations are other important limitations of the available databases, due to the absence of a common patient identifier. The objective of this Thesis was the construction of a data warehouse to analyze ten years (period from 2000 to 2009) of the principal databases of SUS. The proposed methods to load, clean, database structure standardization, patient record linkage and SUS information systems integration have been permitted patient identification and follow up with sensitivity of 99.6% and specificity of 97.94%. Armazém de dados Estudos epidemiológicos Mineração de dados Relacionamento de registros Sistema Único de Saúde Brazilian Public Healthcare Data mining Data warehouse Epidemiologic studies Record linkage

1

Page generated in 0.1049 seconds