Global ETD Search

11	Um estudo sobre qualidade de dados em biodiversidade: aplicação a um sistema de digitalização de ocorrências de espécies / A study about data quality in biodiversity: application to a species ocurrences digitization system Veiga, Allan Koch 09 February 2012 (has links) Para o combate da atual crise de sustentabilidade ambiental, diversos estudos sobre a biodiversidade e o meio ambiente têm sido realizados com o propósito de embasar estratégias eficientes de conservação e uso de recursos naturais. Esses estudos são fundamentados em avaliações e monitoramentos da biodiversidade que ocorrem por meio da coleta, armazenamento, análise, simulação, modelagem, visualização e intercâmbio de um volume expressivo de dados sobre a biodiversidade em amplo escopo temporal e espacial. Dados sobre ocorrências de espécies são um tipo de dado de biodiversidade particularmente importante, pois são amplamente utilizados em diversos estudos. Contudo, para que as análises e os modelos gerados a partir desses dados sejam confiáveis, os dados utilizados devem ser de alta qualidade. Assim, para melhorar a Qualidade de Dados (QD) sobre ocorrências de espécies, o objetivo deste trabalho foi realizar um estudo sobre QD aplicado a dados de ocorrências de espécies que permitisse avaliar e melhorar a QD por meio de técnicas e recursos de prevenção a erros. O estudo foi aplicado a um Sistema de Informação (SI) de digitalização de dados de ocorrências de espécies, o Biodiversity Data Digitizer (BDD), desenvolvido no âmbito dos projetos da Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) e BioAbelha FAPESP. Foi realizada uma revisão da literatura sobre dados de ocorrências de espécies e sobre os seus domínios de dados mais relevantes. Para os domínios de dados identificados como mais importantes (táxon, geoespacial e localização), foi realizado um estudo sobre a Avaliação da QD, no qual foi definido um conceito de QD em relação a cada domínio de dados por meio da identificação, definição e inter-relação de dimensões de QD (aspectos) importantes e de problemas que afetam essas dimensões. Embasado nesse estudo foram identificados recursos computacionais que permitissem melhorar a QD por meio da redução de erros. Utilizando uma abordagem de Gerenciamento da QD de prevenção a erros, foram identificados 13 recursos computacionais que auxiliam na prevenção de 8 problemas de QD, proporcionando, assim, uma melhoria da acurácia, precisão, completude, consistência, credibilidade da fonte e confiabilidade de dados taxonômicos, geoespaciais e de localização de ocorrências de espécies. Esses recursos foram implementados em duas ferramentas integradas ao BDD. A primeira é a BDD Taxon Tool. Essa ferramenta facilita a entrada de dados taxonômicos de ocorrências livres de erros por meio de, entre outros recursos, técnicas de fuzzy matching e sugestões de nomes e de hierarquias taxonômicas baseados no Catalog of Life. A segunda ferramenta, a BDD Geo Tool, auxilia o preenchimento de dados geoespaciais e de localização de ocorrências de espécies livres de erros por meio de técnicas de georeferenciamento a partir de descrição em linguagem natural da localização, de georeferenciamento reverso e de mapas interativos do Google Earth, entre outros recursos. Este trabalho demonstrou que com a implementação de determinados recursos computacionais em SI, problemas de QD podem ser reduzidos por meio da prevenção a erros. Como consequência, a QD em domínios de dados específicos é melhorada em relação a determinadas dimensões de QD. / For fighting the current environment sustainability crisis, several studies on biodiversity and the environment have been conducted in order to support efficient strategies for conservation and sustainable use of natural resources. These studies are based on assessment and monitoring of biodiversity that occur by means of the collection, storage, analysis, simulation, modeling, visualization and sharing of a significant volume of biodiversity data in broad temporal and spatial scale. Species occurrences data are a particularly important type of biodiversity data because they are widely used in various studies. Nevertheless, for the analyzing and modeling obtained from these data to be reliable, the data used must be high quality. Thus, to improve the Data Quality (DQ) of species occurrences, the aim of this work was to conduct a study about DQ applied to species occurrences data that allowed assessing and improving the DQ using techniques and resources to prevent errors. This study was applied to an Information System (IS) designed to digitize species occurrences, the Biodiversity Data Digitizer (BDD), that was developed in the scope of the Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) and BioAbelha FAPESP projects. A literature review about species occurrences data and about the most relevant data domains was conducted. For the most important data domains identified (taxon, geospatial and location), a study on the DQ Assessment was performed, in which important DQ dimensions (aspects) and problems that affect theses dimensions were identified, defined and interrelated. Based upon this study, computational resources were identified that would allow improving the DQ by reducing errors. Using the errors preventing DQ Management approach, 13 computing resources to support the prevention of 8 DQ problems were identified, thus providing an improvement of accuracy, precision, completeness, consistency, credibility of source and believability of taxonomic, geospatial and location data of species occurrences. These resources were implemented in two tools integrated to the BDD IS. The first tool is the BDD Taxon Tool. This tool facilitates the entrance of error-free taxonomic data of occurrences by means of fuzzy matching techniques and suggestions for taxonomic names and hierarchies based on Catalog of Life, among other resources. The second tool, the BDD Geo Tool, helps to fill in error-free geospatial and location data about species occurrence by means of georeferencing techniques from natural language description of location, reverse georeferencing and Google Earth interactive maps, among other resources. This work showed that with the development of certain computing resources integrated to an IS, DQ problems are reduced by preventing errors. As a result of reducing some problems in particular, the DQ in specific data domains is improved for certain DQ dimensions. Biodiversidade Biodiversity Biodiversity Informatics Data Quality Informática para Biodiversidade Information System Ocorrências de Espécies Qualidade de Dados Sistemas de Informação Species Occurrences
12	Avalia??o de qualidade de dados de m?tricas de esfor?o baseada em data provenance e fuzzy logic Berardi, Rita Cristina Galarraga 07 January 2009 (has links) Made available in DSpace on 2015-04-14T14:49:08Z (GMT). No. of bitstreams: 1 414772.pdf: 3624388 bytes, checksum: c10fabbfe10eccf72e794ff38d0dacb4 (MD5) Previous issue date: 2009-01-07 / Cada vez mais as organiza??es de software est?o preocupadas com melhoria do seu processo e consequentemente do seu produto. Para isso, as organiza??es utilizam modelos de maturidade, os quais indicam a coleta de m?tricas para o controle de seus processos. No entanto, o esfor?o com rela??o a essas m?tricas est? relacionado ? sua intensa coleta e utiliza??o e n?o ? dada a devida aten??o ? qualidade dos dados das mesmas. O impacto da falta de qualidade dos dados dessas m?tricas ? refletido diretamente nos custos da organiza??o visto que as m?tricas embasam o processo de tomada de decis?o o qual pode ser de baixa confiabilidade devido os seus dados de base tamb?m o serem. Uma avalia??o adequada da qualidade desses dados ? o primeiro passo para garantir que as m?tricas possam ser usadas com a devida confiabilidade. Uma abordagem que pode auxiliar essa avalia??o est? relacionada ao uso de data provenance (proveni?ncia de dados) associado a um mecanismo de infer?ncia l?gica. Este trabalho prop?e uma arquitetura para avalia??o da qualidade de dados de esfor?o composta por quatro principais componentes: 1-uma base de data provenance de m?tricas, 2-um modelo de infer?ncia baseado em fuzzy logic, 3-uma base de dados para armazenamento de avalia??es e 4- um modelo anal?tico para an?lise de hist?rico de qualidade de dados de esfor?o. A contribui??o deste trabalho ? prover uma avalia??o da qualidade dos dados de m?tricas de esfor?o em PDS, buscando evidenciar as raz?es da eventual baixa qualidade. Atrav?s do modelo de infer?ncia, ? poss?vel atribuir n?veis de qualidade aos dados possibilitando assim a identica??o daqueles que s?o efetivamente ?teis para um processo de tomada de decis?o confi?vel. Al?m disso, de acordo com seus n?veis de qualidade, os dados podem ser direcionados para diferentes tipos de acompanhamento do projeto, cujos n?veis de exig?ncia de qualidade podem ser distintos. INFORM?TICA QUALIDADE DE SOFTWARE L?GICA DIFUSA QUALIDADE DE DADOS (INFORM?TICA)
13	Qualificação e imputação de dados sobre satisfação de hipertensos cadastrados na estratégia saúde da família / Eligibility and imputation of data on satisfaction of hypertensive registered in the Family Health Strategy. Moreira, Raquel de Negreiros 24 February 2012 (has links) Made available in DSpace on 2015-05-14T12:47:12Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2080872 bytes, checksum: 97ca6e77578ad42b13570272cbc34e7e (MD5) Previous issue date: 2012-02-24 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The quality of information has been of particular interest in health. It is known that the incompleteness of information is a very common problem in information systems and epidemiological studies. Thus, it has been imputation as a solution of the missing data, which are created artificially complete set of data subject to statistical analysis. This study aimed to analyze the data quality HIPERDIA items on satisfaction and hypertensive patients of the Family Health Strategy in the city of João Pessoa / PB on the service and the use of imputation methods for missing data. Secondary data were obtained from duplicate HIPERDIA, the hypertensive patients enrolled between 2006/2007 in 36 family health teams, resulting in a representative sample of 343 users in the city of João Pessoa / PB. As a primary source was constructed an instrument consisting of eight core dimensions of primary care, measured on Likert scale ranging from "0" to "5". The techniques were applied to the method of Single Imputation: Replacement for Central Value Trend (TC), Hot Deck, Estimated Maximum Likelihood (MV) and Multinomial Logistic Regression (RLM), were compared using the percentage of correct answers, average error square (RMSE) and mean absolute percentage error (MAPE). Was built to simulate two different scenarios sample with different proportions of missing data (5%, 10%, 15%, 30% and 40%). The comparison of the allocation methods, for variable setting with a type having overlapping response to the other, the method was that TC gave better performance, followed by the method of RLM. For the scenario with homogeneous frequency response, the best method was to RLM. The study has demonstrated that there are still errors in the completion of HIPERDIA and that allowed us to recover the imputation characteristics of the representation of the original data, verifying that the imputation methods adopted brought reliability and reduction of bias in the sample proportions of up to 40% of missing data. / A qualidade das informações tem sido objeto de interesse particularmente na área da saúde. Sabe-se que a incompletude de informações é um problema muito comum nos sistemas de informação e em estudos epidemiológicos. Desta forma, tem-se como solução a imputação de dados, onde são criados conjunto de dados artificialmente completos passíveis de análise estatística. Esse estudo objetivou analisar a qualidade dos dados do HIPERDIA e dos itens sobre satisfação de usuários hipertensos da Estratégia Saúde da Família no município de João Pessoa/PB sobre o serviço e o uso de métodos de imputação para dados faltantes. Os dados secundários foram obtidos da segunda via do HIPERDIA, dos hipertensos cadastrados entre 2006/2007 em 36 equipes de Saúde da Família, resultando numa amostra representativa de 343 usuários do município de João Pessoa/PB. Como fonte primária foi construído um instrumento composto por 8 dimensões essenciais da atenção básica, mensurados na Escala de Likert variando de 0 a 5 . As técnicas foram aplicadas para o método de Imputação Única: Substituição por um Valor de Tendência Central (TC), Hot Deck, Estimativa de Máxima Verossimilhança (MV) e Regressão Logística Multinomial (RLM), sendo comparados através do percentual de acerto, erro médio quadrado (RMSE) e erro percentual médio absoluto (MAPE). Foi construída a simulação de dois cenários amostrais distintos com diferentes proporções de dados faltantes (5%,10%, 15%, 30% e 40%). Na comparação dos métodos de imputação, para cenário com variável apresentando um tipo de resposta sobrepondo às outras, o método de TC foi o que obteve melhor performance, seguido do método de RLM. Para o cenário com homogeneidade de frequencia de respostas, o melhor método foi o de RLM. O estudo permitiu demonstrar que ainda existem falhas no preenchimento do HIPERDIA e que a imputação permitiu resgatar as características da representação dos dados originais, verificando que os métodos de imputação adotados trouxeram fidedignidade e diminuição de vieses na amostra para proporções de até 40% de dados faltantes. hipertensão Hiperdia Qualidade dos dados Falta de dados Imputação Hypertension Data quality Missing data Imputation CIENCIAS DA SAUDE::SAUDE COLETIVA
14	Sistema Nacional de Informações Tóxico-Farmacológicas: o desafio da padronização dos dados Santana, Rosane Abdala Lins de January 2005 (has links) Submitted by Frederico Azevedo (fazevedo@cdts.fiocruz.br) on 2010-11-11T11:51:50Z No. of bitstreams: 1 Dissertação Rosane Abdala.pdf: 817833 bytes, checksum: d9e4285465ac47138c85adec6c0c948e (MD5) / Made available in DSpace on 2010-11-11T11:51:50Z (GMT). No. of bitstreams: 1 Dissertação Rosane Abdala.pdf: 817833 bytes, checksum: d9e4285465ac47138c85adec6c0c948e (MD5) Previous issue date: 2005 / No Brasil, como no resto do mundo, a incidência de intoxicações e envenenamentos constitui um grave problema de saúde pública. Especialmente para esse segmento, a importância de se dispor, a tempo e a hora, de informações fidedignas é condição primordial para se traçar estratégias eficazes e efetivas de vigilância epidemiológica e sanitária. “Qualidade dos dados”, com toda a complexidade envolvida no conceito, passa então a ocupar lugar de destaque na agenda das políticas públicas, inclusive para o Brasil. Para investigar uma faceta da qualidade dos dados sobre intoxicações e envenenamentos no país, o foco do presente estudo está centrado nos Centros de Informação e Assistência Toxicológica, uma das principais fontes para notificação e registro de tais casos, os quais fornecem dados que são consolidados pelo Sistema Nacional de Informações Tóxico- Farmacológicas – SINITOX. Partindo do pressuposto que a padronização é uma das principais variáveis que impactam a qualidade dos dados coletados pelo SINITOX, o estudo visa analisar a maneira como esses Centros interpretam e registram cada um dos eventos a eles notificados, dentro de uma abordagem metodológica que buscou ressaltar a importância da padronização nos processos de registro dos casos. Os resultados apontam para o baixo grau de padronização dos dados que chegam ao SINITOX, ressaltando a importância de se desenhar estratégias que minimizem tal problema, contribuindo assim para minimizar as ocorrências deste agravo à saúde em nossa sociedade. / In Brazil, as in the rest of the world, human poisoning constitutes a serious problem of public health. Readily available and reliable information in this field are essential to the full implementation of epidemiological and sanitary surveillance and to establish efficient and effective strategies of control. The continuous improvement of data quality and consistency ─ no doubt, a permanent challenge ─ has a key role in the definition of sound public policies. To assess the accuracy of Brazilian data on human poisonings, the present study explores data from a network of Toxicological Information and Assistance Centers, one of the main sources of such data in Brazil. Data are consolidated by the National Poison Information System – SINITOX. Assuming that standardization is one of the main procedures that influence the quality of the data collected and analyzed by SINITOX, the study assesses the operations of the Centers affiliated to the SINITOX carry out to interpret and register the events reported to them. A detailed case study highlights the procedures used to standardize case reports. Our findings made evident an insufficient degree of standardization of data received by SINITOX. We emphasize the need to design strategies to improve standardization, aiming to develop a reliable system and to minimize the harms associated to human poisoning in Brazil. Informação para tomada de decisão Qualidade dos dados Padronização Intoxicação e envenenamento Informed decisions Data quality Standardization Human poisoning
15	Reduzindo custos da deduplicação de dados utilizando heurísticas e computação em nuvem. NASCIMENTO FILHO, Dimas Cassimiro do. 02 May 2018 (has links) Submitted by Lucienne Costa (lucienneferreira@ufcg.edu.br) on 2018-05-02T21:20:23Z No. of bitstreams: 1 DIMAS CASSIMIRO DO NASCIMENTO FILHO – TESE (PPGCC) 2017.pdf: 1879329 bytes, checksum: bda72914ec66d17611d9d0ab5b9ec6d5 (MD5) / Made available in DSpace on 2018-05-02T21:20:23Z (GMT). No. of bitstreams: 1 DIMAS CASSIMIRO DO NASCIMENTO FILHO – TESE (PPGCC) 2017.pdf: 1879329 bytes, checksum: bda72914ec66d17611d9d0ab5b9ec6d5 (MD5) Previous issue date: 2017-11-10 / Na era de Big Data, na qual a escala dos dados provê inúmeros desafios para algoritmos clássicos, a tarefa de avaliar a qualidade dos dados pode se tornar custosa e apresentar tempos de execução elevados. Por este motivo, gerentes de negócio podem optar por terceirizar o monitoramento da qualidade de bancos de dados para um serviço específico, usualmente baseado em computação em nuvem. Neste contexto, este trabalho propõe abordagens para redução de custos da tarefa de deduplicação de dados, a qual visa detectar entidades duplicadas em bases de dados, no contexto de um serviço de qualidade de dados em nuvem. O trabalho tem como foco a tarefa de deduplicação de dados devido a sua importância em diversos contextos e sua elevada complexidade. É proposta a arquitetura em alto nível de um serviço de monitoramento de qualidade de dados que emprega o provisionamento dinâmico de recursos computacionais por meio da utilização de heurísticas e técnicas de aprendizado de máquina. Além disso, são propostas abordagens para a adoção de algoritmos incrementais de deduplicação de dados e controle do tamanho de blocos gerados na etapa de indexação do problema investigado. Foram conduzidos quatro experimentos diferentes visando avaliar a eficácia dos algoritmos de provisionamento de recursos propostos e das heurísticas empregadas no contexto de algoritmos incrementais de deduplicação de dados e de controle de tamanho dos blocos. Os resultados dos experimentos apresentam uma gama de opções englobando diferentes relações de custo e benefício, envolvendo principalmente: custo de infraestrutura do serviço e quantidade de violações de SLA ao longo do tempo. Outrossim, a avaliação empírica das heurísticas propostas para o problema de deduplicação incremental de dados também apresentou uma série de padrões nos resultados, envolvendo principalmente o tempo de execução das heurísticas e os resultados de eficácia produzidos. Por fim, foram avaliadas diversas heurísticas para controlar o tamanho dos blocos produzidos em uma tarefa de deduplicação de dados, cujos resultados de eficácia são bastante influenciados pelos valores dos parâmetros empregados. Além disso, as heurísticas apresentaram resultados de eficiência que variam significativamente, dependendo da estratégia de poda de blocos adotada. Os resultados dos quatro experimentos conduzidos apresentam suporte para demonstrar que diferentes estratégias (associadas ao provisionamento de recursos computacionais e aos algoritmos de qualidade de dados) adotadas por um serviço de qualidade de dados podem influenciar significativamente nos custos do serviço e, consequentemente, os custos repassados aos usuários do serviço. / In the era of Big Data, in which the scale of the data provides many challenges for classical algorithms, the task of assessing the quality of datasets may become costly and complex. For this reason, business managers may opt to outsource the data quality monitoring for a specific cloud service for this purpose. In this context, this work proposes approaches for reducing the costs generated from solutions for the data deduplication problem, which aims to detect duplicate entities in datasets, in the context of a service for data quality monitoring. This work investigates the deduplication task due to its importance in a variety of contexts and its high complexity. We propose a high-level architecture of a service for data quality monitoring, which employs provisioning algorithms that use heuristics and machine learning techniques. Furthermore, we propose approaches for the adoption of incremental data quality algorithms and heuristics for controlling the size of the blocks produced in the indexing phase of the investigated problem. Four different experiments have been conducted to evaluate the effectiveness of the proposed provisioning algorithms, the heuristics for incremental record linkage and the heuristics to control block sizes for entity resolution. The results of the experiments show a range of options covering different tradeoffs, which involves: infrastructure costs of the service and the amount of SLA violations over time. In turn, the empirical evaluation of the proposed heuristics for incremental record linkage also presented a number of patterns in the results, which involves tradeoffs between the runtime of the heuristics and the obtained efficacy results. Lastly, the evaluation of the heuristics proposed to control block sizes have presented a large number of tradeoffs regarding execution time, amount of pruning approaches and the obtained efficacy results. Besides, the efficiency results of these heuristics may vary significantly, depending of the adopted pruning strategy. The results from the conducted experiments support the fact that different approaches (associated with cloud computing provisioning and the employed data quality algorithms) adopted by a data quality service may produce significant influence over the generated service costs, and thus, the final costs forwarded to the service customers. Ciências Ciência da Computação Qualidade de Dados Deduplicação de Dados Big Data Computação em Nuvem Heurísticas Data Quality Deduplication Cloud Computing Heuristics
16	Um estudo sobre qualidade de dados em biodiversidade: aplicação a um sistema de digitalização de ocorrências de espécies / A study about data quality in biodiversity: application to a species ocurrences digitization system Allan Koch Veiga 09 February 2012 (has links) Para o combate da atual crise de sustentabilidade ambiental, diversos estudos sobre a biodiversidade e o meio ambiente têm sido realizados com o propósito de embasar estratégias eficientes de conservação e uso de recursos naturais. Esses estudos são fundamentados em avaliações e monitoramentos da biodiversidade que ocorrem por meio da coleta, armazenamento, análise, simulação, modelagem, visualização e intercâmbio de um volume expressivo de dados sobre a biodiversidade em amplo escopo temporal e espacial. Dados sobre ocorrências de espécies são um tipo de dado de biodiversidade particularmente importante, pois são amplamente utilizados em diversos estudos. Contudo, para que as análises e os modelos gerados a partir desses dados sejam confiáveis, os dados utilizados devem ser de alta qualidade. Assim, para melhorar a Qualidade de Dados (QD) sobre ocorrências de espécies, o objetivo deste trabalho foi realizar um estudo sobre QD aplicado a dados de ocorrências de espécies que permitisse avaliar e melhorar a QD por meio de técnicas e recursos de prevenção a erros. O estudo foi aplicado a um Sistema de Informação (SI) de digitalização de dados de ocorrências de espécies, o Biodiversity Data Digitizer (BDD), desenvolvido no âmbito dos projetos da Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) e BioAbelha FAPESP. Foi realizada uma revisão da literatura sobre dados de ocorrências de espécies e sobre os seus domínios de dados mais relevantes. Para os domínios de dados identificados como mais importantes (táxon, geoespacial e localização), foi realizado um estudo sobre a Avaliação da QD, no qual foi definido um conceito de QD em relação a cada domínio de dados por meio da identificação, definição e inter-relação de dimensões de QD (aspectos) importantes e de problemas que afetam essas dimensões. Embasado nesse estudo foram identificados recursos computacionais que permitissem melhorar a QD por meio da redução de erros. Utilizando uma abordagem de Gerenciamento da QD de prevenção a erros, foram identificados 13 recursos computacionais que auxiliam na prevenção de 8 problemas de QD, proporcionando, assim, uma melhoria da acurácia, precisão, completude, consistência, credibilidade da fonte e confiabilidade de dados taxonômicos, geoespaciais e de localização de ocorrências de espécies. Esses recursos foram implementados em duas ferramentas integradas ao BDD. A primeira é a BDD Taxon Tool. Essa ferramenta facilita a entrada de dados taxonômicos de ocorrências livres de erros por meio de, entre outros recursos, técnicas de fuzzy matching e sugestões de nomes e de hierarquias taxonômicas baseados no Catalog of Life. A segunda ferramenta, a BDD Geo Tool, auxilia o preenchimento de dados geoespaciais e de localização de ocorrências de espécies livres de erros por meio de técnicas de georeferenciamento a partir de descrição em linguagem natural da localização, de georeferenciamento reverso e de mapas interativos do Google Earth, entre outros recursos. Este trabalho demonstrou que com a implementação de determinados recursos computacionais em SI, problemas de QD podem ser reduzidos por meio da prevenção a erros. Como consequência, a QD em domínios de dados específicos é melhorada em relação a determinadas dimensões de QD. / For fighting the current environment sustainability crisis, several studies on biodiversity and the environment have been conducted in order to support efficient strategies for conservation and sustainable use of natural resources. These studies are based on assessment and monitoring of biodiversity that occur by means of the collection, storage, analysis, simulation, modeling, visualization and sharing of a significant volume of biodiversity data in broad temporal and spatial scale. Species occurrences data are a particularly important type of biodiversity data because they are widely used in various studies. Nevertheless, for the analyzing and modeling obtained from these data to be reliable, the data used must be high quality. Thus, to improve the Data Quality (DQ) of species occurrences, the aim of this work was to conduct a study about DQ applied to species occurrences data that allowed assessing and improving the DQ using techniques and resources to prevent errors. This study was applied to an Information System (IS) designed to digitize species occurrences, the Biodiversity Data Digitizer (BDD), that was developed in the scope of the Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) and BioAbelha FAPESP projects. A literature review about species occurrences data and about the most relevant data domains was conducted. For the most important data domains identified (taxon, geospatial and location), a study on the DQ Assessment was performed, in which important DQ dimensions (aspects) and problems that affect theses dimensions were identified, defined and interrelated. Based upon this study, computational resources were identified that would allow improving the DQ by reducing errors. Using the errors preventing DQ Management approach, 13 computing resources to support the prevention of 8 DQ problems were identified, thus providing an improvement of accuracy, precision, completeness, consistency, credibility of source and believability of taxonomic, geospatial and location data of species occurrences. These resources were implemented in two tools integrated to the BDD IS. The first tool is the BDD Taxon Tool. This tool facilitates the entrance of error-free taxonomic data of occurrences by means of fuzzy matching techniques and suggestions for taxonomic names and hierarchies based on Catalog of Life, among other resources. The second tool, the BDD Geo Tool, helps to fill in error-free geospatial and location data about species occurrence by means of georeferencing techniques from natural language description of location, reverse georeferencing and Google Earth interactive maps, among other resources. This work showed that with the development of certain computing resources integrated to an IS, DQ problems are reduced by preventing errors. As a result of reducing some problems in particular, the DQ in specific data domains is improved for certain DQ dimensions. Biodiversidade Informática para Biodiversidade Ocorrências de Espécies Qualidade de Dados Sistemas de Informação Biodiversity Biodiversity Informatics Data Quality Information System Species Occurrences
17	Análise e avaliação do controle de qualidade de dados hospitalares na região de Ribeirão Preto / Analysis and evaluation of the quality control of hospital data in the Ribeirão Preto region. Vinci, André Luiz Teixeira 08 April 2015 (has links) Introdução: A Qualidade de Dados é de extrema importância atualmente pela crescente utilização de sistemas de informação, em especial na área da Saúde. O Observatório Regional de Atenção Hospitalar (ORAH) é tido como referência na coleta, processamento e manutenção da qualidade de informações hospitalares devida a extensa base de dados de informações oriundas das Folhas de Alta Hospitalar de hospitais públicos, mistos e privados da região de Ribeirão Preto. Uma verificação sistemática é feita para melhorar a qualidade desses dados impedindo a existência de incompletudes e inconsistências ao final do seu processamento. Objetivo: Estabelecer o panorama da qualidade dos dados das altas hospitalares ocorridas em 2012 para cada hospital parceiro do ORAH na região de Ribeirão Preto. Analisar e identificar o ganho ou perda de qualidade durante as etapas de coleta e processamento dos mesmos. Métodos: Análise do fluxo das informações dentro dos hospitais conveniados ao ORAH em conjunto com a análise da qualidade dos dados armazenados pelo ORAH após seu processamento, a partir da criação de indicadores de completude e consistência. Avaliação da qualidade dos dados em cada etapa do protocolo interno de verificação adotado pelo ORAH, a partir da criação de indicadores de qualidade específicos. Por fim, avaliação da concordância entre as informações de uma amostra das Folha de Alta registradas no ORAH e o Prontuário Médico do Paciente por meio da mensuração da sensibilidade, especificidade e acurácia da amostra. Resultados: Um panorama com foco na produção dos dados dos pacientes e nível de informatização foi elaborado para os hospitais complementarmente a análise de qualidade dos dados do ORAH. Tal análise constatou coeficientes médios de 99,6% de completude e 99,5% de consistência e um percentual de preenchimento acima de 99,2% para todos os campos da Folha de Alta. Por meio do indicador de qualidade elaborado a partir das comparações das dimensões de completude e consistência entre etapas do processamento dos dados pelo ORAH, foi possível averiguar a manutenção na qualidade das informações pela execução dos protocolos de validação e consistência adotados. Entretanto, com a apreciação entre as etapas da dimensão de volatilidade dos valores contidos nos campos, foi possível confirmar e quantificar a ocorrência de mudanças dos campos. A exatidão dos dados presentes na Folha de Alta com os do Prontuário do Paciente também pode ser comprovada pelas altas sensibilidade (99,0%; IC95% 98,8% - 99,2%), especificidade (97,9%; IC95% 97,5% - 98,2%) e acurácia (96,3%; IC95% 96,0% - 96,6%) encontradas na amostra. Conclusão: Como consequência de todas essas análises, foi possível comprovar a excelência da qualidade das informações disponibilizadas pelo ORAH, estabelecer uma metodologia abrangente para a análise dessa qualidade e definir possíveis problemas a serem enfrentados para a constante melhoria da qualidade das informações presentes na Folha de Alta Hospitalar e no banco de dados do ORAH por completo. / Introduction: The Data Quality is of utmost importance nowadays due the increasing use of information systems, especially in healthcare. The Regional Health Care Observatory (ORAH) is considered as reference in gathering, processing and maintaining the quality of hospital data due to the extensive database of information derived from the hospital discharge sheets of public, mixed and private hospitals. A systematic verification of those data is made to improve their data quality preventing the existence of incompleteness and inconsistencies at the end in their processing. Aim: Establish the overall picture of the data quality of hospital discharge sheets occurred in 2012 for each partner hospital in the Ribeirão Preto region. Analyze and identify the quality gain or loss during the gathering and processing stages of the data by the ORAH. Methods: Analysis of the information flow within the hospitals in partnership with the ORAH together with the analysis of the quality of the data stored by ORAH after its processing through the creation of completeness and consistency indicators. Data quality assessment at each stage of the internal protocol checking adopted by the ORAH through the establishment of specific quality indicators. Finally, evaluation of the agreement between the information in a sample of the hospital discharge sheets recorded in the ORAH and the patient medical records by measuring the sensitivity, specificity and accuracy of the sample. Results: Na overall picture focused on the patient data and the informatization level was developed for the hospitals in complement of the analysis of ORAHs data quality. This analysis found 99.6% completeness and 99.5% consistency mean rates and a completion percentage above 99.2% for all the fields of the discharge. Through the data quality indicator created from the comparisons of the completeness and consistency dimensions between the data processing steps of the ORAH was possible to verify the maintenance of the information quality by the implementation of validation and consistency protocols in use by the ORAH staff. However, with the assessment between the steps of the volatility dimension of the values contained in the fields, was possible to confirm and quantify the occurrence of changes in the fields. The agreement between the data in the hospital discharge sheets and the patient health record data can be proven by the high sensitivity (99.0%; CI95% 98.8% - 99.2%), specificity (97.9%; CI95% 97.5% - 98.2%) and accuracy (96.3%; CI95% 96.0% - 96.6%) found in the sample. Conclusion: As a result of all these analyzes, was possible to prove the excellence of the quality of the information provided by the ORAH, establish a comprehensive methodology for the analysis of this quality and identify possible problems to be addressed further improve the quality of information in the hospital discharge sheet and the ORAH database altogether. Data Quality Folha de Alta Hospitalar Health Information Systems Hospital Discharge Sheet Public Health Qualidade de Dados Saúde Coletiva Sistemas de Informação em Saúde
18	Análise e avaliação do controle de qualidade de dados hospitalares na região de Ribeirão Preto / Analysis and evaluation of the quality control of hospital data in the Ribeirão Preto region. André Luiz Teixeira Vinci 08 April 2015 (has links) Introdução: A Qualidade de Dados é de extrema importância atualmente pela crescente utilização de sistemas de informação, em especial na área da Saúde. O Observatório Regional de Atenção Hospitalar (ORAH) é tido como referência na coleta, processamento e manutenção da qualidade de informações hospitalares devida a extensa base de dados de informações oriundas das Folhas de Alta Hospitalar de hospitais públicos, mistos e privados da região de Ribeirão Preto. Uma verificação sistemática é feita para melhorar a qualidade desses dados impedindo a existência de incompletudes e inconsistências ao final do seu processamento. Objetivo: Estabelecer o panorama da qualidade dos dados das altas hospitalares ocorridas em 2012 para cada hospital parceiro do ORAH na região de Ribeirão Preto. Analisar e identificar o ganho ou perda de qualidade durante as etapas de coleta e processamento dos mesmos. Métodos: Análise do fluxo das informações dentro dos hospitais conveniados ao ORAH em conjunto com a análise da qualidade dos dados armazenados pelo ORAH após seu processamento, a partir da criação de indicadores de completude e consistência. Avaliação da qualidade dos dados em cada etapa do protocolo interno de verificação adotado pelo ORAH, a partir da criação de indicadores de qualidade específicos. Por fim, avaliação da concordância entre as informações de uma amostra das Folha de Alta registradas no ORAH e o Prontuário Médico do Paciente por meio da mensuração da sensibilidade, especificidade e acurácia da amostra. Resultados: Um panorama com foco na produção dos dados dos pacientes e nível de informatização foi elaborado para os hospitais complementarmente a análise de qualidade dos dados do ORAH. Tal análise constatou coeficientes médios de 99,6% de completude e 99,5% de consistência e um percentual de preenchimento acima de 99,2% para todos os campos da Folha de Alta. Por meio do indicador de qualidade elaborado a partir das comparações das dimensões de completude e consistência entre etapas do processamento dos dados pelo ORAH, foi possível averiguar a manutenção na qualidade das informações pela execução dos protocolos de validação e consistência adotados. Entretanto, com a apreciação entre as etapas da dimensão de volatilidade dos valores contidos nos campos, foi possível confirmar e quantificar a ocorrência de mudanças dos campos. A exatidão dos dados presentes na Folha de Alta com os do Prontuário do Paciente também pode ser comprovada pelas altas sensibilidade (99,0%; IC95% 98,8% - 99,2%), especificidade (97,9%; IC95% 97,5% - 98,2%) e acurácia (96,3%; IC95% 96,0% - 96,6%) encontradas na amostra. Conclusão: Como consequência de todas essas análises, foi possível comprovar a excelência da qualidade das informações disponibilizadas pelo ORAH, estabelecer uma metodologia abrangente para a análise dessa qualidade e definir possíveis problemas a serem enfrentados para a constante melhoria da qualidade das informações presentes na Folha de Alta Hospitalar e no banco de dados do ORAH por completo. / Introduction: The Data Quality is of utmost importance nowadays due the increasing use of information systems, especially in healthcare. The Regional Health Care Observatory (ORAH) is considered as reference in gathering, processing and maintaining the quality of hospital data due to the extensive database of information derived from the hospital discharge sheets of public, mixed and private hospitals. A systematic verification of those data is made to improve their data quality preventing the existence of incompleteness and inconsistencies at the end in their processing. Aim: Establish the overall picture of the data quality of hospital discharge sheets occurred in 2012 for each partner hospital in the Ribeirão Preto region. Analyze and identify the quality gain or loss during the gathering and processing stages of the data by the ORAH. Methods: Analysis of the information flow within the hospitals in partnership with the ORAH together with the analysis of the quality of the data stored by ORAH after its processing through the creation of completeness and consistency indicators. Data quality assessment at each stage of the internal protocol checking adopted by the ORAH through the establishment of specific quality indicators. Finally, evaluation of the agreement between the information in a sample of the hospital discharge sheets recorded in the ORAH and the patient medical records by measuring the sensitivity, specificity and accuracy of the sample. Results: Na overall picture focused on the patient data and the informatization level was developed for the hospitals in complement of the analysis of ORAHs data quality. This analysis found 99.6% completeness and 99.5% consistency mean rates and a completion percentage above 99.2% for all the fields of the discharge. Through the data quality indicator created from the comparisons of the completeness and consistency dimensions between the data processing steps of the ORAH was possible to verify the maintenance of the information quality by the implementation of validation and consistency protocols in use by the ORAH staff. However, with the assessment between the steps of the volatility dimension of the values contained in the fields, was possible to confirm and quantify the occurrence of changes in the fields. The agreement between the data in the hospital discharge sheets and the patient health record data can be proven by the high sensitivity (99.0%; CI95% 98.8% - 99.2%), specificity (97.9%; CI95% 97.5% - 98.2%) and accuracy (96.3%; CI95% 96.0% - 96.6%) found in the sample. Conclusion: As a result of all these analyzes, was possible to prove the excellence of the quality of the information provided by the ORAH, establish a comprehensive methodology for the analysis of this quality and identify possible problems to be addressed further improve the quality of information in the hospital discharge sheet and the ORAH database altogether. Folha de Alta Hospitalar Qualidade de Dados Saúde Coletiva Sistemas de Informação em Saúde Data Quality Health Information Systems Hospital Discharge Sheet Public Health
19	Desenvolvimento de um método tentativo para a melhoria da acuridade de dados de um sistema de programação da produção – um estudo de caso em uma empresa do setor de alimentos cárneos Rücker, Eduardo Scherer 27 February 2009 (has links) Made available in DSpace on 2015-03-05T17:04:35Z (GMT). No. of bitstreams: 0 Previous issue date: 27 / Nenhuma / O presente estudo teve como objetivo o desenvolvimento de um método tentativo para a melhoria da acuracidade dos dados de um sistema específico de programação da produção para a indústria cárnea. A proposição baseou-se no projeto de implementação da referida ferramenta na Empresa Alfa, a qual produz alimentos a base de frangos, perus e suínos. O método de pesquisa utilizado foi um estudo de caso, por meio do qual se relatou e se analisou a influência da acuracidade dos dados sobre as informações geradas pelo sistema durante o projeto. O desenvolvimento do método proposto baseou-se no referencial teórico sobre programação da produção, qualidade de dados e qualidade de informações; nas percepções do autor acerca da participação do mesmo no projeto onde se aplicou o estudo de caso; e nas contribuições de especialistas na temática do trabalho. A partir disso, estruturou-se o método tentativo por meio de processos e subprocessos, hierarquização que possibilitou a execução dos objetivos de cada processo em relação / This study aims to develop a tentative method for improving the data accuracy of a specific production scheduling software for the meat industry. The proposition was based on the project phase of the implementation of a tool in Empresa Alfa, which produces food based on chickens, turkeys and porks. The research method used was a case study, by means of which it is reported and analyzed the influence of data accuracy on the information generated by the system during the project. The development of the proposed method was based on the theoretical framework on production scheduling, data quality and information quality, the author's perceptions about the same project which was applied in the case study and the contributions of experts in the thematic of the work. From this, the tentative method was structured by means of processes and subprocesses, hierarchy that enabled the implementation of the objectives of each process regarding the data accuracy in stages (subprocesses). At the end of the study, the autor c Engenharias indústria cárnea programação da produção qualidade de dados qualidade de informações acuracidade de dados data quality information quality meat food industry production scheduling data accuracy
20	Aplicação de princípios de qualidade de dados durante o desenvolvimento de um sistema computacional médico para a cirurgia coloproctológica / Application of data quality principles in the development of a computacional medical system for coloproctology surgery Jung, Wilson 25 April 2012 (has links) Made available in DSpace on 2017-07-10T17:11:51Z (GMT). No. of bitstreams: 1 WILSON JUNG.pdf: 3777203 bytes, checksum: 02dd354bc8c0d25187fd3960d5d56152 (MD5) Previous issue date: 2012-04-25 / Lately, many human knowledge ﬁelds use computer systems to support data management which are the foundation to the decision making process. Data Quality (DQ) is a key feature whose absence can undermine the usefulness of the information and the processes that use it. There can be found in the literature several cases of DQ problems with impact in many areas, resulting in economic and social losses. Therefore, DQ research aims to study data problems causes and proposes assessment methods and processes to assist in quality assurance. In healthcare, data constitutes an important element used as the basis for applying medical treatments and procedures to patients, thus requiring a high quality level. The data is also used in the research and application of computational knowledge discovery methods, such as Data Mining. Therefore, the goal of this work is to study the implementation of principles to assist DQ guarantee during the medical software development. This goal motivated the development of a case study related to Coloproctology, in which a surgery data management system prototype was de- veloped in partnership with the Coloproctology Service of FCM - UNICAMP. The interaction with domain experts was a key factor during the development process, providing the adequate data structure modeling that composes the system. A module to monitor speciﬁc data problems has also been incorporated into the prototype to assist the appropriate information insertion as much as the control of patients records which have DQ problems. The prototype has been evaluated by computer and healthcare s colaborators, who, after using the system, answered to a qualitative DQ assessment form. The assessment s results pointed out the prototype suitability to the activities it is aimed for, guided speciﬁc functionalities review and may support the proposed software evolution and future related work. / Atualmente, diversas áreas do conhecimento humano fazem uso de sistemas computacionais para auxiliar no gerenciamento de dados, que são a base para o processo de tomada de decisão. A Qualidade de Dados (QD) constitui uma característica fundamental cuja ausência pode comprometer a utilidade da informação e os processos que a utilizam. Na literatura são apresentados diversos casos que relatam o impacto de problemas de QD nas mais diversas áreas, represen- tando perdas econômicas e sociais. Assim, a área de QD visa o estudo das causas de problemas nos dados e a proposição de métodos de avaliação e processos que auxiliem na garantia da qualidade. Na área da saúde os dados constituem elementos importantes que são utilizados como base para a aplicação de tratamentos e procedimentos médicos aos pacientes, fatores que exigem um nível elevado de qualidade. Esses dados também são utilizados em pesquisas e aplicações de métodos computacionais de extração de conhecimento, como a Mineração de Dados. Assim, o objetivo deste trabalho consiste em estudar a aplicação de princípios que auxiliem na garantia da QD durante o desenvolvimento de um sistema computacional médico. Tal objetivo motivou a realização de um estudo de caso relacionado à especialidade da Coloproctologia, no qual foi desenvolvido o protótipo de um sistema para gerenciamento de dados de cirurgia coloproctológica em parceria com o Serviço de Coloproctologia da FCM - UNICAMP. A interação com os especialistas de domínio constituiu um fator fundamental durante o processo de desenvolvimento, possibilitando a modelagem adequada da estrutura dos dados que forma o sistema. Também foi incorporado ao protótipo um módulo para monitoramento de problemas especíﬁcos nos dados, auxiliando tanto no preenchimento adequado da informação quanto no controle dos registros de pacientes que apresentam problemas de QD. Ao ﬁnal, o protótipo foi subme- tido à avaliação por colaboradores da área da computação e da saúde, que após a utilização do sistema responderam a um formulário para avaliação qualitativa de QD. Os resultados da avaliação indicaram a adequação do protótipo para as atividades a que é destinado, orientaram para a revisão de funcionalidades especíﬁcas e poderão auxiliar na evolução do sistema proposto e em trabalhos futuros. Qualidade de Dados Informática Biomédica Sistemas de Informação Mineração de Dados Dados Médicos Data Quality Biomedical Informatics Information Systems Data Mining Medical Data

Search results