Global ETD Search

1	Aplicação de princípios de qualidade de dados durante o desenvolvimento de um sistema computacional médico para a cirurgia coloproctológica / Application of data quality principles in the development of a computacional medical system for coloproctology surgery Jung, Wilson 25 April 2012 (has links) Made available in DSpace on 2017-07-10T17:11:51Z (GMT). No. of bitstreams: 1 WILSON JUNG.pdf: 3777203 bytes, checksum: 02dd354bc8c0d25187fd3960d5d56152 (MD5) Previous issue date: 2012-04-25 / Lately, many human knowledge ﬁelds use computer systems to support data management which are the foundation to the decision making process. Data Quality (DQ) is a key feature whose absence can undermine the usefulness of the information and the processes that use it. There can be found in the literature several cases of DQ problems with impact in many areas, resulting in economic and social losses. Therefore, DQ research aims to study data problems causes and proposes assessment methods and processes to assist in quality assurance. In healthcare, data constitutes an important element used as the basis for applying medical treatments and procedures to patients, thus requiring a high quality level. The data is also used in the research and application of computational knowledge discovery methods, such as Data Mining. Therefore, the goal of this work is to study the implementation of principles to assist DQ guarantee during the medical software development. This goal motivated the development of a case study related to Coloproctology, in which a surgery data management system prototype was de- veloped in partnership with the Coloproctology Service of FCM - UNICAMP. The interaction with domain experts was a key factor during the development process, providing the adequate data structure modeling that composes the system. A module to monitor speciﬁc data problems has also been incorporated into the prototype to assist the appropriate information insertion as much as the control of patients records which have DQ problems. The prototype has been evaluated by computer and healthcare s colaborators, who, after using the system, answered to a qualitative DQ assessment form. The assessment s results pointed out the prototype suitability to the activities it is aimed for, guided speciﬁc functionalities review and may support the proposed software evolution and future related work. / Atualmente, diversas áreas do conhecimento humano fazem uso de sistemas computacionais para auxiliar no gerenciamento de dados, que são a base para o processo de tomada de decisão. A Qualidade de Dados (QD) constitui uma característica fundamental cuja ausência pode comprometer a utilidade da informação e os processos que a utilizam. Na literatura são apresentados diversos casos que relatam o impacto de problemas de QD nas mais diversas áreas, represen- tando perdas econômicas e sociais. Assim, a área de QD visa o estudo das causas de problemas nos dados e a proposição de métodos de avaliação e processos que auxiliem na garantia da qualidade. Na área da saúde os dados constituem elementos importantes que são utilizados como base para a aplicação de tratamentos e procedimentos médicos aos pacientes, fatores que exigem um nível elevado de qualidade. Esses dados também são utilizados em pesquisas e aplicações de métodos computacionais de extração de conhecimento, como a Mineração de Dados. Assim, o objetivo deste trabalho consiste em estudar a aplicação de princípios que auxiliem na garantia da QD durante o desenvolvimento de um sistema computacional médico. Tal objetivo motivou a realização de um estudo de caso relacionado à especialidade da Coloproctologia, no qual foi desenvolvido o protótipo de um sistema para gerenciamento de dados de cirurgia coloproctológica em parceria com o Serviço de Coloproctologia da FCM - UNICAMP. A interação com os especialistas de domínio constituiu um fator fundamental durante o processo de desenvolvimento, possibilitando a modelagem adequada da estrutura dos dados que forma o sistema. Também foi incorporado ao protótipo um módulo para monitoramento de problemas especíﬁcos nos dados, auxiliando tanto no preenchimento adequado da informação quanto no controle dos registros de pacientes que apresentam problemas de QD. Ao ﬁnal, o protótipo foi subme- tido à avaliação por colaboradores da área da computação e da saúde, que após a utilização do sistema responderam a um formulário para avaliação qualitativa de QD. Os resultados da avaliação indicaram a adequação do protótipo para as atividades a que é destinado, orientaram para a revisão de funcionalidades especíﬁcas e poderão auxiliar na evolução do sistema proposto e em trabalhos futuros. Qualidade de Dados Informática Biomédica Sistemas de Informação Mineração de Dados Dados Médicos Data Quality Biomedical Informatics Information Systems Data Mining Medical Data
2	Seleção e construção de features relevantes para o aprendizado de máquina. / Relevant feature selection and construction for machine learning. Lee, Huei Diana 27 April 2000 (has links) No Aprendizado de Máquina Supervisionado - AM - é apresentado ao algoritmo de indução um conjunto de instâncias de treinamento, no qual cada instância é um vetor de features rotulado com a classe. O algoritmo de indução tem como tarefa induzir um classificador que será utilizado para classificar novas instâncias. Algoritmos de indução convencionais baseam-se nos dados fornecidos pelo usuário para construir as descrições dos conceitos. Uma representação inadequada do espaço de busca ou da linguagem de descrição do conjunto de instâncias, bem como erros nos exemplos de treinamento, podem tornar os problemas de aprendizado difícies. Um dos problemas centrais em AM é a Seleção de um Subconjunto de Features - SSF - na qual o objetivo é tentar diminuir o número de features que serão fornecidas ao algoritmo de indução. São várias as razões para a realização de SSF. A primeira é que a maioria dos algoritmos de AM, computacionalmente viáveis, não trabalham bem na presença de muitas features, isto é a precisão dos classificadores gerados pode ser melhorada com a aplicação de SSF. Ainda, com um número menor de features, a compreensibilidade do conceito induzido pode ser melhorada. Uma terceira razão é o alto custo para coletar e processar grande quantidade de dados. Existem, basicamente, três abordagens para a SSF: embedded, filtro e wrapper. Por outro lado, se as features utilizadas para descrever os exemplos de treinamento são inadequadas, os algoritmos de aprendizado estão propensos a criar descrições excessivamente complexas e imprecisas. Porém, essas features, individualmente inadequadas, podem algumas vezes serem, convenientemente, combinadas gerando novas features que podem mostrar-se altamente representativas para a descrição de um conceito. O processo de construção de novas features é conhecido como Construção de Features ou Indução Construtiva - IC. Neste trabalho são enfocadas as abordagens filtro e wrapper para a realização de SSF, bem como a IC guiada pelo conhecimento. É descrita uma série de experimentos usando SSF e IC utilizando quatro conjuntos de dados naturais e diversos algoritmos simbólicos de indução. Para cada conjunto de dados e cada indutor, são realizadas várias medidas, tais como, precisão, tempo de execução do indutor e número de features selecionadas pelo indutor. São descritos também diversos experimentos realizados utilizando três conjuntos de dados do mundo real. O foco desses experimentos não está somente na avaliação da performance dos algoritmos de indução, mas também na avaliação do conhecimento extraído. Durante a extração de conhecimento, os resultados foram apresentados aos especialistas para que fossem feitas sugestões para experimentos futuros. Uma parte do conhecimento extraído desses três estudos de casos foram considerados muito interessantes pelos especialistas. Isso mostra que a interação de diferentes áreas de conhecimento, neste caso específico, áreas médica e computacional, pode produzir resultados interessantes. Assim, para que a aplicação do Aprendizado de Máquina possa gerar frutos é necessário que dois grupos de pesquisadores sejam unidos: aqueles que conhecem os métodos de AM existentes e aqueles com o conhecimento no domínio da aplicação para o fornecimento de dados e a avaliação do conhecimento adquirido. / In supervised Machine Learning - ML - an induction algorithm is typically presented with a set of training instances, where each instance is described by a vector of feature values and a class label. The task of the induction algorithm (inducer) is to induce a classifier that will be useful in classifying new cases. Conventional inductive-learning algorithms rely on existing (user) provided data to build their descriptions. Inadequate representation space or description language as well as errors in training examples can make learning problems be difficult. One of the main problems in ML is the Feature Subset Selection - FSS - problem, i.e. the learning algorithm is faced with the problem of selecting some subset of features upon which to focus its attention, while ignoring the rest. There are a variety of reasons that justify doing FSS. The first reason that can be pointed out is that most of the ML algorithms, that are computationally feasible, do not work well in the presence of a very large number of features. This means that FSS can improve the accuracy of the classifiers generated by these algorithms. Another reason to use FSS is that it can improve comprehensibility, i.e. the human ability of understanding the data and the rules generated by symbolic ML algorithms. A third reason for doing FSS is the high cost in some domains for collecting data. Finally, FSS can reduce the cost of processing huge quantities of data. Basically, there are three approaches in Machine Learning for FSS: embedded, filter and wrapper approaches. On the other hand, if the provided features for describing the training examples are inadequate, the learning algorithms are likely to create excessively complex and inaccurate descriptions. These individually inadequate features can sometimes be combined conveniently, generating new features which can turn out to be highly representative to the description of the concept. The process of constructing new features is called Constructive Induction - CI. Is this work we focus on the filter and wrapper approaches for FSS as well as Knowledge-driven CI. We describe a series of experiments for FSS and CI, performed on four natural datasets using several symbolic ML algorithms. For each dataset, various measures are taken to compare the inducers performance, for example accuracy, time taken to run the inducers and number of selected features by each evaluated induction algorithm. Several experiments using three real world datasets are also described. The focus of these three case studies is not only comparing the induction algorithms performance, but also the evaluation of the extracted knowledge. During the knowledge extraction step results were presented to the specialist, who gave many suggestions for the development of further experiments. Some of the knowledge extracted from these three real world datasets were found very interesting by the specialist. This shows that the interaction between different areas, in this case, medical and computational areas, may produce interesting results. Thus, two groups of researchers need to be put together if the application of ML is to bear fruit: those that are acquainted with the existing ML methods, and those with expertise in the given application domain to provide training data. aprendizado de máquina bases de dados médicos construção de features extração de conhecimentos Feature Construction Feature Selection knowledge extraction machine learning medical databases seleção de features
3	Seleção e construção de features relevantes para o aprendizado de máquina. / Relevant feature selection and construction for machine learning. Huei Diana Lee 27 April 2000 (has links) No Aprendizado de Máquina Supervisionado - AM - é apresentado ao algoritmo de indução um conjunto de instâncias de treinamento, no qual cada instância é um vetor de features rotulado com a classe. O algoritmo de indução tem como tarefa induzir um classificador que será utilizado para classificar novas instâncias. Algoritmos de indução convencionais baseam-se nos dados fornecidos pelo usuário para construir as descrições dos conceitos. Uma representação inadequada do espaço de busca ou da linguagem de descrição do conjunto de instâncias, bem como erros nos exemplos de treinamento, podem tornar os problemas de aprendizado difícies. Um dos problemas centrais em AM é a Seleção de um Subconjunto de Features - SSF - na qual o objetivo é tentar diminuir o número de features que serão fornecidas ao algoritmo de indução. São várias as razões para a realização de SSF. A primeira é que a maioria dos algoritmos de AM, computacionalmente viáveis, não trabalham bem na presença de muitas features, isto é a precisão dos classificadores gerados pode ser melhorada com a aplicação de SSF. Ainda, com um número menor de features, a compreensibilidade do conceito induzido pode ser melhorada. Uma terceira razão é o alto custo para coletar e processar grande quantidade de dados. Existem, basicamente, três abordagens para a SSF: embedded, filtro e wrapper. Por outro lado, se as features utilizadas para descrever os exemplos de treinamento são inadequadas, os algoritmos de aprendizado estão propensos a criar descrições excessivamente complexas e imprecisas. Porém, essas features, individualmente inadequadas, podem algumas vezes serem, convenientemente, combinadas gerando novas features que podem mostrar-se altamente representativas para a descrição de um conceito. O processo de construção de novas features é conhecido como Construção de Features ou Indução Construtiva - IC. Neste trabalho são enfocadas as abordagens filtro e wrapper para a realização de SSF, bem como a IC guiada pelo conhecimento. É descrita uma série de experimentos usando SSF e IC utilizando quatro conjuntos de dados naturais e diversos algoritmos simbólicos de indução. Para cada conjunto de dados e cada indutor, são realizadas várias medidas, tais como, precisão, tempo de execução do indutor e número de features selecionadas pelo indutor. São descritos também diversos experimentos realizados utilizando três conjuntos de dados do mundo real. O foco desses experimentos não está somente na avaliação da performance dos algoritmos de indução, mas também na avaliação do conhecimento extraído. Durante a extração de conhecimento, os resultados foram apresentados aos especialistas para que fossem feitas sugestões para experimentos futuros. Uma parte do conhecimento extraído desses três estudos de casos foram considerados muito interessantes pelos especialistas. Isso mostra que a interação de diferentes áreas de conhecimento, neste caso específico, áreas médica e computacional, pode produzir resultados interessantes. Assim, para que a aplicação do Aprendizado de Máquina possa gerar frutos é necessário que dois grupos de pesquisadores sejam unidos: aqueles que conhecem os métodos de AM existentes e aqueles com o conhecimento no domínio da aplicação para o fornecimento de dados e a avaliação do conhecimento adquirido. / In supervised Machine Learning - ML - an induction algorithm is typically presented with a set of training instances, where each instance is described by a vector of feature values and a class label. The task of the induction algorithm (inducer) is to induce a classifier that will be useful in classifying new cases. Conventional inductive-learning algorithms rely on existing (user) provided data to build their descriptions. Inadequate representation space or description language as well as errors in training examples can make learning problems be difficult. One of the main problems in ML is the Feature Subset Selection - FSS - problem, i.e. the learning algorithm is faced with the problem of selecting some subset of features upon which to focus its attention, while ignoring the rest. There are a variety of reasons that justify doing FSS. The first reason that can be pointed out is that most of the ML algorithms, that are computationally feasible, do not work well in the presence of a very large number of features. This means that FSS can improve the accuracy of the classifiers generated by these algorithms. Another reason to use FSS is that it can improve comprehensibility, i.e. the human ability of understanding the data and the rules generated by symbolic ML algorithms. A third reason for doing FSS is the high cost in some domains for collecting data. Finally, FSS can reduce the cost of processing huge quantities of data. Basically, there are three approaches in Machine Learning for FSS: embedded, filter and wrapper approaches. On the other hand, if the provided features for describing the training examples are inadequate, the learning algorithms are likely to create excessively complex and inaccurate descriptions. These individually inadequate features can sometimes be combined conveniently, generating new features which can turn out to be highly representative to the description of the concept. The process of constructing new features is called Constructive Induction - CI. Is this work we focus on the filter and wrapper approaches for FSS as well as Knowledge-driven CI. We describe a series of experiments for FSS and CI, performed on four natural datasets using several symbolic ML algorithms. For each dataset, various measures are taken to compare the inducers performance, for example accuracy, time taken to run the inducers and number of selected features by each evaluated induction algorithm. Several experiments using three real world datasets are also described. The focus of these three case studies is not only comparing the induction algorithms performance, but also the evaluation of the extracted knowledge. During the knowledge extraction step results were presented to the specialist, who gave many suggestions for the development of further experiments. Some of the knowledge extracted from these three real world datasets were found very interesting by the specialist. This shows that the interaction between different areas, in this case, medical and computational areas, may produce interesting results. Thus, two groups of researchers need to be put together if the application of ML is to bear fruit: those that are acquainted with the existing ML methods, and those with expertise in the given application domain to provide training data. aprendizado de máquina bases de dados médicos construção de features extração de conhecimentos seleção de features Feature Construction Feature Selection knowledge extraction machine learning medical databases

1

Page generated in 0.0318 seconds