Return to search

Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2015 / Made available in DSpace on 2015-12-22T03:04:44Z (GMT). No. of bitstreams: 1
336613.pdf: 2800332 bytes, checksum: f19c44227d5f66a9bff46e9ee8ea64b8 (MD5)
Previous issue date: 2015 / O traumatismo cranioencefálico é um problema de saúde pública constituindo-se em uma das principais causas de morbidade e
mortalidade no Brasil e no mundo. A análise das relações entre as suas consequências tem despertado interesse em pesquisas na área, a fim de
se identificar os indicadores que auxiliam no seu prognóstico, buscandose evitar o óbito. Estes modelos são tradicionalmente gerados por meio
da regressão logística que tem se constituído em uma técnica padrão para análise dos dados em saúde. No entanto, os modelos prognósticos
em traumatismo cranioencefálico, como o grave que é o foco desta pesquisa, não conseguem acurácia elevada para a predição do óbito por
meio da regressão logística. Sabendo-se disso, avanços em termos da acuracidade da predição podem auxiliar no prognóstico e conduta das
pessoas acometidas por traumatismo cranioencefálico do tipo grave. A descoberta de conhecimento em bases de dados por meio da etapa de
data mining e da integração de técnicas de diferentes áreas como inteligência computacional, reconhecimento de padrões, aprendizado de
máquina, estatística e banco de dados, constitui-se em uma alternativa para identificar as relações nestes conjuntos de dados. Considerando-se
isto, esta pesquisa consiste na avaliação comparativa de diferentes métodos de data mining, a fim de se analisar os modelos gerados e
compará-los com o de regressão logística, em uma mesma população de estudo. Nesta pesquisa, se objetiva identificar padrões válidos, avaliando
se os métodos de data mining empregados se mostram como uma alternativa à regressão logística, baseando-se em critérios de avaliação
como acurácia e robustez, os quais se constituem em medidas de qualidade dos padrões descobertos. Os métodos de data mining
empregados referem-se a indução de árvores de decisão por meio dos algoritmos C4.5 e Classification And Regression Trees; o aprendizado
baseado em instâncias pelo algoritmo k-vizinhos mais próximos; as redes neurais artificiais por Funções de Base Radial; os classificadores
bayesianos pelos algoritmos Naive Bayes e Redes de Crença Bayesiana e o metaclassificador pelo algoritmo Adaptive Boosting. No
desenvolvimento foram gerados modelos de prognóstico do óbito em traumatismo cranioencefálico grave por meio dos algoritmos
supracitados, como também pela regressão logística binária. Os modelos gerados na etapa de data mining foram comparados aplicando-se as
medidas de avaliação de desempenho (verdadeiros positivos, verdadeiros negativos, acurácia, sensibilidade e especificidade) e de
confiabilidade (coeficiente de concordância kappa e área sob a ReceiverOperating Characteristic Curve). Na comparação entre os modelos de
data mining elencados com maior poder de discriminação em relação a regressão logística, utilizaram-se as medidas de confiabilidade citadas
anteriormente, considerando-se Intervalos de Confiança de 95%. Dentre as análises realizadas, nos modelos gerados para predição do óbito em
traumatismo cranioencefálico grave, os classificadores bayesianos destacaram-se apresentando medidas de desempenho significativamente
mais representativas. O modelo gerado pelo algoritmo Naive Bayes destacou-se em relação aos demais métodos de data mining empregados,
bem como quando comparado com o modelo de regressão logística binária, classificando corretamente o óbito em 58,2% (IC95%: 55,6-
61,8), a acurácia geral do modelo foi de 80,2% (IC95%: 76,9-85,7), sensibilidade de 72,7% (IC95%: 69,8-75,4), especificidade de 84,2%
(IC95%: 81,6-87,5), área sob a Receiver-Operating Characteristic Curve de 0,851 (IC95%: 0,832-0,870) e coeficiente de concordância
Kappa 0,530 (IC95%: 0,519-0,541). Comparando-se os resultados, o algoritmo Naive Bayes mostrou-se, no conjunto de dados estudado,
significativamente mais representativo que o modelo de regressão logística binária e os outros modelos de data mining. <br> / Abstract : Traumatic brain injury is a public health problem thus becoming a major cause of morbidity and mortality in Brazil and worldwide. The analysis
of relations between its consequences has stimulated researches in the area, in order to identify indicators that help its prognosis, seeking avoid
death. These models are traditionally generated by logistic regression that has been constituted as a standard technique for analysis of health
data. However, the prognostic models in traumatic brain injury, such as severe which is the focus of this research, can not have a high accuracy
for prediction of death by logistic regression. Knowing this, advances in terms of prediction accuracy may aid in prognosis and management of
people affected by severe brain injury. The knowledge discovery in databases by data mining step and integration of techniques from
different areas such as computational intelligence, pattern recognition, machine learning, statistical and database, constitutes an alternative to
identify relationships in the data sets. Considering this, this research consists on the comparative evaluation of different data mining methods
in order to analyze the generated models and compare them with logistic regression, in the same study population. In this research, the objective
is to identify valid standards, assessing whether the data mining methods used are shown as an alternative to logistic regression, based on
evaluation criteria such as accuracy and robustness, which constitute quality measures of the discovered patterns. The data mining methods
employed refer to decision tree induction through C4.5 algorithms and Classification And Regression Trees; learning based on instances by knearest
neighbors algorithm; artificial neural networks Radial Basis Function; Bayesian classifiers by algorithms Naive Bayes and Bayesian
Belief Networks and the metaclassificador by Adaptive Boosting algorithm. In the development were generated death of prognostic
models in severe traumatic brain injury through the aforesaid algorithms, but also by binary logistic regression. The models in data
mining stage were compared applying the performance evaluation measures (true positives, true negatives, accuracy, sensitivity and
specificity) and reliability (kappa coefficient and area under the Receiver Operating Characteristic Curve). Comparing the data mining
models listed with major discrimination in relation to logistic regression, we used the reliability of measurements mentioned above, considering
95% confidence intervals. Among the analyzes, the generated models for prediction of death in severe traumatic brain injury, the Bayesian
classifiers stood out, presenting performance measures significantly more representative. The model generated by Naive Bayes algorithm
stood out in relation to other data mining methods employed, as well as when compared to the binary logistic regression model, correctly
classifying the death in 58,2% (CI95%: 55,6-61,8), the overall accuracy of the model was 80,2% (CI95%: 76,9-85,7), sensitivity of 72,7%
(CI95%: 69,8-75,4), specificity of 84,2% (CI95%: 81,6-87,5), area under the Receiver Operating Characteristic Curve of 0,851 (CI95%:
0,832-0,870) and Kappa coeficient of agreement 0,530 (CI95%: 0,519-0,541). Comparing the results, the Naive Bayes algorithm proved, in the
data set studied, significantly more representative than the model of binary logistic regression and other data mining models.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/157297
Date January 2015
CreatorsGarcia, Merisandra Côrtes de Mattos
ContributorsUniversidade Federal de Santa Catarina, Azevedo, Fernando Mendes de, Martins, Evandro Tostes
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format182 p.| il., grafs., tabs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds