Spelling suggestions: "subject:"xax evasion, codecision tre, KDD, WEKA"" "subject:"xax evasion, bydecision tre, KDD, WEKA""
1 |
MINERAÇÃO DE DADOS APLICADA À CLASSIFICAÇÃO DOS CONTRIBUINTES DE ICMS DA SEFAZ-GORocha, Santiago Meireles 18 August 2017 (has links)
Submitted by admin tede (tede@pucgoias.edu.br) on 2018-02-15T18:00:36Z
No. of bitstreams: 1
SANTIAGO MEIRELES ROCHA.pdf: 972185 bytes, checksum: afac5e4d20639e20e3c5eed384124a70 (MD5) / Made available in DSpace on 2018-02-15T18:00:36Z (GMT). No. of bitstreams: 1
SANTIAGO MEIRELES ROCHA.pdf: 972185 bytes, checksum: afac5e4d20639e20e3c5eed384124a70 (MD5)
Previous issue date: 2017-08-18 / With the exponential increase in the volume of data stored and the high potential for
hidden knowledge in these data that can aid in the strategies and decision making of
organizations, much has been invested in information technology and telecommunication.
The purpose of this dissertation was to apply the Knowledge Discovery in Database
(DCBD) process in order to classify the taxpayers of SEFAZ-GO ICMS in High Eviction
and Low Eviction, through the task of data mining Supervised Classification,
Implemented by the algorithm J48, on the WEKA computing platform. Three
experiments were carried out with a sample of ICMS taxpayers data from the wholesale
sector of the city of Goiânia-GO, with attributes selected from the Tax Code of the State
of Goiás. During the experiments, the AttributeSelection and Discretize algorithms were
applied. Reduction of attributes and transformation of the continuous variables into
discrete ones, respectively. The statistical indices Confusion Matrix and Kappa
Coefficient were used as validation metrics of the proposed model. After each
experiment, classification rules were extracted, thus forming the proposed predictive
model of classification. In the best scenario, a correct classification rate of 84% accuracy
was obtained. Data mining is a reality within many organizations and can be a strong ally
in fulfilling the, trivial, task of knowledge discovery in corporate databases. / Com o aumento exponencial do volume de dados armazenados e o alto potencial de
conhecimento oculto nesses dados que pode auxiliar nas estratégias e nas tomadas de
decisão das organizações, muito vem se investido em tecnologia da informação e
telecomunicação. A presente dissertação teve como objetivo aplicar o processo de
Descoberta do Conhecimento em Base de Dados (DCBD) a fim de classificar os
contribuintes de ICMS da SEFAZ-GO em Alto Sonegador e Baixo Sonegador, por meio
da tarefa de mineração de dados Classificação Supervisionada, implementada pelo
algoritmo J48, na plataforma computacional WEKA. Foram realizados 3 experimentos
com uma amostra de dados de contribuintes de ICMS do setor atacadista do município de
Goiânia-GO, com atributos selecionados a partir do Código do Tributário do Estado de
Goiás. Durante os experimentos foram aplicados os algoritmos AttributeSelection e
Discretize, para a redução de atributos e transformação das variáveis contínuas em
discretas, respectivamente. Os índices estatísticos Matriz de Confusão e Coeficiente de
Kappa foram utilizados como métricas de validação do modelo proposto. Após cada
experimento, regras de classificação foram extraídas formando assim o modelo preditivo
proposto de classificação. Obteve-se, no melhor cenário, uma taxa de classificação
correta de 84% de acerto. A mineração de dados é uma realidade dentro de muitas
organizações e pode ser uma forte aliada no cumprimento da, nada trivial, tarefa de
descoberta de conhecimento nas bases de dados corporativas.
|
Page generated in 0.0878 seconds