Spelling suggestions: "subject:"[een] DECISION TREE"" "subject:"[enn] DECISION TREE""
41 |
Investiční možnosti obyvatel v ČR / Investing posibilities of citizen in the Czech RepublicNocar, Jan January 2010 (has links)
This thesis discusses the options households have when it comes to investing in capital markets in the Czech Republic. The issue of investing and capital market options is analyzed. Following this analysis comes the description of financial instruments, their characteristics, and the usability of these instruments by small investors. On the basis of the theory presented, a study was conducted to examine the usage of individual financial products. The collected data was processed using modern software tools, which helped in drawing several conclusions, results, and recommendations for investors and financial instrument providers alike.
|
42 |
Identification of Flying Drones in Mobile Networks using Machine Learning / Identifiering av flygande drönare i mobila nätverk med hjälp av maskininlärningAlesand, Elias January 2019 (has links)
Drone usage is increasing, both in recreational use and in the industry. With it comes a number of problems to tackle. Primarily, there are certain areas in which flying drones pose a security threat, e.g., around airports or other no-fly zones. Other problems can appear when there are drones in mobile networks which can cause interference. Such interference comes from the fact that radio transmissions emitted from drones can travel more freely than those from regular UEs (User Equipment) on the ground since there are few obstructions in the air. Additionally, the data traffic sent from drones is often high volume in the form of video streams. The goal of this thesis is to identify so-called "rogue drones" connected to an LTE network. Rogue drones are flying drones that appear to be regular UEs in the network. Drone identification is a binary classification problem where UEs in a network are classified as either a drone or a regular UE and this thesis proposes machine learning methods that can be used to solve it. Classifications are based on radio measurements and statistics reported by UEs in the network. The data for the work in this thesis is gathered through simulations of a heterogenous LTE network in an urban scenario. The primary idea of this thesis is to use a type of cascading classifier, meaning that classifications are made in a series of stages with increasingly complex models where only a subset of examples are passed forward to subsequent stages. The motivation for such a structure is to minimize the computational requirements at the entity making the classifications while still being complex enough to achieve high accuracy. The models explored in this thesis are two-stage cascading classifiers using decision trees and ensemble learning techniques. It is found that close to 60% of the UEs in the dataset can be classified without errors in the first of the two stages. The rest is forwarded to a more complex model which requires more data from the UEs and can achieve up to 98% accuracy.
|
43 |
Explorando técnicas para modelagem de dados agregados de óbitos provenientes de acidentes por automóvel / Exploring techniques for modeling of aggregates data from deaths automobile accidentsSantos, Murilo Castanho dos 01 October 2015 (has links)
Esta dissertação se baseia na exploração de técnicas para modelagem de óbitos provenientes de acidentes por automóvel no estado de São Paulo. A análise foi agregada por área, e utilizou a razão de óbitos por população, por área e por fluxo veicular como variáveis dependentes e as variáveis independentes foram características socioeconômicas, área, frota de veículos, IDHM, fluxo veicular anual e distâncias entre microrregiões. Os dados do ano 2000 foram utilizados na calibração e dados de 2010 na validação dos modelos, com a técnica de mineração de dados (algoritmos de Árvore de Decisão - AD: CART - Classification And Regression Tree e CHAID - Chi-squared Automatic Interaction Detection) e Regressão Linear Múltipla (RLM) para fins comparativos com os modelos de AD. A partir dos resultados verifica-se que a RLM foi a técnica que obteve melhores erro médio, erro médio absoluto e coeficiente de correlação, e o algoritmo CART da AD o menor erro médio normalizado. Ao comparar as taxas de óbitos, a relação por área apresentou melhor erro médio e coeficiente de correlação, já a relação por população obteve menor erro médio normalizado e erro médio absoluto. Vale ressaltar que os algoritmos de AD são técnicas adequadas para classificação de áreas segundo faixas de valores de variáveis explicativas e valores médios da variável objeto de estudo. Além disso, tais técnicas são mais flexíveis em relação a alguns pressupostos de modelos de regressão. Dessa forma, a principal contribuição deste trabalho consiste na exploração de tais algoritmos para previsão de acidentes e classificação de regiões. / This dissertation is based on techniques exploration for modeling of deaths from automobile accidents on the state of São Paulo. The analysis was aggregated by area, and used the ratio of deaths per population, by area and by vehicle flow as dependent variables and the independent variables were socioeconomic characteristics, area, vehicle fleet, Municipal Human Development Index (MHDI), annual vehicle flow and distances between micro-regions. The 2000 data were used for calibration and 2010 data to validate the models with data mining technique (decision tree - DT algorithms: CART - Classification And Regression Tree and CHAID - Chi-squared Automatic Interaction Detection) and Multiple Linear Regression (MLR) for comparative purposes with the DT models. From the results it appears that the RLM was the technique that achieved better mean error, mean absolute error and correlation coefficient values, while the CART algorithm presented the lowest value of mean normalized error. When comparing death rates, a relation by area showed better mean error and correlation coefficient values, as the ratio by population had lower mean normalized error and mean absolute error values. It is noteworthy that the DT algorithms are suitable techniques for classification of areas in accordance with explanatory variables of value ranges and average values of the variable object of study. Furthermore, such techniques are more flexible compared to some assumptions regression models. Thus, the main contribution of this study is the exploration of such algorithms for prediction of accidents and regions classification.
|
44 |
Modelo para tomada de decisão na escolha de sistema de tratamento de esgoto sanitário / A decision making model for choosing sewage treatment systemsOliveira, Sonia Valle Walter Borges de 10 November 2004 (has links)
A escolha do sistema de tratamento de esgoto sanitário a ser instalado em uma cidade pode tornar-se uma difícil decisão, uma vez que diversas variáveis interferem em seu custo e em sua qualidade ambiental. Este trabalho pretende mostrar a possibilidade de se usar técnicas da análise de decisão para a escolha do sistema de tratamento de esgoto sanitário de forma ecológica e econômica, como árvore de decisão e análise de sensibilidade. Para a avaliação dos sistemas, foi desenvolvido um modelo com oito alternativas, compostas de processos biológicos anaeróbios Reator Anaeróbio de Manta de Lodo e Lagoa Anaeróbia seguidos de aeróbios Lodos Ativados, Lagoa Facultativa, Filtro Biológico Percolador e Lagoa Aerada com Lagoa de Decantação. O modelo elabora o dimensionamento das unidades de tratamento e, a partir desses dados, a estimativa de custo de cada sistema. O custo total de cada alternativa foi composto por itens de implantação, operação e manutenção. O modelo foi avaliado para quatro casos de populações distintas, apresentando variação nas alternativas mais indicadas para cada um. A análise de sensibilidade se mostrou eficaz em identificar as alternativas mais significativas no custo total dos sistemas. Os resultados encontrados indicam, de maneira promissora, que o modelo poderá auxiliar a escolha de sistemas de tratamento, bem como seu pré-dimensionamento, com base em características peculiares à sua localidade. / The selection of the wastewater treatment system to be installed in a city can be a difficult decision, once several variables interfere in its cost and in its environmental quality. This study intends to show the possibility of using techniques of decision analysis to select the wastewater treatment system in an ecological and economical way, as decision tree and sensitivity analysis. For the evaluation of systems, a model was developed with eight alternatives, composed of anaerobic biological process - Upflow Anaerobic Sludge Blanket and Anaerobic Pond - followed by aerobic process Activated-Sludge, Facultative Pond, Trickling Filter and Aerated Lagoon with Sedimentation Basin. The model elaborates the treatment units dimensioning and cost estimation of each system, based on dimensioning data. The total cost of each alternative was composed by construction, operation and maintenance items. The model was evaluated using four cases of different populations, presenting variation in the most suitable alternatives for each one. The sensitivity analysis was shown effective in identifying the most significant alternatives in the total cost of the systems. The results indicate, in a promising way , that the model will be able to help the choice of treatment systems, as well as its pre-dimensioning, based in local peculiar characteristics.
|
45 |
Árvores de decisão como técnica para classificar a resposta quanto à atividade celular in vitro para diferentes tratamentos superficiais em titânioGamba, Mateus Luiz January 2016 (has links)
Diversos artigos têm sido publicados a fim de avaliar a influência de diferentes tratamentos de superfície de TiO2/Ti sobre atividade celular de osteoblastos, tentando estabelecer dessa forma a relação entre as propriedades de superfície e o processo de ossointegração. No entanto, ainda existem lacunas críticas na avaliação e compreensão do efeito das propriedades de superfície sobre atividade celular. Como muitos fatores podem influenciar na resposta celular, a avaliação da influência combinada dos diferentes parâmetros empregados dificulta a compreensão do efeito das propriedades superficiais no processo de osseointegração, bem como a comparação do desempenho de diferentes tratamentos de superfícies. Além disso, uma avaliação comparativa entre estudos realizados por diferentes autores é muito difícil pelo fato de que não seja adotada uma padronização dos experimentos, por exemplo quanto ao tipo de célula empregada no estudo, dentre outros. Nesse contexto, o presente trabalho propõe o uso de um método computacional objetivando classificar e prever a resposta da atividade celular in vitro sobre superfícies de TiO2/Ti. A partir de resultados obtidos em artigos publicados por diferentes autores, foi construído um dataset relacionando a influência das propriedades de superfície TiO2/Ti (rugosidade e molhabilidade) sobre atividade celular e viabilidade pelo ensaio 3-(4,5-dimetiltiazol-2-il)-2,5-difenil tetrazólio bromide (MTT), empregando-se células osteoblásticas MC3TE-E1 e os mesmos critérios de monitoramento. Posteriormente foram aplicados os algoritmos de árvores de decisão J48 e SimpleCart para obter regras capazes de classificar e prever resultados da atividade celular em função das propriedades superficiais. A ferramenta empregada para gerar a árvore de decisão foi Weka. Dentre os algoritmos testados, o algoritmo SimpleCart apresentou uma melhor classificação, resultando em um coeficiente de Kappa de 40,45% contra o J48 o qual obteve um coeficiente de Kappa de 26,51%. Esse coeficiente é uma métrica utilizada para avaliar a qualidade da classificação da árvore de decisão. Nesse sentido, a árvore de decisão gerada permitiu identificar regras de decisão que podem ser empregados como um modelo preditivo e de classificação para o dataset construído, relacionando o efeito das propriedades superficiais (rugosidade e molhabilidade) de TiO2/Ti com a atividade celular. / Several articles have been published to evaluate the influence of different TiO2/Ti surface treatments on the cellular activity of osteoblasts, trying to establish the relationship between surface properties and the osseointegration process. However, there are still critical gaps in the assessment and understanding of the effect of these surface properties on the cellular activity. As many factors can influence on the cellular response, the combined influence evaluation of the different parameters applied makes it difficult to understand the effect of the surface properties on the osseointegration process, and the performance comparison of different surface treatments. In addition, a comparative evaluation between studies of different authors is very difficult to conduct because there is no pattering of experiments, for instance the cell type used in the study, among others. In this context, this paper proposes the use of a computational method aimed to classify and predict the cellular activity response in vitro on TiO2/Ti surfaces. From the results gotten in published articles of different authors, a dataset was built in order to relate the influence of TiO2/Ti surface properties (roughness and wettability) on the cellular activity and viability assay by 3-(4,5-dimethylthiazol-2-yl)-2,5- diphenyl tetrazolium bromide (MTT), using MC3TE-E1 osteoblastic cells, and the same monitoring criteria. Later the algorithms J48 and SimpleCart decision trees were applied to get rules able to classify and predict cellular activity results depending on the surface properties. Weka was the tool used to generate the decision tree. Among the tested algorithms, the SimpleCart algorithm presented the best classification, resulting in a Kappa coefficient of 40.45% compared to J48, which resulted in a Kappa coefficient of 26.51%. This coefficient is a metric used to evaluate the quality of the decision tree classification. In this way, the decision tree generated allowed the identification of decision rules that can be used as a predictive model for the dataset built related to the Ti/TiO2 surface properties (roughness and wettability) with the cellular activity.
|
46 |
Detecting students who are conducting inquiry Without Thinking Fastidiously (WTF) in the Context of Microworld Learning EnvironmentsWixon, Michael 09 April 2013 (has links)
In recent years, there has been increased interest and research on identifying the various ways that students can deviate from expected or desired patterns while using educational software. This includes research on gaming the system, player transformation, haphazard inquiry, and failure to use key features of the learning system. Detection of these sorts of behaviors has helped researchers to better understand these behaviors, thus allowing software designers to develop interventions that can remediate them and/or reduce their negative impacts on student learning. This work addresses two types of student disengagement: carelessness and a behavior we term WTF (“Without Thinking Fastidiously�) behavior. Carelessness is defined as not demonstrating a skill despite knowing it; we measured carelessness using a machine learned model. In WTF behavior, the student is interacting with the software, but their actions appear to have no relationship to the intended learning task. We discuss the detector development process, validate the detectors with human labels of the behavior, and discuss implications for understanding how and why students conduct inquiry without thinking fastidiously while learning in science inquiry microworlds. Following this work we explore the relationship between student learner characteristics and the aforementioned disengaged behaviors carelessness and WTF. Our goal was to develop a deeper understanding of which learner characteristics correlate to carelessness or WTF behavior. Our work examines three alternative methods for predicting carelessness and WTF behaviors from learner characteristics: simple correlations, k-means clustering, and decision tree rule learners.
|
47 |
Md-pread: um modelo para predição de reprovação de aprendizes na educação a distância usando árvore de decisãoFerreira, João Luiz Cavalcante 25 February 2016 (has links)
Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2016-04-13T15:28:01Z
No. of bitstreams: 1
João Luiz Cavalcante Ferreira_.pdf: 1672669 bytes, checksum: 80b5c6fbc873c9f858b230e78855dd55 (MD5) / Made available in DSpace on 2016-04-13T15:28:01Z (GMT). No. of bitstreams: 1
João Luiz Cavalcante Ferreira_.pdf: 1672669 bytes, checksum: 80b5c6fbc873c9f858b230e78855dd55 (MD5)
Previous issue date: 2016-02-25 / Nenhuma / A Educação a Distância (EaD) no Brasil tem se consolidado com diversos estudantes optando por essa modalidade de ensino para ampliar suas formações e realização profissional, no entanto ela enfrenta alguns obstáculos, como a resistência de educandos e educadores, desafios organizacionais, custos de produção e a questão da reprovação ou retenção de alunos. Um dos principais diferenciais dos cursos EaD é a grande quantidade de dados gerados pelas interações no ambiente educacional, o que abre novas possibilidades para estudar e compreender estas interações. A Mineração de Dados educacionais (MDE) é uma área de pesquisa interdisciplinar que lida com o desenvolvimento de métodos para explorar dados originados no contexto educacional. A Learning Analytics (LA) é outra área de pesquisa emergente. Ela busca medir, coletar, analisar e relatar dados sobre estudantes. O desafio dos pesquisadores é desenvolver métodos capazes de prever o desempenho dos estudantes de modo a possibilitar a intervenção de professores e tutores visando resgatar o estudante antes que reprove. Esta dissertação propõe o MD-PREAD, um modelo para predição de grupos de risco de reprovação em um ambiente de Educação a Distância. A técnica de árvore de decisão foi utilizada para possibilitar um diferencial quanto à possibilidade de interpretação dos dados gerados pelo uso dos métodos de predição, pois outros métodos, tais como Redes Neurais Artificiais possuem como deficiência justamente a dificuldade de identificar as causas que levam aos resultados das predições. O modelo foi prototipado na ferramenta de mineração RapidMiner. Um experimento foi realizado no Instituto Federal de Educação, Ciência e Tecnologia do Amazonas, no programa Universidade Aberta do Brasil, no Curso de Filosofia da educação. Foram feitas coletas de dados históricos de 10 disciplinas de um grupo de 30 aprendizes em dois semestres consecutivos, 2014/2 e 2015/1, o total de alunos matriculados foi de 125, o total de interações levantadas foi de 41070, o cálculo de predição considerou as médias das avaliações de 30 aprendizes, os desvios padrões das interações e suas respectivas situações. Estes dados serviram para compor o conjunto de treinamento necessário para a definição da regra de classificação que teve como predominante a acurácia de 55% e a confiabilidade Kappa de 0,22. Foi realizado um segundo processo de validação, após o experimento, considerou-se os 125 alunos e o melhor classificador encontrado foi o J48 com a acurácia de 84,05%, precisão de 77,08% e recall de 50,23%. Concluiu-se que o MD-PREAD é uma ferramenta de auxílio no prognóstico de grupos de risco de reprovação, uma vez que possibilitou a geração e disponibilização semanal destes grupos a um sistema de recomendação educacional externo. / E-learning in Brazil has been established with many students opting for this type of education to expand their training and professional achievement, however it faces some obstacles, such as resistance from students and educators, organizational challenges, production costs and the question of failure or retention of students. One of the main advantages of e-learning courses is the large amount of data generated by the interactions in the educational environment, which opens up new possibilities to study and understand these interactions. Educational Data Mining (EDM) is an area of interdisciplinary research that deals with the development of methods to explore data that originates in the educational context. Learning Analytics (LA) is another area of emerging research. It seeks to measure, collect, analyze and report data on students. The challenge for researchers is to develop methods to predict the performance of students in order to allow the intervention of teachers and tutors aiming to retrieve the student before failing. This thesis proposes the MD-PREAD, a model for predicting failure of risk groups in a e-learning environment. The decision tree technique was used to enable a difference as to whether the interpretation of the data generated by the use of prediction methods, since other methods such as Artificial Neural Networks that has as disability difficulty in identifying precisely the causes that lead to predictions results. The model was prototyped in RapidMiner mining tool. An experiment was conducted at the Federal Institute of Education, Science and Technology of Amazonas, the Open University of Brazil program in course Philosophy of education. Historical data collection of 10 disciplines from a group of 30 apprentices were made in two consecutive semesters, 2014/2 and 2015/1, the total number of enrolled students was 125, the total raised interactions were 41070, the prediction calculation considered average of 30 apprentices ratings, the standard deviations of the interactions and their situations. These data served to compose the training set required for classification rule defining which had as predominant accuracy of 55% and Kappa reliability 0.22. A second validation process was carried out after the experiment. It was considered the total amount of 125 apprentices and the best classifier found was the J48 with the accuracy of 84.05%, 77.08% of classification precision and recall of 50.23%. It was concluded that the MD-PREAD is a support tool in the prognosis of failure risk groups, since it enabled the generation and weekly availability of these groups to a recommendation system.
|
48 |
Explorando técnicas para modelagem de dados agregados de óbitos provenientes de acidentes por automóvel / Exploring techniques for modeling of aggregates data from deaths automobile accidentsMurilo Castanho dos Santos 01 October 2015 (has links)
Esta dissertação se baseia na exploração de técnicas para modelagem de óbitos provenientes de acidentes por automóvel no estado de São Paulo. A análise foi agregada por área, e utilizou a razão de óbitos por população, por área e por fluxo veicular como variáveis dependentes e as variáveis independentes foram características socioeconômicas, área, frota de veículos, IDHM, fluxo veicular anual e distâncias entre microrregiões. Os dados do ano 2000 foram utilizados na calibração e dados de 2010 na validação dos modelos, com a técnica de mineração de dados (algoritmos de Árvore de Decisão - AD: CART - Classification And Regression Tree e CHAID - Chi-squared Automatic Interaction Detection) e Regressão Linear Múltipla (RLM) para fins comparativos com os modelos de AD. A partir dos resultados verifica-se que a RLM foi a técnica que obteve melhores erro médio, erro médio absoluto e coeficiente de correlação, e o algoritmo CART da AD o menor erro médio normalizado. Ao comparar as taxas de óbitos, a relação por área apresentou melhor erro médio e coeficiente de correlação, já a relação por população obteve menor erro médio normalizado e erro médio absoluto. Vale ressaltar que os algoritmos de AD são técnicas adequadas para classificação de áreas segundo faixas de valores de variáveis explicativas e valores médios da variável objeto de estudo. Além disso, tais técnicas são mais flexíveis em relação a alguns pressupostos de modelos de regressão. Dessa forma, a principal contribuição deste trabalho consiste na exploração de tais algoritmos para previsão de acidentes e classificação de regiões. / This dissertation is based on techniques exploration for modeling of deaths from automobile accidents on the state of São Paulo. The analysis was aggregated by area, and used the ratio of deaths per population, by area and by vehicle flow as dependent variables and the independent variables were socioeconomic characteristics, area, vehicle fleet, Municipal Human Development Index (MHDI), annual vehicle flow and distances between micro-regions. The 2000 data were used for calibration and 2010 data to validate the models with data mining technique (decision tree - DT algorithms: CART - Classification And Regression Tree and CHAID - Chi-squared Automatic Interaction Detection) and Multiple Linear Regression (MLR) for comparative purposes with the DT models. From the results it appears that the RLM was the technique that achieved better mean error, mean absolute error and correlation coefficient values, while the CART algorithm presented the lowest value of mean normalized error. When comparing death rates, a relation by area showed better mean error and correlation coefficient values, as the ratio by population had lower mean normalized error and mean absolute error values. It is noteworthy that the DT algorithms are suitable techniques for classification of areas in accordance with explanatory variables of value ranges and average values of the variable object of study. Furthermore, such techniques are more flexible compared to some assumptions regression models. Thus, the main contribution of this study is the exploration of such algorithms for prediction of accidents and regions classification.
|
49 |
Understanding complex systems through computational modeling and simulation / Comprendre les systèmes complexes par la modélisation et la simulation computationnellesLe, Xuan Tuan 18 January 2017 (has links)
Les approches de simulation classiques ne sont en général pas adaptées pour traiter les aspects de complexité que présentent les systèmes complexes tels que l'émergence ou l'adaptation. Dans cette thèse, l'auteur s'appuie sur ses travaux menés dans le cadre d'un projet de simulation sur l’épidémie de grippe en France associée à des interventions sur une population en considérant le phénomène étudié comme un processus diffusif sur un réseau complexe d'individus, l'originalité réside dans le fait que la population y est considérée comme un système réactif. La modélisation de tels systèmes nécessite de spécifier explicitement le comportement des individus et les réactions de ceux-cis tout en produisant un modèle informatique qui doit être à la fois flexible et réutilisable. Les diagrammes d'états sont proposés comme une approche de programmation reposant sur une modélisation validée par l'expertise. Ils correspondent également à une spécification du code informatique désormais disponibles dans les outils logiciels de programmation agent. L'approche agent de type bottom-up permet d'obtenir des simulations de scénario "what-if" où le déroulement des actions peut nécessiter que les agents s'adaptent aux changements de contexte. Cette thèse propose également l'apprentissage pour un agent par l'emploi d'arbre de décision afin d'apporter flexibilité et lisibilité pour la définition du modèle de comportement des agents et une prise de décision adaptée au cours de la simulation. Notre approche de modélisation computationnelle est complémentaire aux approches traditionnelles et peut se révéler indispensable pour garantir une approche pluridisciplinaire validable par l'expertise. / Traditional approaches are not sufficient, and sometimes impossible in dealing with complexity issues such as emergence, self-organization, evolution and adaptation of complex systems. As illustrated in this thesis by the practical work of the author in a real-life project, the spreading of infectious disease as well as interventions could be considered as difusion processes on complex networks of heterogeneous individuals in a society which is considered as a reactive system. Modeling of this system requires explicitly specifying of each individual’s behaviors and (re)actions, and transforming them into computational model which has to be flexible, reusable, and ease of coding. Statechart, typical for model-based programming, is a good solution that the thesis proposes. Bottom-up agent based simulation finds emergence episodes in what-if scenarios that change rules governing agent’s behaviors that requires agents to learn to adapt with these changes. Decision tree learning is proposed to bring more flexibility and legibility in modeling of agent’s autonomous decision making during simulation runtime. Our proposition for computational models such as agent based models are complementary to traditional ones, and in some case they are unique solutions due to legal, ethical issues.
|
50 |
MINERAÇÃO DE DADOS APLICADA À CLASSIFICAÇÃO DOS CONTRIBUINTES DE ICMS DA SEFAZ-GORocha, Santiago Meireles 18 August 2017 (has links)
Submitted by admin tede (tede@pucgoias.edu.br) on 2018-02-15T18:00:36Z
No. of bitstreams: 1
SANTIAGO MEIRELES ROCHA.pdf: 972185 bytes, checksum: afac5e4d20639e20e3c5eed384124a70 (MD5) / Made available in DSpace on 2018-02-15T18:00:36Z (GMT). No. of bitstreams: 1
SANTIAGO MEIRELES ROCHA.pdf: 972185 bytes, checksum: afac5e4d20639e20e3c5eed384124a70 (MD5)
Previous issue date: 2017-08-18 / With the exponential increase in the volume of data stored and the high potential for
hidden knowledge in these data that can aid in the strategies and decision making of
organizations, much has been invested in information technology and telecommunication.
The purpose of this dissertation was to apply the Knowledge Discovery in Database
(DCBD) process in order to classify the taxpayers of SEFAZ-GO ICMS in High Eviction
and Low Eviction, through the task of data mining Supervised Classification,
Implemented by the algorithm J48, on the WEKA computing platform. Three
experiments were carried out with a sample of ICMS taxpayers data from the wholesale
sector of the city of Goiânia-GO, with attributes selected from the Tax Code of the State
of Goiás. During the experiments, the AttributeSelection and Discretize algorithms were
applied. Reduction of attributes and transformation of the continuous variables into
discrete ones, respectively. The statistical indices Confusion Matrix and Kappa
Coefficient were used as validation metrics of the proposed model. After each
experiment, classification rules were extracted, thus forming the proposed predictive
model of classification. In the best scenario, a correct classification rate of 84% accuracy
was obtained. Data mining is a reality within many organizations and can be a strong ally
in fulfilling the, trivial, task of knowledge discovery in corporate databases. / Com o aumento exponencial do volume de dados armazenados e o alto potencial de
conhecimento oculto nesses dados que pode auxiliar nas estratégias e nas tomadas de
decisão das organizações, muito vem se investido em tecnologia da informação e
telecomunicação. A presente dissertação teve como objetivo aplicar o processo de
Descoberta do Conhecimento em Base de Dados (DCBD) a fim de classificar os
contribuintes de ICMS da SEFAZ-GO em Alto Sonegador e Baixo Sonegador, por meio
da tarefa de mineração de dados Classificação Supervisionada, implementada pelo
algoritmo J48, na plataforma computacional WEKA. Foram realizados 3 experimentos
com uma amostra de dados de contribuintes de ICMS do setor atacadista do município de
Goiânia-GO, com atributos selecionados a partir do Código do Tributário do Estado de
Goiás. Durante os experimentos foram aplicados os algoritmos AttributeSelection e
Discretize, para a redução de atributos e transformação das variáveis contínuas em
discretas, respectivamente. Os índices estatísticos Matriz de Confusão e Coeficiente de
Kappa foram utilizados como métricas de validação do modelo proposto. Após cada
experimento, regras de classificação foram extraídas formando assim o modelo preditivo
proposto de classificação. Obteve-se, no melhor cenário, uma taxa de classificação
correta de 84% de acerto. A mineração de dados é uma realidade dentro de muitas
organizações e pode ser uma forte aliada no cumprimento da, nada trivial, tarefa de
descoberta de conhecimento nas bases de dados corporativas.
|
Page generated in 0.0561 seconds