Spelling suggestions: "subject:"árvore dde decisão"" "subject:"árvore dde recisão""
1 |
Classificação da exatidão de coordenadas obtidas com a fase da portadora L1 do GPS / Accuracy's classification of GPS L1 carrier phase obtained coordinatesMenzori, Mauro 20 December 2005 (has links)
A fixação das duplas diferenças de ambigüidades no processamento dos dados da fase da portadora do Sistema de Posicionamento Global (GPS), é um dos pontos cruciais no posicionamento relativo estático. Esta fixação também é utilizada como um indicador de qualidade e fornece maior segurança quanto ao resultado do posicionamento. No entanto, ela é uma informação puramente estatística baseada na precisão da medida e dissociada da exatidão das coordenadas geradas na solução. A informação sobre a exatidão das coordenadas de pontos medidos através de um vetor simples, é sempre inacessível, independente de a solução ser fixa ou float". Além disso, existe um risco maior em assumir um resultado de solução float", mesmo que ele tenha uma boa, porém, desconhecida exatidão. Por estes motivos a solução float" não é aceita por muitos contratantes de serviços GPS, feitos com a fase da portadora, que exigem uma nova coleta de dados, com o conseqüente dispêndio de tempo e dinheiro. Essa tese foi desenvolvida no sentido de encontrar um procedimento que melhore esta situação. Para tanto, se investigou o comportamento da exatidão em medidas obtidas com a fase da portadora L1 do GPS, monitorando os fatores variáveis presentes neste tipo de medição, o que tornou possível a classificação da exatidão de resultados. Inicialmente, a partir de um conjunto de dados GPS, coletados ao longo dos anos de 2003, 2004 e 2005 em duas bases de monitoramento contínuo da USP, se fez uma análise sistemática do comportamento das variáveis contidas nos dados. A seguir se estruturou um banco de dados, que foi usado como referência na indução de uma árvore de decisão adotada como paradigma. Por último, a partir desta árvore se pôde inferir a exatidão de soluções de posicionamento obtidas com o uso da portadora L1. A validação do procedimento foi feita através da classificação da exatidão de resultados de várias linhas base, coletadas em diferentes condições e locais do estado de São Paulo e do Brasil / The most crucial step on the relative static positioning, when using the Global Positioning System (GPS) carrier phase data, is the fixing ambiguities integer values. The integer ambiguity solution is also used as a quality indicator, ensuring quality to the positioning results. In despite of its capability, the ambiguity fix solution is purely statistical information, based on the precision of measurements and completely apart from the coordinate's solution accuracy. In a single baseline processing, the positioning coordinates accuracy is always inaccessible, no matter if the final solution is float or fixed. In fact, there is some inner risk when using the float solution, although they have a good, nevertheless, unknown accuracy. Probably that is why several GPS job contractors reject the float solutions and require a new data observation, with the consequent time and money loss. This research was developed to improve that situation, investigation the inner accuracy in several GPS L1 carrier phase measurements. Checking the variable factors existing on this kind of measurement it was possible to classify the results accuracy behavior. The investigation was developed in tree steps: started with the systematic analysis of a group of L1 observation data, collected during the years: 2003, 2004 and 2005, followed by the construction of a structured data bank which generated a decision tree, performing the paradigm used to classify the accuracy of any measurement made with GPS L1 carrier phase; and ended with the research validation, through the accuracy classification that was made on several baselines, collected on different conditions and places around the state of São Paulo and Brazil
|
2 |
Análise da execução de serviços não planejados por uma empresa prestadora de serviços na construção civil utilizando a técnica da árvore de decisãoALENCAR, Marcelo Hazin January 2007 (has links)
Made available in DSpace on 2014-06-12T17:41:23Z (GMT). No. of bitstreams: 2
arquivo7313_1.pdf: 1073012 bytes, checksum: caefd598194e9a4d2c3255d6f9d5ef72 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2007 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A indústria da construção civil contribui intensamente para o desenvolvimento do país.
A competitividade, que a cada dia vem crescendo no setor, faz com que empresas
busquem melhorias com o objetivo de atender às expectativas dos clientes. É neste
cenário que as empresas prestadoras de serviço na construção civil atuam. A
estruturação destas empresas é um fato que vem se destacando ao longo dos últimos
anos, sendo a preocupação com o cumprimento do planejamento dos serviços um ponto
importante dessa estruturação. Daí a importância do planejamento dos serviços. A
questão básica a ser discutida refere-se à falta de planejamento por parte das empresas
contratantes, o que faz com que as empresas prestadoras de serviços tenham
dificuldades em se programar para o atendimento das solicitações dos clientes. Diante
dos problemas expostos, este trabalho propõe a utilização de uma técnica chamada
árvore de decisão em um estudo de caso em uma empresa aplicadora de gesso.
Através do uso da referida técnica, busca-se auxiliar o decisor na visualização e análise
de um determinado problema, facilitando a sua tomada de decisão. A árvore de decisão
é construída através do software Treeplan, sendo a análise de sensibilidade
disponibilizada no final deste estudo
|
3 |
Classificação da exatidão de coordenadas obtidas com a fase da portadora L1 do GPS / Accuracy's classification of GPS L1 carrier phase obtained coordinatesMauro Menzori 20 December 2005 (has links)
A fixação das duplas diferenças de ambigüidades no processamento dos dados da fase da portadora do Sistema de Posicionamento Global (GPS), é um dos pontos cruciais no posicionamento relativo estático. Esta fixação também é utilizada como um indicador de qualidade e fornece maior segurança quanto ao resultado do posicionamento. No entanto, ela é uma informação puramente estatística baseada na precisão da medida e dissociada da exatidão das coordenadas geradas na solução. A informação sobre a exatidão das coordenadas de pontos medidos através de um vetor simples, é sempre inacessível, independente de a solução ser fixa ou float. Além disso, existe um risco maior em assumir um resultado de solução float, mesmo que ele tenha uma boa, porém, desconhecida exatidão. Por estes motivos a solução float não é aceita por muitos contratantes de serviços GPS, feitos com a fase da portadora, que exigem uma nova coleta de dados, com o conseqüente dispêndio de tempo e dinheiro. Essa tese foi desenvolvida no sentido de encontrar um procedimento que melhore esta situação. Para tanto, se investigou o comportamento da exatidão em medidas obtidas com a fase da portadora L1 do GPS, monitorando os fatores variáveis presentes neste tipo de medição, o que tornou possível a classificação da exatidão de resultados. Inicialmente, a partir de um conjunto de dados GPS, coletados ao longo dos anos de 2003, 2004 e 2005 em duas bases de monitoramento contínuo da USP, se fez uma análise sistemática do comportamento das variáveis contidas nos dados. A seguir se estruturou um banco de dados, que foi usado como referência na indução de uma árvore de decisão adotada como paradigma. Por último, a partir desta árvore se pôde inferir a exatidão de soluções de posicionamento obtidas com o uso da portadora L1. A validação do procedimento foi feita através da classificação da exatidão de resultados de várias linhas base, coletadas em diferentes condições e locais do estado de São Paulo e do Brasil / The most crucial step on the relative static positioning, when using the Global Positioning System (GPS) carrier phase data, is the fixing ambiguities integer values. The integer ambiguity solution is also used as a quality indicator, ensuring quality to the positioning results. In despite of its capability, the ambiguity fix solution is purely statistical information, based on the precision of measurements and completely apart from the coordinate's solution accuracy. In a single baseline processing, the positioning coordinates accuracy is always inaccessible, no matter if the final solution is float or fixed. In fact, there is some inner risk when using the float solution, although they have a good, nevertheless, unknown accuracy. Probably that is why several GPS job contractors reject the float solutions and require a new data observation, with the consequent time and money loss. This research was developed to improve that situation, investigation the inner accuracy in several GPS L1 carrier phase measurements. Checking the variable factors existing on this kind of measurement it was possible to classify the results accuracy behavior. The investigation was developed in tree steps: started with the systematic analysis of a group of L1 observation data, collected during the years: 2003, 2004 and 2005, followed by the construction of a structured data bank which generated a decision tree, performing the paradigm used to classify the accuracy of any measurement made with GPS L1 carrier phase; and ended with the research validation, through the accuracy classification that was made on several baselines, collected on different conditions and places around the state of São Paulo and Brazil
|
4 |
Explorando técnicas para modelagem de dados agregados de óbitos provenientes de acidentes por automóvel / Exploring techniques for modeling of aggregates data from deaths automobile accidentsSantos, Murilo Castanho dos 01 October 2015 (has links)
Esta dissertação se baseia na exploração de técnicas para modelagem de óbitos provenientes de acidentes por automóvel no estado de São Paulo. A análise foi agregada por área, e utilizou a razão de óbitos por população, por área e por fluxo veicular como variáveis dependentes e as variáveis independentes foram características socioeconômicas, área, frota de veículos, IDHM, fluxo veicular anual e distâncias entre microrregiões. Os dados do ano 2000 foram utilizados na calibração e dados de 2010 na validação dos modelos, com a técnica de mineração de dados (algoritmos de Árvore de Decisão - AD: CART - Classification And Regression Tree e CHAID - Chi-squared Automatic Interaction Detection) e Regressão Linear Múltipla (RLM) para fins comparativos com os modelos de AD. A partir dos resultados verifica-se que a RLM foi a técnica que obteve melhores erro médio, erro médio absoluto e coeficiente de correlação, e o algoritmo CART da AD o menor erro médio normalizado. Ao comparar as taxas de óbitos, a relação por área apresentou melhor erro médio e coeficiente de correlação, já a relação por população obteve menor erro médio normalizado e erro médio absoluto. Vale ressaltar que os algoritmos de AD são técnicas adequadas para classificação de áreas segundo faixas de valores de variáveis explicativas e valores médios da variável objeto de estudo. Além disso, tais técnicas são mais flexíveis em relação a alguns pressupostos de modelos de regressão. Dessa forma, a principal contribuição deste trabalho consiste na exploração de tais algoritmos para previsão de acidentes e classificação de regiões. / This dissertation is based on techniques exploration for modeling of deaths from automobile accidents on the state of São Paulo. The analysis was aggregated by area, and used the ratio of deaths per population, by area and by vehicle flow as dependent variables and the independent variables were socioeconomic characteristics, area, vehicle fleet, Municipal Human Development Index (MHDI), annual vehicle flow and distances between micro-regions. The 2000 data were used for calibration and 2010 data to validate the models with data mining technique (decision tree - DT algorithms: CART - Classification And Regression Tree and CHAID - Chi-squared Automatic Interaction Detection) and Multiple Linear Regression (MLR) for comparative purposes with the DT models. From the results it appears that the RLM was the technique that achieved better mean error, mean absolute error and correlation coefficient values, while the CART algorithm presented the lowest value of mean normalized error. When comparing death rates, a relation by area showed better mean error and correlation coefficient values, as the ratio by population had lower mean normalized error and mean absolute error values. It is noteworthy that the DT algorithms are suitable techniques for classification of areas in accordance with explanatory variables of value ranges and average values of the variable object of study. Furthermore, such techniques are more flexible compared to some assumptions regression models. Thus, the main contribution of this study is the exploration of such algorithms for prediction of accidents and regions classification.
|
5 |
Modelo para tomada de decisão na escolha de sistema de tratamento de esgoto sanitário / A decision making model for choosing sewage treatment systemsOliveira, Sonia Valle Walter Borges de 10 November 2004 (has links)
A escolha do sistema de tratamento de esgoto sanitário a ser instalado em uma cidade pode tornar-se uma difícil decisão, uma vez que diversas variáveis interferem em seu custo e em sua qualidade ambiental. Este trabalho pretende mostrar a possibilidade de se usar técnicas da análise de decisão para a escolha do sistema de tratamento de esgoto sanitário de forma ecológica e econômica, como árvore de decisão e análise de sensibilidade. Para a avaliação dos sistemas, foi desenvolvido um modelo com oito alternativas, compostas de processos biológicos anaeróbios Reator Anaeróbio de Manta de Lodo e Lagoa Anaeróbia seguidos de aeróbios Lodos Ativados, Lagoa Facultativa, Filtro Biológico Percolador e Lagoa Aerada com Lagoa de Decantação. O modelo elabora o dimensionamento das unidades de tratamento e, a partir desses dados, a estimativa de custo de cada sistema. O custo total de cada alternativa foi composto por itens de implantação, operação e manutenção. O modelo foi avaliado para quatro casos de populações distintas, apresentando variação nas alternativas mais indicadas para cada um. A análise de sensibilidade se mostrou eficaz em identificar as alternativas mais significativas no custo total dos sistemas. Os resultados encontrados indicam, de maneira promissora, que o modelo poderá auxiliar a escolha de sistemas de tratamento, bem como seu pré-dimensionamento, com base em características peculiares à sua localidade. / The selection of the wastewater treatment system to be installed in a city can be a difficult decision, once several variables interfere in its cost and in its environmental quality. This study intends to show the possibility of using techniques of decision analysis to select the wastewater treatment system in an ecological and economical way, as decision tree and sensitivity analysis. For the evaluation of systems, a model was developed with eight alternatives, composed of anaerobic biological process - Upflow Anaerobic Sludge Blanket and Anaerobic Pond - followed by aerobic process Activated-Sludge, Facultative Pond, Trickling Filter and Aerated Lagoon with Sedimentation Basin. The model elaborates the treatment units dimensioning and cost estimation of each system, based on dimensioning data. The total cost of each alternative was composed by construction, operation and maintenance items. The model was evaluated using four cases of different populations, presenting variation in the most suitable alternatives for each one. The sensitivity analysis was shown effective in identifying the most significant alternatives in the total cost of the systems. The results indicate, in a promising way , that the model will be able to help the choice of treatment systems, as well as its pre-dimensioning, based in local peculiar characteristics.
|
6 |
Md-pread: um modelo para predição de reprovação de aprendizes na educação a distância usando árvore de decisãoFerreira, João Luiz Cavalcante 25 February 2016 (has links)
Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2016-04-13T15:28:01Z
No. of bitstreams: 1
João Luiz Cavalcante Ferreira_.pdf: 1672669 bytes, checksum: 80b5c6fbc873c9f858b230e78855dd55 (MD5) / Made available in DSpace on 2016-04-13T15:28:01Z (GMT). No. of bitstreams: 1
João Luiz Cavalcante Ferreira_.pdf: 1672669 bytes, checksum: 80b5c6fbc873c9f858b230e78855dd55 (MD5)
Previous issue date: 2016-02-25 / Nenhuma / A Educação a Distância (EaD) no Brasil tem se consolidado com diversos estudantes optando por essa modalidade de ensino para ampliar suas formações e realização profissional, no entanto ela enfrenta alguns obstáculos, como a resistência de educandos e educadores, desafios organizacionais, custos de produção e a questão da reprovação ou retenção de alunos. Um dos principais diferenciais dos cursos EaD é a grande quantidade de dados gerados pelas interações no ambiente educacional, o que abre novas possibilidades para estudar e compreender estas interações. A Mineração de Dados educacionais (MDE) é uma área de pesquisa interdisciplinar que lida com o desenvolvimento de métodos para explorar dados originados no contexto educacional. A Learning Analytics (LA) é outra área de pesquisa emergente. Ela busca medir, coletar, analisar e relatar dados sobre estudantes. O desafio dos pesquisadores é desenvolver métodos capazes de prever o desempenho dos estudantes de modo a possibilitar a intervenção de professores e tutores visando resgatar o estudante antes que reprove. Esta dissertação propõe o MD-PREAD, um modelo para predição de grupos de risco de reprovação em um ambiente de Educação a Distância. A técnica de árvore de decisão foi utilizada para possibilitar um diferencial quanto à possibilidade de interpretação dos dados gerados pelo uso dos métodos de predição, pois outros métodos, tais como Redes Neurais Artificiais possuem como deficiência justamente a dificuldade de identificar as causas que levam aos resultados das predições. O modelo foi prototipado na ferramenta de mineração RapidMiner. Um experimento foi realizado no Instituto Federal de Educação, Ciência e Tecnologia do Amazonas, no programa Universidade Aberta do Brasil, no Curso de Filosofia da educação. Foram feitas coletas de dados históricos de 10 disciplinas de um grupo de 30 aprendizes em dois semestres consecutivos, 2014/2 e 2015/1, o total de alunos matriculados foi de 125, o total de interações levantadas foi de 41070, o cálculo de predição considerou as médias das avaliações de 30 aprendizes, os desvios padrões das interações e suas respectivas situações. Estes dados serviram para compor o conjunto de treinamento necessário para a definição da regra de classificação que teve como predominante a acurácia de 55% e a confiabilidade Kappa de 0,22. Foi realizado um segundo processo de validação, após o experimento, considerou-se os 125 alunos e o melhor classificador encontrado foi o J48 com a acurácia de 84,05%, precisão de 77,08% e recall de 50,23%. Concluiu-se que o MD-PREAD é uma ferramenta de auxílio no prognóstico de grupos de risco de reprovação, uma vez que possibilitou a geração e disponibilização semanal destes grupos a um sistema de recomendação educacional externo. / E-learning in Brazil has been established with many students opting for this type of education to expand their training and professional achievement, however it faces some obstacles, such as resistance from students and educators, organizational challenges, production costs and the question of failure or retention of students. One of the main advantages of e-learning courses is the large amount of data generated by the interactions in the educational environment, which opens up new possibilities to study and understand these interactions. Educational Data Mining (EDM) is an area of interdisciplinary research that deals with the development of methods to explore data that originates in the educational context. Learning Analytics (LA) is another area of emerging research. It seeks to measure, collect, analyze and report data on students. The challenge for researchers is to develop methods to predict the performance of students in order to allow the intervention of teachers and tutors aiming to retrieve the student before failing. This thesis proposes the MD-PREAD, a model for predicting failure of risk groups in a e-learning environment. The decision tree technique was used to enable a difference as to whether the interpretation of the data generated by the use of prediction methods, since other methods such as Artificial Neural Networks that has as disability difficulty in identifying precisely the causes that lead to predictions results. The model was prototyped in RapidMiner mining tool. An experiment was conducted at the Federal Institute of Education, Science and Technology of Amazonas, the Open University of Brazil program in course Philosophy of education. Historical data collection of 10 disciplines from a group of 30 apprentices were made in two consecutive semesters, 2014/2 and 2015/1, the total number of enrolled students was 125, the total raised interactions were 41070, the prediction calculation considered average of 30 apprentices ratings, the standard deviations of the interactions and their situations. These data served to compose the training set required for classification rule defining which had as predominant accuracy of 55% and Kappa reliability 0.22. A second validation process was carried out after the experiment. It was considered the total amount of 125 apprentices and the best classifier found was the J48 with the accuracy of 84.05%, 77.08% of classification precision and recall of 50.23%. It was concluded that the MD-PREAD is a support tool in the prognosis of failure risk groups, since it enabled the generation and weekly availability of these groups to a recommendation system.
|
7 |
Explorando técnicas para modelagem de dados agregados de óbitos provenientes de acidentes por automóvel / Exploring techniques for modeling of aggregates data from deaths automobile accidentsMurilo Castanho dos Santos 01 October 2015 (has links)
Esta dissertação se baseia na exploração de técnicas para modelagem de óbitos provenientes de acidentes por automóvel no estado de São Paulo. A análise foi agregada por área, e utilizou a razão de óbitos por população, por área e por fluxo veicular como variáveis dependentes e as variáveis independentes foram características socioeconômicas, área, frota de veículos, IDHM, fluxo veicular anual e distâncias entre microrregiões. Os dados do ano 2000 foram utilizados na calibração e dados de 2010 na validação dos modelos, com a técnica de mineração de dados (algoritmos de Árvore de Decisão - AD: CART - Classification And Regression Tree e CHAID - Chi-squared Automatic Interaction Detection) e Regressão Linear Múltipla (RLM) para fins comparativos com os modelos de AD. A partir dos resultados verifica-se que a RLM foi a técnica que obteve melhores erro médio, erro médio absoluto e coeficiente de correlação, e o algoritmo CART da AD o menor erro médio normalizado. Ao comparar as taxas de óbitos, a relação por área apresentou melhor erro médio e coeficiente de correlação, já a relação por população obteve menor erro médio normalizado e erro médio absoluto. Vale ressaltar que os algoritmos de AD são técnicas adequadas para classificação de áreas segundo faixas de valores de variáveis explicativas e valores médios da variável objeto de estudo. Além disso, tais técnicas são mais flexíveis em relação a alguns pressupostos de modelos de regressão. Dessa forma, a principal contribuição deste trabalho consiste na exploração de tais algoritmos para previsão de acidentes e classificação de regiões. / This dissertation is based on techniques exploration for modeling of deaths from automobile accidents on the state of São Paulo. The analysis was aggregated by area, and used the ratio of deaths per population, by area and by vehicle flow as dependent variables and the independent variables were socioeconomic characteristics, area, vehicle fleet, Municipal Human Development Index (MHDI), annual vehicle flow and distances between micro-regions. The 2000 data were used for calibration and 2010 data to validate the models with data mining technique (decision tree - DT algorithms: CART - Classification And Regression Tree and CHAID - Chi-squared Automatic Interaction Detection) and Multiple Linear Regression (MLR) for comparative purposes with the DT models. From the results it appears that the RLM was the technique that achieved better mean error, mean absolute error and correlation coefficient values, while the CART algorithm presented the lowest value of mean normalized error. When comparing death rates, a relation by area showed better mean error and correlation coefficient values, as the ratio by population had lower mean normalized error and mean absolute error values. It is noteworthy that the DT algorithms are suitable techniques for classification of areas in accordance with explanatory variables of value ranges and average values of the variable object of study. Furthermore, such techniques are more flexible compared to some assumptions regression models. Thus, the main contribution of this study is the exploration of such algorithms for prediction of accidents and regions classification.
|
8 |
MINERAÇÃO DE DADOS APLICADA À CLASSIFICAÇÃO DOS CONTRIBUINTES DE ICMS DA SEFAZ-GORocha, Santiago Meireles 18 August 2017 (has links)
Submitted by admin tede (tede@pucgoias.edu.br) on 2018-02-15T18:00:36Z
No. of bitstreams: 1
SANTIAGO MEIRELES ROCHA.pdf: 972185 bytes, checksum: afac5e4d20639e20e3c5eed384124a70 (MD5) / Made available in DSpace on 2018-02-15T18:00:36Z (GMT). No. of bitstreams: 1
SANTIAGO MEIRELES ROCHA.pdf: 972185 bytes, checksum: afac5e4d20639e20e3c5eed384124a70 (MD5)
Previous issue date: 2017-08-18 / With the exponential increase in the volume of data stored and the high potential for
hidden knowledge in these data that can aid in the strategies and decision making of
organizations, much has been invested in information technology and telecommunication.
The purpose of this dissertation was to apply the Knowledge Discovery in Database
(DCBD) process in order to classify the taxpayers of SEFAZ-GO ICMS in High Eviction
and Low Eviction, through the task of data mining Supervised Classification,
Implemented by the algorithm J48, on the WEKA computing platform. Three
experiments were carried out with a sample of ICMS taxpayers data from the wholesale
sector of the city of Goiânia-GO, with attributes selected from the Tax Code of the State
of Goiás. During the experiments, the AttributeSelection and Discretize algorithms were
applied. Reduction of attributes and transformation of the continuous variables into
discrete ones, respectively. The statistical indices Confusion Matrix and Kappa
Coefficient were used as validation metrics of the proposed model. After each
experiment, classification rules were extracted, thus forming the proposed predictive
model of classification. In the best scenario, a correct classification rate of 84% accuracy
was obtained. Data mining is a reality within many organizations and can be a strong ally
in fulfilling the, trivial, task of knowledge discovery in corporate databases. / Com o aumento exponencial do volume de dados armazenados e o alto potencial de
conhecimento oculto nesses dados que pode auxiliar nas estratégias e nas tomadas de
decisão das organizações, muito vem se investido em tecnologia da informação e
telecomunicação. A presente dissertação teve como objetivo aplicar o processo de
Descoberta do Conhecimento em Base de Dados (DCBD) a fim de classificar os
contribuintes de ICMS da SEFAZ-GO em Alto Sonegador e Baixo Sonegador, por meio
da tarefa de mineração de dados Classificação Supervisionada, implementada pelo
algoritmo J48, na plataforma computacional WEKA. Foram realizados 3 experimentos
com uma amostra de dados de contribuintes de ICMS do setor atacadista do município de
Goiânia-GO, com atributos selecionados a partir do Código do Tributário do Estado de
Goiás. Durante os experimentos foram aplicados os algoritmos AttributeSelection e
Discretize, para a redução de atributos e transformação das variáveis contínuas em
discretas, respectivamente. Os índices estatísticos Matriz de Confusão e Coeficiente de
Kappa foram utilizados como métricas de validação do modelo proposto. Após cada
experimento, regras de classificação foram extraídas formando assim o modelo preditivo
proposto de classificação. Obteve-se, no melhor cenário, uma taxa de classificação
correta de 84% de acerto. A mineração de dados é uma realidade dentro de muitas
organizações e pode ser uma forte aliada no cumprimento da, nada trivial, tarefa de
descoberta de conhecimento nas bases de dados corporativas.
|
9 |
Utilização de técnicas de inteligência artificial para classificação de crianças cardiopatas em base de dados desbalanceadasTavares, Thiago Ribeiro 31 January 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T17:23:07Z
No. of bitstreams: 2
Dissertacao Thiago Tavares.pdf: 3582760 bytes, checksum: dfee6c424fc987631aeae3fbd4e4e524 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:23:44Z (GMT) No. of bitstreams: 2
Dissertacao Thiago Tavares.pdf: 3582760 bytes, checksum: dfee6c424fc987631aeae3fbd4e4e524 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:23:44Z (GMT). No. of bitstreams: 2
Dissertacao Thiago Tavares.pdf: 3582760 bytes, checksum: dfee6c424fc987631aeae3fbd4e4e524 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013 / As doenças cardiovasculares são as que mais matam no Brasil e no mundo. Dessas,
a cardiopatia congênita, uma malformação cardíaca presente desde o nascimento, acomete 8
a 10 em cada 1000 nascidos vivos e aproximadamente 1/3 deles necessitam de tratamento já
no primeiro ano de vida. Inúmeros trabalhos demonstram que quanto antes for estabelecido o
diagnóstico maiores serão as chances de sucesso no tratamento. O atendimento de crianças com
suspeita de cardiopatia gera uma grande quantidade de informação, porém a diferenciação entre
sinais e sintomas normais ou patológicos logo no início, por exemplo, na marcação da consulta,
pode ser aspecto fundamental para agilizar o atendimento. Há algum tempo a Inteligência
Artificial, mais especificamente a subárea de Mineração de Dados, tem sido utilizada como
ferramenta de suporte à decisão médica em diversas especialidades, inclusive na cardiologia.
Apesar da maioria das aplicações nesse contexto utilizarem Árvore de Decisão para classificação
devido ao seu poder de interpretação e extração de regras, Máquinas de Vetor de Suporte
(Support Vector Machines - SVM) têm demonstrado, em várias aplicações, um maior poder de
generalização apresentando melhores resultados. No entanto, esse tipo de algoritmo, caixa-preta,
não produz um conhecimento explícito de modo que um médico, especialista no domínio, possa
interpretá-lo. A proposta desse trabalho é o desenvolvimento de um sistema de apoio à decisão
médica que auxilie na detecção de cardiopatias em crianças, a partir de dados iniciais, como
gênero, peso, altura e presença de sopros, com o objetivo de priorizar o seu atendimento médico.
Técnicas para lidar com bases de dados desbalanceadas, tais como SMOTE e SVM com pesos
foram utilizadas a fim de melhorar os resultados com relação a classificadores convencionais.
Além disso, foi possível realizar a extração de regras a partir dos resultados obtidos pela SVM.
Segundo os especialistas, os resultados obtidos viabilizam a utilização do sistema de apoio
à decisão que pode ser incorporado à prática clínica para melhorar a qualidade dos serviços
prestados.
|
10 |
Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos FungosSouza, Adriano Honorato de, 92-99124-3842 29 September 2017 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:06Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:27Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Made available in DSpace on 2018-03-07T18:10:27Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5)
Previous issue date: 2017-09-29 / Virtual herbariums aim to disseminate scientific information and contribute to the
conservation and sustainable use of Brazilian biological resources. It currently includes 120
national herbaria and 25 herbariums from abroad, together provide more than 5,4 million
records and more than one million images, in addition to several free access tools, opening
space for the application of Machine Learning techniques, among them classifiers. In the
Machine Learning process, Attribute Selection is part of the pre-processing of data and can
correspond to 80% of the data mining phase, for this it is necessary to study the approaches
used to make the selection of a subset of attributes that better generalize the basis to be
induced to the model of machine learning. The objective of this work is to apply the attributes
selection processes with the following filter, wrapper and embedded approaches in the
National Institute of Science and Technology (NIST) - Virtual Herbarium of Flora and Fungi,
this base contains 87,732 records and 51 features, with 119 collections and sub-collections,
86,967 online records, 80,513 georeferenced records, 12,073 different accepted species. The
first phase of machine learning processes is the pre-processing, which will analyze the
database and will result in a more general and ready basis for the application of the predictive
models of classification, after the filter of the most relevant subset of attributes, the Machine
Learning algorithms are applied, which in this research was: Decision Tree, Network Neural
Artificial and Logistic Regression. The evaluation of the models will be through the confusion
matrix using the accuracy and the analysis of the area on the ROC curve. Among the models
studied, the Logistic Regression was the one that obtained the performance with a total
accuracy of 77.25%, with the filter approach and 76.25% with the wrapper. / Os herbários virtuais têm como objetivo disseminar informações científicas e
contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros.
Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam
mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas
de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina,
entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de
Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da
mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas
para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser
induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os
processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na
base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos
Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções,
86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas.
A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que
analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos
modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes
aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de
Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através
da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os
modelos estudados o de Regressão Logística obteve o desempenho de classificação de
acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper.
|
Page generated in 0.0628 seconds