Global ETD Search

Return to search

Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos

Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:06Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:27Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Made available in DSpace on 2018-03-07T18:10:27Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5)
Previous issue date: 2017-09-29 / Virtual herbariums aim to disseminate scientific information and contribute to the
conservation and sustainable use of Brazilian biological resources. It currently includes 120
national herbaria and 25 herbariums from abroad, together provide more than 5,4 million
records and more than one million images, in addition to several free access tools, opening
space for the application of Machine Learning techniques, among them classifiers. In the
Machine Learning process, Attribute Selection is part of the pre-processing of data and can
correspond to 80% of the data mining phase, for this it is necessary to study the approaches
used to make the selection of a subset of attributes that better generalize the basis to be
induced to the model of machine learning. The objective of this work is to apply the attributes
selection processes with the following filter, wrapper and embedded approaches in the
National Institute of Science and Technology (NIST) - Virtual Herbarium of Flora and Fungi,
this base contains 87,732 records and 51 features, with 119 collections and sub-collections,
86,967 online records, 80,513 georeferenced records, 12,073 different accepted species. The
first phase of machine learning processes is the pre-processing, which will analyze the
database and will result in a more general and ready basis for the application of the predictive
models of classification, after the filter of the most relevant subset of attributes, the Machine
Learning algorithms are applied, which in this research was: Decision Tree, Network Neural
Artificial and Logistic Regression. The evaluation of the models will be through the confusion
matrix using the accuracy and the analysis of the area on the ROC curve. Among the models
studied, the Logistic Regression was the one that obtained the performance with a total
accuracy of 77.25%, with the filter approach and 76.25% with the wrapper. / Os herbários virtuais têm como objetivo disseminar informações científicas e
contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros.
Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam
mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas
de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina,
entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de
Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da
mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas
para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser
induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os
processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na
base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos
Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções,
86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas.
A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que
analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos
modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes
aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de
Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através
da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os
modelos estudados o de Regressão Logística obteve o desempenho de classificação de
acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper.

Aprendizado de Máquina

Herbários nacionais

Árvore de Decisão

Rede Neural Artificial

Regressão Logística

CIÊNCIAS AGRÁRIAS

Identifer	oai:union.ndltd.org:IBICT/oai:http://localhost:tede/6232
Date	29 September 2017
Creators	Souza, Adriano Honorato de, 92-99124-3842
Contributors	ppgctra@ufam.edu.br, Kanda, Jorge Yoshio, Queiroz Neto, José Pinheiro de, Ruy, Fernando
Publisher	Universidade Federal do Amazonas, Programa de Pós-graduação em Ciência e Tecnologia para Recursos Amazônicos, UFAM, Brasil, Instituto de Ciências Exatas e Tecnologia - Itacoatiara
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM
Rights	http://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation	3668467105088473708, 600, 500, 8672319633406345715

Page generated in 0.0027 seconds

Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos

Description

Links & Downloads

Tags

Additional Fields