Return to search

Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade

Submitted by JÚLIO HEBER SILVA (julioheber@yahoo.com.br) on 2016-12-02T15:54:04Z
No. of bitstreams: 2
Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Jaqueline Silva (jtas29@gmail.com) on 2016-12-13T15:28:18Z (GMT) No. of bitstreams: 2
Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-12-13T15:28:18Z (GMT). No. of bitstreams: 2
Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-10-20 / Educational Data Mining, by the triad of quality improvement, cost reduction and educational
effectiveness, acts and seeks to better understand the teaching and learning process.
In this context, the aim of this work is an exploratory study of classification methods to
predict student performance and dropout from data in university academic databases. In
this study we used demographic, socio-economic and academic results, obtained from the
Vestibular and the university database to analyze several classification techniques, as well
as balancing and attribute selection techniques, identified through a systematic review of
the literature. Following a trend found in the selected articles, we chose to use decision
trees as the primary classification algorithm, although comparative studies showed better
results with logistic regression techniques and Bayesian networks. This is because decision
trees allow an analysis of the attributes used in the generated models while maintaining
acceptable levels of accuracy, while other techniques work as a black box. Through
the tests we found that you get better results using balanced sets. In this sense, the Resample
technique that selects a balanced subset of the data showed better results than SMOTE
technique that generates synthetic data for balancing the dataset. Regarding the use of
attribute selection techniques, these did not bring significant advantages. Among the attributes
used, grades and economic factors often appear as nodes in the generated models.
An attempt to predict performance for each subject based on data from previous courses
was less successful, maybe because of the use of ternary predictive classes. Nevertheless,
the analysis carried out showed that the use of classifiers is a promising way to predict
performance and dropout, but further studies are still needed. / A Mineração de Dados Educacionais, por meio da tríade melhoria da qualidade, redução
do custo e eficácia do ensino, age e procura compreender melhor o processo de ensinoaprendizagem
dos alunos. Neste contexto, o objetivo desta dissertação é o estudo exploratório
de métodos de classificação para predizer o desempenho e o abandono de alunos a
partir de dados existentes nas bases de dados acadêmicas das universidades. Neste trabalho
foram usados dados demográficos, sócio-econômicos e resultados acadêmicos, oriundos
do Vestibular e do banco de dados acadêmico da universidade para analisar diversas
técnicas de classificação, assim como técnicas de balanceamento e seleção de atributos
identificadas através de uma revisão sistemática da literatura. Seguindo uma tendência
verificada nos artigos levantados, optou-se por utilizar como principal algoritmo de classificação
o J48, apesar de estudos comparativos terem mostrado melhores resultados com
técnicas de regressão logística e redes Bayesianas. Isto se deve ao fato das árvores de
decisão permitirem uma análise dos atributos usados nos modelos gerados, mantendo ní-
veis de acurácia aceitáveis, enquanto as outras técnicas funcionam como uma caixa preta.
Neste sentido, a técnica de Resample, que escolhe um subconjunto balanceado dos dados,
apresentou melhores resultados que a técnica de SMOTE, que gera dados sintéticos
para balancear os dados. Quanto ao uso de técnicas de seleção de atributos, estas não
trouxeram vantagens significativas. Dentre os atributos usados, notas e aspectos econômicos
aparecem com frequência nos modelos gerados. Uma tentativa de prever desempenho
por disciplina, com base em dados de disciplinas já cursadas em semestres anteriores foi
menos bem sucedida, talvez pelo fato de usar classes preditoras ternárias. Apesar disto,
as análises realizadas mostraram que o uso de classificadores é um caminho promissor
para a predição de desempenho e abandono, mas estudos mais aprofundados ainda são
necessários

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.bc.ufg.br:tede/6563
Date20 October 2016
CreatorsMotta, Porthos Ribeiro de Albuquerque
ContributorsAmbrósio, Ana Paula Laboissière, Albuquerque, Eduardo Simões de, Ambrósio, Ana Paula Laboissière, Soares, Anderson da Silva, Almeida, Leandro da Silva
PublisherUniversidade Federal de Goiás, Programa de Pós-graduação em Ciência da Computação (INF), UFG, Brasil, Instituto de Informática - INF (RG)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFG, instname:Universidade Federal de Goiás, instacron:UFG
Rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation-3303550325223384799, 600, 600, 600, -7712266734633644768, -862078257083325301

Page generated in 0.003 seconds