Global ETD Search

Return to search

Uso de um método preditivo para inferir a zona de aprendizagem de alunos de programação em um ambiente de correção automática de código

Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-06-04T13:02:42Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Filipe Dwan.pdf: 3617202 bytes, checksum: 21261ba9c1db7a40af29004bd0bb6f52 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-06-04T13:02:58Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Filipe Dwan.pdf: 3617202 bytes, checksum: 21261ba9c1db7a40af29004bd0bb6f52 (MD5) / Made available in DSpace on 2018-06-04T13:02:58Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Filipe Dwan.pdf: 3617202 bytes, checksum: 21261ba9c1db7a40af29004bd0bb6f52 (MD5)
Previous issue date: 2018-03-29 / CS1 (first year programming) classes are known to have a high dropout and non-pass
rate. Thus, there have been many studies attempting to predict and alleviate CS1 student
performance. Knowing about student performance in advance can be useful for many reasons.
For example, teachers can apply specific actions to help learners who are struggling,
as well as provide more challenging activities to high-achievers. Initial studies used static
factors, such as: high school grades, age, gender. However, student behavior is dynamic
and, as such, a data-driven approach has been gaining more attention, since many
universities are using web-based environments to support CS1 classes. Thereby, many
researchers have started extracting student behavior by cleaning data collected from these
environments and using them as features in machine learning (ML) models. Recently, the
research community has proposed many predictive methods available, even though many
of these studies would need to be replicated, to check if they are context-sensitive. Thus,
we have collected a set of successful features correlated with the student grade used in
related studies, compiling the best ML attributes, as well as adding new features, and
applying them on a database representing 486 CS1 students. The set of features was used
in ML pipelines which were optimized with two approaches: hyperparameter-tuning
with random search and genetic programming. As a result, we achieved an accuracy of
74.44%, using data from the first two weeks to predict student final grade, which outperforms
a state-of-the-art research applied to the same dataset. It is also worth noting that
from the eighth week of class, the method achieved accuracy between 85% and 90.62%. / Em média, um terço dos alunos no mundo reprova em disciplinas de introdução à
programação de computadores (IPC). Assim, muitos estudos vêm sendo conduzidos a
fim de inferir o desempenho de estudantes de turmas de IPC. Inicialmente, pesquisadores
investigavam a relação das notas dos alunos com fatores estáticos como: notas no
ensino médio, gênero, idade e outros. Entretanto, o comportamento dos estudantes
é dinâmico e, dessa forma, abordagens orientadas aos dados vêm ganhando atenção,
uma vez que muitas universidades utilizam ambientes web para turmas de programação
como juízes online. Com efeito, muitos pesquisadores vêm extraindo e tratando os
dados dos estudantes a partir desses ambientes e usando-os como atributos de algoritmos
de aprendizagem de máquina para a construção de modelos preditivos. No entanto, a
comunidade científica sugere que tais estudos sejam reproduzidos a fim de investigar
se eles são generalizáveis a outras bases de dados educacionais. Neste sentido, neste
trabalho apresentou-se um método que emprega um conjunto de atributos correlacionados
com as notas dos estudantes, sendo alguns baseados em trabalhos relacionados e outros
propostos nesta pesquisa, a fim de realizar a predição do desempenho dos alunos nas
avaliações intermediárias e nas médias finais. Tal método foi aplicado a uma base de
dados com 486 alunos de IPC. O conjunto de atributos chamado de perfil de programação
foi empregado em algoritmos de aprendizagem de máquina e otimizado utilizando
duas abordagens: a) ajuste de hiperparâmetros com random search e b) construção do
pipeline de aprendizagem de máquina utilizando algoritmos evolutivos. Como resultado,
atingiu-se 74,44% de acurácia na tarefa de identificar se os alunos iriam ser reprovados
ou aprovados usando os dados das duas semanas de aula em uma base de dados
balanceada. Esse resultado foi estatisticamente superior ao baseline. Destaca-se ainda
que a partir da oitava semana de aula, o método atingiu acurácias entre 85% e 90,62%.

Alunos de programação

Aaprendizagem de máquina

Data-driven - Métricas de software

Identifer	oai:union.ndltd.org:IBICT/oai:http://localhost:tede/6425
Date	29 March 2018
Creators	Pereira, Filipe Dwan, 95-99119-6508
Contributors	secretariappgi@icomp.ufam.edu.br, Oliveira, Elaine Harada Teixeira de, Oliveira, David Braga Fernandes de, Cristo, Marco Antonio Pinheiro de, Isotani, Seiji
Publisher	Universidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM
Rights	http://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation	1052477850274827528, 500

Page generated in 0.0031 seconds

Uso de um método preditivo para inferir a zona de aprendizagem de alunos de programação em um ambiente de correção automática de código

Description

Links & Downloads

Tags

Additional Fields