Return to search

Machine Learning to predict student performance based on well-being data : a technical and ethical discussion / Maskininlärning för att förutsäga elevers prestationer baserat på data om mående : en teknisk och etisk diskussion

The data provided by educational platforms and digital tools offers new ways of analysing students’ learning strategies. One such digital tool is the wellbeing platform created by EdAider, which consists of an interface where students can answer questions about their well-being, and a dashboard where teachers and schools can see insights into the well-being of individual students and groups of students. Both students and teachers can see the development of student well-being on a weekly basis. This thesis project investigates how Machine Learning (ML) can be used along side Learning Analytics (LA) to understand and improve students’ well-being. Real-world data generated by students at Swedish schools using EdAider’s well-being platform is analysed to generate data insights. In addition ML methods are implemented in order to build a model to predict whether students are at risk of failing based from their well-being data, with the goal to inform data-driven improvements of students’ education. This thesis has three primary goals which are to: 1. Generate data insights to further understand patterns in the student wellbeing data. 2. Design a classification model using ML methods to predict student performance based on well-being data, and validate the model against actual performance data provided by the schools. 3. Carry out an ethical evaluation of the data analysis and grade prediction model. The results showed that males report higher well-being on average than females across most well-being factors, with the exception of relationships where females report higher well-being than males. Students identifying as non-binary gender report a considerably lower level of well-being compared with males and females across all 8 well-being factors. However, the amount of data for non-binary students was limited. Primary schools report higher well-being than the older secondary school students. Students reported anxiety/depression as the most closely correlated dimensions, followed by engagement/accomplishment and positive emotion/depression. Logistic regression and random forest models were used to build a performance prediction model, which aims to predict whether a student is at risk of performing poorly based on their reported well-being data. The model achieved accuracy of 80-85 percent. Various methods of feature importance including regularization, recursive feature selection, and impurity decrease for random forest were investigated to examine which well-being factors have the most effect on performance. All methods of examining feature importance consistently identified three features as important: ”accomplishment,” ”depression,” and ”number of surveys answered.” The benefits, risks and ethical value conflicts of the data analysis and prediction model were carefully considered and discussed using a Value Sensitive Design approach. Ethical practices for mitigating risks are discussed. / Den data som tillhandahålls av utbildningsplattformar och digitala verktyg erbjuder nya sätt att analysera studenters inlärningsstrategier. Ett sådant digitalt verktyg är mående plattformen skapad av EdAider, som består av ett gränssnitt där elever kan svara på frågor om deras mående, och en dashboard där lärare och skolor kan se insikter om individuella elevers och grupper av elevers mående. Både elever och lärare kan se utvecklingen av elevers mående på veckobasis. Detta examensarbete undersöker hur Maskininlärning (ML) kan användas tillsammans med Inlärningsanalys (LA) för att förstå och förbättra elevers mående. Verkliga data genererade av elever vid svenska skolor med hjälp av EdAiders måendeplattform analyseras för att skapa insikter om data. Dessutom implementeras ML-metoder för att bygga en modell för att förutsäga om elever riskerar att misslyckas baserat på deras mående-data, med målet att informera data-drivna förbättringar av elevers utbildning. Detta examensarbete har tre primära mål: 1. Skapa datainsikter för att ytterligare förstå mönster i data om elevers mående. 2. Utforma en modell med hjälp av ML-metoder för att förutsäga elevprestationer baserat på mående-data, och validera modellen mot faktiska prestationsdata som tillhandahålls av skolorna. 3. Utföra en etisk utvärdering av dataanalysen och modellen för betygsprediktion. Resultaten visade att pojkar i genomsnitt rapporterar högre mående än flickor inom de flesta måendefaktorer, med undantag för relationer där flickor rapporterar högre mående än pojkar. Elever som identifierar sig som icke-binära rapporterar en betydligt lägre nivå av mående jämfört med pojkar och flickor över alla 8 måendefaktorer. Men mängden data för icke-binära elever var begränsad. Grundskolor rapporterar högre mående än äldre gymnasieelever. Elever rapporterade ångest/depression som de mest nära korrelerade dimensionerna, följt av engagemang/prestation och positivt känsloläge/depression. Logistisk regression och random forest-modeller användes för att bygga en prestationsprediktionmodell, med en noggrannhet på 80-85 procent uppnådd. Olika metoder för feature selection undersöktes, inklusive regularisering, recursive feature selection och impurity decrease för random forest. Alla metoder för undersökning av feature selection identifierade konsekvent tre funktioner som viktiga: ”prestation,” ”depression,” och ”antal svarade enkäter.” Fördelarna, riskerna och etiska värdekonflikterna i dataanalysen och prediktionsmodellen beaktades noggrant och diskuterades med hjälp av en Value Sensitive Design-ansats.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-335980
Date January 2023
CreatorsMcCarren, Lucy
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:670

Page generated in 0.0481 seconds