This thesis investigates the possibility of automating the classification of post-feedback mathematical reasoning styles, Creative Mathematical Reasoning (CMR) and Algorithmic Reasoning (AR), using prompt-based classification with a Large Language Model (LLM). The study, conducted in collaboration with the Department of Science and Mathematics Education of Umeå University, aims to enhance the efficiency of pedagogical research by reducing the manual labor involved in classifying student responses. The thesis utilizes a dataset of 40 expert-labeled student mathematical solutions, incorporating feedback interactions to assess shifts in reasoning post-feedback. Various prompting methods, including definitions-only and examples-inclusive prompts, were systematically tested to determine their effectiveness in classifying reasoning styles. The classification performance was measured using accuracy, F1-score, and Cohen’s kappa. Results indicate that definitionbased prompts performed robustly, achieving moderate to strong inter-rater agreement. The study also explored the impact of output formats and found that allowing the LLM to classify uncertain cases as indeterminate could potentially automate about 25% of the classification tasks without compromising performance. This thesis underscores the potential of LLMs in automating complex cognitive task classifications in educational research, suggesting further exploration into optimal prompting strategies and reliability enhancements for practical applications. / Denna uppsats undersöker möjligheten att automatisera klassificeringen av matematiska resonemangstyper efter feedback, Kreativt Matematiskt Resonemang (CMR) och Algoritmiskt Resonemang (AR), med hjälp av promptbaserad klassificering med en stor språkmodell (LLM). Studien, som genomfördes i samarbete med Institutionen för naturvetenskapernas och matematikens didaktik vid Umeå universitet, syftar till att öka effektiviteten i pedagogisk forskning genom att minska det manuella arbetet som krävs för att klassificera studenters matematiska resonemang. Uppsatsen använder ett dataset med 40 matematiska lösningar från studenter, klassificerade av experter. Dessa lösningar inkluderar feedback-interaktioner för att bedöma förändringar i resonemang efter feedback. Olika promptmetoder, innehållandes enbart definitioner och exempel-inkluderande promptar, testades systematiskt för att avgöra deras effektivitet vid klassificering av resonemangsstilar. Klassificeringsprestandan mättes med hjälp av accuracy, F1-score och Cohen’s kappa. Resultaten visar att promptar baserade på definitioner hade en robust prestanda och uppnådde måttlig till stark överensstämmelse mellan bedömare. Studien undersökte också påverkan av utdataformat och fann att genom att tillåta LLM att klassificera osäkra fall som obestämdbarkunde cirka 25% av klassificeringsuppgifterna automatiseras utan att kompromissa med prestandan. Denna avhandling framhäver potentialen hos LLMs att automatisera komplexa kognitiva uppgiftsklassificeringar inom utbildningsforskning och föreslår vidare studier av optimala promptstrategier och tillförlitlighetsförbättringar för praktiska tillämpningar.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:umu-226915 |
Date | January 2024 |
Creators | Svahn, Ola |
Publisher | Umeå universitet, Institutionen för psykologi |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0019 seconds