Return to search

Text Classification using the Teacher- Student  Chatroom Corpus / Text klassificering med Teacher-- Student Chatroom Corpu

Advancements in Artificial Intelligence, especially in the field of natural language processing have opened new possibilities for educational chatbots. One of these is a chatbot that can simulate a conversation between the teacher and the student for continuous learner support. In an up-scaled learning environment, teachers have less time to interact with each student individually. A resource to practice interactions with students could be a boon to alleviate this issue. In this thesis, we present a machine-learning model combined with a heuristic approach used in the creation of a chatbot. The machine learning model learns language understanding using prebuilt language representations which are fine-tuned with teacher-student conversations. The heuristic compares responses and picks the highest score for response retrieval. A data quality analysis is also performed on the teacher-student conversation dataset. For results, the best-base-cased language model performed best for text classification with a weighted F1-score of 0.70. The dataset used for the machine learning model showed consistency and completeness issues regarding labelling. The Technology Acceptance Model has been used to evaluate the model. The results of this evaluation show a high perceived ease of use, but a low perceived usefulness of the present solution. The thesis contributes with the innovative TUM (topic understanding model), an educational chatbot and an evaluation of the teacher-student chatroom corpus regarding the usage for text classification. / Teknologiska framsteg i artificiell intelligens, speciellt inom språkteknologi, har öppnat för nya möjligheter för chatbottar inom utbildningssektorn. Chatbots har sett en ökande användning i olika lärandeändamål. En av dessa är en chatbot som kan simulera en konversation mellan en lärare och en student för lärandestöd. När inlärning sker på en allt större skala, har lärare allt mindre tid att lägga individuellt på varje student. En resurs för att öva på interaktioner med studenter skulle därför kunna vara ett bra hjälpmedel. I denna masteruppsats presenteras en maskininlärnings modell kombinerad med ett heuristiskt tillvägagångsätt i skapandet av en chatbot. Maskininlärningsmodellen använder sig av färdigbyggda språkrepresentationer som är finjusterade med lärare-studentkonversationer. Heuristiken jämför svar och väljer den högsta poängen för svarshämtning. En datakvalité analys är också gjord på lärare-studentkonversations datasetet. För resultat, den BERT-baserade språkmodellen gav bäst resultat för textklassificering med en weigthed-F1- score på 0.70. Datasetet som användes för maskininlärningsmodellen visade konsistens och fullständighet problem rörande etiketter. Teknologi acceptans modellen har använts för att evaluera modellen. Resultatet av evalueringen visade hög upplevd användarvänlighet, men låg upplevd användbarhet. Detta arbete bidrar med TUM (topic understanding model), en utbildningschatbot och en evaluering av datasetet teacherstudent chatroom corpus för användning till textklassificering.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325581
Date January 2023
CreatorsÖsterberg, Marcus
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:41

Page generated in 0.0849 seconds