Global ETD Search

Return to search

KERMIT: Knowledge Extractive and Reasoning Model usIng Transformers

In the rapidly advancing field of artificial intelligence, Large Language Models (LLMs) like GPT-3, GPT-4, and Gemini have revolutionized sectors by automating complex tasks. Despite their advancements, LLMs and more noticeably smaller language models (SLMs) still face challenges, such as generating unfounded content "hallucinations." This project aims to enhance SLMs for broader accessibility without extensive computational infrastructure. By supervised fine-tuning of smaller models with new datasets, SQUAD-ei and SQUAD-GPT, the resulting model, KERMIT-7B, achieved superior performance in TYDIQA-GoldP, demonstrating improved information extraction while retaining generative quality. / Inom det snabbt växande området artificiell intelligens har stora språkmodeller (LLM) som GPT-3, GPT-4 och Gemini revolutionerat sektorer genom att automatisera komplexa uppgifter. Trots sina framsteg stårdessa modeller, framför allt mindre språkmodeller (SLMs) fortfarande inför utmaningar, till exempel attgenerera ogrundat innehåll "hallucinationer". Denna studie syftar till att förbättra SLMs för bredare till-gänglighet utan krävande infrastruktur. Genom supervised fine-tuning av mindre modeller med nya data-set, SQUAD-ei och SQUAD-GPT, uppnådde den resulterande modellen, KERMIT-7B, överlägsen pre-standa i TYDIQA-GoldP, vilket visar förbättrad informationsutvinning samtidigt som den generativa kva-liteten bibehålls.

http://urn.kb.se/resolve?urn=urn:nbn:se:hig:diva-44763

Keywords: KERMIT-7B

SQUAD-ei

SQUAD-GPT

Artificial Intelligence (AI)

Large Language Models (LLMs)

Small Language Models (SLMs)

Supervised Fine-tuning

Information Extraction.

KERMIT-7B

SQUAD-ei

SQUAD-GPT

Artificiell intelligens (AI)

stora språkmodeller (LLM)

små språkmodeller (SLM)

övervakad finjustering

informationsutvinning.

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:hig-44763
Date	January 2024
Creators	Hameed, Abed Alkarim, Mäntyniemi, Kevin
Publisher	Högskolan i Gävle, Datavetenskap
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	English
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0015 seconds

KERMIT: Knowledge Extractive and Reasoning Model usIng Transformers

Description

Links & Downloads

Tags

Additional Fields