The rapid advancement of cutting-edge techniques has propelled state-of-the-art (SOTA) language models to new heights. Despite their impressive capabilities across a variety of downstream tasks, large language models still face many challenges such as hallucination and bias. The thesis focuses on two key objectives: first, it measures the robustness of T0_3B and investigates feasible methodologies to enhance the model’s robustness. Second, it targets on the explainability of large language models, aiming to make the intrinsic working mechanism more transparent and, consequently enhance model’s steerability. Motivated by the importance of mitigating non-robust behavior in language models, the thesis initially measures model’s robustness on handling minor perturbation. After that, I proposed and verified an approach to enhance robustness by making input more contextualized, a method that does not require the step of fine-tuning. Moreover, to understand the complex working mechanism of large language models, I designed and introduced two novel visualization tools: ’Logit Lens’ and ’Hidden States Plot in Spherical Coordinate System’. These tools, combined with additional experimental analysis, revealed a noticeable differentiation of the predicted processes between the first predicted token and subsequent tokens. The contributions of the thesis are mainly in the two following aspects: it provides feasible methodologies to enhance the robustness of language models without the need of fine-tuning, and it contributes to the field of explainable AI through the development of two visualization tools that shed light on the understanding of the working mechanism. / Den snabba utvecklingen av banbrytande tekniker har drivit språkmodeller till nya höjder. Trots deras imponerande prestanda över diverse språkrelaterade uppgifter, trots detta har dessa modeller fortfarande problem som hallucinationer och bias. Avhandlingen är centrerad kring två huvudmål: för det första undersöker den robustheten hos T0_3B och undersöker framtida strategier för att förbättra dess robusthet. För det andra utforskar den språkmodellernas ”förklaringsbarhet” (dvs hur väl vi förstår deras beteende), i syfte att göra dem mer transparenta och följaktligen förbättra modellens styrbarhet. Det första vi gör är att visa experiment som vi har satt upp för att mäta modellens robusthet mot mindre störningar. Som svar föreslår och underbygger vi ett tillvägagångssätt för att öka robustheten genom att ge modellen mer kontext när en fråga ställs, en metod som inte kräver vidare träning av modellen. Dessutom, för att förstå den komplexiteten hos språkmodeller, introducerar jag två nya visualiseringsverktyg: Logit Lens och Hidden States Plot i sfäriskt koordinatsystem. Dessa verktyg, i kombination med ytterligare experimentell analys, avslöjar ett diskting mönstr för den första förutspådda ordet jämfört med efterföljande ord. Bidragen från avhandlingen är huvudsakligen i de två följande aspekterna: den ger praktiska åtgärder för att förbättra robustheten hos språkmodeller utan behov av vidare träning, och den bidrar till området för förklarabar AI genom utvecklingen av två visualiseringsverktyg som ökar våran förståelse för hur dessa modeller fungerar.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345083 |
Date | January 2024 |
Creators | Yutong, Jiang |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2024:27 |
Page generated in 0.0022 seconds