This thesis presents an algorithm incorporating pattern grammar with random indexing to solve three English synonym benchmarks. A pattern grammar model and a baseline random indexing implementation benchmarked the solution. The results show an significant improvement on the synonym benchmark compared to a baseline random indexing implementation. Most language models today focus on vector space models where the linguistic origins of the information are lost. Even though these algorithms produce good results, it is hard to know where the model learned something. With the help of patterns, we can learn more about how these models work. / Den här uppsatsen presenterar en algoritm som använder sig av mallgrammatik tillsammans med random indexing för att lösa tre synonymtest för engelska. En mallgrammatiksmodell och en referensimplementation av random indexing utvärderades. Resultaten visade en tydlig förbättring på de olika testerna jämfört med referensimplementationen. De flesta språkmodeller idag fokuserar på vektorrepresentationer av språk där det lingvistiska ursprunget hos språket försvinner. Dessa modeller är mycket framgångsrika, men det är svårt att säga något om vad och hur en modell kommit fram till en slutsats. Med hjälp av språkmönster baserade på mallgrammatik kan vi lära oss mer om hur dessa modeller fungerar.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345839 |
Date | January 2024 |
Creators | Klåvus, Carl Henrik |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2024:20 |
Page generated in 0.0016 seconds