Return to search

Generating Wikipedia Articles with Grammatical Framework : A Case Study / Generering av Wikipedia-artiklar med Grammatical Framework : En fallstudie

Natural language generation is a method used to produce understandable texts in human languages from data [1]. Grammatical Framework is a grammar formalism and a functional programming language using a nonstatistical approach to build natural language applications. It separates the semantics and the syntax - achieving multilingualism by mapping the same semantic model to several syntaxes [2]. Grammatical Framework also has a large library called the Resource Grammar Library which serves the programmer pre-made functions in over 30 languages ready to be used to build words and sentences [3]. This report investigates if Grammatical Framework can be successfully used to perform natural language generation in order to create Wikipedia articles from data taken from Wikidata. A grammar and a program has been built to generate articles in Swedish for urban areas in Sweden. The grammar has been built around the structure of the first three sentences in the Swedish article about the urban area Linköping. Furthermore, the grammar and program is extended in order to support generation of the same articles in English and French. The results show that Grammatical Framework can be somewhat successfully used to generate small Wikipedia articles in different languages using data from Wikidata as input. While all texts were coherent, the Swedish texts were the ones having the least amount of grammatical mistakes. The biggest drawback is the rule of no pattern matching on run-time arguments, which severely limits the programmer since many functions in the resource grammar library use pattern matching internally. Even though Grammatical Framework does not solve the whole problem, it serves as a powerful enough tool to be suitable for natural language generation, with the main advantage being that it relieves the programmer from needing to pay attention to tasks related to grammar such as inflection and gender agreement. / Textgeneration är en metod som används för att generera naturlig text från data. Grammatical Framework är en grammatikformalism och ett funktionellt programmeringsspråk som använder ett ickestatistiskt tillvägagångssätt för att skapa språkteknologiska applikationer. Grammatical Framework separerar semantik och syntax, och uppnår flerspråkighet genom att länka samma semantiska model till flera syntaxer. Grammatical Framework har också ett stort bibliotek, en resursgrammatik, kallad Resource Grammar Library, som tillhandahåller applikations-programmeraren färdiga funktioner i över 30 språk redo att användas för att skapa ord och meningar. Syftet med den här rapporten är att undersöka om Grammatical Framework på ett framgångsrikt sätt kan användas för att generera Wikipedia-artiklar genom att använda data taget från Wikidata. En grammatik och ett program har skapats för att generera artiklar på svenska för svenska tätorter. Grammatiken använder de tre första meningarna i den svenska artikeln om tätorten Linköping som textstruktur. Vidare utökas grammatiken och programmet till att kunna generera samma artiklar på engelska och franska. Resultaten visar att Grammatical Framework är någorlunda framgångsrik när det kommer till att generera små Wikipedia-artiklar på olika språk. Fastän alla texter var läsbara, så hade de svenska texterna minst antal grammatiska fel. Den största nackdelen är den regel i Grammatical Framework som inte tillåter mönstermatchning med run-time argument, vilket begränsar programmeraren då många funktioner i resursgrammatiken använder möstermatching internt på sina argument. Även om Grammatical Framework inte löser hela problemet så är det ett tillräckligt kraftfullt verktyg för att vara lämpat till att användas vid textgenerering, där den största fördelen är att den avlastar programmeraren från att behöva tänka på böjning och andra grammatiska aspekter.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325840
Date January 2023
CreatorsMatinzadeh, Keivan
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:54

Page generated in 0.0077 seconds