Global ETD Search

Return to search

Evaluating On-Premise Language Models for Editorial Tasks

Användandet av molnbaserade språkmodeller blir allt vanligare i takt med att de blir mer tillgängliga, och deras kapacitet att bearbeta och generera text förbättras ständigt. Men för användare och organisationer som arbetar med känslig information uppstår en utmaning, eftersom all data som behandlas av dessa modeller överförs till serveroperatören. I och med detta växer behovet av så kallade On-Premisemodeller, som kan köras lokalt på en användares eller organisations egna servrar. Därför ämnar detta projekt till att identifiera, testa och jämföra flera on-premise-språkmodeller med inriktning på textbehandling. Detta inkluderar uppgifter som att upptäcka fel i stavning, grammatik och bruk av skiljetecken, samt att analysera språkanvändning. Projektet innebar att söka efter modeller på hemsidan HuggingFace.co som hanterar både svenska och engelska och sedan implementera dem på olika AWS EC2-instanser. Efter en inledande granskning av flera modeller, identifierades två särskilt lovande alternativ, Viking och GPT-SW3, som var tillräckligt kapabla att genomföra de mer avancerade sorters tester. De utvalda modellerna genomgick en omfattande process av prompt-engineering för att optimera deras prestanda och maximera deras förmåga att demonstrera sin kompetens. Efter detta skapades standardiserade tester för grammatik, stavning och bruk av skiljetecken, samt översättning. Dessutom skapades mer avancerade tester som inkluderade omstrukturering av text, samt förenkling och anpassning av texter till en specifik persona. Resultaten av dessa tester visade att båda prövade modeller hade god förmåga att korrigera fel i stavning, grammatik, och bruk av skiljetecken i texter, samt översättning av texter. GPT-SW3 visade även god förmåga i personatesterna, medan modellen Viking inte var kapabel till att genomföra denna sorts behandling av texter. Parallellt med testandet av språkmodellerna utvecklades ett skript för att analysera hårdvarans prestanda och kostnad under exekveringen av språkmodellerna. Detta skript kördes på flera olika AWS EC2-instanser, var och en utrustad med olika typer av hårdvara. Prestationerna från de olika instanserna jämfördes, och resultaten visade att körning av modellerna på Inferentia2chip gav den bästa prestandan och den lägsta kostnaden per genererat ord, fastän denna hårdvara hade den högsta timkostnaden. Alla CPUinstanser som testades presterade betydligt sämre än GPU-instansen, men var markant billigare att hyra per timme. Detta kan vara en fördel för on-demand-applikationer där kostnadseffektivitet prioriteras. / The use of cloud-based language models is becoming increasingly common as they become more accessible, and their capabilities to process and generate text are continually improving. However, a challenge arises for users and organizations handling sensitive data because all processed data is transmitted to the server operator. As a result, there’s a growing need for so-called On-Premise models, which can be operated locally on the servers of a user or organization. This project aims to identify, test, and compare several on-premise language models, "Focusing on tasks such as detecting errors in spelling, grammar, and punctuation, as well as analyzing language usage. The project involved searching for models that support both Swedish and English on the website Huggingface.co and implementing them on various AWS EC2 instances. After an initial assessment, two particularly promising models, Viking and GPT-SW3, were identified as capable enough for more detailed testing. The selected models underwent an extensive prompt-engineering process to optimize their performance and maximize their ability to demonstrate their capabilities. Following this, standardized tests for grammar, spelling, punctuation, and translation were developed. Additionally,more advanced tests were designed, including restructuring, simplifying, and adapting texts to specific personas. The results from the tests showed that both tested models had high proficiency in correcting errors regarding spelling, grammar, and punctuation, and in translating texts between Swedish and English. GPT-SW3 had high proficiency in rewriting texts to use other styles, such as using formal or simplistic language, while the Viking model had no proficiency in achieving these types of tasks. Concurrently with the model testing, a script was developed to analyze the performance and costs of the hardware during the model executions. This script was implemented on several AWS EC2 instances, each equipped with different hardware types. The performance of these instances was compared, and the results showed that running the models on the Inferentia2 chip offered the best performance and the lowest cost per generated word, despite having the highest hourly rental cost. All CPU instances tested performed significantly worse than the GPU instance but were a lot cheaper to rent per hour. This could be advantageous for on-demand applications where cost efficiency is a priority.

Redaktionella uppgifter

Software Engineering

Programvaruteknik

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:miun-51624
Date	January 2024
Creators	Valo, Anton, Andersson, Villiam
Publisher	Mittuniversitetet, Institutionen för data- och elektroteknik (2023-)
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0017 seconds

Evaluating On-Premise Language Models for Editorial Tasks

Description

Links & Downloads

Tags

Additional Fields