Global ETD Search

1	Automating Question Generation Given the Correct Answer / Automatisering av frågegenerering givet det rätta svaret Cao, Haoliang January 2020 (has links) In this thesis, we propose an end-to-end deep learning model for a question generation task. Given a Wikipedia article written in English and a segment of text appearing in the article, the model can generate a simple question whose answer is the given text segment. The model is based on an encoder-decoder architecture. Our experiments show that a model with a fine-tuned BERT encoder and a self-attention decoder give the best performance. We also propose an evaluation metric for the question generation task, which evaluates both syntactic correctness and relevance of the generated questions. According to our analysis on sampled data, the new metric is found to give better evaluation compared to other popular metrics for sequence to sequence tasks. / I den här avhandlingen presenteras en djup neural nätverksmodell för en frågeställningsuppgift. Givet en Wikipediaartikel skriven på engelska och ett textsegment i artikeln kan modellen generera en enkel fråga vars svar är det givna textsegmentet. Modellen är baserad på en kodar-avkodararkitektur (encoderdecoder architecture). Våra experiment visar att en modell med en finjusterad BERT-kodare och en självuppmärksamhetsavkodare (self-attention decoder) ger bästa prestanda. Vi föreslår också en utvärderingsmetrik för frågeställningsuppgiften, som utvärderar både syntaktisk korrekthet och relevans för de genererade frågorna. Enligt vår analys av samplade data visar det sig att den nya metriken ger bättre utvärdering jämfört med andra populära metriker för utvärdering. Natural Language Processing NLP Natural Language Generation NLG Question Generation Naturligtspråkbehandling Naturligtspråkgenerering Frågegenerering Computer and Information Sciences Data- och informationsvetenskap
2	Classification of invoices using a 2D NLP approach : A comparison between methods for invoice information extraction for the purpose of classification / Klassificering av fakturor med 2-dimensionell naturligtspråkbehandling : En jämförelse av metoder för extrahering av nyckelinformation från fakturor i klassificeringssyfte Fredriksson, Linnéa January 2023 (has links) Many companies are handling a large number of invoices every year. To manually categorize them takes a lot of time and resources. For a model to automatically categorize invoices, the documents need to be properly read and processed by the model. While traditional Natural Language Processing may be suitable for processing structured documents, unstructured documents such as invoices often need the layout to be considered in ordered for the document to be read correctly. Techniques that take the visual information in account when processing a document is referred to as 2D NLP. One of such models that is state-of-the-art today is LayoutLMv3. This project provides a comparison of invoice-information extraction using LayoutLMv3 and plain Optical Character Recognition (OCR) for the purpose of invoice classification. LayoutLMv3 were fine-tuned for key-field extraction on 180 annotated invoices. The extracted key-fields were then used to form 3 different configurations of structured text-strings for each document. The structured texts were used for training a classification model into three categories, A: physical product, B: service and C: unknown. The results were compared with a baseline classification model trained on unstructured text obtained through OCR. The results show that all of the models achieved equal performance on the classification task. However, several inconsistencies regarding the annotations of the dataset were found. The project concluded that the raw OCR text proved to be useful for classification despite being unstructured, and that similar classification results could be obtained through considering only a few key-information fields. Obtaining a structured input through LayoutLMv3 proved to be especially useful for controlling the input to the classification model, such as omitting undesirable information. However, the drawbacks might be that some important information in some cases are excluded. / Många företag hanterar en stor mängd fakturor varje år. Att manuellt klassificera dessa in i olika kategorier tar mycket tid och resurser. För en modell som automatiskt ska klassificera fakturor krävs att informationen i dokumenten blir korrekt representerad och hanterad av modellen. Medan naturligtspråkbehandling (NLP) är en lämplig metod för att hantera strukturerade dokument, behöver ostrukturerade dokument ofta hanteras med en metod som även bevarar den visuella informationen på sidan för att dokumentet ska läsas korrekt. Tekniker som gör detta kallas för 2-dimensionell naturligtspråkbehandling. En modell som använder sig av en sådan teknik är LayoutLMv3, som innehar dagens högsta nivå av resultat. Det här projektet utför en jämförelse av metoder för extrahering av information från fakturor med avsikt att användas för klassificering. Extrahering av nyckelinformation med hjälp av LayoutLMv3 jämförs med användning av optisk teckenigenkänning (OCR). LayoutLMv3 finjusterades för nyckelfältsextraktion av 12 informationsfält. Därefter formaterades den extraherade nyckelinformationen från hela datasetet till tre olika strukturerade text-inmatningar. De strukturerade texterna användes sedan för att träna en klassificeringsmodell på tre kategorier, A: fysisk produkt, B: tjänst, och C: okänt. Resultaten jämfördes med en basmodell tränad på den ostrukturerade texten från OCR. Resultaten visar att alla modellerna presterar lika bra. Emellertid påträffades några olyckliga inkonsekvenser i den utförda annoteringen av fakturorna. Projektets slutsats är att den råa OCR texten visar sig vara användbar för klassificeringen trots att det är en ostrukturerad representation av dokumenten, men att liknande resultat kan fås vid användning av bara ett fåtal nyckelfält. Användning av den strukturerade texten från LayoutLMv3 visade sig vara särskilt behändig för att kontrollera inmatningen till klassificeringsmodellen, såsom att exkludera viss information. Däremot kan det vara en nackdel att viss information i somliga fall blir förbisedd. Key-field extraction Invoices 2D NLP Document Intelligence Visually Rich Documents LayoutLMv3 Nyckelfältsextraktion Fakturor 2-dimensionell naturligtspråkbehandling LayoutLMv3 Computer and Information Sciences Data- och informationsvetenskap
3	Classifying and Comparing Latent Space Representation of Unstructured Log Data. / Klassificering och jämförelse av latenta rymdrepresentationer av ostrukturerad loggdata. Sharma, Bharat January 2021 (has links) This thesis explores and compares various methods for producing vector representation of unstructured log data. Ericsson wanted to investigate machine learning methods to analyze logs produced by their systems to reduce the cost and effort required for manual log analysis. Four NLP methods were used to produce vector embeddings for logs: Doc2Vec, DAN, XLNet, and RoBERTa. Also, a Random forest classifier was used to classify those embeddings. The experiments were performed on three different datasets and the results showed that the performance of the models varied based on the dataset being used. The results also show that in the case of log data, fine-tuning makes the transformer models computationally heavy and the performance gain is very low. RoBERTa without fine-tuning produced optimal vector representations for the first and third datasets used whereas DAN had better performance for the second dataset. The study also concluded that the NLP models were able to better understand and classify the third dataset as it contained more plain text information as contrasted against more technical and less human readable datasets. / I den här uppsatsen undersöks och jämförs olika metoder för att skapa vektorrepresentationer av ostrukturerad loggdata. Ericsson vill undersöka om det är möjligt att använda tekniker inom maskininlärning för att analysera loggdata som produceras av deras nuvarande system och på så sätt underlätta och minska kostnaderna för manuell logganalys. Fyra olika språkteknologier undersöks för att skapa vektorrepresentationer av loggdata: Doc2vec, DAN, XLNet and RoBERTa. Dessutom används en Random Forest klassificerare för att klassificera vektorrepresentationerna. Experimenten utfördes på tre olika datamängder och resultaten visade att modellernas prestanda varierade baserat på datauppsättningen som används. Resultaten visar också att finjustering av transformatormodeller gör dem beräkningskrävande och prestandavinsten är liten.. RoBERTa utan finjustering producerade optimala vektorrepresentationer för de första och tredje dataset som användes, medan DAN hade bättre prestanda för det andra datasetet. Studien visar också att språkmodellerna kunde klassificera det tredje datasetet bättre då det innehöll mer information i klartext jämfört med mer tekniska och mindre lättlästa dataseten. Machine learning Natural language processing Deep learning Classification Supervised learning Transformer models Sentence embeddings Doc2Vec Deep averaging networks. Maskininlärning naturligtspråkbehandling djupinlärning klassificering övervakad inlärning transformeringsmodeller meningsinbäddningar Doc2Vec djupa linjärkombinerande nätverk. Computer Sciences Datavetenskap (datalogi)
4	Evaluating the robustness of DistilBERT to data shift in toxicity detection / Evaluering av DistilBERTs robusthet till dataskifte i en kontext av identifiering av kränkande språk Larsen, Caroline January 2022 (has links) With the rise of social media, cyberbullying and online spread of hate have become serious problems with devastating consequences. Mentimeter is an interactive presentation tool enabling the presentation audience to participate by typing their own answers to questions asked by the presenter. As the Mentimeter product is commonly used in schools, there is a need to have a strong toxicity detection program that filters out offensive and profane language. This thesis focuses on the topics of text pre-processing and robustness to datashift within the problem domain of toxicity detection for English text. Initially, it is investigated whether lemmatization, spelling correction, and removal of stop words are suitable strategies for pre-processing within toxicity detection. The pre-trained DistilBERT model was fine-tuned using an English twitter dataset that had been pre-processed using a number of different techniques. The results indicate that none of the above-mentioned strategies have a positive impact on the model performance. Lastly, modern methods are applied to train a toxicity detection model adjusted to anonymous Mentimeter user text data. For this purpose, a balanced Mentimeter dataset with 3654 datapoints was created and annotated by the thesis author. The best-performing model of the pre-processing experiment was iteratively fine-tuned and evaluated with an increasing amount of Mentimeter data. Based on the results, it is concluded that state-of-the-art performance can be achieved even when using relatively few datapoints for fine-tuning. Namely, when using around 500 − 2500 training datapoints, F1-scores between 0.90 and 0.94 were obtained on a Mentimeter test set. These results show that it is possible to create a customized toxicity detection program, with high performance, using just a small dataset. / I och med sociala mediers stora framtåg har allvarliga problem såsom nätmobbning och spridning av hat online blivit allt mer vanliga. Mentimeter är ett interaktivt presentationsverktyg som gör det möjligt för presentations-publiken att svara på frågor genom att formulera egna fritextsvar. Eftersom Mentimeter ofta används i skolor så finns det ett behov av ett välfungerande program som identifierar och filtrerar ut kränkande text och svordomar. Den här uppsatsen fokuserar på ämnena textbehandling och robusthet gentemot dataskifte i en kontext av identifiering av kränkande språk för engelsk text. Först undersöks det huruvida lemmatisering, stavningskorrigering, samt avlägsnande av stoppord är lämpliga textbehandlingstekniker i kontexten av identifiering av kränkande språk. Den förtränade DistilBERT-modellen används genom att finjustera dess parameterar med ett engelskt Twitter-dataset som har textbehandlats med ett antal olika tekniker. Resultaten indikerar att ingen av de nämnda strategierna har en positiv inverkan på modellens prestanda. Därefter användes moderna metoder för att träna en modell som kan identifiera kränkande text anpassad efter anonym data från Mentimeter. Ett balancerat Mentimeter-dataset med 3654 datapunkter skapades och annoterades av uppsatsförfattaren. Därefter finjusterades och evaluerades den bäst presterande modellen från textbehandlingsexperimentet iterativt med en ökande mängd Mentimeter-data. Baserat på resultaten drogs slutsatsen att toppmodern prestanda kan åstadkommas genom att använda relativt få datapunkter för träning. Nämligen, när ungefär 500 − 2500 träningsdatapunkter används, så uppnåddes F1-värden mellan 0.90 och 0.94 på ett test-set av Mentimeter-datasetet. Resultaten visar att det är möjligt att skapa en högpresterande modell som identifierar kränkande text, genom att använda ett litet dataset. Machine learning Natural Language Processing DistilBERT Toxicity Detection Profanity Detection Hate Speech Identification Text preprocessing Maskininlärning naturligtspråkbehandling DistilBERT identifiering av kränkande språk identifiering av svordomar textbehandling Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.0897 seconds