Global ETD Search

11	Named Entity Recognition för Klassificering av Rubriker i Fakturor / Classification of Invoice Headers using Named Entity Recognition Karlsson, Ludvig, Gyllström, Benjamin January 2021 (has links) Fakturor är en viktig källa av information för företag. Två exempel på viktiga fält i en faktura kan vara, hur mycket pengar som ska betalas och faktura id. På grund av olika format och innehåll i fakturor som skiljer sig åt är extraktionen av information från dessa fakturor ofta en manuell process som kräver mycket tid. För att kunna spara viktig information från semi-strukturerade dokument som fakturor så måste vissa företag lägga ner mycket manuellt arbete. Detta arbete inkluderar att behöva förstå fakturan och därefter veta vilket innehåll som är av intresse för företaget. Detta arbete kan ta mycket tid och därför hade en automatisering av denna process varit av stort intresse. I denna forskningen används named entity recognition för att lösa problemet. De frågor som forskningen besvarar är: Hur effektiv named entity recognition är för klassificering av rubriker i fakturor, samt hur mycket effektiviteten kan öka vid komplettering av ytterligare komponenter. Named entity recognition används för att kategorisera entiteter som i detta fallet är rubriker för fält i fakturor. Modellen som skapas ska avgöra om rubriker i fakturan kan kategoriseras under någon av kategorierna: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount eller currency. Forskningen försöker endast göra en proof of concept för att se om denna algoritm kan användas för att minska tiden av manuellt arbete. Produktionsmodellen som skapas evalueras med måttet f1-score. Den får med denna metod resultatet 79 av 100. Detta resultatet antyder på att named entity recognition kan användas i ett verkligt scenario för att identifiera rubriker av intresse i en faktura. Men för att få så bra resultat som möjligt så bör modellen kombineras med en lösning som identifierar fält med hjälp av dess data. / Invoices are an important source of information for businesses. Two examples of important fields in an invoice could be the amount of money to be paid and the invoice Id. Due to the different formats and content of invoices, the extraction of information from these is often a manual and time consuming process. In order to save important information from semi-structured documents such as invoices, some companies have to put in a lot of manual work. This work includes understanding the invoice and then knowing what content is of interest to the company. This work can take a lot of time and therefore an automation of this process would be of great interest. In this research named entity recognition is used to solve the mentioned problem. The topics for this research are: How effective named entity recognition is for classification of headers in invoices, as well as how much the efficiency can be improved by complementing with further components. Named entity recognition is used to categorize entities. In this case the entities are the headings of the invoice. The model that is created must determine whether headings in the invoice can be categorized under one of the following categories: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount or currency. This research tries to make a proof of concept to discover if this algorithm can be used to reduce the time spent on manual work. The production model that is created is evaluated with the f1-score measurement. With this method, it gets a result of 79 out of 100. This result indicates that named entity recognition can be used by companies in real-world scenarios to identify headings in invoices. But to get the best results possible, the model should also be combined with a solution that identifies fields using its corresponding data. Named Entity Recognition Machine Learning Invoice Natural Language Processing Header. Named Entity Recognition Maskininlärning Faktura Naturlig Språkbehandling Rubrik. Computer and Information Sciences Data- och informationsvetenskap
12	Deep Learning för klassificering av kundsupport-ärenden Jonsson, Max January 2020 (has links) Företag och organisationer som tillhandahåller kundsupport via e-post kommer över tid att samla på sig stora mängder textuella data. Tack vare kontinuerliga framsteg inom Machine Learning ökar ständigt möjligheterna att dra nytta av tidigare insamlat data för att effektivisera organisationens framtida supporthantering. Syftet med denna studie är att analysera och utvärdera hur Deep Learning kan användas för att automatisera processen att klassificera supportärenden. Studien baseras på ett svenskt företags domän där klassificeringarna sker inom företagets fördefinierade kategorier. För att bygga upp ett dataset extraherades supportärenden inkomna via e-post (par av rubrik och meddelande) från företagets supportdatabas, där samtliga ärenden tillhörde en av nio distinkta kategorier. Utvärderingen gjordes genom att analysera skillnaderna i systemets uppmätta precision då olika metoder för datastädning användes, samt då de neurala nätverken byggdes upp med olika arkitekturer. En avgränsning gjordes att endast undersöka olika typer av Convolutional Neural Networks (CNN) samt Recurrent Neural Networks (RNN) i form av både enkel- och dubbelriktade Long Short Time Memory (LSTM) celler. Resultaten från denna studie visar ingen ökning i precision för någon av de undersökta datastädningsmetoderna. Dock visar resultaten att en begränsning av den använda ordlistan heller inte genererar någon negativ effekt. En begränsning av ordlistan kan fortfarande vara användbar för att minimera andra effekter så som exempelvis träningstiden, och eventuellt även minska risken för överanpassning. Av de undersökta nätverksarkitekturerna presterade CNN bättre än RNN på det använda datasetet. Den mest gynnsamma nätverksarkitekturen var ett nätverk med en konvolution per pipeline som för två olika test-set genererade precisioner på 79,3 respektive 75,4 procent. Resultaten visar också att några kategorier är svårare för nätverket att klassificera än andra, eftersom dessa inte är tillräckligt distinkta från resterande kategorier i datasetet. / Companies and organizations providing customer support via email will over time grow a big corpus of text documents. With advances made in Machine Learning the possibilities to use this data to improve the customer support efficiency is steadily increasing. The aim of this study is to analyze and evaluate the use of Deep Learning methods for automizing the process of classifying support errands. This study is based on a Swedish company’s domain where the classification was made within the company’s predefined categories. A dataset was built by obtaining email support errands (subject and body pairs) from the company’s support database. The dataset consisted of data belonging to one of nine separate categories. The evaluation was done by analyzing the alteration in classification accuracy when using different methods for data cleaning and by using different network architectures. A delimitation was set to only examine the effects by using different combinations of Convolutional Neural Networks (CNN) and Recurrent Neural Networks (RNN) in the shape of both unidirectional and bidirectional Long Short Time Memory (LSTM) cells. The results of this study show no increase in classification accuracy by any of the examined data cleaning methods. However, a feature reduction of the used vocabulary is proven to neither have any negative impact on the accuracy. A feature reduction might still be beneficial to minimize other side effects such as the time required to train a network, and possibly to help prevent overfitting. Among the examined network architectures CNN were proven to outperform RNN on the used dataset. The most accurate network architecture was a single convolutional network which on two different test sets reached classification rates of 79,3 and 75,4 percent respectively. The results also show some categories to be harder to classify than others, due to them not being distinct enough towards the rest of the categories in the dataset. Natural Language Processing Text Classification Convolutional Neural Network Long Short Time Memory Naturlig språkbehandling Textklassificering Convolutional Neural Network Long Short Time Memory Computer Sciences Datavetenskap (datalogi)
13	Designing a text-based AI scheduling assistant chatbot for a business environment. : A case study of a mobile-based AI scheduling assistant app. Shih, Hau-Ben Benjamin January 2021 (has links) Scheduling a time to meet can be time-consuming, especially when coordinating with email. It could be challenging for business people when each participant is required to email back and forth to propose their availability, matching each other's time availability, and finding a suitable location to meet. It is even worse when participants must reschedule the entire meeting. This thesis aims to design and develop an artificial intelligence (AI) scheduling assistant chatbot mobile app that could assist people in scheduling meetings efficiently in the business environment. The research process involves two rounds of design iterations. In the first design iteration, the goal was to explore and test the possible ways to design the chatbot. In the second design iteration, the goal was to learn from the first iteration and improve the design to fulfil the users' needs. The results implied five options for designers to consider when designing an AI assistant chatbot for the business environment. The considerations include the (1) maturity of natural language processing, (2) instructions to new users, (3) feedback provided by the AI assistant, (4) effort of typing messages, and (5) personality of the AI assistant. / Det kan vara tidskrävande att planera en tid att träffas, särskilt när man samordnar med e-post. Det kan vara utmanande för affärsmän när varje deltagare måste skicka e-post fram och tillbaka för att föreslå deras tillgänglighet, matcha varandras tillgänglighet och hitta en lämplig plats att möta. Det är ännu värre när deltagarna måste planera om hela mötet. Denna avhandling syftar till att utforma och utveckla en artificiell intelligens (AI) schemaläggningsassistent chatbot mobilapp som kan hjälpa människor att schemalägga möten effektivt i affärsmiljön. Forskningsprocessen innefattar två omgångar med design-iterationer. I den första designversionen var målet att utforska och testa möjliga sätt att utforma chatboten. I den andra designiterationen var målet att lära av den första iteration och förbättra designen för att uppfylla användarnas behov. Resultaten innebar fem alternativ för designers att överväga när de designade en AI-assistent-chatbot för affärsmiljön. Övervägandena inkluderar (1) mognad för naturlig språkbehandling, (2) instruktioner till nya användare, (3) feedback från AI-assistenten, (4) ansträngning att skriva meddelanden och (5) AI-assistentens personlighet. Conversational agents conversational user interface AI assistant natural language processing chatbot Konversationsagenter konversationsanvändargränssnitt AI-assistent naturlig språkbehandling chatbot Computer and Information Sciences Data- och informationsvetenskap
14	Graph Neural Networks for Article Recommendation based on Implicit User Feedback and Content Bereczki, Márk January 2021 (has links) Recommender systems are widely used in websites and applications to help users find relevant content based on their interests. Graph neural networks achieved state- of-the- art results in the field of recommender systems, working on data represented in the form of a graph. However, most graph- based solutions hold challenges regarding computational complexity or the ability to generalize to new users. Therefore, we propose a novel graph- based recommender system, by modifying Simple Graph Convolution, an approach for efficient graph node classification, and add the capability of generalizing to new users. We build our proposed recommender system for recommending the articles of Peltarion Knowledge Center. By incorporating two data sources, implicit user feedback based on pageview data as well as the content of articles, we propose a hybrid recommender solution. Throughout our experiments, we compare our proposed solution with a matrix factorization approach as well as a popularity- based and a random baseline, analyse the hyperparameters of our model, and examine the capability of our solution to give recommendations to new users who were not part of the training data set. Our model results in slightly lower, but similar Mean Average Precision and Mean Reciprocal Rank scores to the matrix factorization approach, and outperforms the popularity- based and random baselines. The main advantages of our model are computational efficiency and its ability to give relevant recommendations to new users without the need for retraining the model, which are key features for real- world use cases. / Rekommendationssystem används ofta på webbplatser och applikationer för att hjälpa användare att hitta relevant innehåll baserad på deras intressen. Med utvecklingen av grafneurala nätverk nådde toppmoderna resultat inom rekommendationssystem och representerade data i form av en graf. De flesta grafbaserade lösningar har dock svårt med beräkningskomplexitet eller att generalisera till nya användare. Därför föreslår vi ett nytt grafbaserat rekommendatorsystem genom att modifiera Simple Graph Convolution. De här tillvägagångssätt är en effektiv grafnodsklassificering och lägga till möjligheten att generalisera till nya användare. Vi bygger vårt föreslagna rekommendatorsystem för att rekommendera artiklarna från Peltarion Knowledge Center. Genom att integrera två datakällor, implicit användaråterkoppling baserad på sidvisningsdata samt innehållet i artiklar, föreslår vi en hybridrekommendatörslösning. Under våra experiment jämför vi vår föreslagna lösning med en matrisfaktoriseringsmetod samt en popularitetsbaserad och en slumpmässig baslinje, analyserar hyperparametrarna i vår modell och undersöker förmågan hos vår lösning att ge rekommendationer till nya användare som inte deltog av träningsdatamängden. Vår modell resulterar i något mindre men liknande Mean Average Precision och Mean Reciprocal Rank poäng till matrisfaktoriseringsmetoden och överträffar de popularitetsbaserade och slumpmässiga baslinjerna. De viktigaste fördelarna med vår modell är beräkningseffektivitet och dess förmåga att ge relevanta rekommendationer till nya användare utan behov av omskolning av modellen, vilket är nyckelfunktioner för verkliga användningsfall. Recommender systems Implicit recommendation Graph neural networks Simple Graph Convolution Natural language processing Rekommendationssystem Implicit rekommendation Grafneurala nätverk Simple Graph Convolution Naturlig språkbehandling Computer and Information Sciences Data- och informationsvetenskap
15	Natural Language Processing Model for Log Analysis to Retrieve Solutions For Troubleshooting Processes / En NLP-model för analys av loggar för att inhämta lösningar till felsökningsprocesser Marzo i Grimalt, Núria January 2021 (has links) In the telecommunications industry, one of the most time-consuming tasks is troubleshooting and the resolution of Trouble Report (TR) tickets. This task involves the understanding of textual data which can be challenging due to its domain- and company-specific features. The text contains many abbreviations, typos, tables as well as numerical information. This work tries to solve the issue of retrieving solutions for new troubleshooting reports in an automated way by using a Natural Language Processing (NLP) model, in particular Bidirectional Encoder Representations from Transformers (BERT)- based approaches. It proposes a text ranking model that, given a description of a fault, can rank the best possible solutions to that problem using answers from past TRs. The model tackles the trade-off between accuracy and latency by implementing a multi-stage BERT-based architecture with an initial retrieval stage and a re-ranker stage. Having a model that achieves a desired accuracy under a latency constraint allows it to be suited for industry applications. The experiments to evaluate the latency and the accuracy of the model have been performed on Ericsson’s troubleshooting dataset. The evaluation of the proposed model suggest that it is able to retrieve and re-rank solution for TRs with a significant improvement compared to a non-BERT model. / En av de mest tidskrävande uppgifterna inom telekommunikationsindustrin är att felsöka och hitta lösningar till felrapporter (TR). Denna uppgift kräver förståelse av textdata, som försvåras as att texten innehåller företags- och domänspecifika attribut. Texten innehåller typiskt sett många förkortningar, felskrivningar och tabeller blandat med numerisk information. Detta examensarbete ämnar att förenkla inhämtningen av lösningar av nya felsökningar på ett automatiserat sätt med hjälp av av naturlig språkbehandling (NLP), specifikt modeller baserade på dubbelriktad kodrepresentation (BERT). Examensarbetet föreslår en textrankningsmodell som, givet en felbeskrivning, kan rangordna de bästa möjliga lösningarna till felet baserat på tidigare felsökningar. Modellen hanterar avvägningen mellan noggrannhet och fördröjning genom att implementera den dubbelriktade kodrepresentationen i två faser: en initial inhämtningsfas och en omordningsfas. För industrianvändning krävs att modellen uppnår en given noggrannhet med en viss tidsbegränsning. Experimenten för att utvärdera noggrannheten och fördröjningen har utförts på Ericssons felsökningsdata. Utvärderingen visar att den föreslagna modellen kan hämta och omordna data för felsökningar med signifikanta förbättringar gentemot modeller utan dubbelriktad kodrepresentation. Trouble Report Recommender System BERT Information Retrieval Natural Language Processing Multi-Stage Ranking Felrapporter Rekommendatorsystem BERT Informationsinhämtning Naturlig Språkbehandling Dubbelriktade Ranking Computer and Information Sciences Data- och informationsvetenskap
16	Exploring Construction of a Company Domain-Specific Knowledge Graph from Financial Texts Using Hybrid Information Extraction Jen, Chun-Heng January 2021 (has links) Companies do not exist in isolation. They are embedded in structural relationships with each other. Mapping a given company’s relationships with other companies in terms of competitors, subsidiaries, suppliers, and customers are key to understanding a company’s major risk factors and opportunities. Conventionally, obtaining and staying up to date with this key knowledge was achieved by reading financial news and reports by highly skilled manual labor like a financial analyst. However, with the development of Natural Language Processing (NLP) and graph databases, it is now possible to systematically extract and store structured information from unstructured data sources. The current go-to method to effectively extract information uses supervised machine learning models, which require a large amount of labeled training data. The data labeling process is usually time-consuming and hard to get in a domain-specific area. This project explores an approach to construct a company domain-specific Knowledge Graph (KG) that contains company-related entities and relationships from the U.S. Securities and Exchange Commission (SEC) 10-K filings by combining a pre-trained general NLP with rule-based patterns in Named Entity Recognition (NER) and Relation Extraction (RE). This approach eliminates the time-consuming data-labeling task in the statistical approach, and by evaluating ten 10-k filings, the model has the overall Recall of 53.6%, Precision of 75.7%, and the F1-score of 62.8%. The result shows it is possible to extract company information using the hybrid methods, which does not require a large amount of labeled training data. However, the project requires the time-consuming process of finding lexical patterns from sentences to extract company-related entities and relationships. / Företag existerar inte som isolerade organisationer. De är inbäddade i strukturella relationer med varandra. Att kartlägga ett visst företags relationer med andra företag när det gäller konkurrenter, dotterbolag, leverantörer och kunder är nyckeln till att förstå företagets huvudsakliga riskfaktorer och möjligheter. Det konventionella sättet att hålla sig uppdaterad med denna viktiga kunskap var genom att läsa ekonomiska nyheter och rapporter från högkvalificerad manuell arbetskraft som till exempel en finansanalytiker. Men med utvecklingen av ”Natural Language Processing” (NLP) och grafdatabaser är det nu möjligt att systematiskt extrahera och lagra strukturerad information från ostrukturerade datakällor. Den nuvarande metoden för att effektivt extrahera information använder övervakade maskininlärningsmodeller som kräver en stor mängd märkta träningsdata. Datamärkningsprocessen är vanligtvis tidskrävande och svår att få i ett domänspecifikt område. Detta projekt utforskar ett tillvägagångssätt för att konstruera en företagsdomänspecifikt ”Knowledge Graph” (KG) som innehåller företagsrelaterade enheter och relationer från SEC 10-K-arkivering genom att kombinera en i förväg tränad allmän NLP med regelbaserade mönster i ”Named Entity Recognition” (NER) och ”Relation Extraction” (RE). Detta tillvägagångssätt eliminerar den tidskrävande datamärkningsuppgiften i det statistiska tillvägagångssättet och genom att utvärdera tio SEC 10-K arkiv har modellen den totala återkallelsen på 53,6 %, precision på 75,7 % och F1-poängen på 62,8 %. Resultatet visar att det är möjligt att extrahera företagsinformation med hybridmetoderna, vilket inte kräver en stor mängd märkta träningsdata. Projektet kräver dock en tidskrävande process för att hitta lexikala mönster från meningar för att extrahera företagsrelaterade enheter och relationer. Natural Language Processing Information Extraction Named Entity Recognition Relation Extraction Knowledge Graph Naturlig språkbehandling Informationsextraktion Namngiven Entitetsigenkänning Relationsextraktion Kunskapsgraf Computer and Information Sciences Data- och informationsvetenskap
17	Language Models as Evaluators : A Novel Framework for Automatic Evaluation of News Article Summaries / Språkmodeller som Utvärderare : Ett Nytt Ramverk för Automatiserad Utvärdering av Nyhetssammanfattningar Helgesson Hallström, Celine January 2023 (has links) The advancements in abstractive summarization using Large Language Models (LLMs) have brought with it new challenges in evaluating the quality and faithfulness of generated summaries. This thesis explores a human-like automated method for evaluating news article summaries. By leveraging two LLMs with instruction-following capabilities (GPT-4 and Claude), the aim is to examine to what extent the quality of summaries can be measured by predictions of an LLM. The proposed framework involves defining specific attributes of desired summaries, which are used to design generation prompts and evaluation questions. These questions are presented to the LLMs in natural language during evaluation to assess of various summary qualities. To validate the effectiveness of the evaluation method, an adversarial approach is employed, in which a dataset comprising summaries with distortions related to various summary attributes is generated. In an experiment, the two LLMs evaluate the adversarial dataset, and their ability to detect known distortions is measured and analyzed. The findings suggest that the LLM-based evaluations demonstrate promise in detecting binary qualitative issues, such as incorrect facts. However, the reliability of the zero-shot evaluation varies depending on the evaluating LLM and the specific questions used. Further research is required to validate the accuracy and generalizability of the results, particularly in subjective dimensions where the results of this thesis are inconclusive. Nonetheless, this thesis provides insights that can serve as a foundation for future advancements in the field of automatic text evaluation. / De framsteg som gjorts inom abstrakt sammanfattning med hjälp av stora språkmodeller (LLM) har medfört nya utmaningar när det gäller att utvärdera kvaliteten och sanningshalten hos genererade sammanfattningar. Detta examensarbete utforskar en mänskligt inspirerad automatiserad metod för att utvärdera sammanfattningar av nyhetsartiklar. Genom att dra nytta av två LLM:er med instruktionsföljande förmågor (GPT-4 och Claude) är målet att undersöka i vilken utsträckning kvaliteten av sammanfattningar kan bestämmas med hjälp av språkmodeller som utvärderare. Det föreslagna ramverket innefattar att definiera specifika egenskaper hos önskade sammanfattningar, vilka används för att utforma genereringsuppmaningar (prompts) och utvärderingsfrågor. Dessa frågor presenteras för språkmodellerna i naturligt språk under utvärderingen för att bedöma olika kvaliteter hos sammanfattningar. För att validera utvärderingsmetoden används ett kontradiktoriskt tillvägagångssätt där ett dataset som innefattar sammanfattningar med förvrängningar relaterade till olika sammanfattningsattribut genereras. I ett experiment utvärderar de två språkmodellerna de motstridiga sammanfattningar, och deras förmåga att upptäcka kända förvrängningar mäts och analyseras. Resultaten tyder på att språkmodellerna visar lovande resultat vid upptäckt av binära kvalitativa problem, såsom faktafel. Dock varierar tillförlitligheten hos utvärderingen beroende på vilken språkmodell som används och de specifika frågorna som ställs. Ytterligare forskning krävs för att validera tillförlitligheten och generaliserbarheten hos resultaten, särskilt när det gäller subjektiva dimensioner där resultaten är osäkra. Trots detta ger detta arbete insikter som kan utgöra en grund för framtida framsteg inom området för automatisk textutvärdering. Natural Language Processing Large Language Models Automatic Text Evaluation Text Summarization Multilingualism Naturlig Språkbehandling Stora Språkmodeller Automatisk Textutvärdering Textsammanfattning Flerspråkighet Computer and Information Sciences Data- och informationsvetenskap
18	USING RULE-BASED METHODS AND MACHINE LEARNING FOR SHORT ANSWER SCORING Pihlqvist, Fredrik, Mulongo, Benedith January 2018 (has links) Automatiskt rättning av korta texter är ett område som spänner allt från naturlig språkbehandling till maskininlärning. Projektet behandlar maskininlärning för att förutsäga korrektheten av svar i fritext. Naturlig språkbehandling används för att analysera text och utvinna viktiga underliggande relationer i texten. Det finns idag flera approximativa lösningar för automatiskt rättning av korta svar i fritext. Två framstående metoder är maskininlärning och regelbaserad metod. Vi kommer att framföra en alternativ metod som kombinerar maskininlärning med en regelbaserad metod för att approximativt lösa förenämnda problemet. Studien handlar om att implementera en regelbaserad metod, maskininlärning metod och en slutgiltig kombination av båda dessa metoder. Utvärderingen av den kombinerade metoden utförs genom att titta på de relativa ändringarna i prestanda då vi jämför med den regelbaserade och maskininlärning metoden. De erhållna resultaten har visat att det inte finns någon ökning av noggrannheten hos den kombinerade metoden jämfört med endast maskininlärning metoden. Den kombinerade metoden använder emellertid en liten mängd märkta data med en noggrannhet som är nästan lika metoden med maskininlärning, vilket är positivt. Ytterligare undersökning inom detta område behövs, denna uppsats är bara ett litet bidrag till nya metoder i automatisk rättning. / Automatic correction of short text answers is an area that involves everything from natural language processing to machine learning. Our project deals with machine learning for predicting the correctness of candidate answers and natural language processing to analyse text and extract important underlying relationships in the text. Given that today there are several approximative solutions for automatically correcting short answers, ranging from rule-based methods to machine learning methods. We intend to look at how automatic answer scoring can be solved through a clever combination of both machine learning methods and rule-based method for a given dataset. The study is about implementing a rule-based method, a machine learning method and a final combination of both these methods. The evaluation of the combined method is done by measuring its relative performance compared to the rule-based method and machine learning method. The results obtained have shown that there is no increase in the accuracy of the combined method compared to the machine learning method alone. However, the combined method uses a small amount of labeled data with an accuracy almost equal to the machine learning, which is positive. Further investigation in this area is needed, this thesis is only a small contribution, with a new approaches and methods in automatic short answer scoring. Computer and Information Sciences Data- och informationsvetenskap
19	Applying Natural Language Processing to document classification / Tillämpning av Naturlig Språkbehandling för dokumentklassificering Kragbé, David January 2022 (has links) In today's digital world, we produce and use more electronic documents than ever before. And this trend is far from slowing down. Particularly, more and more companies and businesses now need to treat a considerable amount of documents to deal with their clients' requests. Scaling this process often requires building an automatic document treatment pipeline. Since the treatment of a document depends on its content, those pipelines heavily rely on an automatic document classifier to correctly process the documents received. Such document classifier should be able to receive a document of any type and output its class based on the text content of the document. In this thesis, we designed and implemented a machine learning pipeline for automated insurance claims documents classification. In order to find the best pipeline, we created several combination of different classifiers (logistic regressor and random forest classifier) and embedding models (Fasttext and Doc2vec). We then compared the performances of all of the pipelines using a the precision and accuracy metrics. We found that a pipeline composed of a Fasttext embedding model combined with a logistic regressor classifier was the most performant, yielding a precision of 85% and an accuracy of 86% on our dataset. / I dagens digitala värld, producerar och använder vi fler elektroniska dokument än någonsin tidigare. Denna trend är långt ifrån att sakta ner sig. Särskilt fler och fler företag behöver nu behandla en stor mängd dokument för att hantera sina kunders önskemål. Att skala denna process kräver ofta att man bygger en pipeline för automatisk dokumentbehandling. Eftersom behandlingen av ett dokument beror på dess innehåll, är dessa pipelines starkt beroende av en automatisk dokumentklassificerare för att korrekt bearbeta de mottagna dokumenten. En sådan dokumentklassificerare skall kunna ta emot ett dokument av vilken typ som helst och mata ut dess klass baserat på dokumentets textinnehåll. I detta examensarbete, designade och implementerade vi en maskininlärningspipeline för automatiserad klassificering av försäkringskrav-dokument. För att hitta den bästa pipelinen, skapade vi flera kombinationer av olika klassificerare (logistisk regressor och random forest klassificerare) och inbäddningsmodeller (Fasttext och Doc2vec). Vi jämförde sedan prestandan för alla pipelines med hjälp av precisions- och noggrannhetsmåtten. Vi fann att en pipeline bestående av en Fasttext-inbäddningsmodell kombinerad med en logistisk regressorklassificerare var den mest presterande, vilket gav en precision på 85% och en noggrannhet på 86% på vår datauppsättning. Natural Language Processing Document Classification Embeddings Classifiers Naturlig Språkbehandling Dokumentklassificering Inbäddningar Klassificerare Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik Computer and Information Sciences Data- och informationsvetenskap
20	AI Enabled Cloud RAN Test Automation : Automatic Test Case Prediction Using Natural Language Processing and Machine Learning Techniques / AI Cloud RAN test automatisering : Automatisk generering av testfall med hjälp av naturlig språkbehandling och maskininlärningstekniker Santosh Nimbhorkar, Jeet January 2023 (has links) The Cloud Radio Access Network (RAN) is a technology used in the telecommunications industry. It provides a flexible, scalable, and costeffective solution for managing and delivering seamless wireless network services. However, the testing of Cloud RAN applications poses formidable challenges due to its complex nature, resulting in potential delays in product delivery and amplified costs. Using the power of test automation is an approach to tackling these challenges. By automating the testing process, we can reduce manual efforts, enhance the accuracy and efficiency of testing procedures, and ultimately expedite the delivery of high-quality products. In this era of cutting-edge advancements, artificial intelligence (AI) and machine learning (ML) can be used to aid Cloud RAN testing. These technologies empower us to swiftly identify and address complex issues. The goal of this thesis is to have a data-driven approach toward Cloud RAN test automation. Machine learning along with natural language processing techniques are used to automatically predict test cases from test instructions. The test instructions are analyzed and keywords are extracted from them using natural language processing techniques. The performance of two keyword extraction techniques is compared. SpaCy was the best-performing keyword extractor. Test script prediction from these keywords is done using two approaches; using test script names and using test script contents. Random Forest was the best performing model for both these approaches when the data were oversampled and when it was undersampled as well. / Cloud Radio Access Network (RAN) är en revolutionerande teknik som används inom telekommunikationsindustrin. Det ger en flexibel, skalbar och kostnadseffektiv lösning för att hantera och leverera sömlösa trådlösa nätverkstjänster. Testningen av Cloud RAN-applikationer innebär dock enorma utmaningar på grund av dess komplexa natur, vilket resulterar i potentiella förseningar i produktleverans och förstärkta kostnader. Att använda kraften i testautomatisering är en avgörande metod för att tackla dessa utmaningar. Genom att automatisera testprocessen kan vi dramatiskt minska manuella ansträngningar, avsevärt förbättra noggrannheten och effektiviteten i testprocedurerna och i slutändan påskynda leveransen av högkvalitativa produkter. I denna era av banbrytande framsteg kan artificiell intelligens (AI) och maskininlärning (ML) användas för att revolutionera Cloud RAN-testning. Dessa banbrytande teknologier ger oss möjlighet att snabbt identifiera och ta itu med komplexa problem. Målet med detta examensarbete är att ha ett datadrivet förhållningssätt till Cloud RAN-testautomatisering. Maskininlärning tillsammans med naturliga språkbehandlingstekniker används för att automatiskt generera testfall från testinstruktioner. Testinstruktionerna analyseras och nyckelord extraheras från dem med hjälp av naturliga språkbehandlingstekniker. Resultatet av två sökordsextraktionstekniker jämförs. SpaCy var den bäst presterande sökordsextraktorn. Förutsägelse av testskript från dessa nyckelord görs med två metoder; använda testskriptnamn och använda testskriptinnehåll. Random forests var den bäst presterande modellen för båda dessa tillvägagångssätt när data överstämplades och även undersamplades. Test Automation Natural Language Processing Machine Learning Keyword Extraction Prediction Testautomatisering Naturlig Språkbehandling Maskininlärning Nyckelord Extraktion Förutsägelse Computer and Information Sciences Data- och informationsvetenskap

Search results