Categorization of Customer Reviews Using Natural Language Processing / Kategorisering av kundrecensioner med naturlig språkbehandlingLiliemark, Adam, Enghed, Viktor January 2021 (has links)
Databases of user generated data can quickly become unmanageable. Klarna faced this issue, with a database of around 700,000 customer reviews. Ideally, the database would be cleaned of uninteresting reviews and the remaining reviews categorized. Without knowing what categories might emerge, the idea was to use an unsupervised clustering algorithm to find categories. This thesis describes the work carried out to solve this problem, and proposes a solution for Klarna that involves artificial neural networks rather than unsupervised clustering. The implementation done by us is able to categorize reviews as either interesting or uninteresting. We propose a workflow that would create means to categorize reviews not only in these two categories, but in multiple. The method revolved around experimentation with clustering algorithms and neural networks. Previous research shows that texts can be clustered, however, the datasets used seem to be vastly different from the Klarna dataset. The Klarna dataset consists of short reviews and contain a large amount of uninteresting reviews. Using unsupervised clustering yielded unsatisfactory results, as no discernible categories could be found. In some cases, the technique created clusters of uninteresting reviews. These clusters were used as training data for an artificial neural network, together with manually labeled interesting reviews. The results from this artificial neural network was satisfactory; it can with an accuracy of around 86% say whether a review is interesting or not. This was achieved using the aforementioned clusters and five feedback loops, where the model’s wrongfully predicted reviews from an evaluation dataset was fed back to it as training data. We argue that the main reason behind why unsupervised clustering failed is that the length of the reviews are too short. In comparison, other researchers have successfully clustered text data with an average length in the hundreds. These items pack much more features than the short reviews in the Klarna dataset. We show that an artificial neural network is able to detect these features despite the short length, through its intrinsic design. Further research in feature extraction of short text strings could provide means to cluster this kind of data. If features can be extracted, the clustering can thus be done on the features rather than the actual words. Our artificial neural network shows that the arbitrary features interesting and uninteresting can be extracted, so we are hopeful that future researchers will find ways of extracting more features from short text strings. In theory, this should mean that text of all lengths can be clustered unsupervised. / Databaser med användargenererad data kan snabbt bli ohanterbara. Klarna stod inför detta problem, med en databas innehållande cirka 700 000 recensioner från kunder. De såg helst att databasen skulle rensas från ointressanta recensioner och att de kvarvarande kategoriseras. Eftersom att kategorierna var okända initialt, var tanken att använda en oövervakad grupperingsalgoritm. Denna rapport beskriver det arbete som utfördes för att lösa detta problem, och föreslår en lösning till Klarna som involverar artificiella neurala nätverk istället för oövervakad gruppering. Implementationen skapad av oss är kapabel till att kategorisera recensioner som intressanta eller ointressanta. Vi föreslår ett arbetsflöde som skulle skapa möjlighet att kategorisera recensioner inte bara i dessa två kategorier, utan i flera. Metoden kretsar kring experimentering med grupperingsalgoritmer och artificiella neurala nätverk. Tidigare forskning visar att texter kan grupperas oövervakat, dock med ingångsdata som väsentligt skiljer sig från Klarnas data. Recensionerna i Klarnas data är generellt sett korta och en stor andel av dem kan ses som ointressanta. Oövervakad grupperingen gav otillräckliga resultat, då inga skönjbara kategorier stod att finna. I vissa fall skapades grupperingar av ointressanta recensioner. Dessa användes som träningsdata för ett artificiellt neuralt nätverk. Till träningsdatan lades intressanta recensioner som tagits fram manuellt. Resultaten från detta var positivt; med en träffsäkerhet om cirka 86% avgörs om en recension är intressant eller inte. Detta uppnåddes genom den tidigare skapade träningsdatan samt fem återkopplingsprocesser, där modellens felaktiga prediktioner av evalueringsdata matades in som träningsdata. Vår uppfattning är att den korta längden på recensionerna gör att den oövervakade grupperingen inte fungerar. Andra forskare har lyckats gruppera textdata med snittlängder om hundratals ord per text. Dessa texter rymmer fler meningsfulla enheter än de korta recensionerna i Klarnas data. Det finns lösningar som innefattar artificiella neurala nätverk å andra sidan kan upptäcka dessa meningsfulla enheter, tack vare sin grundläggande utformning. Vårt arbete visar att ett artificiellt neuralt nätverk kan upptäcka dessa meningsfulla enheter, trots den korta längden per recension. Extrahering av meningsfulla enheter ur korta texter är ett ¨ämne som behöver mer forskning för att underlätta problem som detta. Om meningsfulla enheter kan extraheras ur texter, kan grupperingen göras på dessa enheter istället för orden i sig. Vårt artificiella neurala nätverk visar att de arbiträra enheterna intressant och ointressant kan extraheras, vilket gör oss hoppfulla om att framtida forskare kan finna sätt att extrahera fler enheter ur korta texter. I teorin innebär detta att texter av alla längder kan grupperas oövervakat.
Using linear regression and neural network to forecast sewer flow from X-band radar data / Användning av linjär regression och neurala nätverk för att förutsäga avloppsflöde utifrån X-band radardataWigertz, Fredrik January 2021 (has links)
The climate adaptation of our cities and the optimization of our technical systems with regards to weather sets high demands on the availability and the processing of weather data. The possibility to forecast disturbances of influent flow rate to wastewater treatment plants allow control systems counteract these disturbances before they have a harmful effect on the treatment processes. These forecasts can be made by different models A neural network models complex patterns between different data sets through a multi-layered structure containing a large amount of transformation functions. The aim of this project was to examine how the complex neural network performed compared with a simpler linear regression model when forecasting wastewater flow using high resolution X-band rain radar data. The study also investigated to what extent X-band rain radar data contributes to the performance of the model. The performance was evaluated at rain flow periods only. Wastewater flow data were provided by Avedøre wastewater treatment plant in Copenhagen operated by BIOFOS. The X-band rain radar data was provided by HOFOR. The neural network was developed by Informetics on the TensorFlow platform. This project concluded that the neural network and the linear regression model performed equally well at predicting when a rain flow period began. The neural network was more accurate at predicting the flow rate while the linear regression was better at approximating the accumulated flow over an entire rain flow period. Using additional rain data up to 30 km within the radar station location in comparison with using data only from within the catchment indicated a 20 to 30-minutes improvement of possible lead time. A conceivable lead time when forecasting the sewer flow to Avedøre wastewater treatment plant was estimated to be around 4 hours. / Det föreligger höga krav på tillgänglighet och bearbetning av väderdata för att kunna optimera tekniska system i förhållande till väder och klimat. Att kunna förutsäga ändrat inkommande flöde till avloppsreningsverk möjliggör för kontrollsystem att kunna motverka negativa konsekvenser på reningsprocesserna på grund av det ändrade flödet. X-band radardata kan användas för att prognoser av flöden med hjälp av olika modeller.Ett neuralt nätverk, reproducerar komplexa mönster mellan olika dataset genom en struktur med flera lager och en mängd överföringsfunktioner. Målsättningen med det här projektet var att utvärdera hur ett komplext neuralt nätverk presterar jämfört med en enklare regressionsmodell i att förutsäga avloppsflöde med hjälp av högupplöst X-band radardata. I projektet undersöktes också hur tillgång av olika radardata kunde bidra till modellens prestanda. Modellerna utvärderades endast under regnflödesperioder. Data över avloppsflödet som användes i projektet kom från Avedøre avloppsreningsverk i Köpenhamn. Reningsverket drivs av BIOFOS. Radardata kom från HOFOR. Det neurala nätverket som användes har utvecklats av Informetics på plattformen Tensorflow. Slutsatser som kunde dras i projektet var att det neurala nätverket och den linjär regressionsmodellen var lika bra på att förutsäga när en regnflödesperiod startade. Det neurala nätverket kunde förutsäga det momentana flödet bättre än regressionsmodellen, medan det omvända gällde för att uppskatta den totala flödesvolymen under en hel regnflödesperiod. Genom att använda ytterligare regndata, upp till 30 kilometer från radarstationen, jämfört med att endast använda data från avrinningsområdet kunde en 20–30 minuters förbättring av den möjliga prognostiden påvisas. En tänkbar prognostiden för att förutsäga avloppsflödet till Avedøre avloppsreningsverk visades ligga omkring 4 timmar.
Computer Vision for Camera Trap Footage : Comparing classification with object detectionÖrn, Fredrik January 2021 (has links)
Monitoring wildlife is of great interest to ecologists and is arguably even more important in the Arctic, the region in focus for the research network INTERACT, where the effects of climate change are greater than on the rest of the planet. This master thesis studies how artificial intelligence (AI) and computer vision can be used together with camera traps to achieve an effective way to monitor populations. The study uses an image data set, containing both humans and animals. The images were taken by camera traps from ECN Cairngorms, a station in the INTERACT network. The goal of the project is to classify these images into one of three categories: "Empty", "Animal" and "Human". Three different methods are compared, a DenseNet201 classifier, a YOLOv3 object detector, and the pre-trained MegaDetector, developed by Microsoft. No sufficient results were achieved with the classifier, but YOLOv3 performed well on human detection, with an average precision (AP) of 0.8 on both training and validation data. The animal detections for YOLOv3 did not reach an as high AP and this was likely because of the smaller amount of training examples. The best results were achieved by MegaDetector in combination with an added method to determine if the detected animals were dogs, reaching an average precision of 0.85 for animals and 0.99 for humans. This is the method that is recommended for future use, but there is potential to improve all the models and reach even more impressive results.Teknisk-naturvetenskapliga
Neural Network-Based Residential Water End-Use Disaggregation / Neurala nätverk för klassificering av vattenanvändning i hushållPierrou, Cajsa January 2023 (has links)
Sustainable management of finite resources is vital for ensuring livable conditions for both current and future generations. Measuring the total water consumption of residential households at high temporal resolutions and automatically disaggregating the sole signal into classified end usages (e.g. shower, sink) allows for identification of behavioural patterns that could be improved to minimise wasteful water consumption. Such disaggregation is not trivial, as water consuming patterns vary greatly depending on consumer behaviour, and further since at any given time, an unknown amount of fixtures may be used simultaneously. In this work, we approach the disaggregation problem by evaluating the performance of a set of recurrent and convolutional neural network structures provided approximately one year of high resolution water consumption data from a single apartment in Sweden. Unlike previous approaches to the problem, we let the models process the full, uninterrupted flow traces (as opposed to extracted segments of water consuming activity) in order to allow for temporal dependencies within and between water consuming activities to be learned. Out of four networks applied to the task, we find that a deeper temporal convolutional network structure yields the best overall results on the test data, with prediction accuracy of 85% and F1-score above 0.8 averaged over all end-use categories - a performance exceeding that of commercial analysis tools, and comparable to components of current state-of-the-art approaches. However, significant decreases in performance are observed for all of the networks, particularly for toilet and washing machine activity, when evaluating the models on unseen and augmented data from the apartment, indicating the results can not be fully generalised for usage in other households. / Hållbar användning av ändliga resurser är avgörande för att försäkra god livskvalitet för både nutida och framtida generationer. I Sverige är vatten för många en självklarhet, vilket öppnar upp för slösaktigt användande. En metod för att utbilda användare och identifiera icke hållbara beteenden är att kvantifiera vattenförbrukningen i hushåll baserat på syfte (t.ex. tvätta händerna, diska) eller källa (t.ex. dusch, handfat) av slutanvändningen. För att göra en sådan sammanställning mäts den totala åtkomsten av vatten i hög upplösning från hushåll, och signalen delas sedan upp i respektive kategori av slutanvändning. En sådan disaggregering är inte trivial, och försvåras av skillnader i beteendemönster hos användare samt faktumet att vi inte vid någon tidpunkt vet hur många vattenarmaturer som används samtidigt. I syftet att förbättra nuvarande tekniker för disaggregeringsproblemet implementerar och utvärderar vi alternativa lösningar baserade på rekurrenta och konvolutionerande neurala nätverk, på flödesdata insamlad med hög upplösning från en lägenhet i Sverige under en period av cirka ett år. Till skillnad från tidigare förhållningssätt till problemet låter vi våra modeller bearbeta den fullständiga, oavbrutna, flödesdatan (i motsats till extraherade segment av vattenförbrukande aktiviteter) för att möjliggöra lärandet av tidsmässiga beroenden inom och mellan vattenförbrukande aktiviteter. Utav fyra testade nätverk finner vi att ett djupt konvolutionerande nätverk ger den bästa klassificeringen överlag, givet testdata, med genomsnittlig igenkänningsnogrannhet på 85%. Signifikant försämrade resultat observerades för samtliga modeller i kategorierna toalett och tvättmaskin när nätverken testades på augmenterad data från hushållet, vilket indikerar att resultaten inte kan generaliseras för användning i andra lägenheter.
Incorporating speaker’s role in classification of text-based dialoguesStålhandske, Therese January 2020 (has links)
Dialogues are an interesting type of document, as they contain a speaker role feature not found in other types of texts. Previous work has included incorporating a speaker role dependency in text-generation, but little has been done in the realm of text classification. In this thesis, we incorporate speaker role dependency in a classification model by creating different speaker dependent word representations and simulating a conversation within neural networks. The results show a significant improvement in the performance of the binary classification of dialogues, with incorporated speaker role information. Further, by extracting attention weights from the model, we are given an insight into how the speaker’s role affects the interpretation of utterances, giving an intuitive explanation of our model. / Konversationer är en speciell typ av text, då den innehåller information om talare som inte hittas i andra typer av dokument. Tidigare arbeten har inkluderat en talares roll i generering av text, men lite har gjorts inom textklassificering. I det här arbetet, introducerar vi deltagarens roller till en klassifikationsmodell. Detta görs genom att skapa ordrepresentationer, som är beroende på deltagaren i konversationen, samt simulering av en konversation inom ett neuralt nätverk. Resultaten visar en signifikant förbättring av prestandan i binär klassificering av dialoger, med talares roll inkluderat. Vidare, genom utdragning av attentionvikterna, kan vi få en bättre överblick över hur en talares roll påverkar tolkningen av yttranden, vilket i sin tur ger en mer intuitiv förklaring av vår modell.
3D Texture Synthesis Using Graph Neural Cellular Automata / 3D-textursyntes med hjälp av grafiska neurala cellautomaterXu, Yitao January 2023 (has links)
In recent years, texture synthesis has been a heated topic in computer graphics, and the development of advanced algorithms for generating high-quality 3D textures is an area of active research. A recently proposed model, Neural Cellular Automata, can synthesize realistic 2D texture images or videos. However, due to the complexity and non-differentiable nature of 3D rendering and the lack of definition of the neighborhood on 3D mesh objects, no one has extended the 2D Neural Cellular Automata to the 3D scenario. In this master’s thesis, we propose a novel method for modeling the neighborhood relationship on 3D mesh objects, drawing inspiration from a graph variant of the Neural Cellular Automata. We also design an end-to-end 3D texture synthesis pipeline, leveraging a differentiable renderer to enable the Graph Neural Cellular Automata to learn to synthesize desired 3D textures. Our method allows users to either give the text description of the target textures or present the target texture images as the objectives. We evaluate the effectiveness of our proposed method both qualitatively and quantitatively, comparing it with the state-of-the-art method to demonstrate that it achieves comparable or better results. Furthermore, we explore the homology between the graph variant of Neural Cellular Automata and the 2D model, examining whether our proposed model preserves critical properties of the 2D model such as zero-shot generalization and self-regeneration. Finally, we analyze the limitations and potential drawbacks of our proposed method and suggest directions for future research. In summary, this thesis proposes a novel approach to synthesizing high-quality 3D textures using the Graph Neural Cellular Automata model and a differentiable renderer. Our work provides a foundation for future research in this area, and we believe that our findings will contribute to the development of advanced algorithms for 3D texture synthesis. / Under de senaste åren har textursyntes varit ett hett ämne inom datorgrafik, och utvecklingen av avancerade algoritmer för att generera högkvalitativa 3D-texturer är ett aktivt forskningsområde. En nyligen föreslagen modell, Neural Cellular Automata, kan syntetisera realistiska 2D-texturbilder eller videor. Dock, på grund av komplexiteten och den icke-differentierbara naturen av 3D-rendering och bristen på definition av grannskapet på 3D-meshobjekt, har ingen utvidgat 2D Neural Cellular Automata till 3D-scenariot. I den här masteruppsatsen föreslår vi en ny metod för att modellera grannskapsrelationen på 3D-meshobjekt, inspirerade av en grafvariant av Neural Cellular Automata. Vi utformar också en ände-till-ände 3D-textursyntes pipeline, genom att utnyttja en differentierbar renderer för att möjliggöra för Graph Neural Cellular Automata att lära sig syntetisera önskade 3D-texturer. Vår metod tillåter användare att antingen ge textbeskrivningen av måltexturerna eller presentera måltexturbilderna som målen. Vi utvärderar effektiviteten av vår föreslagna metod både kvalitativt och kvantitativt, jämför den med den mest avancerade metoden för att visa att den uppnår jämförbara eller bättre resultat. Dessutom utforskar vi homologin mellan grafvarianten av Neural Cellular Automata och 2D-modellen, undersöker om vår föreslagna modell bevarar kritiska egenskaper hos 2D-modellen som zero-shot generalisering och självregenerering. Slutligen analyserar vi begränsningarna och eventuella nackdelar med vår föreslagna metod och föreslår riktningar för framtida forskning. Sammanfattningsvis föreslår denna avhandling en ny metod för att syntetisera högkvalitativa 3D-texturer med hjälp av Graph Neural Cellular Automata-modellen och en differentierbar renderer. Vårt arbete ger en grund för framtida forskning inom detta område, och vi tror att våra fynd kommer att bidra till utvecklingen av avancerade algoritmer för 3D-textursyntes.
Improving the Robustness of Deep Neural Networks against Adversarial Examples via Adversarial Training with Maximal Coding Rate Reduction / Förbättra Robustheten hos Djupa Neurala Nätverk mot Exempel på en Motpart genom Utbildning för motståndare med Maximal Minskning av KodningshastighetenChu, Hsiang-Yu January 2022 (has links)
Deep learning is one of the hottest scientific topics at the moment. Deep convolutional networks can solve various complex tasks in the field of image processing. However, adversarial attacks have been shown to have the ability of fooling deep learning models. An adversarial attack is accomplished by applying specially designed perturbations on the input image of a deep learning model. The noises are almost visually indistinguishable to human eyes, but can fool classifiers into making wrong predictions. In this thesis, adversarial attacks and methods to improve deep learning ’models robustness against adversarial samples were studied. Five different adversarial attack algorithm were implemented. These attack algorithms included white-box attacks and black-box attacks, targeted attacks and non-targeted attacks, and image-specific attacks and universal attacks. The adversarial attacks generated adversarial examples that resulted in significant drop in classification accuracy. Adversarial training is one commonly used strategy to improve the robustness of deep learning models against adversarial examples. It is shown that adversarial training can provide an additional regularization benefit beyond that provided by using dropout. Adversarial training is performed by incorporating adversarial examples into the training process. Traditionally, during this process, cross-entropy loss is used as the loss function. In order to improve the robustness of deep learning models against adversarial examples, in this thesis we propose two new methods of adversarial training by applying the principle of Maximal Coding Rate Reduction. The Maximal Coding Rate Reduction loss function maximizes the coding rate difference between the whole data set and the sum of each individual class. We evaluated the performance of different adversarial training methods by comparing the clean accuracy, adversarial accuracy and local Lipschitzness. It was shown that adversarial training with Maximal Coding Rate Reduction loss function would yield a more robust network than the traditional adversarial training method. / Djupinlärning är ett av de hetaste vetenskapliga ämnena just nu. Djupa konvolutionella nätverk kan lösa olika komplexa uppgifter inom bildbehandling. Det har dock visat sig att motståndarattacker har förmågan att lura djupa inlärningsmodeller. En motståndarattack genomförs genom att man tillämpar särskilt utformade störningar på den ingående bilden för en djup inlärningsmodell. Störningarna är nästan visuellt omöjliga att särskilja för mänskliga ögon, men kan lura klassificerare att göra felaktiga förutsägelser. I den här avhandlingen studerades motståndarattacker och metoder för att förbättra djupinlärningsmodellers robusthet mot motståndarexempel. Fem olika algoritmer för motståndarattack implementerades. Dessa angreppsalgoritmer omfattade white-box-attacker och black-box-attacker, riktade attacker och icke-målinriktade attacker samt bildspecifika attacker och universella attacker. De negativa attackerna genererade motståndarexempel som ledde till en betydande minskning av klassificeringsnoggrannheten. Motståndsträning är en vanligt förekommande strategi för att förbättra djupinlärningsmodellernas robusthet mot motståndarexempel. Det visas att motståndsträning kan ge en ytterligare regulariseringsfördel utöver den som ges genom att använda dropout. Motståndsträning utförs genom att man införlivar motståndarexempel i träningsprocessen. Traditionellt används under denna process cross-entropy loss som förlustfunktion. För att förbättra djupinlärningsmodellernas robusthet mot motståndarexempel föreslår vi i den här avhandlingen två nya metoder för motståndsträning genom att tillämpa principen om maximal minskning av kodningshastigheten. Förlustfunktionen Maximal Coding Rate Reduction maximerar skillnaden i kodningshastighet mellan hela datamängden och summan av varje enskild klass. Vi utvärderade prestandan hos olika metoder för motståndsträning genom att jämföra ren noggrannhet, motstånds noggrannhet och lokal Lipschitzness. Det visades att motståndsträning med förlustfunktionen Maximal Coding Rate Reduction skulle ge ett mer robust nätverk än den traditionella motståndsträningsmetoden.
Evaluating machine learning models for time series forecasting in smart buildings / Utvärdera maskininlärningsmodeller för tidsserieprognos inom smarta byggnaderBalachandran, Sarugan, Perez Legrand, Diego January 2023 (has links)
Temperature regulation in buildings can be tricky and expensive. A common problem when heating buildings is that an unnecessary amount of energy is supplied. This waste of energy is often caused by a faulty regulation system. This thesis presents a machine learning ap- proach, using time series data, to predict the energy supply needed to keep the inside tem- perature at around 21 degrees Celsius. The machine learning models LSTM, Ensemble LSTM, AT-LSTM, ARIMA, and XGBoost were used for this project. The validation showed that the ensemble LSTM model gave the most accurate predictions with the Mean Absolute Error of 22486.79 (Wh) and Symmetric Mean Absolute Percentage Error of 5.41 % and was the model used for comparison with the current system. From the performance of the different models, the conclusion is that machine learning can be a useful tool to pre- dict the energy supply. But on the other hand, there exist other complex factors that need to be given more attention to, to evaluate the model in a better way. / Temperaturreglering i byggnader kan vara knepigt och dyrt. Ett vanligt problem vid upp- värmning av byggnader är att det tillförs onödigt mycket energi. Detta energispill orsakas oftast av ett felaktigt regleringssystem. Denna rapport studerar möjligheten att, med hjälp av tidsseriedata, kunna träna olika maskininlärningmodeller för att förutsäga den energitill- försel som behövs för att hålla inomhustemperaturen runt 21 grader Celsius. Maskininlär- ningsmodellerna LSTM, Ensemble LSTM, AT-LSTM, ARIMA och XGBoost användes för detta projekt. Valideringen visade att ensemble LSTM-modellen gav den mest exakta förut- sägelserna med Mean Absolute Error på 22486.79 (Wh) och Symmetric Mean Absolute Percentage Error på 5.41% och var modellen som användes för att jämföra med det befint- liga systemet. Från modellernas prestation är slutsatsen att maskininlärning kan vara ett an- vändbart verktyg för att förutsäga energitillförseln. Men å andra sidan finns det andra kom- plexa faktorer som bör tas hänsyn till så att modellen kan evalueras på ett bättre sätt.
Normalization of Deep and Shallow CNNs tasked with Medical 3D PET-scans : Analysis of technique applicabilityPllashniku, Edlir, Stanikzai, Zolal January 2021 (has links)
There has in recent years been interdisciplinary research on utilizing machine learning for detecting and classifying neurodegenerative disorders with the sole goal of outperforming state-of-the-art models in terms of metrics such as accuracy, specificity, and sensitivity. Specifically, these studies have been conducted using existing networks on ”novel” methods of pre-processing data or by developing new convolutional neural networks. As of now, no work has looked into how different normalization techniques affect a deep or shallow convolutional neural network in terms of numerical stability, its performance, explainability, and interpretability. This work delves into what normalization technique is most suitable for deep and shallow convolutional neural networks. Two baselines were created, one shallow and one deep, and applied eight different normalization techniques to these model architectures. Conclusions were drawn based on our analysis of numerical stability, performance (metrics), and methods of Explainable Artificial Intelligence. Our findings indicate that normalization techniques affect models differently regarding the mentioned aspects of our analysis, especially numerical stability and explainability. Moreover, we show that there should indeed be a preference to select one method over the other in future studies of this interdisciplinary field.
LSTM vs Random Forest for Binary Classification of Insurance Related Text / LSTM vs Random Forest för binär klassificering av försäkringsrelaterad textKindbom, Hannes January 2019 (has links)
The field of natural language processing has received increased attention lately, but less focus is put on comparing models, which differ in complexity. This thesis compares Random Forest to LSTM, for the task of classifying a message as question or non-question. The comparison was done by training and optimizing the models on historic chat data from the Swedish insurance company Hedvig. Different types of word embedding were also tested, such as Word2vec and Bag of Words. The results demonstrated that LSTM achieved slightly higher scores than Random Forest, in terms of F1 and accuracy. The models’ performance were not significantly improved after optimization and it was also dependent on which corpus the models were trained on. An investigation of how a chatbot would affect Hedvig’s adoption rate was also conducted, mainly by reviewing previous studies about chatbots’ effects on user experience. The potential effects on the innovation’s five attributes, relative advantage, compatibility, complexity, trialability and observability were analyzed to answer the problem statement. The results showed that the adoption rate of Hedvig could be positively affected, by improving the first two attributes. The effects a chatbot would have on complexity, trialability and observability were however suggested to be negligible, if not negative. / Det vetenskapliga området språkteknologi har fått ökad uppmärksamhet den senaste tiden, men mindre fokus riktas på att jämföra modeller som skiljer sig i komplexitet. Den här kandidatuppsatsen jämför Random Forest med LSTM, genom att undersöka hur väl modellerna kan användas för att klassificera ett meddelande som fråga eller icke-fråga. Jämförelsen gjordes genom att träna och optimera modellerna på historisk chattdata från det svenska försäkringsbolaget Hedvig. Olika typer av word embedding, så som Word2vec och Bag of Words, testades också. Resultaten visade att LSTM uppnådde något högre F1 och accuracy än Random Forest. Modellernas prestanda förbättrades inte signifikant efter optimering och resultatet var också beroende av vilket korpus modellerna tränades på. En undersökning av hur en chattbot skulle påverka Hedvigs adoption rate genomfördes också, huvudsakligen genom att granska tidigare studier om chattbotars effekt på användarupplevelsen. De potentiella effekterna på en innovations fem attribut, relativ fördel, kompatibilitet, komplexitet, prövbarhet and observerbarhet analyserades för att kunna svara på frågeställningen. Resultaten visade att Hedvigs adoption rate kan påverkas positivt, genom att förbättra de två första attributen. Effekterna en chattbot skulle ha på komplexitet, prövbarhet och observerbarhet ansågs dock vara försumbar, om inte negativ.
