• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 229
  • 36
  • Tagged with
  • 265
  • 245
  • 242
  • 184
  • 171
  • 131
  • 130
  • 114
  • 87
  • 84
  • 64
  • 55
  • 55
  • 49
  • 49
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
161

Synthetic Data Generation for the Financial Industry Using Generative Adversarial Networks / Generering av Syntetisk Data för Finansbranchen med Generativa Motstridande Nätverk

Ljung, Mikael January 2021 (has links)
Following the introduction of new laws and regulations to ensure data protection in GDPR and PIPEDA, interests in technologies to protect data privacy have increased. A promising research trajectory in this area is found in Generative Adversarial Networks (GAN), an architecture trained to produce data that reflects the statistical properties of its underlying dataset without compromising the integrity of the data subjects. Despite the technology’s young age, prior research has made significant progress in the generation process of so-called synthetic data, and the current models can generate images with high-quality. Due to the architecture’s success with images, it has been adapted to new domains, and this study examines its potential to synthesize financial tabular data. The study investigates a state-of-the-art model within tabular GANs, called CTGAN, together with two proposed ideas to enhance its generative ability. The results indicate that a modified training dynamic and a novel early stopping strategy improve the architecture’s capacity to synthesize data. The generated data presents realistic features with clear influences from its underlying dataset, and the inferred conclusions on subsequent analyses are similar to those based on the original data. Thus, the conclusion is that GANs has great potential to generate tabular data that can be considered a substitute for sensitive data, which could enable organizations to have more generous data sharing policies. / Med striktare förhållningsregler till hur data ska hanteras genom GDPR och PIPEDA har intresset för anonymiseringsmetoder för att censurera känslig data aktualliserats. En lovande teknik inom området återfinns i Generativa Motstridande Nätverk, en arkitektur som syftar till att generera data som återspeglar de statiska egenskaperna i dess underliggande dataset utan att äventyra datasubjektens integritet. Trots forskningsfältet unga ålder har man gjort stora framsteg i genereringsprocessen av så kallad syntetisk data, och numera finns det modeller som kan generera bilder av hög realistisk karaktär. Som ett steg framåt i forskningen har arkitekturen adopterats till nya domäner, och den här studien syftar till att undersöka dess förmåga att syntatisera finansiell tabelldata. I studien undersöks en framträdande modell inom forskningsfältet, CTGAN, tillsammans med två föreslagna idéer i syfte att förbättra dess generativa förmåga. Resultaten indikerar att en förändrad träningsdynamik och en ny optimeringsstrategi förbättrar arkitekturens förmåga att generera syntetisk data. Den genererade datan håller i sin tur hög kvalité med tydliga influenser från dess underliggande dataset, och resultat på efterföljande analyser mellan datakällorna är av jämförbar karaktär. Slutsatsen är således att GANs har stor potential att generera tabulär data som kan betrakatas som substitut till känslig data, vilket möjliggör för en mer frikostig delningspolitik av data inom organisationer.
162

Bidirectional Encoder Representations from Transformers (BERT) for Question Answering in the Telecom Domain. : Adapting a BERT-like language model to the telecom domain using the ELECTRA pre-training approach / BERT för frågebesvaring inom telekomdomänen : Anpassning till telekomdomänen av en BERT-baserad språkmodell genom ELECTRA-förträningsmetoden

Holm, Henrik January 2021 (has links)
The Natural Language Processing (NLP) research area has seen notable advancements in recent years, one being the ELECTRA model which improves the sample efficiency of BERT pre-training by introducing a discriminative pre-training approach. Most publicly available language models are trained on general-domain datasets. Thus, research is lacking for niche domains with domain-specific vocabulary. In this paper, the process of adapting a BERT-like model to the telecom domain is investigated. For efficiency in training the model, the ELECTRA approach is selected. For measuring target- domain performance, the Question Answering (QA) downstream task within the telecom domain is used. Three domain adaption approaches are considered: (1) continued pre- training on telecom-domain text starting from a general-domain checkpoint, (2) pre-training on telecom-domain text from scratch, and (3) pre-training from scratch on a combination of general-domain and telecom-domain text. Findings indicate that approach 1 is both inexpensive and effective, as target- domain performance increases are seen already after small amounts of training, while generalizability is retained. Approach 2 shows the highest performance on the target-domain QA task by a wide margin, albeit at the expense of generalizability. Approach 3 combines the benefits of the former two by achieving good performance on QA both in the general domain and the telecom domain. At the same time, it allows for a tokenization vocabulary well-suited for both domains. In conclusion, the suitability of a given domain adaption approach is shown to depend on the available data and computational budget. Results highlight the clear benefits of domain adaption, even when the QA task is learned through behavioral fine-tuning on a general-domain QA dataset due to insufficient amounts of labeled target-domain data being available. / Dubbelriktade språkmodeller som BERT har på senare år nått stora framgångar inom språkteknologiområdet. Flertalet vidareutvecklingar av BERT har tagits fram, bland andra ELECTRA, vars nyskapande diskriminativa träningsprocess förkortar träningstiden. Majoriteten av forskningen inom området utförs på data från den allmänna domänen. Med andra ord finns det utrymme för kunskapsbildning inom domäner med områdesspecifikt språk. I detta arbete utforskas metoder för att anpassa en dubbelriktad språkmodell till telekomdomänen. För att säkerställa hög effektivitet i förträningsstadiet används ELECTRA-modellen. Uppnådd prestanda i måldomänen mäts med hjälp av ett frågebesvaringsdataset för telekom-området. Tre metoder för domänanpassning undersöks: (1) fortsatt förträning på text från telekom-området av en modell förtränad på den allmänna domänen; (2) förträning från grunden på telekom-text; samt (3) förträning från grunden på en kombination av text från telekom-området och den allmänna domänen. Experimenten visar att metod 1 är både kostnadseffektiv och fördelaktig ur ett prestanda-perspektiv. Redan efter kort fortsatt förträning kan tydliga förbättringar inom frågebesvaring inom måldomänen urskiljas, samtidigt som generaliserbarhet kvarhålls. Tillvägagångssätt 2 uppvisar högst prestanda inom måldomänen, om än med markant sämre förmåga att generalisera. Metod 3 kombinerar fördelarna från de tidigare två metoderna genom hög prestanda dels inom måldomänen, dels inom den allmänna domänen. Samtidigt tillåter metoden användandet av ett tokenizer-vokabulär väl anpassat för båda domäner. Sammanfattningsvis bestäms en domänanpassningsmetods lämplighet av den respektive situationen och datan som tillhandahålls, samt de tillgängliga beräkningsresurserna. Resultaten påvisar de tydliga vinningar som domänanpassning kan ge upphov till, även då frågebesvaringsuppgiften lärs genom träning på ett dataset hämtat ur den allmänna domänen på grund av otillräckliga mängder frågebesvaringsdata inom måldomänen.
163

Enhancing Simulated Sonar Images With CycleGAN for Deep Learning in Autonomous Underwater Vehicles / Djupinlärning, maskininlärning, sonar, simulering, GAN, cycleGAN, YOLO-v4, gles data, osäkerhetsanalys

Norén, Aron January 2021 (has links)
This thesis addresses the issues of data sparsity in the sonar domain. A data pipeline is set up to generate and enhance sonar data. The possibilities and limitations of using cycleGAN as a tool to enhance simulated sonar images for the purpose of training neural networks for detection and classification is studied. A neural network is trained on the enhanced simulated sonar images and tested on real sonar images to evaluate the quality of these images.The novelty of this work lies in extending previous methods to a more general framework and showing that GAN enhanced simulations work for complex tasks on field data.Using real sonar images to enhance the simulated images, resulted in improved classification compared to a classifier trained on solely simulated images. / Denna rapport ämnar undersöka problemet med gles data för djupinlärning i sonardomänen. Ett dataflöde för att generera och höja kvalitén hos simulerad sonardata sätts upp i syfte att skapa en stor uppsättning data för att träna ett neuralt nätverk. Möjligheterna och begränsningarna med att använda cycleGAN för att höja kvalitén hos simulerad sonardata studeras och diskuteras. Ett neuralt nätverk för att upptäcka och klassificera objekt i sonarbilder tränas i syfte att evaluera den förbättrade simulerade sonardatan.Denna rapport bygger vidare på tidigare metoder genom att generalisera dessa och visa att metoden har potential även för komplexa uppgifter baserad på icke trivial data.Genom att träna ett nätverk för klassificering och detektion på simulerade sonarbilder som använder cycleGAN för att höja kvalitén, ökade klassificeringsresultaten markant jämfört med att träna på enbart simulerade bilder.
164

Uncertainty Estimation for Deep Learning-based LPI Radar Classification : A Comparative Study of Bayesian Neural Networks and Deep Ensembles / Osäkerhetsskattning för LPI radarklassificering med djupa neurala nätverk : En jämförelsestudie av Bayesianska neurala nätverk och djupa ensembler

Ekelund, Måns January 2021 (has links)
Deep Neural Networks (DNNs) have shown promising results in classifying known Low-probability-of-intercept (LPI) radar signals in noisy environments. However, regular DNNs produce low-quality confidence and uncertainty estimates, making them unreliable, which inhibit deployment in real-world settings. Hence, the need for robust uncertainty estimation methods has grown, and two categories emerged, Bayesian approximation and ensemble learning. As autonomous LPI radar classification is deployed in safety-critical environments, this study compares Bayesian Neural Networks (BNNs) and Deep Ensembles (DEs) as uncertainty estimation methods. We synthetically generate a training and test data set, as well as a shifted data set where subtle changes are made to the signal parameters. The methods are evaluated on predictive performance, relevant confidence and uncertainty estimation metrics, and method-related metrics such as model size, training, and inference time. Our results show that our DE achieves slightly higher predictive performance than the BNN on both in-distribution and shifted data with an accuracy of 74% and 32%, respectively. Further, we show that both methods exhibit more cautiousness in their predictions compared to a regular DNN for in-distribution data, while the confidence quality significantly degrades on shifted data. Uncertainty in predictions is evaluated as predictive entropy, and we show that both methods exhibit higher uncertainty on shifted data. We also show that the signal-to-noise ratio affects uncertainty compared to a regular DNN. However, none of the methods exhibit uncertainty when making predictions on unseen signal modulation patterns, which is not a desirable behavior. Further, we conclude that the amount of available resources could influence the choice of the method since DEs are resource-heavy, requiring more memory than a regular DNN or BNN. On the other hand, the BNN requires a far longer training time. / Tidigare studier har visat att djupa neurala nätverk (DNN) kan klassificera signalmönster för en speciell typ av radar (LPI) som är skapad för att vara svår att identifiera och avlyssna. Traditionella neurala nätverk saknar dock ett naturligt sätt att skatta osäkerhet, vilket skadar deras pålitlighet och förhindrar att de används i säkerhetskritiska miljöer. Osäkerhetsskattning för djupinlärning har därför vuxit och på senare tid blivit ett stort område med två tydliga kategorier, Bayesiansk approximering och ensemblemetoder. LPI radarklassificering är av stort intresse för försvarsindustrin, och tekniken kommer med största sannolikhet att appliceras i säkerhetskritiska miljöer. I denna studie jämför vi Bayesianska neurala nätverk och djupa ensembler för LPI radarklassificering. Resultaten från studien pekar på att en djup ensemble uppnår högre träffsäkerhet än ett Bayesianskt neuralt nätverk och att båda metoderna uppvisar återhållsamhet i sina förutsägelser jämfört med ett traditionellt djupt neuralt nätverk. Vi skattar osäkerhet som entropi och visar att osäkerheten i metodernas slutledningar ökar både på höga brusnivåer och på data som är något förskjuten från den kända datadistributionen. Resultaten visar dock att metodernas osäkerhet inte ökar jämfört med ett vanligt nätverk när de får se tidigare osedda signal mönster. Vi visar också att val av metod kan influeras av tillgängliga resurser, eftersom djupa ensembler kräver mycket minne jämfört med ett traditionellt eller Bayesianskt neuralt nätverk.
165

Real-Time Video Super-Resolution : A Comparative Study of Interpolation and Deep Learning Approaches to Upsampling Real-Time Video / Realtids Superupplösning av Video : En Jämförelsestudie av Interpolerings- och Djupinlärningsmetoder för Uppsampling av Realtidsvideo

Båvenstrand, Erik January 2021 (has links)
Super-resolution is a subfield of computer vision centered around upsampling low-resolution images to a corresponding high-resolution counterpart. This degree project investigates the suitability of a deep learning method for real-time video super-resolution. Following earlier work in the field, we use bicubic interpolation as a baseline for comparison. The deep learning method selected is specifically suited towards real-time super-resolution and consists of a motion compensation network and an upsampling network. The deep learning method and bicubic interpolation are compared by quantitatively evaluating the methods against each other in quality metrics and performance metrics. Suitable quality metrics are selected from earlier works to provide increased comparability of results, namely peak signal-to-noise ratio and structure similarity index. The performance metrics are: number of operations for a single upsampled frame, latency, throughput, and memory requirements. We apply the methods to a highly challenging publicly available dataset specifically engineered towards video super-resolution research. To further investigate the deep learning method, we propose a few modifications and study the effect on the metrics. Our findings show that the deep learning models outperform bicubic interpolation in the quality metrics, while bicubic interpolation outperformed the deep learning models in the performance metrics. We also find no significant quality metric improvement associated with having a motion compensation network for this dataset, suggesting that the dataset might be too complex for the motion compensation network. We conclude that the deep learning method exhibits real-time capabilities as the method has a throughput of around 500 frames per second for full HD super-resolution. Additionally, we show that by modifying the deep learning method, we achieve similar latency as bicubic interpolation without sacrificing throughput or quality. / Superupplösning är ett område inom datorseende centrerat kring att uppsampla lågupplösta bilder till högupplösta motsvarigheter. Detta examensarbete undersöker hur lämplig en specifik djupinlärningsmetod är för superupplösning i realtid. Enligt tidigare forskning använder vi oss av bikubisk interpolering som grund för jämförelse. Den valda djupinlärningsmetoden är speciellt anpassad till superupplösning i realtid och består av ett rörelsekompensationsnätverk och ett uppsamplingsnätverk. Djupainlärningsmetoden och interpoleringsmetoden jämförs genom att kvantitativt utvärdera metoderna mot varandra i kvalitetsmått och prestandamått. Lämpliga kvalitetsmått väljs från tidigare forskning för att ge ökad jämförbarhet mellan resultaten, nämligen maximalt signaltill- brusförhållande och strukturlikhetsindex. Prestandamätvärdena är: antal operationer för en uppsamplad bild, latens, genomströmning och minnesbehov. Vi utvärderar metoderna på ett utmanande allmänt tillgängligt dataset speciellt konstruerat för superupplösningsforskning inom video. För att ytterligare undersöka den djupa inlärningsmetoden föreslår vi några modifieringar och studerar effekten på mätvärdena. Våra resultat visar att djupinlärningsmodellerna överträffar bikubisk interpolering i kvalitetsmåtten, medan bikubisk interpolering överträffar djupinlärningsmodellerna i prestandamåtten. Vi finner inte heller någon signifikant kvalitetsmässig förbättring förknippad med att ha ett rörelsekompensationsnätverk för detta dataset, vilket kan betyda att datasetet är för komplext för rörelsekompensationnätverket. Vi drar slutsatsen att djupainlärningsmetoden uppvisar realtidsfunktioner eftersom metoden har en genomströmning på cirka 500 bilder per sekund för full HD superupplösning. Dessutom visar vi att genom att modifiera djupainlärningsmetoden uppnår vi liknande latens som bikubisk interpolering utan att offra genomströmning eller kvalitet.
166

Transformer decoder as a method to predict diagnostic trouble codes in heavy commercial vehicles / Transformer decoder som en metod för att förutspå felkoder i tunga fordon

Poljo, Haris January 2021 (has links)
Diagnostic trouble codes (DTC) have traditionally been used by mechanics to figure out what is wrong with a vehicle. A vehicle generates a DTC when a specific condition in the vehicle is met. This condition has been defined by an engineer and represents some fault that has happened. Therefore the intuition is that DTC’s contain useful information about the health of the vehicle. Due to the sequential ordering of DTC’s and the high count of unique values, this modality of data has characteristics that resemble those of natural language. This thesis investigates if an algorithm that has shown to be promising in the field of Natural Language Processing can be applied to sequences of DTC’s. More specifically, the deep learning model called the transformer decoder will be compared to a baseline model called n-gram in terms of how well they estimate a probability distribution of the next DTC condition on previously seen DTC’s. Estimating a probability distribution could then be useful for manufacturers of heavy commercial vehicles such as Scania when creating systems that help them in their mission of ensuring a high uptime of their vehicles. The algorithms were compared by firstly doing a hyperparameter search for both algorithms and then comparing the models using the 5x2 cross-validation paired t-test. Three metrics were evaluated, perplexity, Top- 1 accuracy, and Top-5 accuracy. It was concluded that there was a significant difference in the performance of the two models where the transformer decoder was the better method given the metrics that were used in the evaluation. The transformer decoder had a perplexity of 22.1, Top-1 accuracy of 37.5%, and a Top-5 accuracy of 59.1%. In contrast, the n-gram had a perplexity of 37.6, Top-1 accuracy of 7.5%, and a Top-5 accuracy of 30%. / Felkoder har traditionellt använts av mekaniker för att ta reda på vad som är fel med ett fordon. Ett fordon genererar en felkod när ett visst villkor i fordonet är uppfyllt, detta villkor har definierats av en ingenjör och representerar något fel som har skett. Därför är intuitionen att felkoder innehåller användbar information om fordonets hälsa. På grund av den sekventiella ordningen av felkoder och det höga antalet unika värden, har denna modalitet av data egenskaper som liknar de för naturligt språk. Detta arbete undersöker om en algoritm som har visat sig vara lovande inom språkteknologi kan tillämpas på sekvenser av felkoder. Mer specifikt kommer den djupainlärnings modellen som kallas Transformer Decoder att jämföras med en basmodell som kallas n- gram. Med avseende på hur väl de estimerar en sannolikhetsfördelning av nästa felkod givet tidigare felkoder som har setts. Att uppskatta en sannolikhetsfördelning kan vara användbart för tillverkare av tunga fordon så som Scania, när de skapar system som hjälper dem i deras uppdrag att säkerställa en hög upptid för sina fordon. Algoritmerna jämfördes genom att först göra en hyperparametersökning för båda modellerna och sedan jämföra modellerna med hjälp av 5x2 korsvalidering parat t-test. Tre mätvärden utvärderades, perplexity, Top-1 träffsäkerhet och Top-5 träffsäkerhet. Man drog slutsatsen att det fanns en signifikant skillnad i prestanda för de två modellerna där Transformer Decoder var den bättre metoden givet mätvärdena som användes vid utvärderingen. Transformer Decoder hade en perplexity på 22.1, Top-1 träffsäkerhet på 37,5% och en Top-5 träffsäkerhet på 59,1%. I kontrast, n-gram modellen hade en perplexity på 37.6, Top-1 träffsäkerhet på 7.5% och en Top-5 träffsäkerhet på 30%.
167

Comparing the Cost-effectiveness of Image Recognition for Elastic Cloud Computing : A cost comparison between Amazon Web Services EC2 instances / Jämför kostnadseffetiviten av bildigenkänning för Elastic Cloud Computing : En kostnadsjämförelse mellan Amazon Web Services EC2 instanser

Gauffin, Christopher, Rehn, Erik January 2021 (has links)
With the rise of the usage of AI, the need for computing power has grown exponentially. This has made cloud computing a popular option with its cost- effective and highly scalable capabilities. However, due to its popularity there exists thousands of possible services to choose from, making it hard to find the right tool for the job. The purpose of this thesis is to provide a methodological approach for evaluating which alternative is the best for machine learning applications deployed in the cloud. Nine different instances were evaluated on a major cloud provider and compared for their performance relative to their cost. This was accomplished by developing a cost evaluation model together with a test environment for image recognition models. The environment can be used on any type of cloud instance to aid in the decision-making. The results derived from the specific premises used in this study indicate that the higher the hourly cost an instance had, the less cost-effective it was. However, when making the same comparison within an instance family of similar machines the same conclusion can not be made. Regardless of the conclusions made in this thesis, the problem addressed remains, as the domain is too large to cover in one report. But the methodology used holds great value as it can act as guidance for similar evaluation with a different set of premises. / Användingen av Artificiell Intelligens har aldrig varit så stor som den är idag och behovet av att kunna göra tyngre och mer komplexa beräkningar har växt exponentiellt. Detta har gjort att molnet, cloud, ett mycket populärt alternativt för sin kostadseffektiva och skalbara förmåga. Däremot så finns det tusentals alternativ att välja emellan vilket gör det svårt att hitta rätt verktyg för jobbet. Syftet med denna uppsats är att förse läsaren med en användbar metodik för att evaluera vilket instans som passar bäst för maskininlärnings applikationer som distribueras i molnet. Nio stycken olika instanser evaluerades på en molnleverantör genom att jämföra deras prestanda kontra deras kostnad. Detta gjordes genom att utveckla en kostnadsmodell tillsammans med en testmiljö för bildigenkänningsmodeller. Testmiljön som användes kan appliceras på flertal instanser som inte ingick i denna rapport för att tillåta andra att använda den för egna tester. Resultaten för studien var att de instanserna med högre timkostnad tenderar till att vara mindre kostnadseffektiva. Gör man samma jämförelse med endast instanser av samma typ som är anpassade för maskininlärning så är samma slutsats inte lika självklar. Oavsett slutsatser som ges i denna rapport så består problemet. Detta beror på att molnet berör så många olika faktorer som bör värderas i evalueringen, till exempel utvecklingstid och modellens förmåga att förutspå en bild vilket alla kräver sin egna tes. Men metodiken som används kan definitivt vara till stor nytta om man vill göra en liknande utvärdering med andra premisser.
168

Urban change detection on satellites using deep learning : A case of moving AI into space for improved Earth observation

Petri, Oliver January 2021 (has links)
Change detection using satellite imagery has applications in urban development, disaster response and precision agriculture. Current deep learning models show promising results. However, on-board computers are typically highly constrained which poses a challenge for deployment. On-board processing is desirable for saving bandwidth by downlinking only novel and valuable data. The goal of this work is to determine what change detection models are most technically feasible for on-board use in satellites. The novel patch based model MobileGoNogo is evaluated along current state-of-the-art models. Technical feasibility was determined by observing accuracy, inference time, storage buildup, memory usage and resolution on a satellite computer tasked with detecting changes in buildings from the SpaceNet 7 dataset. Three high level approaches were taken; direct classification, post classification and patch-based change detection. None of the models compared in the study fulfilled all requirements for general technical feasibility. Direct classification models were highly resource intensive and slow. Post classification model had critically low accuracy but desirable storage characteristics. Patch based MobileGoNogo performed better by all metrics except in resolution where it is significantly lower than any other model. We conclude that the novel model offers a feasible solution for low resolution, noncritical applications. / Upptäckt av förändringar med hjälp av satellitbilder har tillämpningar inom bl.a. stadsutveckling, katastrofinsatser och precisionsjordbruk. De nuvarande modellerna för djupinlärning visar lovande resultat. Datorerna ombord satelliter är dock vanligtvis mycket begränsade, vilket innebär en utmaning för användningen av dessa modeller. Databehandling ombord är önskvärd för att spara bandbredd genom att endast skicka ner nya och värdefulla data. Målet med detta arbete är att fastställa vilka modeller för upptäckt av förändringar som är mest tekniskt genomförbara för användning ombord på satelliter. Den nya bildfältbaserade modellen MobileGoNogo utvärderas tillsammans med de senaste modellerna. Den tekniska genomförbarheten fastställdes genom att observera träffsäkerhet, inferenstid, lagring, minnesanvändning och upplösning på en satellitdator med uppgift att upptäcka förändringar i byggnader från SpaceNet 7dataset. Tre tillvägagångssätt på hög nivå användes: direkt klassificering, postklassificering och fältbaserad klassificering. Ingen av de modeller som jämfördes i studien uppfyllde alla krav på allmän teknisk genomförbarhet. Direkta klassificeringsmodeller var mycket resurskrävande och långsamma. Postklassificeringsmodellen hade kritiskt låg träffsäkerhet men önskvärda lagringsegenskaper. Den bildfältbaserade MobileGoNogo-modellen var bättre i alla mätvärden utom i upplösningen, där den var betydligt lägre än någon annan modell. Vi drar slutsatsen att den nya modellen erbjuder en genomförbar lösning för icke-kritiska tillämpningar med låg upplösning.
169

Employing a Transformer Language Model for Information Retrieval and Document Classification : Using OpenAI's generative pre-trained transformer, GPT-2 / Transformermodellers användbarhet inom informationssökning och dokumentklassificering

Bjöörn, Anton January 2020 (has links)
As the information flow on the Internet keeps growing it becomes increasingly easy to miss important news which does not have a mass appeal. Combating this problem calls for increasingly sophisticated information retrieval methods. Pre-trained transformer based language models have shown great generalization performance on many natural language processing tasks. This work investigates how well such a language model, Open AI’s General Pre-trained Transformer 2 model (GPT-2), generalizes to information retrieval and classification of online news articles, written in English, with the purpose of comparing this approach with the more traditional method of Term Frequency-Inverse Document Frequency (TF-IDF) vectorization. The aim is to shed light on how useful state-of-the-art transformer based language models are for the construction of personalized information retrieval systems. Using transfer learning the smallest version of GPT-2 is trained to rank and classify news articles achieving similar results to the purely TF-IDF based approach. While the average Normalized Discounted Cumulative Gain (NDCG) achieved by the GPT-2 based model was about 0.74 percentage points higher the sample size was too small to give these results high statistical certainty. / Informationsflödet på Internet fortsätter att öka vilket gör det allt lättare att missa viktiga nyheter som inte intresserar en stor mängd människor. För att bekämpa detta problem behövs allt mer sofistikerade informationssökningsmetoder. Förtränade transformermodeller har sedan ett par år tillbaka tagit över som de mest framstående neurala nätverken för att hantera text. Det här arbetet undersöker hur väl en sådan språkmodell, Open AIs General Pre-trained Transformer 2 (GPT-2), kan generalisera från att generera text till att användas för informationssökning och klassificering av texter. För att utvärdera detta jämförs en transformerbaserad modell med en mer traditionell Term Frequency- Inverse Document Frequency (TF-IDF) vektoriseringsmodell. Målet är att klargöra hur användbara förtränade transformermodeller faktiskt är i skapandet av specialiserade informationssökningssystem. Den minsta versionen av språkmodellen GPT-2 anpassas och tränas om till att ranka och klassificera nyhetsartiklar, skrivna på engelska, och uppnår liknande prestanda som den TF-IDF baserade modellen. Den GPT-2 baserade modellen hade i genomsnitt 0.74 procentenheter högre Normalized Discounted Cumulative Gain (NDCG) men provstorleken var ej stor nog för att ge dessa resultat hög statistisk säkerhet.
170

Predicting Purchase of Airline Seating Using Machine Learning / Förutsägelse på köp av sätesreservation med maskininlärning.

El-Hage, Sebastian January 2020 (has links)
With the continuing surge in digitalization within the travel industry and the increased demand of personalized services, understanding customer behaviour is becoming a requirement to survive for travel agencies. The number of cases that addresses this problem are increasing and machine learning is expected to be the enabling technique. This thesis will attempt to train two different models, a multi-layer perceptron and a support vector machine, to reliably predict whether a customer will add a seat reservation with their flight booking. The models are trained on a large dataset consisting of 69 variables and over 1.1 million historical recordings of bookings dating back to 2017. The results from the trained models are satisfactory and the models are able to classify the data with an accuracy of around 70%. This shows that this type of problem is solvable with the techniques used. The results moreover suggest that further exploration of models and additional data could be of interest since this could help increase the level of performance. / Med den fortsatta ökningen av digitalisering inom reseindustrin och det faktum att kunder idag visar ett stort behov av skräddarsydda tjänster så stiger även kraven på företag att förstå sina kunders beteende för att överleva. En uppsjö av studier har gjorts där man försökt tackla problemet med att kunna förutse kundbeteende och maskininlärning har pekats ut som en möjliggörande teknik. Inom maskininlärning har det skett en stor utveckling och specifikt inom området djupinlärning. Detta har gjort att användningen av dessa teknologier för att lösa komplexa problem spritt sig till allt fler branscher. Den här studien implementerar en Multi-Layer Perceptron och en Support Vector Machine och tränar dessa på befintliga data för att tillförlitligt kunna avgöra om en kund kommer att köpa en sätesreservation eller inte till sin bokning. Datat som användes bestod av 69 variabler och över 1.1 miljoner historiska bokningar inom tidsspannet 2017 till 2020. Resultaten från studien är tillfredställande då modellerna i snitt lyckas klassificera med en noggrannhet på 70%, men inte optimala. Multi-Layer Perceptronen presterar bäst på båda mätvärdena som användes för att estimera prestandan på modellerna, accuracy och F1 score. Resultaten pekar även på att en påbyggnad av denna studie med mer data och fler klassificeringsmodeller är av intresse då detta skulle kunna leda till en högre nivå av prestanda.

Page generated in 0.0524 seconds