Global ETD Search

1	Employing a Transformer Language Model for Information Retrieval and Document Classification : Using OpenAI's generative pre-trained transformer, GPT-2 / Transformermodellers användbarhet inom informationssökning och dokumentklassificering Bjöörn, Anton January 2020 (has links) As the information flow on the Internet keeps growing it becomes increasingly easy to miss important news which does not have a mass appeal. Combating this problem calls for increasingly sophisticated information retrieval methods. Pre-trained transformer based language models have shown great generalization performance on many natural language processing tasks. This work investigates how well such a language model, Open AI’s General Pre-trained Transformer 2 model (GPT-2), generalizes to information retrieval and classification of online news articles, written in English, with the purpose of comparing this approach with the more traditional method of Term Frequency-Inverse Document Frequency (TF-IDF) vectorization. The aim is to shed light on how useful state-of-the-art transformer based language models are for the construction of personalized information retrieval systems. Using transfer learning the smallest version of GPT-2 is trained to rank and classify news articles achieving similar results to the purely TF-IDF based approach. While the average Normalized Discounted Cumulative Gain (NDCG) achieved by the GPT-2 based model was about 0.74 percentage points higher the sample size was too small to give these results high statistical certainty. / Informationsflödet på Internet fortsätter att öka vilket gör det allt lättare att missa viktiga nyheter som inte intresserar en stor mängd människor. För att bekämpa detta problem behövs allt mer sofistikerade informationssökningsmetoder. Förtränade transformermodeller har sedan ett par år tillbaka tagit över som de mest framstående neurala nätverken för att hantera text. Det här arbetet undersöker hur väl en sådan språkmodell, Open AIs General Pre-trained Transformer 2 (GPT-2), kan generalisera från att generera text till att användas för informationssökning och klassificering av texter. För att utvärdera detta jämförs en transformerbaserad modell med en mer traditionell Term Frequency- Inverse Document Frequency (TF-IDF) vektoriseringsmodell. Målet är att klargöra hur användbara förtränade transformermodeller faktiskt är i skapandet av specialiserade informationssökningssystem. Den minsta versionen av språkmodellen GPT-2 anpassas och tränas om till att ranka och klassificera nyhetsartiklar, skrivna på engelska, och uppnår liknande prestanda som den TF-IDF baserade modellen. Den GPT-2 baserade modellen hade i genomsnitt 0.74 procentenheter högre Normalized Discounted Cumulative Gain (NDCG) men provstorleken var ej stor nog för att ge dessa resultat hög statistisk säkerhet. Deep Learning Transformer Models Information Retrieval Ranking Generative Pre-training Document Classification djupinlärning transformermodeller informationssökning ranking generativ förträning dokumentklassificering Computer and Information Sciences Data- och informationsvetenskap
2	Delineation of vegetated water through pre-trained convolutional networks / Konturteckning av vegeterat vatten genom förtränade konvolutionella nätverk Hansen, Johanna January 2024 (has links) In a world under the constant impact of global warming, wetlands are decreasing in size all across the globe. As the wetlands are a vital part of preventing global warming, the ability to prevent their shrinkage through restorative measures is critical. Continuously orbiting the Earth are satellites that can be used to monitor the wetlands by collecting images of them over time. In order to determine the size of a wetland, and to register if it is shrinking or not, deep learning models can be used. Especially useful for this task is convolutional neural networks (CNNs). This project uses one type of CNN, a U-Net, to segment vegetated water in satellite data. However, this task requires labeled data, which is expensive to generate and difficult to acquire. The model used therefore needs to be able to generate reliable results even on small data sets. Therefore, pre-training of the network is used with a large-scale natural image segmentation data set called Common Objects in Context (COCO). To transfer the satellite data into RGB images to use as input for the pre-trained network, three different methods are tried. Firstly, the commonly used linear transformation method which simply moves the value of radar data into the RGB feature space. Secondly, two convolutional layers are placed before the U-Net which gradually changes the number of channels of the input data, with weights trained through backpropagation during the fine-tuning of the segmentation model. Lastly, a convolutional auto-encoder is trained in the same way as the convolutional layers. The results show that the autoencoder does not perform very well, but that the linear transformation and convolutional layers methods each can outperform the other depending on the data set. No statistical significance can be shown however between the performance of the two latter. Experimenting with including different amounts of polarizations from Sentinel-1 and bands from Sentinel-2 showed that only using radar data gave the best results. It remains to be determined whether one or both of the polarizations should be included to achieve the best result. / I en värld som ständigt påverkas av den globala uppvärmningen, minskar våtmarkerna i storlek över hela världen. Eftersom våtmarkerna är en viktig del i att förhindra global uppvärmning, är förmågan att förhindra att de krymper genom återställande åtgärder kritisk. Kontinuerligt kretsande runt jorden finns satelliter som kan användas för att övervaka våtmarkerna genom att samla in bilder av dem över tid. För att bestämma storleken på en våtmark, i syfte att registrera om den krymper eller inte, kan djupinlärningsmodeller användas. Speciellt användbar för denna uppgift är konvolutionella neurala nätverk (CNN). Detta projekt använder en typ av CNN, ett U-Net, för att segmentera vegeterat vatten i satellitdata. Denna uppgift kräver dock märkt data, vilket är dyrt att generera och svårt att få tag på. Modellen som används behöver därför kunna generera pålitliga resultat även med små datauppsättning. Därför används förträning av nätverket med en storskalig naturlig bildsegmenteringsdatauppsättning som kallas Common Objects in Context (COCO). För att överföra satellitdata till RGB-bilder som ska användas som indata för det förtränade nätverket prövas tre olika metoder. För det första, den vanliga linjära transformationsmetoden som helt enkelt flyttar värdet av radardatan till RGB-funktionsutrymmet. För det andra två konvolutionella lager placerade före U-Net:et som gradvis ändrar mängden kanaler i indatan, med vikter tränade genom bakåtpropagering under finjusteringen av segmenteringsmodellen. Slutligen tränade en konvolutionell auto encoder på samma sätt som de konvolutionella lagren. Resultaten visar att auto encodern inte fungerar särskilt bra, men att metoderna för linjär transformation och konvolutionella lager var och en kan överträffa den andra beroende på datauppsättningen. Ingen statistisk signifikans kan dock visas mellan prestationen för de två senare. Experiment med att inkludera olika mängder av polariseringar från Sentinell-1 och band från Sentinell-2 visade att endast användning av radardata gav de bästa resultaten. Om att inkludera båda polariseringarna eller bara en är den mest lämpliga återstår fortfarande att fastställa. Wetland delineation Satellite image segmentation Convolutional neural networks Pre-training Deep learning Remote sensing Avgränsning av våtmarker Segmentering av satellitbilder Konvolutionella neurala nätverk Förträning Djupinlärning Fjärranalys Computer Sciences Datavetenskap (datalogi)
3	Hierarchical Control of Simulated Aircraft / Hierarkisk kontroll av simulerade flygplan Mannberg, Noah January 2023 (has links) This thesis investigates the effectiveness of employing pretraining and a discrete "control signal" bottleneck layer in a neural network trained in aircraft navigation through deep reinforcement learning. The study defines two distinct tasks to assess the efficacy of this approach. The first task is utilized for pretraining specific parts of the network, while the second task evaluates the potential benefits of this technique. The experimental findings indicate that the network successfully learned three main macro actions during pretraining. flying straight ahead, turning left, and turning right, and achieved high rewards on the task. However, utilizing the pretrained network on the transfer task yielded poor performance, possibly due to the limited effective action space or deficiencies in the training process. The study discusses several potential solutions, such as incorporating multiple pretraining tasks and alterations of the training process as avenues for future research. Overall, this study highlights the challanges and opportunities associated with combining pretraining with a discrete bottleneck layer in the context of simulated aircraft navigation using reinforcement learning. / Denna studie undersöker effektiviteten av att använda förträning och en diskret "styrsignal" som fungerar som flaskhals i ett neuralt nätverk tränat i flygnavigering med hjälp av djup förstärkande inlärning. Studien definierar två olika uppgifter för att bedöma effektiviteten hos denna metod. Den första uppgiften används för att förträna specifika delar at nätverket, medan den andra uppgiften utvärderar de potentiella fördelarna med denna teknik. De experimentella resultaten indikerar att nätverket framgångsrikt lärde sig tre huvudsakliga makrohandlingar under förträningen: att flyga rakt fram, att svänga vänster och att svänga höger, och uppnådde höga belöningar för uppgiften. Men att använda det förtränade nätverket för den uppföljande uppgiften gav dålig prestation, möjligen på grund av det begränsade effektiva handlingsutrymmet eller begränsningar i träningsprocessen. Studien diskuterar flera potentiella lösningar, såsom att inkorporera flera förträningsuppgifter och ändringar i träningsprocessen, som möjliga framtida forskningsvägar. Sammantaget belyser denna studie de utmaningar och möjligheter som är förknippade med att kombinera förträning med ett diskret flaskhalslager inom kontexten av simulerad flygnavigering och förstärkningsinlärning. Reinforcement Learning Deep Learning Pretraining Transfer Learning Aircraft Beyond Visual Range Flight Dynamics Computer Generated Forces Long Short-Term Memory Förstärkningsinlärning Djupinlärning Förträning Överföringsinlärning Flygplan Beyond Visual Range Flygdynamik Datorgenererade styrkor Long Short-Term Memory Other Mathematics Annan matematik

1

Page generated in 0.0638 seconds