Global ETD Search

1	Word2vec2syn : Synonymidentifiering med Word2vec / Word2vec2syn : Synonym Identification using Word2vec Pettersson, Tove January 2019 (has links) Inom NLP (eng. natural language processing) är synonymidentifiering en av de språkvetenskapliga utmaningarna som många antar. Fodina Language Technology AB är ett företag som skapat ett verktyg, Termograph, ämnad att samla termer inom företag och hålla den interna språkanvändningen konsekvent. En metodkombination bestående av språkteknologiska strategier utgör synonymidentifieringen och Fodina önskar ett större täckningsområde samt mer dynamik i framtagningsprocessen. Därav syftade detta arbete till att ta fram en ny metod, utöver metodkombinationen, för just synonymidentifiering. En färdigtränad Word2vec-modell användes och den inbyggda funktionen för cosinuslikheten användes för att få fram synonymer och skapa kluster. Modellen validerades, testades och utvärderades i förhållande till metodkombinationen. Valideringen visade att modellen skattade inom ett rimligt mänskligt spann i genomsnitt 60,30 % av gångerna och Spearmans korrelation visade på en signifikant stark korrelation. Testningen visade att 32 % av de bearbetade klustren innehöll matchande synonymförslag. Utvärderingen visade att i de fall som förslagen inte matchade så var modellens synonymförslag korrekta i 5,73 % av fallen jämfört med 3,07 % för metodkombinationen. Den interna reliabiliteten för utvärderarna visade på en befintlig men svag enighet, Fleiss Kappa = 0,19, CI(0,06, 0,33). Trots viss osäkerhet i resultaten påvisas ändå möjligheter för vidare användning av word2vec-modeller inom Fodinas synonymidentifiering. / One of the main challenges in the field of natural language processing (NLP) is synonym identification. Fodina Language Technology AB is the company behind the tool, Termograph, that aims to collect terms and provide a consistent language within companies. A combination of multiple methods from the field of language technology constitutes the synonym identification and Fodina would like to improve the area of coverage and increase the dynamics of the working process. The focus of this thesis was therefore to evaluate a new method for synonym identification beyond the already used combination. Initially a trained Word2vec model was used and for the synonym identification the built-in-function for cosine similarity was applied in order to create clusters. The model was validated, tested and evaluated relative to the combination. The validation implicated that the model made estimations within a fair human-based range in an average of 60.30% and Spearmans correlation indicated a strong significant correlation. The testing showed that 32% of the processed synonym clusters contained matching synonym suggestions. The evaluation showed that the synonym suggestions from the model was correct in 5.73% of all cases compared to 3.07% for the combination in the cases where the clusters did not match. The interrater reliability indicated a slight agreement, Fleiss’ Kappa = 0.19, CI(0.06, 0.33). Despite uncertainty in the results, opportunities for further use of Word2vec-models within Fodina’s synonym identification are nevertheless demonstrated. Read more Word2vec synonym identification vector space model word vectors cosine similarity Word2vec synonymidentifiering vektorrymdsmodell ordvektorer cosinuslikhet
2	Descriptive Music Search With Domain-Specific Word Embeddings / Deskriptiv musiksökning med domänspecifika ordinbäddningar Liu, Alva January 2019 (has links) Descriptive search is a type of exploratory search that allows users to search for content by providing descriptors. Instead of having a specific target in mind, the user looks for a recommendation of items that matches the given descriptors. However in the music domain, descriptive words do not necessarily have the same semantic meaning as they have in a generic text corpus. In this study, we investigate if we can train a shallow neural model on playlist data for descriptive music search, and if the model can capture music-specific word semantics. We carry out three experiments to evaluate our model. The first and the second experiments evaluate if the model can predict tracks that are relevant to given search queries, and the third experiment evaluates whether the model successfully captures domain-specific word semantics. From our experiments, we conclude that our model trained on playlist data indeed can capture music-specific word semantics and generate reasonable track predictions. For future work, we suggest to explore possibilities to re-rank the top results retrieved by the model and diversify and/or personalize the ordering of the results. / Deskriptiv sökning är en typ av utforskande informationshämtning där användare söker efter material med hjälp av beskrivande sökord. Istället för att ange namnet på ett objekt i söksträngen så kan användaren med ord beskriva objekt som efterfrågas. I ett musiksammanhang har dock många beskrivande ord inte samma betydelse som de har i ett generellt sammanhang. Vi undersöker därför i vår studie om vi kan träna ett grunt neuralt nätverk med spellistsdata för deskriptiv musiksökning, och om modellen kan lära sig musik-specifika betydelser av ord. Vi utför totalt tre olika experiment för att utvärdera modellen. De första två experimenten undersöker om modellen kan föreslå relevanta låtar givet beskrivande söksträngar och det sista experimentet undersöker om modellen fångar domän-specifika betydelser av sökorden. Resultaten från våra experiment tyder på att modellen lyckas fånga musik-specifika språkmönster och kan föreslå rimliga låtar för deskriptiva söksträngar. För att göra modellen mer användningsbar föreslår vi att undersöka möjligheterna att omranka toppresultaten från modellen, och diversifiera samt personalisera ordningen av resultaten efter individuella användare. Read more descriptive search word embeddings domain knowledge extrinsic evaluation fastText deskriptiv sökning ordvektorer domänkunskap indirekt utvärdering fastText Computer and Information Sciences Data- och informationsvetenskap
3	Text feature mining using pre-trained word embeddings Sjökvist, Henrik January 2018 (has links) This thesis explores a machine learning task where the data contains not only numerical features but also free-text features. In order to employ a supervised classifier and make predictions, the free-text features must be converted into numerical features. In this thesis, an algorithm is developed to perform that conversion. The algorithm uses a pre-trained word embedding model which maps each word to a vector. The vectors for multiple word embeddings belonging to the same sentence are then combined to form a single sentence embedding. The sentence embeddings for the whole dataset are clustered to identify distinct groups of free-text strings. The cluster labels are output as the numerical features. The algorithm is applied on a specific case concerning operational risk control in banking. The data consists of modifications made to trades in financial instruments. Each such modification comes with a short text string which documents the modification, a trader comment. Converting these strings to numerical trader comment features is the objective of the case study. A classifier is trained and used as an evaluation tool for the trader comment features. The performance of the classifier is measured with and without the trader comment feature. Multiple models for generating the features are evaluated. All models lead to an improvement in classification rate over not using a trader comment feature. The best performance is achieved with a model where the sentence embeddings are generated using the SIF weighting scheme and then clustered using the DBSCAN algorithm. / Detta examensarbete behandlar ett maskininlärningsproblem där data innehåller fritext utöver numeriska attribut. För att kunna använda all data för övervakat lärande måste fritexten omvandlas till numeriska värden. En algoritm utvecklas i detta arbete för att utföra den omvandlingen. Algoritmen använder färdigtränade ordvektormodeller som omvandlar varje ord till en vektor. Vektorerna för flera ord i samma mening kan sedan kombineras till en meningsvektor. Meningsvektorerna i hela datamängden klustras sedan för att identifiera grupper av liknande textsträngar. Algoritmens utdata är varje datapunkts klustertillhörighet. Algoritmen appliceras på ett specifikt fall som berör operativ risk inom banksektorn. Data består av modifikationer av finansiella transaktioner. Varje sådan modifikation har en tillhörande textkommentar som beskriver modifikationen, en handlarkommentar. Att omvandla dessa kommentarer till numeriska värden är målet med fallstudien. En klassificeringsmodell tränas och används för att utvärdera de numeriska värdena från handlarkommentarerna. Klassificeringssäkerheten mäts med och utan de numeriska värdena. Olika modeller för att generera värdena från handlarkommentarerna utvärderas. Samtliga modeller leder till en förbättring i klassificering över att inte använda handlarkommentarerna. Den bästa klassificeringssäkerheten uppnås med en modell där meningsvektorerna genereras med hjälp av SIF-viktning och sedan klustras med hjälp av DBSCAN-algoritmen. Read more Word embeddings Feature engineering Unsupervised learning Deep learning fast Text Operational risk Ordvektorer Attributgenerering Oövervakat lärande Djupinlärning fastText Operativ risk Computational Mathematics Beräkningsmatematik
4	Automatic Pronoun Resolution for Swedish / Automatisk pronomenbestämning på svenska Ahlenius, Camilla January 2020 (has links) This report describes a quantitative analysis performed to compare two different methods on the task of pronoun resolution for Swedish. The first method, an implementation of Mitkov’s algorithm, is a heuristic-based method — meaning that the resolution is determined by a number of manually engineered rules regarding both syntactic and semantic information. The second method is data-driven — a Support Vector Machine (SVM) using dependency trees and word embeddings as features. Both methods are evaluated on an annotated corpus of Swedish news articles which was created as a part of this thesis. SVM-based methods significantly outperformed the implementation of Mitkov’s algorithm. The best performing SVM model relies on tree kernels applied to dependency trees. The model achieved an F1-score of 0.76 for the positive class and 0.9 for the negative class, where positives are pairs of pronoun and noun phrase that corefer, and negatives are pairs that do not corefer. / Rapporten beskriver en kvantitativ analys som genomförts för att jämföra två olika metoder för automatisk pronomenbestämning på svenska. Den första metoden, en implementation av Mitkovs algoritm, är en heuristisk metod vilket innebär att pronomenbestämningen görs med ett antal manuellt utformade regler som avser att fånga både syntaktisk och semantisk information. Den andra metoden är datadriven, en stödvektormaskin (SVM) som använder dependensträd och ordvektorer som särdrag. Båda metoderna utvärderades med hjälp av en annoterad datamängd bestående av svenska nyhetsartiklar som skapats som en del av denna avhandling. Den datadrivna metoden överträffade Mitkovs algoritm. Den SVM-modell som ger bäst resultat bygger på trädkärnor som tillämpas på dependensträd. Modellen uppnådde ett F1-värde på 0.76 för den positiva klassen och 0.9 för den negativa klassen, där de positiva datapunkterna utgörs av ett par av pronomen och nominalfras som korefererar, och de negativa datapunkterna utgörs av par som inte korefererar. Read more Pronoun resolution Mitkov’s algorithm Support Vector Machine Supervised learning SVM-Light-TK Tree kernels Dependency trees Word embeddings Pronomenbestämning Mitkovs algoritm Stödvektormaskin Övervakad inlärning SVM-Light-TK Trädkärnor Dependensträd Ordvektorer Computer and Information Sciences Data- och informationsvetenskap
5	Dynamic Student Embeddings for a Stable Time Dimension in Knowledge Tracing Tump, Clara January 2020 (has links) Knowledge tracing is concerned with tracking a student’s knowledge as she/he engages with exercises in an (online) learning platform. A commonly used state-of-theart knowledge tracing model is Deep Knowledge Tracing (DKT) which models the time dimension as a sequence of completed exercises per student by using a Long Short-Term Memory Neural Network (LSTM). However, a common problem in this sequence-based model is too much instability in the time dimension of the modelled knowledge of a student. In other words, the student’s knowledge on a skill changes too quickly and unreliably. We propose dynamic student embeddings as a stable method for encoding the time dimension of knowledge tracing systems. In this method the time dimension is encoded in time slices of a fixed size, while the model’s loss function is designed to smoothly align subsequent time slices. We compare the dynamic student embeddings to DKT on a large-scale real-world dataset, and we show that dynamic student embeddings provide a more stable knowledge tracing while retaining good performance. / Kunskapsspårning handlar om att modellera en students kunskaper då den arbetar med uppgifter i en (online) lärplattform. En vanlig state-of-the-art kunskapsspårningsmodell är Deep Knowledge Tracing (DKT) vilken modellerar tidsdimensionen som en sekvens av avslutade uppgifter per student med hjälp av ett neuronnät kallat Long Short-Term Memory Neural Network (LSTM). Ett vanligt problem i dessa sekvensbaserade modeller är emellertid en för stor instabilitet i tidsdimensionen för studentens modellerade kunskap. Med andra ord, studentens kunskaper förändras för snabbt och otillförlitligt. Vi föreslår därför Dynamiska Studentvektorer som en stabil metod för kodning av tidsdimensionen för kunskapsspårningssystem. I denna metod kodas tidsdimensionen i tidsskivor av fix storlek, medan modellens förlustfunktion är utformad för att smidigt justera efterföljande tidsskivor. I denna uppsats jämför vi de Dynamiska Studentvektorer med DKT i en storskalig verklighetsbaserad dataset, och visar att Dynamiska Studentvektorer tillhandahåller en stabilare kunskapsspårning samtidigt som prestandan bibehålls. Read more Knowledge Tracing Exercise Recommendation Adaptive Learning Machine Learning Word Embeddings Dynamic Embeddings Recurrent Neural Networks Long Short-Term Memory Neural Networks Kunskapsspårning Uppgiftsrekommendation Adaptivt Lärande Maskininlärning Ordvektorer Dynamiska Studentvektorer Recurrent Neural Networks Long ShortTerm Memory Neural Networks Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.4092 seconds