Spelling suggestions: "subject:"tandbehandling av naturlig språk"" "subject:"tandbehandling av naturligt språk""
1 |
Extracting information about arms deals from news articles / Extrahering av information om vapenaffärer från nyhetsartiklarHernqvist, Fredrik January 2022 (has links)
The Stockholm International Peace Research Institute (SIPRI) maintains the most comprehensive publicly available database on international arms deals. Updating this database requires humans to sift through large amounts of news articles, only some of which contain information relevant to the database. To save time, it would be useful to automate a part of this process. In this thesis project we apply ALBERT, a state of the art Pre-trained Language Model for Natural Language Processing (NLP), to the task of determining if a text contains information about arms transfers and extracting that information. In order to train and evaluate the model we also introduce a new dataset of 600 news articles, where information about arms deals is annotated with lables such as Weapon, Buyer, Seller, etc. We achieve an F1-score of 0.81 on the task of determining if an arms deal is present in a text, and an F1-score of 0.77 on determining if a given part of a text has a specific arms deal-related attribute. This is probably not enough to entirely automate SIPRI’s process, but it demonstrates that the approach is feasible. While this paper focuses specifically on arms deals, the methods used can be generalized to extracting other kinds of information. / Stockholm International Peace Research Institute (SIPRI) tillhandahåller den största allmänt tillgängliga databasen med internationella vapenaffärer. För att hålla databasen uppdaterad måste människor sålla igenom stora mängder nyhetsartiklar, varav endast några innehåller information som är relevant för databasen. För att spara tid vore det bra att kunna automatisera en del av den processen. I det här examensarbetet använder vi ALBERT, en maskininlärningsmodell för behandling av naturliga språk (NLP), för att avgöra om en text innehåller information om vapenaffärer och för att extrahera den informationen. För att träna modellen skapar vi också ett dataset med 600 nyhetsartiklar, där information om vapenaffärer finns annoterad med attribut som Vapen, Köpare, Säljare, etc. Vi fick en F1-score på 0.81 på problemet att avgöra om en vapenaffär finns i en text, och en F1-score på 0.77 på problemet att avgöra om en given del av en text har ett specifikt vapenaffärsrelaterat attribut. Resultaten är förmodligen inte bra nog för att helt kunna automatisera SIPRIs process, men de demonstrerar att metoden är lovande. Det här examensarbetet fokuserar specifikt på vapenaffärer, men metoderna kan förmodligen generaliseras för att extrahera andra sorters information.
|
2 |
Evaluation of the performance of machine learning techniques for email classification / Utvärdering av prestationen av maskininlärningstekniker för e-post klassificeringTapper, Isabella January 2022 (has links)
Manual categorization of a mail inbox can often become time-consuming. Therefore many attempts have been made to use machine learning for this task. One essential Natural Language Processing (NLP) task is text classification, which is a big challenge since an NLP engine is not a native speaker of any human language. An NLP engine often fails at understanding sarcasm and underlying intent. One of the NLP challenges is to represent text. Text embeddings can be learned, or they can be generated from a pre-trained model. Google’s pre-trained model Sentence Bidirectional Encoder Representations from Transformers (SBERT) is state-of-the-art for generating pre-trained vector representation of longer text. In this project, different methods of classifying and clustering emails were studied. The performances of three supervised classification models were compared to each other. A Support Vector Machine (SVM) and a Neural Network (NN) were trained with SBERT embeddings, and the third model, a Recurrent Neural Network (RNN) was trained on raw data. The motivation for this experiment was to see whether SBERT embedding is an excellent choice of text representation when combined with simpler classification models in an email classification task. The results show that the SVM and NN perform higher than RNN in the email classification task. Since most real data is unlabeled, this thesis also evaluated how well unsupervised methods could perform in email clustering taking advantage of the available labels and using SBERT embeddings as text representations. Three unsupervised clustering models are reviewed in this thesis: K-Means (KM), Spectral Clustering (SC), and Hierarchical Agglomerative Clustering (HAC). The results show that the unsupervised models all had a similar performance in terms of precision, recall and F1-score, and the performances were evaluated using the available labeled dataset. In conclusion, this thesis gives evidence that in an email classification task, it is better for supervised models to train with pre-trained SBERT embeddings than to train on raw data. This thesis also showed that the output of the clustering methods compared on par with the output of the selected supervised learning techniques. / Manuell kategorisering av en inkorg kan ofta bli tidskrävande. Därför har många försök gjorts att använda maskininlärning för denna uppgift. En viktig uppgift för Natural Language Processing (NLP) är textklassificering, vilket är en stor utmaning eftersom en språkmotor inte talar något mänskligt språk som modersmål. En språkmotor misslyckas ofta med att förstå sarkasm och underliggande avsikt. En av språkmotorns utmaningar är att representera text. Textinbäddningar kan bli inlärda, eller så kan de genereras av en förutbildad modell. Googles förutbildade modell Sentence Bidirectional Encoder Representations from Transformers (SBERT) är den senaste tekniken för att generera förtränade vektorrepresentation av längre text. I detta projekt studerades olika metoder för att klassificera e-postmeddelanden. Prestandan av tre övervakade klassificeringsmodeller jämfördes med varandra, och av dessa var två utbildade med SBERT-inbäddningar: Support Vector Machine (SVM), Neural Network (NN) och den tredje modellen tränades på rådata: Recurrent Neural Network (RNN). Motivationen till detta experiment var att se om SBERT-inbäddningar tillsammans med enklare klassificeringsmodeller är ett bra val av textrepresentation i en e-post klassificeringsuppgift. Resultaten visar att SVM och NN har högre prestanda än RNN i e-postklassificeringsuppgiften. Eftersom mycket verklig data är omärkt utvärderade denna avhandling också hur väl oövervakade metoder kan utföras i samma e-postklassificeringsuppgift med SBERT-inbäddningar som textrepresentationer. Tre oövervakade klustringsmodeller utvärderas i denna avhandling: K-Means (KM), Spectral Clustering (SC) och Hierarchical Agglomerative Clustering (HAC). Resultaten visar att de oövervakade modeller hade liknande prestanda i precision, recall och F1-score, och prestandan var baserad på de tillgängliga klassannoteringarna. Sammanfattningsvis ger denna avhandling bevis på att i en e-postklassificeringsuppgift är det bättre att övervakade modeller tränar med förtränade SBERT-inbäddningar än att träna på rådata. Denna avhandling visade också att resultatet av klustringsmodellerna hade en jämförbar prestanda med resultatet av de valda övervakade inlärningstekniker.
|
3 |
Evaluating Hybrid Neural Network Approaches to Multimodal Web Page Classification Based on Textual and Visual Features / Extrahering av Representationer och Ensembletekniker för Multimodal Klassifiering av Webbsidor. : Utvärdering av neurala nätverksmodeller och ensembletekniker för multimodal webbsideklassificering.Ivarsson, Anton January 2021 (has links)
Given the explosive growth of web pages on the Internet in the last decade, automatic classification and categorization of web pages have grown into an important task. This thesis sets out to evaluate whether or not methods for text and image analysis, which had not been evaluated for web page classification, could improve on the state-of-the-art methods in web page classification. In web page classification, there is no dataset that is used for benchmarking. Therefore, in order to make comparisons, baseline models are implemented. The methods implemented are Bidirectional Encoder Representations from Transformers (BERT) for text and EfficientNet B4 for images. This thesis also sets out to evaluate methods for combining knowledge from two models. The thesis concludes that the proposed methods do improve on the state-of-the- art methods in web page classification. The proposed methods achieve approximately 92% accuracy while the baselines achieve approximately 87%. The proposed methods and the baselines are shown to be different using McNemar’s test at a significance level 0.05. The thesis also concludes that weighted average of logits could be preferable to weighted average of probabilities; weighted average of logits could be a more robust method, although more research is needed. / Givet den explosiva tillväxten av webbsidor på Internet under det senaste decenniet har automatisk klassificering och kategorisering av webbsidor vuxit till en viktig uppgift. Denna avhandling syftar till att utvärdera huruvida nya metoder för text- och bildanalys, som inte hade utvärderats för klassificering av webbsidor, skulle kunna prestera bättre än de senaste metoderna som har använts i området. Inom webbsideklassificering finns det inget dataset som används för jämförelser. För att göra jämförelser implementeras därför referensmodeller. De nya metoderna som implementerats är Bidirectional Encoder Representations from Transformers (BERT) för text och EfficientNet B4 för bilder. Den här avhandlingen syftar också till att utvärdera metoder för att kombinera kunskap från två modeller. Avhandlingen drar slutsatsen att de nya metoderna presterar bättre än de senaste metoderna inom klassificering av webbsidor. De nya metoderna uppnår cirka 92% noggrannhet medan referensmodellerna uppnår cirka 87%. De nya metoderna och referensmodellerna visar sig vara olika med hjälp av McNemars test med en signifikansnivå av 0.05. Avhandlingen drar också slutsatsen att det viktat genomsnitt av logits skulle kunna vara att föredra framför viktat genomsnitt av sannolikheter; viktat genomsnitt av logits skulle kunna vara en mer robust metod men måste undersökas mer.
|
Page generated in 0.0823 seconds