• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 20
  • 5
  • Tagged with
  • 25
  • 22
  • 22
  • 18
  • 18
  • 15
  • 15
  • 15
  • 14
  • 12
  • 12
  • 11
  • 8
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Methods for data and user efficient annotation for multi-label topic classification / Effektiva annoteringsmetoder för klassificering med multipla klasser

Miszkurka, Agnieszka January 2022 (has links)
Machine Learning models trained using supervised learning can achieve great results when a sufficient amount of labeled data is used. However, the annotation process is a costly and time-consuming task. There are many methods devised to make the annotation pipeline more user and data efficient. This thesis explores techniques from Active Learning, Zero-shot Learning, Data Augmentation domains as well as pre-annotation with revision in the context of multi-label classification. Active ’Learnings goal is to choose the most informative samples for labeling. As an Active Learning state-of-the-art technique Contrastive Active Learning was adapted to a multi-label case. Once there is some labeled data, we can augment samples to make the dataset more diverse. English-German-English Backtranslation was used to perform Data Augmentation. Zero-shot learning is a setup in which a Machine Learning model can make predictions for classes it was not trained to predict. Zero-shot via Textual Entailment was leveraged in this study and its usefulness for pre-annotation with revision was reported. The results on the Reviews of Electric Vehicle Charging Stations dataset show that it may be beneficial to use Active Learning and Data Augmentation in the annotation pipeline. Active Learning methods such as Contrastive Active Learning can identify samples belonging to the rarest classes while Data Augmentation via Backtranslation can improve performance especially when little training data is available. The results for Zero-shot Learning via Textual Entailment experiments show that this technique is not suitable for the production environment. / Klassificeringsmodeller som tränas med övervakad inlärning kan uppnå goda resultat när en tillräcklig mängd annoterad data används. Annoteringsprocessen är dock en kostsam och tidskrävande uppgift. Det finns många metoder utarbetade för att göra annoteringspipelinen mer användar- och dataeffektiv. Detta examensarbete utforskar tekniker från områdena Active Learning, Zero-shot Learning, Data Augmentation, samt pre-annotering, där annoterarens roll är att verifiera eller revidera en klass föreslagen av systemet. Målet med Active Learning är att välja de mest informativa datapunkterna för annotering. Contrastive Active Learning utökades till fallet där en datapunkt kan tillhöra flera klasser. Om det redan finns några annoterade data kan vi utöka datamängden med artificiella datapunkter, med syfte att göra datasetet mer mångsidigt. Engelsk-Tysk-Engelsk översättning användes för att konstruera sådana artificiella datapunkter. Zero-shot-inlärning är en teknik i vilken en maskininlärningsmodell kan göra förutsägelser för klasser som den inte var tränad att förutsäga. Zero-shot via Textual Entailment utnyttjades i denna studie för att utöka datamängden med artificiella datapunkter. Resultat från datamängden “Reviews of Electric Vehicle Charging ”Stations visar att det kan vara fördelaktigt att använda Active Learning och Data Augmentation i annoteringspipelinen. Active Learning-metoder som Contrastive Active Learning kan identifiera datapunkter som tillhör de mest sällsynta klasserna, medan Data Augmentation via Backtranslation kan förbättra klassificerarens prestanda, särskilt när få träningsdata finns tillgänglig. Resultaten för Zero-shot Learning visar att denna teknik inte är lämplig för en produktionsmiljö.
22

Evaluating Hybrid Neural Network Approaches to Multimodal Web Page Classification Based on Textual and Visual Features / Extrahering av Representationer och Ensembletekniker för Multimodal Klassifiering av Webbsidor. : Utvärdering av neurala nätverksmodeller och ensembletekniker för multimodal webbsideklassificering.

Ivarsson, Anton January 2021 (has links)
Given the explosive growth of web pages on the Internet in the last decade, automatic classification and categorization of web pages have grown into an important task. This thesis sets out to evaluate whether or not methods for text and image analysis, which had not been evaluated for web page classification, could improve on the state-of-the-art methods in web page classification. In web page classification, there is no dataset that is used for benchmarking. Therefore, in order to make comparisons, baseline models are implemented. The methods implemented are Bidirectional Encoder Representations from Transformers (BERT) for text and EfficientNet B4 for images. This thesis also sets out to evaluate methods for combining knowledge from two models. The thesis concludes that the proposed methods do improve on the state-of-the- art methods in web page classification. The proposed methods achieve approximately 92% accuracy while the baselines achieve approximately 87%. The proposed methods and the baselines are shown to be different using McNemar’s test at a significance level 0.05. The thesis also concludes that weighted average of logits could be preferable to weighted average of probabilities; weighted average of logits could be a more robust method, although more research is needed. / Givet den explosiva tillväxten av webbsidor på Internet under det senaste decenniet har automatisk klassificering och kategorisering av webbsidor vuxit till en viktig uppgift. Denna avhandling syftar till att utvärdera huruvida nya metoder för text- och bildanalys, som inte hade utvärderats för klassificering av webbsidor, skulle kunna prestera bättre än de senaste metoderna som har använts i området. Inom webbsideklassificering finns det inget dataset som används för jämförelser. För att göra jämförelser implementeras därför referensmodeller. De nya metoderna som implementerats är Bidirectional Encoder Representations from Transformers (BERT) för text och EfficientNet B4 för bilder. Den här avhandlingen syftar också till att utvärdera metoder för att kombinera kunskap från två modeller. Avhandlingen drar slutsatsen att de nya metoderna presterar bättre än de senaste metoderna inom klassificering av webbsidor. De nya metoderna uppnår cirka 92% noggrannhet medan referensmodellerna uppnår cirka 87%. De nya metoderna och referensmodellerna visar sig vara olika med hjälp av McNemars test med en signifikansnivå av 0.05. Avhandlingen drar också slutsatsen att det viktat genomsnitt av logits skulle kunna vara att föredra framför viktat genomsnitt av sannolikheter; viktat genomsnitt av logits skulle kunna vara en mer robust metod men måste undersökas mer.
23

Maskininlärning för dokumentklassificering av finansielladokument med fokus på fakturor / Machine Learning for Document Classification of FinancialDocuments with Focus on Invoices

Khalid Saeed, Nawar January 2022 (has links)
Automatiserad dokumentklassificering är en process eller metod som syftar till att bearbeta ochhantera dokument i digitala former. Många företag strävar efter en textklassificeringsmetodiksom kan lösa olika problem. Ett av dessa problem är att klassificera och organisera ett stort antaldokument baserat på en uppsättning av fördefinierade kategorier.Detta examensarbete syftar till att hjälpa Medius, vilket är ett företag som arbetar med fakturaarbetsflöde, att klassificera dokumenten som behandlas i deras fakturaarbetsflöde till fakturoroch icke-fakturor. Detta har åstadkommits genom att implementera och utvärdera olika klassificeringsmetoder för maskininlärning med avseende på deras noggrannhet och effektivitet för attklassificera finansiella dokument, där endast fakturor är av intresse.I denna avhandling har två dokumentrepresentationsmetoder "Term Frequency Inverse DocumentFrequency (TF-IDF) och Doc2Vec" använts för att representera dokumenten som vektorer. Representationen syftar till att minska komplexiteten i dokumenten och göra de lättare att hantera.Dessutom har tre klassificeringsmetoder använts för att automatisera dokumentklassificeringsprocessen för fakturor. Dessa metoder var Logistic Regression, Multinomial Naïve Bayes och SupportVector Machine.Resultaten från denna avhandling visade att alla klassificeringsmetoder som använde TF-IDF, föratt representera dokumenten som vektorer, gav goda resultat i from av prestanda och noggranhet.Noggrannheten för alla tre klassificeringsmetoderna var över 90%, vilket var kravet för att dennastudie skulle anses vara lyckad. Dessutom verkade Logistic Regression att ha det lättare att klassificera dokumenten jämfört med andra metoder. Ett test på riktiga data "dokument" som flödarin i Medius fakturaarbetsflöde visade att Logistic Regression lyckades att korrekt klassificeranästan 96% av dokumenten.Avslutningsvis, fastställdes Logistic Regression tillsammans med TF-IDF som de övergripandeoch mest lämpliga metoderna att klara av problmet om dokumentklassficering. Dessvärre, kundeDoc2Vec inte ge ett bra resultat p.g.a. datamängden inte var anpassad och tillräcklig för attmetoden skulle fungera bra. / Automated document classification is an essential technique that aims to process and managedocuments in digital forms. Many companies strive for a text classification methodology thatcan solve a plethora of problems. One of these problems is classifying and organizing a massiveamount of documents based on a set of predefined categories.This thesis aims to help Medius, a company that works with invoice workflow, to classify theirdocuments into invoices and non-invoices. This has been accomplished by implementing andevaluating various machine learning classification methods in terms of their accuracy and efficiencyfor the task of financial document classification, where only invoices are of interest. Furthermore,the necessary pre-processing steps for achieving good performance are considered when evaluatingthe mentioned classification methods.In this study, two document representation methods "Term Frequency Inverse Document Frequency (TF-IDF) and Doc2Vec" were used to represent the documents as fixed-length vectors.The representation aims to reduce the complexity of the documents and make them easier tohandle. In addition, three classification methods have been used to automate the document classification process for invoices. These methods were Logistic Regression, Multinomial Naïve Bayesand Support Vector Machine.The results from this thesis indicate that all classification methods used TF-IDF, to represent thedocuments as vectors, give high performance and accuracy. The accuracy of all three classificationmethods is over 90%, which is the prerequisite for the success of this study. Moreover, LogisticRegression appears to cope with this task very easily, since it classifies the documents moreefficiently compared to the other methods. A test of real data flowing into Medius’ invoiceworkflow shows that Logistic Regression is able to correctly classify up to 96% of the data.In conclusion, the Logistic Regression together with TF-IDF is determined to be the overall mostappropriate method out of the other tested methods. In addition, Doc2Vec suffers to providea good result because the data set is not customized and sufficient for the method to workwell.
24

Zero/Few-Shot Text Classification : A Study of Practical Aspects and Applications / Textklassificering med Zero/Few-Shot Learning : En Studie om Praktiska Aspekter och Applikationer

Åslund, Jacob January 2021 (has links)
SOTA language models have demonstrated remarkable capabilities in tackling NLP tasks they have not been explicitly trained on – given a few demonstrations of the task (few-shot learning), or even none at all (zero-shot learning). The purpose of this Master’s thesis has been to investigate practical aspects and potential applications of zero/few-shot learning in the context of text classification. This includes topics such as combined usage with active learning, automated data labeling, and interpretability. Two different methods for zero/few-shot learning have been investigated, and the results indicate that:  • Active learning can be used to marginally improve few-shot performance, but it seems to be mostly beneficial in settings with very few samples (e.g. less than 10). • Zero-shot learning can be used produce reasonable candidate labels for classes in a dataset, given knowledge of the classification task at hand.  • It is difficult to trust the predictions of zero-shot text classification without access to a validation dataset, but IML methods such as saliency maps could find usage in debugging zero-shot models. / Ledande språkmodeller har uppvisat anmärkningsvärda förmågor i att lösa NLP-problem de inte blivit explicit tränade på – givet några exempel av problemet (few-shot learning), eller till och med inga alls (zero-shot learning). Syftet med det här examensarbetet har varit att undersöka praktiska aspekter och potentiella tillämpningar av zero/few-shot learning inom kontext av textklassificering. Detta inkluderar kombinerad användning med aktiv inlärning, automatiserad datamärkning, och tolkningsbarhet. Två olika metoder för zero/few-shot learning har undersökts, och resultaten indikerar att: • Aktiv inlärning kan användas för att marginellt förbättra textklassificering med few-shot learning, men detta verkar vara mest fördelaktigt i situationer med väldigt få datapunkter (t.ex. mindre än 10). • Zero-shot learning kan användas för att hitta lämpliga etiketter för klasser i ett dataset, givet kunskap om klassifikationsuppgiften av intresse. • Det är svårt att lita på robustheten i textklassificering med zero-shot learning utan tillgång till valideringsdata, men metoder inom tolkningsbar maskininlärning såsom saliency maps skulle kunna användas för att felsöka zero-shot modeller.
25

AI Pinpoints Sustainability Priorities where Surveys Can’t : Towards Sustainable Public Procurement with Unsupervised Text Classification / AI hittar hållbarhetsprioriteringar där enkäter går bet : Mot hållbara offentliga upphandlingar med oövervakad textklassificering

Nordstrand, Mattias January 2024 (has links)
There are many sustainability issues related to products, services, and business processes. For example, the production, usage, and disposal of IT equipment all impact sustainability. Therefore, buying more sustainable IT equipment can make a difference. More sustainable IT equipment can be acquired by selecting IT equipment with sustainability certification, such as TCO Certified. TCO Certified makes sustainable purchasing easier, which is useful in public procurement. Public procurement is complex to guarantee objectivity and transparency. Transparency in public procurement also means many public procurement documents are available, which can be analyzed. We hypothesized that the sustainability focuses in these public procurement documents (what the text is about) reflect the sustainability priorities of professional buyers (in their minds, which is indirectly observable). With this link, we investigated differences in sustainability priorities by using a machine learning model for predicting sustainability focuses in public procurement documents. By using a large language model, we automatically extracted sustainability focuses in procurement documents from the e-procurement platform TED. Thereby, we measured the sustainability focus of countries all over the globe. Through interviews with experts, we saw several indications that the used method is a good way of pinpointing sustainability priorities. We provide maps of sustainability focuses around the world (in section 4.12). Moreover, we analyze the results in-depth. One interesting finding includes indications that countries generally do not prioritize an issue more if the issue is of a larger concern. Counterintuitively, countries prioritize an issue more if the issue is of lesser concern. One example of this is circularity focus, which we note is generally less in countries with worse waste management. To our knowledge, analyzing sustainability focuses in procurement documents has not been done on this scale before. We believe these novel results can lead the way for a better understanding of sustainability priorities around the world. / Det finns många hållbarhetsproblem relaterade till produkter, tjänster och affärsprocesser. Till exempel finns det en hållbarhetspåverkan i produktion, användning och avfallshantering av IT-utrustning. Inköp av hållbarare IT-utrustning kan därför göra skillnad. Mer hållbar IT-utrustning kan erhållas genom att välja hållbarhetscertifierad IT-utrustning som exempelvis TCO Certified. TCO Certified gör hållbara inköp enklare och är särskilt användbart inom offentlig upphandling. Offentlig upphandling är komplext i objektivitet- och transparenssyfte. Transparens inom offentlig upphandling innebär också att många offentliga upphandlingsdokument finns tillgängliga och kan analyseras. Vi antog att hållbarhetsfokusen inuti dessa offentliga upphandlings-dokument (vad texten handlar om) hänger ihop med de professionella inköparnas hållbarhetsprioriteringar (deras tankar/känslor/intressen). Med denna länk undersökte vi skillnader i hållbarhetsprioriteringar genom att använda en maskininlärningsmodell för att uppskatta hållbarhetsfokus i offentliga upphandlingsdokument. Med en storskalig språkmodell extraherade vi automatiskt hållbarhetsfokus i dokument från Tenders Electronics Daily. Därigenom mätte vi hållbarhetsfokus för länder över hela världen. Genom intervjuer med experter såg vi flera indikationer på att den använda metoden är ett bra sätt att uppskatta hållbarhetsprioriteringar på. Vi presenterar kartor över hållbarhetsfokus runt om i världen (i avsnitt 4.12). Dessutom analyserar vi resultaten på djupet. En intressant upptäckt är att länder generellt inte prioriterar ett problem mer om problemet är allvarligare i det landet utan snarare tvärtom. Länder prioriterar ett problem mer om problemet är av lägre allvarlighetsgrad i det landet. Till exempel ser vi att cirkularitetsfokuset i offentliga upphandlingar är mindre i länder med sämre avfallshantering. Att analysera hållbarhetsfokus i upphandlingsdokument har inte tidigare gjorts på denna skala såvitt vi känner till. Vi tror våra resultat kan bidra till en bättre förståelse av hållbarhetsprioriteringar runt om i världen.

Page generated in 0.0749 seconds