91 |
Investigating Performance of Different Models at Short Text Topic Modelling / En jämförelse av textrepresentationsmodellers prestanda tillämpade för ämnesinnehåll i korta texterAkinepally, Pratima Rao January 2020 (has links)
The key objective of this project was to quantitatively and qualitatively assess the performance of a sentence embedding model, Universal Sentence Encoder (USE), and a word embedding model, word2vec, at the task of topic modelling. The first step in the process was data collection. The data used for the project was podcast descriptions available at Spotify, and the topics associated with them. Following this, the data was used to generate description vectors and topic vectors using the embedding models, which were then used to assign topics to descriptions. The results from this study led to the conclusion that embedding models are well suited to this task, and that overall the USE outperforms the word2vec models. / Det huvudsakliga syftet med det i denna uppsats rapporterade projektet är att kvantitativt och kvalitativt utvärdera och jämföra hur väl Universal Sentence Encoder USE, ett semantiskt vektorrum för meningar, och word2vec, ett semantiskt vektorrum för ord, fungerar för att modellera ämnesinnehåll i text. Projektet har som träningsdata använt skriftliga sammanfattningar och ämnesetiketter för podd-episoder som gjorts tillgängliga av Spotify. De skriftliga sammanfattningarna har använts för att generera både vektorer för de enskilda podd-episoderna och för de ämnen de behandlar. De båda ansatsernas vektorer har sedan utvärderats genom att de använts för att tilldela ämnen till beskrivningar ur en testmängd. Resultaten har sedan jämförts och leder både till den allmänna slutsatsen att semantiska vektorrum är väl lämpade för den här sortens uppgifter, och att USE totalt sett överträffar word2vec-modellerna.
|
92 |
Explainable Antibiotics Prescriptions in NLP with Transformer ModelsContreras Zaragoza, Omar Emilio January 2021 (has links)
The overprescription of antibiotics has resulted in bacteria resistance, which is considered a global threat to global health. Deciding if antibiotics should be prescribed or not from individual visits of patients’ medical records in Swedish can be considered a text classification task, one of the applications of Natural Language Processing (NLP). However, medical experts and patients can not trust a model if explanations for its decision are not provided. In this work, multilingual and monolingual Transformer models are evaluated for the medical classification task. Furthermore, local explanations are obtained with SHapley Additive exPlanations and Integrated Gradients to compare the models’ predictions and evaluate the explainability methods. Finally, the local explanations are also aggregated to obtain global explanations and understand the features that contributed the most to the prediction of each class. / Felaktig utskrivning av antibiotika har resulterat i ökad antibiotikaresistens, vilket anses vara ett globalt hot mot global hälsa. Att avgöra om antibiotika ska ordineras eller inte från patientjournaler på svenska kan betraktas som ett textklassificeringproblem, en av tillämpningarna av Natural Language Processing (NLP). Men medicinska experter och patienter kan inte lita på en modell om förklaringar till modellens beslut inte ges. I detta arbete utvärderades flerspråkiga och enspråkiga Transformersmodeller för medisinska textklassificeringproblemet. Dessutom erhölls lokala förklaringar med SHapley Additive exPlanations och Integrated gradients för att jämföra modellernas förutsägelser och utvärdera metodernas förklarbarhet. Slutligen aggregerades de lokala förklaringarna för att få globala förklaringar och förstå de ord som bidrog mest till modellens förutsägelse för varje klass.
|
93 |
Сегментация сигналов электрокардиограмм в задаче неконтролируемого построения словаря волн : магистерская диссертация / Segmentation of electrocardiogram signals in the problem of unsupervised construction of a wave dictionaryЛебедев, А. П., Lebedev, A. P. January 2023 (has links)
В данной магистерской работе мы исследуем возможности построения словаря волн биомедицинских сигналов электрокардиограммы, который в дальнейшем позволит применять методы NLP для обработки временных рядов биомедицинских сигналов. В частности, мы сосредоточимся на анализе структуры пиков и интервалов электрокардиограммы здоровых и больных аритмией и другими заболеваниями людей, средствами языка python и автоматизации этого процесса для извлечения значимой информации из биомедицинских временных рядов ЭКГ. Наша конечная цель – улучшение точности и эффективности обработки и анализа биомедицинских сигналов, что имеет важное значение как для клинической диагностики, так и для научных исследований. Решение этой задачи имеет большое практическое значение для различных областей, таких как медицина, биология и фармакология, где обработка и анализ временных рядов играют важную роль. / In this master's thesis, we are exploring the possibility of constructing a dictionary of waves of biomedical electrocardiogram signals, which in the future will allow the use of NLP methods for processing time series of biomedical signals. In particular, we will focus on analyzing the structure of peaks and intervals of the electrocardiogram of healthy people and patients with arrhythmia and other diseases, using the Python language and automating this process to extract meaningful information from biomedical ECG time series. Our ultimate goal is to improve the accuracy and efficiency of biomedical signal processing and analysis, which is important for both clinical diagnostics and scientific research. The solution to this problem is of great practical importance for various fields, such as medicine, biology and pharmacology, where processing and analysis of time series play an important role.
|
94 |
Comparison of Machine Learning Models Used for Swedish Text Classification in Chat MessagingKarim, Mezbahul, Amanzadi, Amirtaha January 2022 (has links)
The rise of social media and the use of mobile applications has led to increasing concerns regarding the content that is shared through these apps and whether they are being regulated or not. One of the problems that can arise due to a lack of regulation is that chat messages that are inappropriate or of profane nature can be allowed to be shared through these apps. Thus, it is vital to detect whenever these types of chat messages are shared through these mobile applications. In addition to that, there should also be detection of chat messages that can lead to the identity of the users being revealed as that is how the app in this thesis project was intended to be used. One of the most popular approaches to detect chat messages of this nature is to use machine learning techniques that can classify text. We were quick to discover that there were not many machine learning models that were built to classify short text messages in the Swedish language, thus the main problem of our thesis was the lack of evaluation and analysis of machine learning models for text classification in the context of the chat messages in Swedish. Thus, the purpose of our project was mainly to find the best performing models for text classification, implement these models and evaluate them to find the best among the ones we found. After the models were created, a hosting server, as well as an API, was required for the text classifying system to compute and communicate the prediction results to the mobile application in real-time. Therefore, the models were containerized and deployed as a REST API that serves requests upon arrival on a cloud server. The goal of this project was to help future work being done on text classification in the Swedish language by providing the results of this thesis to any parties that are interested in our line of work. From our own experience, we realized how challenging it can be to find and choose the best machine learning models when one has no previous data on which can be the best performing one. Thus, we believe that the results of this thesis project will greatly aid future projects in this area. The chosen research methodology was qualitative and dealt with quantitative data. The results we received showed that the BERT model was the best choice among the three models that we compared. With minute adjustments, this model should be more than capable of detecting the type of chat messages that it is required within the mobile application. / Uppkomsten av social media och användning av mobilapplikationer ledde till ökande oro om innehållet som är delad inom dessa appar och om dem är reglerad eller inte. Ett problem som uppstår på grund av bristande reglering kan vara att chatmeddelanden som är olämplig eller profan kan bli delad med dessa appar. Därför är det viktig att upptäcka när dessa typer av chatmeddelande är delad genom mobilapplikationer. Dessutom det måste finnas ett system som upptäcker chattmeddelanden som kan hjälpa att avslöja användarens identiteter, som den här appen i detta projekt avsedda att användas. En av mest populära sett att upptäcka den typen av chattmeddelanden är användning av mäskinlärning tekniker som kan klassificera text. Vi snart hittade att det finns inte så många mäskinlärning modeller som var byggt att klassificera texter på svenska, alltså huvudproblem med vår exam en var bistrande utvärdering och analys av mäskinlärning modeller för textklassificering i kontext av svenska språket. Så, syftet med vårt projekt var att hitta de bästa presenterande modeller för textklassifikation, genomföra dessa modeller själva och sedan utvärdera dem att hitta den bästa. Därtill, för att textklassificering ska beräkna och kommunicera den förutsägelseresultaten till mobila applikationer i realtid behövs en värdserver samt en API. Därför, modellerna containeriserades och distribuerad es som en REST API som betjänar begäran vid ankomst på en molnserver. Målet med det här projektet var att hjälpa framtidsarbete inom textklassifikation på svenska språket genom att tillhandahålla resultaten till partier som är intresserad i vår arbetslin je. Från vår egen erfarenhet, vi insåg att det var svårt att hitta och välja dem bästa mäskinlärning modeller, specifikt när man har inga data som tidigare visat den med bäst prestanda. Och därför vi anser att den resultaten av den har examen kommer att v ara stor hjälp till framtida projekt i det här området. Den valda forskningsmetodiken var kvalitativ och handlade om kvantitativ data. Resultaten visade att BERT modell var den bästa bland de tre modellerna som vi jämförde med. Med lite justeringen är mod ellen mer än kapable att detektera den typen av krävs inom mobilapplikationen.
|
95 |
Primary stage Lung Cancer Prediction with Natural Language Processing-based Machine Learning / Tidig lungcancerprediktering genom maskininlärning för textbehandlingSadek, Ahmad January 2022 (has links)
Early detection reduces mortality in lung cancer, but it is also considered as a challenge for oncologists and for healthcare systems. In addition, screening modalities like CT-scans come with undesired effects, many suspected patients are wrongly diagnosed with lung cancer. This thesis contributes to solve the challenge of early lung cancer detection by utilizing unique data consisting of self-reported symptoms. The proposed method is a predictive machine learning algorithm based on natural language processing, which handles the data as an unstructured data set. A replication of a previous study where a prediction model based on a conventional multivariate machine learning using the same data is done and presented, for comparison. After evaluation, validation and interpretation, a set of variables were highlighted as early predictors of lung cancer. The performance of the proposed approach managed to match the performance of the conventional approach. This promising result opens for further development where such an approach can be used in clinical decision support systems. Future work could then involve other modalities, in a multimodal machine learning approach. / Tidig lungcancerdiagnostisering kan öka chanserna för överlevnad hos lungcancerpatienter, men att upptäcka lungcancer i ett tidigt stadie är en av de större utmaningarna för onkologer och sjukvården. Idag undersöks patienter med riskfaktorer baserat på rökning och ålder, dessa undersökningar sker med hjälp av bland annat medicinskt avbildningssystem, då oftast CT-bilder, vilket medför felaktiga och kostsamma diagnoser. Detta arbete föreslår en maskininlärninig algoritm baserad på Natural language processing, som genom analys och bearbetning av ostrukturerade data, av patienternas egna anamneser, kan prediktera lungcancer. Arbetet har genomfört en jämförelse med en konventionell maskininlärning algoritm baserat på en replikering av ett annat studie där samma data behandlades som strukturerad. Den föreslagna metoden har visat ett likartat resultat samt prestanda, och har identifierat riskfaktorer samt symptom för lungcancer. Detta arbete öppnar upp för en utveckling mot ett kliniskt användande i form av beslutsstödsystem, som även kan hantera elektriska hälsojournaler. Andra arbeten kan vidareutveckla metoden för att hantera andra varianter av data, så som medicinska bilder och biomarkörer, och genom det förbättra prestandan.
|
96 |
Period Drama : Punctuation restoration in Swedish through fine- tuned KB-BERT / Dags att sätta punkt : Återställning av skiljetecken genom finjusterad KB-BERTSinderwing, John January 2021 (has links)
Presented here is a method for automatic punctuation restoration in Swedish using a BERT model. The method is based on KB-BERT, a publicly available, neural network language model pre-trained on a Swedish corpus by National Library of Sweden. This model has then been fine-tuned for this specific task using a corpus of government texts. With a lower-case and unpunctuated Swedish text as input, the model is supposed to return a grammatically correct punctuated copy of the text as output. A successful solution to this problem brings benefits for an array of NLP domains, such as speech-to-text and automated text. Only the punctuation marks period, comma and question marks were considered for the project, due to a lack of data for more rare marks such as semicolon. Additionally, some marks are somewhat interchangeable with the more common, such as exclamation points and periods. Thus, the data set had all exclamation points replaced with periods. The fine-tuned Swedish BERT model, dubbed prestoBERT, achieved an overall F1-score of 78.9. The proposed model scored similarly to international counterparts, with Hungarian and Chinese models obtaining F1-scores of 82.2 and 75.6 respectively. As further comparison, a human evaluation case study was carried out. The human test group achieved an overall F1-score of 81.7, but scored substantially worse than prestoBERT on both period and comma. Inspecting output sentences from the model and humans show satisfactory results, despite the difference in F1-score. The disconnect seems to stem from an unnecessary focus on replicating the exact same punctuation used in the test set, rather than providing any of the number of correct interpretations. If the loss function could be rewritten to reward all grammatically correct outputs, rather than only the one original example, the performance could improve significantly for both prestoBERT and the human group. / Här presenteras en metod för automatisk återinföring av skiljetecken på svenska med hjälp av ett neuralt nätverk i formen av en BERT-modell. Metoden bygger på KB-BERT, en allmänt tillgänglig språkmodell, tränad på ett svensk korpus, av Kungliga Biblioteket. Denna modell har sedan finjusterats för den här specifika uppgiften med hjälp av ett korpus av offentliga texter från landsting och dylikt. Med svensk text utan versaler och skiljetecken som inmatning, ska modellen returnera en kopia av texten där korrekta skiljetecken har placerats ut på rätta platser. En framgångsrik modell ger fördelar för en rad domäner inom neurolingvistisk programmering, såsom tal- till- texttranskription och automatiserad textgenerering. Endast skiljetecknen punkt, kommatecken och frågetecken tas i beaktande i projektet på grund av en brist på data för de mer sällsynta skiljetecknen såsom semikolon. Dessutom är vissa skiljetecken någorlunda utbytbara mot de vanligaste tre, såsom utropstecken mot punkt. Således har datasetets alla utropstecken ersatts med punkter. Den finjusterade svenska BERT-modellen, kallad prestoBERT, fick en övergripande F1-poäng på 78,9. De internationella motsvarande modellerna för ungerska och kinesiska fick en övergripande F1-poäng på 82,2 respektive 75,6. Det tyder på att prestoBERT är på en liknande nivå som toppmoderna motsvarigheter. Som ytterligare jämförelse genomfördes en fallstudie med mänsklig utvärdering. Testgruppen uppnådde en övergripande F1-poäng på 81,7, men presterade betydligt sämre än prestoBERT på både punkt och kommatecken. Inspektion av utdata från modellen och människorna visar tillfredsställande resultat från båda, trots skillnaden i F1-poäng. Skillnaden verkar härstamma från ett onödigt fokus på att replikera exakt samma skiljetecken som används i indatan, snarare än att återge någon av de många korrekta tolkningar som ofta finns. Om loss-funktionen kunde skrivas om för att belöna all grammatiskt korrekt utdata, snarare än bara originalexemplet, skulle prestandan kunna förbättras avsevärt för både prestoBERT såväl som den mänskliga gruppen.
|
97 |
Automation of summarization evaluation methods and their application to the summarization processNahnsen, Thade January 2011 (has links)
Summarization is the process of creating a more compact textual representation of a document or a collection of documents. In view of the vast increase in electronically available information sources in the last decade, filters such as automatically generated summaries are becoming ever more important to facilitate the efficient acquisition and use of required information. Different methods using natural language processing (NLP) techniques are being used to this end. One of the shallowest approaches is the clustering of available documents and the representation of the resulting clusters by one of the documents; an example of this approach is the Google News website. It is also possible to augment the clustering of documents with a summarization process, which would result in a more balanced representation of the information in the cluster, NewsBlaster being an example. However, while some systems are already available on the web, summarization is still considered a difficult problem in the NLP community. One of the major problems hampering the development of proficient summarization systems is the evaluation of the (true) quality of system-generated summaries. This is exemplified by the fact that the current state-of-the-art evaluation method to assess the information content of summaries, the Pyramid evaluation scheme, is a manual procedure. In this light, this thesis has three main objectives. 1. The development of a fully automated evaluation method. The proposed scheme is rooted in the ideas underlying the Pyramid evaluation scheme and makes use of deep syntactic information and lexical semantics. Its performance improves notably on previous automated evaluation methods. 2. The development of an automatic summarization system which draws on the conceptual idea of the Pyramid evaluation scheme and the techniques developed for the proposed evaluation system. The approach features the algorithm for determining the pyramid and bases importance on the number of occurrences of the variable-sized contributors of the pyramid as opposed to word-based methods exploited elsewhere. 3. The development of a text coherence component that can be used for obtaining the best ordering of the sentences in a summary.
|
98 |
Computational treatment of superlativesScheible, Silke January 2009 (has links)
The use of gradable adjectives and adverbs represents an important means of expressing comparison in English. The grammatical forms of comparatives and superlatives are used to express explicit orderings between objects with respect to the degree to which they possess some gradable property. While comparatives are commonly used to compare two entities (e.g., “The blue whale is larger than an African elephant”), superlatives such as “The blue whale is the largest mammal” are used to express a comparison between a target entity (here, the blue whale) and its comparison set (the set of mammals), with the target ranked higher or lower on a scale of comparison than members of the comparison set. Superlatives thus highlight the uniqueness of the target with respect to its comparison set. Although superlatives are frequently found in natural language, with the exception of recent work by (Bos and Nissim, 2006) and (Jindal and Liu, 2006b), they have not yet been investigated within a computational framework. And within the framework of theoretical linguistics, studies of superlatives have mainly focused on semantic properties that may only rarely occur in natural language (Szabolsci (1986), Heim (1999)). My PhD research aims to pave the way for a comprehensive computational treatment of superlatives. The initial question I am addressing is that of automatically extracting useful information about the target entity, its comparison set and their relationship from superlative constructions. One of the central claims of the thesis is that no unified computational treatment of superlatives is possible because of their great semantic complexity and the variety of syntactic structures in which they occur. I propose a classification of superlative surface forms, and initially focus on so-called “ISA superlatives”, which make explicit the IS-A relation that holds between target and comparison set. They are suitable for a computational approach because both their target and comparison set are usually explicitly realised in the text. I also aim to show that the findings of this thesis are of potential benefit for NLP applications such as Question Answering, Natural Language Generation, Ontology Learning, and Sentiment Analysis/Opinion Mining. In particular, I investigate the use of the “Superlative Relation Extractor“ implemented in this project in the area of Sentiment Analysis/Opinion Mining, and claim that a superlative analysis of the sort presented in this thesis, when applied to product evaluations and recommendations, can provide just the kind of information that Opinion Mining aims to identify.
|
99 |
Détection d'évènements à partir de TwitterDridi, Houssem Eddine 10 1900 (has links)
Nous proposons dans cette thèse un système permettant de déterminer, à partir des données envoyées sur les microblogs, les évènements qui stimulent l’intérêt des utilisateurs durant une période donnée et les dates saillantes de chaque évènement.
Étant donné son taux d’utilisation élevé et l’accessibilité de ses données, nous avons utilisé la plateforme Twitter comme source de nos données. Nous traitons dans ce travail les tweets portant sur la Tunisie dont la plupart sont écrits par des tunisiens.
La première tâche de notre système consistait à extraire automatiquement les tweets d’une façon continue durant 67 jours (de 8 février au 15 avril 2012).
Nous avons supposé qu’un évènement est représenté par plusieurs termes dont la fréquence augmente brusquement à un ou plusieurs moments durant la période analysée. Le manque des ressources nécessaires pour déterminer les termes (notamment les hashtags) portant sur un même sujet, nous a obligé à proposer des méthodes permettant de regrouper les termes similaires. Pour ce faire, nous avons eu recours à des méthodes phonétiques que nous avons adaptées au mode d’écriture utilisée par les tunisiens, ainsi que des méthodes statistiques. Pour déterminer la validité de nos méthodes, nous avons demandé à des experts, des locuteurs natifs du dialecte tunisien, d’évaluer les résultats retournés par nos méthodes. Ces groupes ont été utilisés pour déterminer le sujet de chaque tweet et/ou étendre les tweets par de nouveaux termes.
Enfin, pour sélectionner l'ensemble des évènements (EV), nous nous sommes basés sur trois critères : fréquence, variation et TF-IDF. Les résultats que nous avons obtenus ont montré la robustesse de notre système. / In this thesis, we propose a method to highlight users’ concerns from a set of Twitter messages. In particular, we focus on major events that stimulate the user’s interest within a given period. Given its rate of use and accessibility of data, we used Twitter as a source of our data. In this work, we use tweets related to Tunisia, most of them being written by Tunisians.
The first task of our system was to continuously extract tweets during 67 days (from February 8th to April 15th, 2012).
We assumed that an event is represented by several terms whose frequency sharply increases one or more times during the analyzed period. Due to the lack of resources that allow determining the terms (including hashtags) referring to the same topic, we propose methods that help grouping similar terms. To do this, we used phonetic methods adapted to the way Tunisians write and statistical methods. To determine the validity of our methods, we asked the experts, who are native speakers of the Tunisian dialect, to evaluate the results returned by our methods. These clusters are used to determine the subject of each tweet and/or expand the tweets by new terms.
Finally, to select the set of events (EV), we relied on three criteria: frequency, variation and TF-IDF. The results that we obtained show the robustness of our system.
|
100 |
Exploration des réseaux de neurones à base d'autoencodeur dans le cadre de la modélisation des données textuellesLauly, Stanislas January 2016 (has links)
Depuis le milieu des années 2000, une nouvelle approche en apprentissage automatique, l'apprentissage de réseaux profonds (deep learning), gagne en popularité. En effet, cette approche a démontré son efficacité pour résoudre divers problèmes en améliorant les résultats obtenus par d'autres techniques qui étaient considérées alors comme étant l'état de l'art. C'est le cas pour le domaine de la reconnaissance d'objets ainsi que pour la reconnaissance de la parole. Sachant cela, l’utilisation des réseaux profonds dans le domaine du Traitement Automatique du Langage Naturel (TALN, Natural Language Processing) est donc une étape logique à suivre. Cette thèse explore différentes structures de réseaux de neurones dans le but de modéliser le texte écrit, se concentrant sur des modèles simples, puissants et rapides à entraîner.
|
Page generated in 0.056 seconds