• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 132
  • 5
  • 4
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 155
  • 90
  • 78
  • 67
  • 65
  • 48
  • 46
  • 46
  • 46
  • 45
  • 44
  • 44
  • 44
  • 41
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Explainability Methods for Transformer-based Artificial Neural Networks: : a Comparative Analysis / Förklaringsmetoder för Transformer-baserade artificiella neurala nätverk : en jämförande analys

Remmer, Eliott January 2022 (has links)
The increasing complexity of Artificial Intelligence (AI) models is accompanied by an increase in difficulty in interpreting model predictions. This thesis work provides insights and understanding of the differences and similarities between explainability methods for AI models. Opening up black-box models is important, especially if AI is applied in sensitive domains such as to, e.g., aid medical professionals. In recent years, the use of Transformer-based artificial neural network architectures such as Bidirectional Encoder Representations from Transformers (BERT) has become common in the field of Natural Language Processing (NLP), showing human-level performance on tasks such as sentiment classification and question answering. In addition, a growing portion of research within eXplainable AI (XAI) has shown success in using explainability methods to output auxiliary explanations at inference time together with predictions made by these complex models. When scoping the different methods, there is a distinction to be made whether the explanations emerge as part of the prediction process or subsequently via a separate model. These two categories of explainability methods are referred to as self-explaining and post-hoc, respectively. The goal of this work is to evaluate, analyze and compare these two categories of methods for assisting BERT models with explanations in the context of sentiment classification. A comparative analysis was therefore conducted in order to investigate quantitative and qualitative differences. To measure the quality of explanations, the Intersection Over Union (IOU) and Precision-Recall Area Under the Curve (PR-AUC) scores were used together with Explainable NLP (ExNLP) datasets, containing human annotated explanations. Apart from discussing benefits, drawbacks and assumptions of the different methods, results of the work indicated that the self-explaining method proved more successful in some instances while the post-hoc method performed better in others. Given the subjective nature of explanation quality, however, this work should be extended in several proposed directions, in order to fully capture the nuances of the explainability methods. / Parallellt med den ökande komplexiteten hos modeller med artificiell intelligens (AI) följer en ökad svårighet att tolka förutsägelser som modellerna gör. Detta examensarbete fokuserar på skillnader och likheter mellan förklaringsmetoder för AI-modeller. Att skapa mer transparens kring modellerna är viktigt, speciellt om AI ska appliceras i känsliga områden som t.ex. inom hälso- och sjukvård. Under de senaste åren har användningen av Transformer-baserade artificiella neurala nätverk som Bidirectional Encoder Representations from Transformers (BERT) blivit vanligt inom Natural Language Processing (NLP). Resultaten som modellerna når på uppgifter såsom sentimentklassificering och svar på frågor är på en mänsklig nivå. En växande del av forskningen inom eXplainable AI (XAI) har dessutom kunnat visa stora framsteg inom användandet av förklaringsmetoder, för att bistå förutsägelserna som dessa komplexa modeller gör med förklaringar. I kategoriseringar av metoderna särskiljs det ofta mellan huruvida förklaringarna uppstår som en del av förutsägelsen, tillsammans med modellen eller om de skapas efteråt via en separat modell. Dessa två kategorier av förklaringsmetoder kallas självförklarande och post-hoc. Målet med detta arbete är att utvärdera, analysera och jämföra dessa två kategorier av metoder som används för att hjälpa BERT-modeller med förklaringar i samband med sentimentklassificering av text. En jämförande analys genomfördes därför för att undersöka kvantitativa och kvalitativa skillnader. För att mäta kvaliteten på förklaringar användes Intersection Over Union (IOU) och Precision-Recall Area Under the Curve (PR-AUC) tillsammans med dataset skräddarsydda för just Explainable NLP (ExNLP) innehållande mänskligt annoterade förklaringar. Förutom att diskutera fördelar, nackdelar och antaganden med de olika metoderna, pekade resultaten på att den självförklarande metoden presterade bättre i vissa fall medan post-hoc-metoden presterade bättre i andra. Med tanke på hur kvaliteten av förklaringar till stor del handlar om en subjektiv bedömning bör dock detta arbete utvidgas i flera riktningar – föreslagna i detta arbete – för att fånga alla nyanser av förklaringsmetoderna.
42

Classification of Transcribed Voice Recordings : Determining the Claim Type of Recordings Submitted by Swedish Insurance Clients / Klassificering av Transkriberade Röstinspelningar

Piehl, Carl January 2021 (has links)
In this thesis, we investigate the problem of building a text classifier for transcribed voice recordings submitted by insurance clients. We compare different models in the context of two tasks. The first is a binary classification problem, where the models are tasked with determining if a transcript belongs to a particular type or not. The second is a multiclass problem, where the models have to choose between several types when labelling transcripts, resulting in a data set with a highly imbalanced class distribution. We evaluate four different models: pretrained BERT and three LSTMs with different word embeddings. The used word embeddings are ELMo, word2vec and a baseline model with randomly initialized embedding layer. In the binary task, we are more concerned with false positives than false negatives. Thus, we also use weighted cross entropy loss to achieve high precision for the positive class, while sacrificing recall. In the multiclass task, we use focal loss and weighted cross entropy loss to reduce bias toward majority classes. We find that BERT outperforms the other models and the baseline model is worst across both tasks. The difference in performance is greatest in the multiclass task on classes with fewer samples. This demonstrates the benefit of using large language models in data constrained scenarios. In the binary task, we find that weighted cross entropy loss provides a simple, yet effective, framework for conditioning the model to favor certain types of errors. In the multiclass task, both focal loss and weighted cross entropy loss are shown to reduce bias toward majority classes. However, we also find that BERT fine tuned with regular cross entropy loss does not show bias toward majority classes, having high recall across all classes. / I examensarbetet undersöks klassificering av transkriberade röstinspelningar från försäkringskunder. Flera modeller jämförs på två uppgifter. Den första är binär klassificering, där modellerna ska särskilja på inspelningar som tillhör en specifik klass av ärende från resterande inspelningar. I det andra inkluderas flera olika klasser som modellerna ska välja mellan när inspelningar klassificeras, vilket leder till en ojämn klassfördelning. Fyra modeller jämförs: förtränad BERT och tre LSTM-nätverk med olika varianter av förtränade inbäddningar. De inbäddningar som används är ELMo, word2vec och en basmodell som har inbäddningar som inte förtränats. I det binära klassificeringsproblemet ligger fokus på att minimera antalet falskt positiva klassificeringar, därför används viktad korsentropi. Utöver detta används även fokal förlustfunktion när flera klasser inkluderas, för att minska partiskhet mot majoritetsklasser. Resultaten indikerar att BERT är en starkare modell än de andra modellerna i båda uppgifterna. Skillnaden mellan modellerna är tydligast när flera klasser används, speciellt på de klasser som är underrepresenterade. Detta visar på fördelen av att använda stora, förtränade, modeller när mängden data är begränsad. I det binära klassificeringsproblemet ser vi även att en viktad förlustfunktion ger ett enkelt men effektivt sätt att reglera vilken typ av fel modellen ska vara partisk mot. När flera klasser inkluderas ser vi att viktad korsentropi, samt fokal förlustfunktion, kan bidra till att minska partiskhet mot överrepresenterade klasser. Detta var dock inte fallet för BERT, som visade bra resultat på minoritetsklasser även utan att modifiera förlustfunktionen.
43

Active Learning for Named Entity Recognition with Swedish Language Models / Aktiv Inlärning för Namnigenkänning med Svenska Språkmodeller

Öhman, Joey January 2021 (has links)
The recent advancements of Natural Language Processing have cleared the path for many new applications. This is primarily a consequence of the transformer model and the transfer-learning capabilities provided by models like BERT. However, task-specific labeled data is required to fine-tune these models. To alleviate the expensive process of labeling data, Active Learning (AL) aims to maximize the information gained from each label. By including a model in the annotation process, the informativeness of each unlabeled sample can be estimated and hence allow human annotators to focus on vital samples and avoid redundancy. This thesis investigates to what extent AL can accelerate model training with respect to the number of labels required. In particular, the focus is on pre- trained Swedish language models in the context of Named Entity Recognition. The data annotation process is simulated using existing labeled datasets to evaluate multiple AL strategies. Experiments are evaluated by analyzing the F1 score achieved by models trained on the data selected by each strategy. The results show that AL can significantly accelerate the model training and hence reduce the manual annotation effort. The state-of-the-art strategy for sentence classification, ALPS, shows no sign of accelerating the model training. However, uncertainty-based strategies consistently outperform random selection. Under certain conditions, these strategies can reduce the number of labels required by more than a factor of two. / Framstegen som nyligen har gjorts inom naturlig språkbehandling har möjliggjort många nya applikationer. Det är mestadels till följd av transformer-modellerna och lärandeöverföringsmöjligheterna som kommer med modeller som BERT. Däremot behövs det fortfarande uppgiftsspecifik annoterad data för att finjustera dessa modeller. För att lindra den dyra processen att annotera data, strävar aktiv inlärning efter att maximera informationen som utvinns i varje annotering. Genom att inkludera modellen i annoteringsprocessen, kan man estimera hur informationsrikt varje träningsexempel är, och på så sätt låta mänskilga annoterare fokusera på viktiga datapunkter. Detta examensarbete utforskar hur väl aktiv inlärning kan accelerera modellträningen med avseende på hur många annoterade träningsexempel som behövs. Fokus ligger på förtränade svenska språkmodeller och uppgiften namnigenkänning. Dataannoteringsprocessen simuleras med färdigannoterade dataset för att evaluera flera olika strategier för aktiv inlärning. Experimenten evalueras genom att analysera den uppnådda F1-poängen av modeller som är tränade på datapunkterna som varje strategi har valt. Resultaten visar att aktiv inlärning har en signifikant förmåga att accelerera modellträningen och reducera de manuella annoteringskostnaderna. Den toppmoderna strategin för meningsklassificering, ALPS, visar inget tecken på att kunna accelerera modellträningen. Däremot är osäkerhetsbaserade strategier är konsekvent bättre än att slumpmässigt välja datapunkter. I vissa förhållanden kan dessa strategier reducera antalet annoteringar med mer än en faktor 2.
44

Bootstrapping Annotated Job Ads using Named Entity Recognition and Swedish Language Models / Identifiering av namngivna enheter i jobbannonser genom användning av semi-övervakade tekniker och svenska språkmodeller

Nyqvist, Anna January 2021 (has links)
Named entity recognition (NER) is a task that concerns detecting and categorising certain information in text. A promising approach for NER that recently has emerged is fine-tuning Transformer-based language models for this specific task. However, these models may require a relatively large quantity of labelled data to perform well. This can limit NER models applicability in real-world applications as manual annotation often is costly and time-consuming. In this thesis, we investigate the learning curve of human annotation and of a NER model during a semi-supervised bootstrapping process. Special emphasis is given the dependence of the number of classes and the amount of training data used in the process. We first annotate a set of collected job advertisements and then apply bootstrapping using both annotated and unannotated data and continuously fine-tune a pre-trained Swedish BERT model. The initial class system is simplified during the bootstrapping process according to model performance and inter-annotator agreement. The model performance increased as the training set grew larger with a final micro F1-score of 54%. This result provides a good baseline, and we point out several improvements that can be made to further enhance performance. We further identify classes handled differently by the annotators and potential factors as to why this is. Suggestions for future work include adjusting the current class system further by removing classes that were identified as low-performing in this thesis. / Namngiven entitetsigenkänning (eng. named entity recognition) innebär att identifiera och kategorisera nyckelord i text. En ny lovande teknik för identifiering av namngivna enheter är att finjustera Transformerbaserade språkmodeller för denna specifika uppgift. Dessa modeller kräver dock stora mängder märkt data för att prestera väl. Detta kan begränsa antal områden i vilka de kan användas då manuell märkning av data ofta är kostsamt och tidskrävande. I denna avhandling undersöker vi inlärningskurvan för manuell annotering och för en språkmodell under en halvövervakad bootstrapping process. Särskild vikt läggs på hur modellens och annoterarnas inlärning påverkas av antal klasser och mängden träningsdata som används i processen. Vi annoterar först en samling jobbannonser och tillämpar sedan en bootstrapping process med både märkt och omärkt data i vilken en förtränad svensk BERT-modell kontinuerligt finjusteras. Det första klasssystemet förenklas under processens gång beroende på modellprestation och interannoterar-överenskommelse. Modellen presterade bättre med mer träningsdata och uppnådde en slutlig micro F1-score på 54%. Detta resultat ger en bra baslinje, och vi föreslår flera förbättringar som kan göras för att ytterligare förbättra modellprestationen. Vidare identifierar vi även klasser som hanteras olika av annoterare och potentiella faktorer till vad detta beror på. Förslag för framtida arbete inkluderar att justera det nuvarande klasssystemet ytterligare genom att ta bort klasser som identifierades som lågpresterande i denna avhandling.
45

Text Content Features for Hybrid Recommendations : Pre-trained Language Models for Better Recommendations

Lazarova, Mariya January 2021 (has links)
Nowadays, with the ever growing availability of options in many areas of our lives, it is crucial to have good ways to navigate your choices. This is why recommendation engines’ role is growing more important. Recommenders are often based on user-item interaction. In many areas like news and podcasts, however, by the time there is enough interaction data for an item, the item has already become irrelevant. This is why incorporating content features is desirable, as the content does not depend on the popularity or novelty of an item. Very often, there is text describing an item, so text features are good candidates for features within recommender systems. Within Natural Language Processing (NLP), pre-trained language models based on the Transformer architecture have brought a revolution in recent years, achieving state-of-the-art performance on many language tasks. Because of this, it is natural to explore how such models can play a role within recommendation systems. The scope of this work is on the intersection between NLP and recommendation systems where we investigate what are the effects of adding BERT-based encodings of titles and descriptions of movies and books to a recommender system. The results show that even in off-the-shelf BERT-models there is a considerable amount of information on movie and book similarity. It also shows that BERT based representations could be used in a recommender system for user recommendation to combine the best of collaborative and content representations. In this thesis, it is shown that adding deep pre-trained language model representations could improve a recommender system’s capability to predict good items for users with up to 0.43 AUC-ROC score for a shallow model, and 0.017 AUC-ROC score for a deeper model. It is also shown that SBERT can be fine-tuned to encode item similarity with up to 0.03 nDCG and up to 0.05 nDCG@10 score improvement. / Med den ständigt växande tillgängligheten av val i många delar av våra liv har det blivit viktigt att enkelt kunna navigera kring olika alternativ. Det är därför rekommendationssystems har blivit viktigare. Rekommendationssystem baseras ofta på interaktion-historiken mellan användare och artikel. När tillräckligt mycket data inom nyheter och podcast har hunnits samlats in för att utföra en rekommendation så har artikeln hunnit bli irrelevant. Det är därför det är önskvärt att införa innehållsfunktioner till rekommenderaren, då innehållet inte är beroende av popularitet eller nymodigheten av artikeln. Väldigt ofta finns det text som beskriver en artikel vilket har lett till textfunktioner blivit bra kandidater som funktion för rekommendationssystem. Inom Naturlig Språkbehandling (NLP), har förtränande språkmodeller baserad på transformator arkitekturen revolutionerat området de senaste åren. Den nya arkitekturen har uppnått toppmoderna resultat på flertal språkuppgifter. Tack vare detta, har det blivit naturligt att utforska hur sådana modeller kan fungera inom rekommendationssystem. Det här arbetet är mellan två områden, NLP och rekommendationssystem. Arbetet utforskar effekten av att lägga till BERT-baserade kodningar av titel och beskrivning av filmer, samt böcker till ett rekommendationssystem. Resultaten visar att även i förpackade BERT modeller finns det mycket av information om likheter mellan film och böcker. Resultaten visar även att BERT representationer kan användas i rekommendationssystem för användarrekommendationer, i kombination med kollaborativa och artikel baserade representationer. Uppsatsen visar att lägga till förtränade djupspråkmodell representationer kan förbättra rekommendationssystemens förmåga att förutsäga bra artiklar för användare. Förbättringarna är upp till 0.43 AUC-ROC poäng för en grundmodell, samt 0.017 AUC-ROC poäng för en djupmodell. Uppsatsen visar även att SBERT kan bli finjusterad för att koda artikel likhet med upp till 0.03 nDCG och upp till 0.05 nDCG@10 poängs förbättring.
46

Comparison of Machine Learning Models Used for Swedish Text Classification in Chat Messaging

Karim, Mezbahul, Amanzadi, Amirtaha January 2022 (has links)
The rise of social media and the use of mobile applications has led to increasing concerns regarding the content that is shared through these apps and whether they are being regulated or not. One of the problems that can arise due to a lack of regulation is that chat messages that are inappropriate or of profane nature can be allowed to be shared through these apps. Thus, it is vital to detect whenever these types of chat messages are shared through these mobile applications. In addition to that, there should also be detection of chat messages that can lead to the identity of the users being revealed as that is how the app in this thesis project was intended to be used. One of the most popular approaches to detect chat messages of this nature is to use machine learning techniques that can classify text. We were quick to discover that there were not many machine learning models that were built to classify short text messages in the Swedish language, thus the main problem of our thesis was the lack of evaluation and analysis of machine learning models for text classification in the context of the chat messages in Swedish. Thus, the purpose of our project was mainly to find the best performing models for text classification, implement these models and evaluate them to find the best among the ones we found. After the models were created, a hosting server, as well as an API, was required for the text classifying system to compute and communicate the prediction results to the mobile application in real-time. Therefore, the models were containerized and deployed as a REST API that serves requests upon arrival on a cloud server. The goal of this project was to help future work being done on text classification in the Swedish language by providing the results of this thesis to any parties that are interested in our line of work. From our own experience, we realized how challenging it can be to find and choose the best machine learning models when one has no previous data on which can be the best performing one. Thus, we believe that the results of this thesis project will greatly aid future projects in this area. The chosen research methodology was qualitative and dealt with quantitative data. The results we received showed that the BERT model was the best choice among the three models that we compared. With minute adjustments, this model should be more than capable of detecting the type of chat messages that it is required within the mobile application. / Uppkomsten av social media och användning av mobilapplikationer ledde till ökande oro om innehållet som är delad inom dessa appar och om dem är reglerad eller inte. Ett problem som uppstår på grund av bristande reglering kan vara att chatmeddelanden som är olämplig eller profan kan bli delad med dessa appar. Därför är det viktig att upptäcka när dessa typer av chatmeddelande är delad genom mobilapplikationer. Dessutom det måste finnas ett system som upptäcker chattmeddelanden som kan hjälpa att avslöja användarens identiteter, som den här appen i detta projekt avsedda att användas. En av mest populära sett att upptäcka den typen av chattmeddelanden är användning av mäskinlärning tekniker som kan klassificera text. Vi snart hittade att det finns inte så många mäskinlärning modeller som var byggt att klassificera texter på svenska, alltså huvudproblem med vår exam en var bistrande utvärdering och analys av mäskinlärning modeller för textklassificering i kontext av svenska språket. Så, syftet med vårt projekt var att hitta de bästa presenterande modeller för textklassifikation, genomföra dessa modeller själva och sedan utvärdera dem att hitta den bästa. Därtill, för att textklassificering ska beräkna och kommunicera den förutsägelseresultaten till mobila applikationer i realtid behövs en värdserver samt en API. Därför, modellerna containeriserades och distribuerad es som en REST API som betjänar begäran vid ankomst på en molnserver. Målet med det här projektet var att hjälpa framtidsarbete inom textklassifikation på svenska språket genom att tillhandahålla resultaten till partier som är intresserad i vår arbetslin je. Från vår egen erfarenhet, vi insåg att det var svårt att hitta och välja dem bästa mäskinlärning modeller, specifikt när man har inga data som tidigare visat den med bäst prestanda. Och därför vi anser att den resultaten av den har examen kommer att v ara stor hjälp till framtida projekt i det här området. Den valda forskningsmetodiken var kvalitativ och handlade om kvantitativ data. Resultaten visade att BERT modell var den bästa bland de tre modellerna som vi jämförde med. Med lite justeringen är mod ellen mer än kapable att detektera den typen av krävs inom mobilapplikationen.
47

Improving a Few-shot Named Entity Recognition Model Using Data Augmentation / Förbättring av en existerande försöksmodell för namnidentifiering med få exempel genom databerikande åtgärder

Mellin, David January 2022 (has links)
To label words of interest into a predefined set of named entities have traditionally required a large amount of labeled in-domain data. Recently, the availability of pre-trained transformer-based language models have enabled multiple natural language processing problems to utilize transfer learning techniques to construct machine learning models with less task-specific labeled data. In this thesis, the impact of data augmentation when training a pre-trained transformer-based model to adapt to a named entity recognition task with few labeled sentences is explored. The experimental results indicate that data augmentation increases performance of the trained models, however the data augmentation is shown to have less impact when more labeled data is available. In conclusion, data augmentation has been shown to improve performance of pre-trained named entity recognition models when few labeled sentences are available for training. / Att kategorisera ord som tillhör någon av en mängd förangivna entiteter har traditionellt krävt stora mängder förkategoriserad områdesspecifik data. På senare år har det tillgängliggjorts förtränade språkmodeller som möjliggjort för språkprocesseringsproblem att lösas med en mindre mängd områdesspecifik kategoriserad data. I den här uppsatsen utforskas datautöknings påverkan på en maskininlärningsmodell för identifiering av namngivna entiteter. De experimentella resultaten indikerar att datautökning förbättrar modellerna, men att inverkan blir mindre när mer kategoriserad data är tillgänglig. Sammanfattningsvis så kan datautökning förbättra modeller för identifiering av namngivna entiteter när få förkategoriserade meningar finns tillgängliga för träning.
48

Task-agnostic knowledge distillation of mBERT to Swedish / Uppgiftsagnostisk kunskapsdestillation av mBERT till svenska

Kina, Added January 2022 (has links)
Large transformer models have shown great performance in multiple natural language processing tasks. However, slow inference, strong dependency on powerful hardware, and large energy consumption limit their availability. Furthermore, the best-performing models use high-resource languages such as English, which increases the difficulty of using these models for low-resource languages. Research into compressing large transformer models has been successful, using methods such as knowledge distillation. In this thesis, an existing task-agnostic knowledge distillation method is employed by using Swedish data for distillation of mBERT models further pre-trained on different amounts of Swedish data, in order to obtain a smaller multilingual model with performance in Swedish competitive with a monolingual student model baseline. It is shown that none of the models distilled from a multilingual model outperform the distilled Swedish monolingual model on Swedish named entity recognition and Swedish translated natural language understanding benchmark tasks. It is also shown that further pre-training mBERT does not significantly affect the performance of the multilingual teacher or student models on downstream tasks. The results corroborate previously published results showing that no student model outperforms its teacher. / Stora transformator-modeller har uppvisat bra prestanda i flera olika uppgifter inom naturlig bearbetning av språk. Men långsam inferensförmåga, starkt beroende av kraftfull hårdvara och stor energiförbrukning begränsar deras tillgänglighet. Dessutom använder de bäst presterande modellerna högresursspråk som engelska, vilket ökar svårigheten att använda dessa modeller för lågresursspråk. Forskning om att komprimera dessa stora transformatormodeller har varit framgångsrik, med metoder som kunskapsdestillation. I denna avhandling används en existerande uppgiftsagnostisk kunskapsdestillationsmetod genom att använda svensk data för destillation av mBERT modeller vidare förtränade på olika mängder svensk data för att få fram en mindre flerspråkig modell med prestanda på svenska konkurrerande med en enspråkig elevmodell baslinje. Det visas att ingen av modellerna destillerade från en flerspråkig modell överträffar den destillerade svenska enspråkiga modellen på svensk namngiven enhetserkännande och svensk översatta naturlig språkförståelse benchmark uppgifter. Det visas också att ytterligare förträning av mBERTpåverkar inte väsentligt prestandan av de flerspråkiga lärar- eller elevmodeller för nedströmsuppgifter. Resultaten bekräftar tidigare publicerade resultat som visar att ingen elevmodell överträffar sin lärare.
49

Balancing Performance and Usage Cost: A Comparative Study of Language Models for Scientific Text Classification / Balansera prestanda och användningskostnader: En jämförande undersökning av språkmodeller för klassificering av vetenskapliga texter

Engel, Eva January 2023 (has links)
The emergence of large language models, such as BERT and GPT-3, has revolutionized natural language processing tasks. However, the development and deployment of these models pose challenges, including concerns about computational resources and environmental impact. This study aims to compare discriminative language models for text classification based on their performance and usage cost. We evaluate the models using a hierarchical multi-label text classification task and assess their performance using primarly F1-score. Additionally, we analyze the usage cost by calculating the Floating Point Operations (FLOPs) required for inference. We compare a baseline model, which consists of a classifier chain with logistic regression models, with fine-tuned discriminative language models, including BERT with two different sequence lengths and DistilBERT, a distilled version of BERT. Results show that the DistilBERT model performs optimally in terms of performance, achieving an F1-score of 0.56 averaged on all classification layers. The baseline model and BERT with a maximal sequence length of 128 achieve F1-scores of 0.51. However, the baseline model outperforms the transformers at the most specific classification level with an F1-score of 0.33. Regarding usage cost, the baseline model significantly requires fewer FLOPs compared to the transformers. Furthermore, restricting BERT to a maximum sequence length of 128 tokens instead of 512 sacrifices some performance but offers substantial gains in usage cost. The code and dataset are available on GitHub. / Uppkomsten av stora språkmodeller, som BERT och GPT-3, har revolutionerat språkteknologi. Dock ger utvecklingen och implementeringen av dessa modeller upphov till utmaningar, bland annat gällande beräkningsresurser och miljöpåverkan. Denna studie syftar till att jämföra diskriminativa språkmodeller för textklassificering baserat på deras prestanda och användningskostnad. Vi utvärderar modellerna genom att använda en hierarkisk textklassificeringsuppgift och bedöma deras prestanda primärt genom F1-score. Dessutom analyserar vi användningskostnaden genom att beräkna antalet flyttalsoperationer (FLOPs) som krävs för inferens. Vi jämför en grundläggande modell, som består av en klassifikationskedja med logistisk regression, med finjusterande diskriminativa språkmodeller, inklusive BERT med två olika sekvenslängder och DistilBERT, en destillerad version av BERT. Resultaten visar att DistilBERT-modellen presterar optimalt i fråga om prestanda och uppnår en genomsnittlig F1-score på 0,56 för alla klassificeringsnivåer. Den grundläggande modellen och BERT med en maximal sekvenslängd på 128 uppnår ett F1-score på 0,51. Dock överträffar den grundläggande modellen transformermodellerna på den mest specifika klassificeringsnivån med en F1-score på 0,33. När det gäller användningskostnaden kräver den grundläggande modellen betydligt färre FLOPs jämfört med transformermodellerna. Att begränsa BERT till en maximal sekvenslängd av 128 tokens ger vissa prestandaförluster men erbjuder betydande besparingar i användningskostnaden. Koden och datamängden är tillgängliga på GitHub.
50

A justiça restaurativa: fundamentos ético-filosóficos / The restorative justice: ethical philosophical fundaments

Saldanha, Renata Torri 31 August 2018 (has links)
Submitted by Marilene Donadel (marilene.donadel@unioeste.br) on 2019-01-23T18:30:18Z No. of bitstreams: 1 Renata_Saldanha_2018.pdf: 810101 bytes, checksum: b45ce79ad809216543b1f4f2228e57f1 (MD5) / Made available in DSpace on 2019-01-23T18:30:18Z (GMT). No. of bitstreams: 1 Renata_Saldanha_2018.pdf: 810101 bytes, checksum: b45ce79ad809216543b1f4f2228e57f1 (MD5) Previous issue date: 2018-08-31 / This dissertation aims to analyze Restorative Justice and its practices, to find a meeting point for the foundation of these practices in Philosophy, especially based on the systemic-phenomenological theory of Bert Hellinger. Restorative Justice is a relatively new topic in Brazil and it has been increasingly used, but it is still needy the study of this subject when is not under a practical bias. Thus, this work seeks to conceptualize the theme based on the bibliographical review on the subject, with Kant, Hegel and Bert Hellinger. In the first chapter, the context of the flowering of restorative practices in Brazil, with a focus on the criminal area and the essentiality of its theory, is worked on: new vision of conflict, inclusion, participation, (co) responsibility, voluntariness, honesty, humility, interconnection, empowerment, hope, solidarity and the encounter. In the second chapter, Restorative Justice is approached from a critical perspective, especially on the basis of Kant and Hegel, the main framers of the current model of retributive justice.For Kant, crime is the non-fulfillment of a duty and punishment is a punishment for such an action, that is, punishment is the retribution of the evil of crime with the evil of pen, in a strictly formal paradigm. In Hegel, law is the most accurate form of law and its violation hurts the highest degree of human freedom. The Law defines the duties and the rights of the subjects. Duty is negative determination and right is positive determination of freedom. But since law and duty can be denied, law internalizes its own negation, so that this negation is not formally infinite. Thus, the denial of law by the law itself is the sanction, which also denotes a formalist bias of the concept of justice and punishment. Finally, in the last chapter, and after locating the central elements of restorative practices, we seek in Bert Hellinger's systemic-phenomenological theory a foundation for restorative practices. Bert Hellinger supposes that there are three laws that govern all human relationships: belonging, hierarchy and balance. As every system values inclusiveness, belonging is the right of everyone to be part of it. Hierarchy is the order of precedence of people as time passes. Finally, balance is the trade-off between giving and taking, representing a flow of exchange that animates human relationships. The major point of contact between restorative practices and the systemic-phenomenological theory is the change of perception in relation to the conflict, with the inclusion, which derives from the right to belong, the equality, the dignity of the human person, which makes reconciliation possible and opens the way to peace, enabling, in turn, the construction of the sense of justice. concluding that Restorative Justice is a meeting with itself and with the other, face-to-face, aiming to understand the hidden causes and entanglements which led to conflict in a larger context (beyond the conflict), with the assumption of the responsibility of each one to the event of the conflict and construction of the systemic reparation of damages (material, spiritual, emotional, transgenerational, psychological, symbolic). Bert Hellinger's theory allows us to transcend the differentiations that exclude and restore the basic human need for connection with other human beings. / Esta dissertação tem por objetivo analisar a Justiça Restaurativa e suas práticas e encontrar um ponto de encontro para a fundamentação destas práticas na Filosofia, especialmente com base na teoria sistêmico-fenomenológica de Bert Hellinger. A Justiça Restaurativa é um tema relativamente novo no Brasil e ela vem sendo cada vez mais utilizada, mas ainda é carente o estudo desse tema que não seja sob um viés prático. Assim, este trabalho busca conceituar o tema com base na revisão bibliográfica sobre o assunto, com apoio na filosofia de Kant, Hegel e Bert Hellinger. No primeiro capítulo, é trabalhado o contexto de florescimento das práticas restaurativas no Brasil, com enfoque na área criminal e a essencialidade de sua teoria: nova visão do conflito, inclusão, participação, (co)responsabilidade, voluntariedade, honestidade, humildade, interconexão, empoderamento, esperança, solidariedade e o encontro. No segundo capítulo, a Justiça Restaurativa é abordada sob uma perspectiva crítica, especialmente com base em Kant e Hegel, principais estruturadores do modelo de justiça retributivo vigente. Para Kant, o crime é o descumprimento de um dever e a punição é um castigo para tal ação, ou seja, a punição é a retribuição do mal do crime com o mal da pena, em um paradigma estritamente formal. Em Hegel, a lei constitui a forma mais apurada do Direito e sua violação fere o mais alto grau da liberdade humano. O Direito define os deveres e os direitos dos sujeitos. O dever é determinação negativa e o direito é determinação positiva da liberdade. Mas como o direito e o dever podem ser negados, o Direito interioriza sua própria negação, a fim de que essa negação não seja formalmente infinita. Assim, a negação do Direito pelo próprio Direito é a sanção, o que denota também um viés formalista do conceito de Justiça e punição. Por fim, no último capítulo, e após situar os elementos centrais das práticas restaurativas, busca-se na teoria sistêmico-fenomenológica de Bert Hellinger uma fundamentação para as práticas restaurativas. Bert Hellinger supõe que existem três leis que regem todos os relacionamentos humanos: o pertencimento, a hierarquia e o equilíbrio. Como todo sistema preza pela inclusão, o pertencimento é o direito de todos de fazerem parte. A hierarquia é a ordem de precedência das pessoas conforme o passar do tempo. Por fim, o equilíbrio é a compensação entre o dar e o tomar, representando um fluxo de troca que anima as relações humanas. O maior ponto de contato entre as práticas restaurativas e a teoria sistêmico-fenomenológica é a mudança de percepção em relação ao conflito, com a inclusão, que decorre do direito de pertencer, a igualdade, a dignidade da pessoa humana, o que possibilita a reconciliação e abre o caminho para a paz, possibilitando, por sua vez, a construção do sentido de Justiça. A Justiça Restaurativa assim representa um encontro consigo próprio e com o outro, face-a-face, visando compreender as causas ocultas e emaranhamentos que levaram ao conflito diante de um contexto maior (para além do conflito), com a assunção da responsabilidade de cada um para o acontecimento do conflito e construção da reparação sistêmica dos danos (material, espiritual, emocional, transgeracional, psicológico, simbólico). A teoria de Bert Hellinger permite transcender as diferenciações que excluem e restaurar a necessidade humana básica de conexão com os demais seres humanos.

Page generated in 0.0534 seconds