Spelling suggestions: "subject:"tandbehandling av naturlig språk"" "subject:"randbehandling av naturlig språk""
1 |
Transformer-based Multistage Architectures for Code SearchGonzález Lopez, Angel Luis January 2021 (has links)
Code Search is one of the most common tasks for developers. The open-source software movement and the rise of social media have made this process easier thanks to the vast public software repositories available to everyone and the Q&A sites where individuals can resolve their doubts. However, in the case of poorly documented code that is difficult to search in a repository, or in the case of private enterprise frameworks that are not publicly available, so there is not a community on Q&A sites to answer questions, searching for code snippets to solve doubts or learn how to use an API becomes very complicated. In order to solve this problem, this thesis studies the use of natural language in code retrieval. In particular, it studies transformer-based models, such as Bidirectional Encoder Representations from Transformers (BERT), which are currently state of the art in natural language processing but present high latency in information retrieval tasks. That is why this project proposes a multi-stage architecture that seeks to maintain the performance of standard BERT-based models while reducing the high latency usually associated with the use of this type of framework. Experiments show that this architecture outperforms previous non- BERT-based models by +0.17 on the Top 1 (or Recall@1) metric and reduces latency with inference times 5% of those of standard BERT models. / Kodsökning är en av de vanligaste uppgifterna för utvecklare. Rörelsen för öppen källkod och de sociala medierna har gjort denna process enklare tack vare de stora offentliga programvaruupplagorna som är tillgängliga för alla och de Q&A-webbplatser där enskilda personer kan lösa sina tvivel. När det gäller dåligt dokumenterad kod som är svår att söka i ett arkiv, eller när det gäller ramverk för privata företag som inte är offentligt tillgängliga, så att det inte finns någon gemenskap på Q&AA-webbplatser för att besvara frågor, blir det dock mycket komplicerat att söka efter kodstycken för att lösa tvivel eller lära sig hur man använder ett API. För att lösa detta problem studeras i denna avhandling användningen av naturligt språk för att hitta kod. I synnerhet studeras transformatorbaserade modeller, såsom BERT, som för närvarande är den senaste tekniken inom behandling av naturliga språk men som har hög latenstid vid informationssökning. Därför föreslås i detta projekt en arkitektur i flera steg som syftar till att bibehålla prestandan hos standard BERT-baserade modeller samtidigt som den höga latenstiden som vanligtvis är förknippad med användningen av denna typ av ramverk minskas. Experiment visar att denna arkitektur överträffar tidigare icke-BERT-baserade modeller med +0,17 på Top 1 (eller Recall@1) och minskar latensen, med en inferenstid som är 5% av den för standard BERT-modeller.
|
2 |
Transformer-Based Multi-scale Technical Reports Analyser for Science Projects Cost Prediction / Transformers-baserad analysator av tekniska rapporter i flera skalor för prognostisering av kostnader för vetenskapsprojektBouquet, Thomas January 2023 (has links)
Intrinsic value prediction is a Natural Language Processing (NLP) problem consisting in determining a numerical value contained implicitly and non-trivially in a text. In this project, we introduce the SWORDSMAN model (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), a deep neural network architecture based on transformers whose goal is to predict the cost of research projects from the analysis of their abstract. SWORDSMAN is built on a hybrid structure based on two branches in order to conduct a multi-scale analysis by combining the strengths of global and local perspectives to extract more relevant information from these texts. The local branch uses Convolution Neural Networks (CNNs) to analyse abstracts at fine-grained word level and bring more nuance to the understanding of the context of occurrence of key terms, while the global branch combines Sentence Transformers and Radial Basis Functions (RBFs) to process these abstracts at a higher level to identify the overall context of the project, while being more focused on the content than the form of the data. The joint use of these models allows SWORDSMAN to have a better capacity to understand complex data by using this analysis at different levels of granularity to present a better estimation accuracy. / Förutsägelse av inneboende värde är ett problem inom Natural Language Processing (NLP) som består i att bestämma ett numeriskt värde som finns implicit och icke-trivialt i en text. I det här projektet introducerar vi SWORDSMAN-modellen (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), en djup neuronal nätverksarkitektur baserad på transformatorer vars mål är att förutsäga kostnaden för forskningsprojekt utifrån analysen av deras abstrakt. SWORDSMAN bygger på en hybridstruktur baserad på två grenar för att genomföra en analys i flera skalor genom att kombinera styrkorna hos globala och lokala perspektiv för att extrahera mer relevant information från dessa texter. I den lokala grenen används CNN-nätverk (Convolution Neural Networks) för att analysera sammanfattningar på finkornig ordnivå och ge mer nyans till förståelsen av sammanhanget för förekomsten av nyckeltermer, medan den globala grenen kombinerar meningstransformatorer och radiella basfunktioner (RBF) för att bearbeta dessa sammanfattningar på en högre nivå för att identifiera projektets övergripande sammanhang, samtidigt som den är mer inriktad på innehållet än på formen av uppgifterna. Den gemensamma användningen av dessa modeller gör det möjligt för SWORDSMAN att ha en bättre förmåga att förstå komplexa data genom att använda denna analys på olika granularitetsnivåer för att presentera en bättre skattningsnoggrannhet. / La prédiction de valeur intrinsèque est un problème de Traitement Automatique du Langage (TAL) consistant à déterminer une valeur numérique contenue de manière implicite et non triviale dans un texte. Dans ce projet, nous introduisons le modèle SWORDSMAN (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), une architecture de réseaux de neurones profonde basée sur les transformers dont le but est de prédire le coût de projets de recherche à partir de l’analyse de leur abstract. SWORDSMAN est bâti sur une structure hybride reposant sur deux branches afin de mener une analyse multi-échelles en combinant les forces de perspectives globale et locale pour extraire des informations plus pertinentes de ces textes. La branche locale utilise des réseaux de neurones de convolution (CNN) pour analyser les abstracts à l’échelle des mots et apporter plus de nuance à la compréhension du contexte d’apparition des termes clés, là où la branche globale combine Sentence Transformers et fonctions de base radiale (RBF) pour traiter ces abstracts à un plus haut niveau afin d’identifier le contexte général du projet, tout en étant plus focalisée sur le contenu que la forme des données. L’utilisation conjointe de ces modèles permet à SWORDSMAN de disposer d’une meilleure capacité de compréhension de données complexes en se servant de cette analyse à différents niveaux de granularité pour présenter une meilleure précision d’estimation.
|
3 |
Exploration of Knowledge Distillation Methods on Transformer Language Models for Sentiment Analysis / Utforskning av metoder för kunskapsdestillation på transformatoriska språkmodeller för analys av känslorLiu, Haonan January 2022 (has links)
Despite the outstanding performances of the large Transformer-based language models, it proposes a challenge to compress the models and put them into the industrial environment. This degree project explores model compression methods called knowledge distillation in the sentiment classification task on Transformer models. Transformers are neural models having stacks of identical layers. In knowledge distillation for Transformer, a student model with fewer layers will learn to mimic intermediate layer vectors from a teacher model with more layers by designing and minimizing loss. We implement a framework to compare three knowledge distillation methods: MiniLM, TinyBERT, and Patient-KD. Student models produced by the three methods are evaluated by accuracy score on the SST-2 and SemEval sentiment classification dataset. The student models’ attention matrices are also compared with the teacher model to find the best student model for capturing dependencies in the input sentences. The comparison results show that the distillation method focusing on the Attention mechanism can produce student models with better performances and less variance. We also discover the over-fitting issue in Knowledge Distillation and propose a Two-Step Knowledge Distillation with Transformer Layer and Prediction Layer distillation to alleviate the problem. The experiment results prove that our method can produce robust, effective, and compact student models without introducing extra data. In the future, we would like to extend our framework to support more distillation methods on Transformer models and compare performances in tasks other than sentiment classification. / Trots de stora transformatorbaserade språkmodellernas enastående prestanda är det en utmaning att komprimera modellerna och använda dem i en industriell miljö. I detta examensarbete undersöks metoder för modellkomprimering som kallas kunskapsdestillation i uppgiften att klassificera känslor på Transformer-modeller. Transformers är neurala modeller med staplar av identiska lager. I kunskapsdestillation för Transformer lär sig en elevmodell med färre lager att efterlikna mellanliggande lagervektorer från en lärarmodell med fler lager genom att utforma och minimera förluster. Vi genomför en ram för att jämföra tre metoder för kunskapsdestillation: MiniLM, TinyBERT och Patient-KD. Elevmodeller som produceras av de tre metoderna utvärderas med hjälp av noggrannhetspoäng på datasetet för klassificering av känslor SST-2 och SemEval. Elevmodellernas uppmärksamhetsmatriser jämförs också med den från lärarmodellen för att ta reda på vilken elevmodell som är bäst för att fånga upp beroenden i de inmatade meningarna. Jämförelseresultaten visar att destillationsmetoden som fokuserar på uppmärksamhetsmekanismen kan ge studentmodeller med bättre prestanda och mindre varians. Vi upptäcker också problemet med överanpassning i kunskapsdestillation och föreslår en tvåstegs kunskapsdestillation med transformatorskikt och prediktionsskikt för att lindra problemet. Experimentresultaten visar att vår metod kan producera robusta, effektiva och kompakta elevmodeller utan att införa extra data. I framtiden vill vi utöka vårt ramverk för att stödja fler destillationmetoder på Transformer-modeller och jämföra prestanda i andra uppgifter än sentimentklassificering.
|
4 |
Information Extraction from Invoices using Graph Neural Networks / Utvinning av information från fakturor med hjälp av grafiska neurala nätverkTan, Tuoyuan January 2023 (has links)
Information Extraction is a sub-field of Natural Language Processing that aims to extract structured data from unstructured sources. With the progress in digitization, extracting key information like account number, gross amount, etc. from business invoices becomes an interesting problem in both industry and academy. Such a process can largely facilitate online payment, as users do not have to type in key information by themselves. In this project, we design and implement an extraction system that combines Machine Learning and Heuristic Rules to solve the problem. Invoices are transformed into a graph structure and then Graph Neural Networks are used to give predictions of the role of each word appearing on invoices. Rule-based modules output the final extraction results based on aggregated information from predictions. Different variants of graph models are evaluated and the best system achieves 90.93% correct rate. We also study how the number of stacked graph neural layers influences the performance of the system. The ablation study compares the importance of each extracted feature and results show that the combination of features from different sources, rather than any single feature, plays the key role in the classification. Further experiments reveal the respective contributions of Machine Learning and rule-based modules for each label. / Informationsutvinning är ett delområde inom språkteknologi som syftar till att utvinna strukturerade data från ostrukturerade källor. I takt med den ökande digitaliseringen blir det ett intressant problem för både industrin och akademin att extrahera nyckelinformation som t.ex. kontonummer, bruttobelopp och liknande från affärsfakturor. En sådan process kan i hög grad underlätta onlinebetalningar, eftersom användarna inte behöver skriva in nyckelinformation själva. I det här projektet utformar och implementerar vi ett extraktionssystem som kombinerar maskininlärning och heuristiska regler för att lösa problemet. Fakturor kommer att omvandlas till en grafstruktur och sedan används grafiska neurala nätverk för att förutsäga betydelsen av varje ord som förekommer på fakturan. Regelbaserade moduler producerar de slutliga utvinningsresultaten baserat på aggregerad information från förutsägelserna. Olika varianter av grafmodeller utvärderas och det bästa systemet uppnår 90,93 % korrekta resultat. Vi studerar också hur antalet neurala graflager påverkar systemets prestanda. I ablationsstudien jämförs betydelsen av varje extraherat särdrag och resultaten visar att kombinationen av särdrag från olika källor, snarare än något enskilt särdrag, spelar en nyckelroll i klassificeringen. Ytterligare experiment visar hur maskininlärning och regelbaserade moduler på olika sätt bidrar till resultatet.
|
5 |
Information Extraction and Design of An Assisted QA system in Motor DesignLuo, Hongyi January 2022 (has links)
The Linz Center of Mechatronics’ SymSpace platform is designed to provide intelligent design and training for the traditional engineer training and industrial design approach in the field of motor design, which relies on the engineer’s own experience and manual work. This paper first analyzes and explores the usage patterns and possible improvement perspectives of motor design components using SymSpace user data. Then an attempt is made to summarize the motor design manual provided by LCM using a text summary model and use it for training engineers. Next, a question-and-answer system model was used to try to provide an aid system for engineers in design. The evaluation of text summaries and question and answer systems is difficult in the motor design domain because the amount of redundant textual information in this domain is small and key information is often presented in detail rather than in the main stem of the sentence. In this case, instead of evaluating the model using traditional machine scores, this paper refers to the feedback from LCM experts as future users. The final results show that, despite the problems of difficulty in explaining the reasons; the possibility of being misleading; and the loss of information details, both attempts are generally positive and the exploration in this direction is worthwhile. / Symspace från Linz Center of Mechatronics är utformad för att tillhandahålla intelligent design och utbildning för den traditionella ingenjörsutbildningen och den industriella designmetoden inom motorkonstruktion, som bygger på ingenjörens egen erfarenhet och manuellt arbete. I den här artikeln analyseras och utforskas först användningsmönster och möjliga förbättringsperspektiv för komponenter för motorkonstruktion med hjälp av användaruppgifter från Symspace. Därefter görs ett försök att sammanfatta den motorkonstruktionshandbok som tillhandahålls av LCM med hjälp av en modell för textsammanfattningar och använda den för att utbilda ingenjörer. Därefter användes en modell för ett system med frågor och svar för att försöka tillhandahålla ett hjälpsystem för ingenjörer vid konstruktion. Utvärderingen av textsammanfattningar och fråga-och-svar-system är svår inom motorkonstruktionsområdet eftersom mängden överflödig textinformation inom detta område är liten och nyckelinformation ofta presenteras i detalj snarare än i huvudstammen av meningen. I det här fallet hänvisar den här artikeln i stället för att utvärdera modellen med hjälp av traditionella maskinpoäng till feedback från LCM-experter som framtida användare. De slutliga resultaten visar att trots problemen med svårigheten att förklara orsakerna, möjligheten att vara vilseledande och förlusten av informationsdetaljer är båda försöken generellt sett positiva och att utforskningen i denna riktning är värd att fortsätta.
|
Page generated in 0.0901 seconds