• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 61
  • 59
  • Tagged with
  • 120
  • 82
  • 59
  • 53
  • 52
  • 50
  • 50
  • 46
  • 41
  • 39
  • 34
  • 19
  • 18
  • 16
  • 15
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Swedish L2 Learners’ acquisition of grammatical morphemes : A cross-sectional study on how well Swedish Learners of English as a second language at upper secondary school use morphemes in their writing. / Svenska elevers inlärning av grammatiska morfem. : En tvärsnittsstudie om hur väl svenska elever på gymnasieskolan använder sig av engelska morfem i sitt skrivande.

Samuelfolk, Hugues January 2018 (has links)
The main aim of this paper has been to examine if Swedish students at upper secondary school were able to use the morphemes The progressive –ing, The irregular past and The irregular third person. In addition, it has also addressed if the students examined in this essay were able to use some morphemes better than others. In addition, it concluded if the results found in this paper were in accordance with what other researchers have concluded. The paper is based on essays written by students at upper secondary school that can be found in The Uppsala Learner English Corpus, as well as essays written for the national test by students studying English 6. In the course of the study, it was vital to explain what the natural order actually is as well as what researchers who believe in it claim and what researchers who do not believe in it claim. Consequently, it becomes important to clarify the differences between a cross-sectional study and a longitudinal study. When analysing the essays the program Antconc was used. It is a free corpus analysis program that allows researchers to study several texts at once. Next, to determine if the students had acquired the morphemes, all obligatory contexts where the morphemes should be used were analysed manually. What can be concluded from this paper is that the three morphemes have not been acquired by the students who were examined in this paper. Students could use some forms of the morphemes; however, even in those cases the correct usage in percentage of the morpheme were often not above 85%. These results were quite like the ones found in studies conducted on students at secondary school; this indicates that students at both secondary and upper secondary school do not actually acquire these morphemes fully. What they do acquire are different forms of a specific morpheme that they probably use quite a lot in their writing. / Syftet med denna uppsats har varit att undersöka om svenska elever som studerar på gymnasieskolan kunde aktivt använda de engelska morfemen The progressive –ing, The irregular past och The irregular third person. Dessutom har uppsatsen också behandlat om det fanns morfemen som eleverna kunde använda sig bättre av. Den har även jämfört sitt resultat med vad andra forskare har hittat. Uppsatsen är bygd på essäer skrivna av elever på gymnasieskolan som finns att hämta i The Uppsala Learner English Corpus. Dessutom använder den sig av essäer skrivna av elever för det nationella provet i engelska 6. Under studiens gång var det viktigt att förklara vad The natural order är liksom vad forskare säger gällande denna teori. Följaktligen blir det viktigt att klargöra skillnaden mellan en tvärsnittsstudie och en longitudinell studie. Vid analysen av essäerna användes programmet Antconc. Det är ett gratis korpusanalysprogram som tillåter forskare att studera flera texter samtidigt. För att klargöra om eleverna hade förvärvat morfemen var det därefter viktigt att studera alla obligatoriska sammanhang där morfemen måste användas, vilket gjordes manuellt. Det som framgår är att eleverna som granskades i studien inte har förvärvat de tre morfemen. Eleverna kunde använda sig av vissa former av varje morfem, men även i dessa fall var den korrekta användningen i procent oftast inte mer än 85%. Detta resultat var ganska likt de studier som har granskat elever i högstadiet, vilket tyder på att elever i både högstadiet och gymnasiet inte förvärvar dessa morfem fullt ut. I de flesta fall kunde eleverna enbart använda olika former av morfemen.
52

Semantiska modeller för syntetisk textgenerering - en jämförelsestudie / Semantic Models for Synthetic Textgeneration - A Comparative Study

Åkerström, Joakim, Peñaloza Aravena, Carlos January 2018 (has links)
Denna kunskapsöversikt undersöker det forskningsfält som rör musikintegrerad matematikundervisning. Syftet med översikten är att få en inblick i hur musiken påverkar elevernas matematikprestationer samt hur forskningen ser ut inom denna kombination. Därför är vår frågeställning: Vad kännetecknar forskningen om integrationen mellan matematik och musik? För att besvara denna fråga har vi utfört litteratursökningar för att finna studier och artiklar som tillsammans bildar en överblick. Med hjälp av den metod som Claes Nilholm beskriver i SMART (2016) har vi skapat en struktur för hur vi arbetat. Ur det material som vi fann under sökningarna har vi funnit mönster som talar för musikens positiva inverkan på matematikundervisning. Förmågan att uttrycka sina känslor i form av ord eller beröra andra med dem har alltid varit enbeundransvärd och sällsynt egenskap. Det här projektet handlar om att skapa en text generatorkapabel av att skriva text i stil med enastående män och kvinnor med den här egenskapen. Arbetet har genomförts genom att träna ett neuronnät med citat skrivna av märkvärdigamänniskor såsom Oscar Wilde, Mark Twain, Charles Dickens, etc. Nätverket samarbetar med två olika semantiska modeller: Word2Vec och One-Hot och alla tre är delarna som vår textgenerator består av. Med dessa genererade texterna gjordes en enkätudersökning för att samlaåsikter från studenter om kvaliteten på de genererade texterna för att på så vis utvärderalämpligheten hos de olika semantiska modellerna. Efter analysen av resultatet lärde vi oss att de flesta respondenter tyckte att texterna de läste var sammanhängande och roliga. Vi lärde oss också att Word2Vec, presterade signifikant bättre än One-hot. / The ability of expressing feelings in words or moving others with them has always been admired and rare feature. This project involves creating a text generator able to write text in the style of remarkable men and women with this ability, this gift. This has been done by training a neural network with quotes written by outstanding people such as Oscar Wilde, Mark Twain, Charles Dickens, et alt. This neural network cooperate with two different semantic models: Word2Vec and One-Hot and the three of them compound our text generator. With the text generated we carried out a survey in order to collect the opinion of students about the quality of the text generated by our generator. Upon examination of the result, we proudly learned that most of the respondents thought the texts were coherent and fun to read, we also learned that the former semantic model performed, not by a factor of magnitude, better than the latter.
53

Dynamic analysis of high-rise timber buildings : A factorial experiment / Dynamisk analys av höga träbyggnader : Ett faktorförsök

Karlberg, Victor January 2017 (has links)
Today high-rise timber buildings are more popular than ever and designers all over the world have discovered the beneficial material properties of timber. In the middle of the 1990’s cross-laminated timber (CLT), was developed in Austria. CLT consists of laminated timber panels that are glued together to form a strong and flexible timber element. In recent years CLT has been on the rise and today it is regarded as a good alternative to concrete and steel in the design of particularly tall buildings. Compared to concrete and steel, timber has lower mass and stiffness. A high-rise building made out of timber is therefore more sensitive to vibration. The vibration of the building can cause the occupants discomfort and it is thus important to thoroughly analyze the building’s dynamic response to external excitation. The standard ISO 10137 provides guidelines for the assesment of habitability of buildings with respect to wind-induced vibration. The comfort criteria herein is based on the first natural frequency and the acceleration of the building, along with human perception of vibration. The aim of this thesis is to identify the important structural properties affecting a dynamic analysis of a high-rise timber building. An important consequence of this study is hopefully a better understanding of the interactions between the structural properties in question. To investigate these properties and any potential interactions a so-called factorial experiment is performed. A factorial experiment is an experiment where all factors are varied together, instead of one at a time, which makes it possible to study the effects of the factors as well as any interactions between these. The factors are varied between two levels, that is, a low level and a high level. The design of a factorial experiment includes all combinations of the levels of the factors. The experiment is performed using the software FEM-Design, which is a modeling software for finite element analysis. A fictitious building is modelled using CLT as the structural system. The modeling and the subsequent dynamic analysis is repeated according to the design of the factorial experiment. The experiment is further analyzed using statistical methods and validated according to ISO 10137 in order to study performance and patterns between the different models. The statistical analysis of the experiment shows that the height of the building, the thickness of the walls and the addition of mass are important in a dynamic analysis. It also shows that interaction is present between the height of the building and the thickness of the walls as well as between the height of the building and the addition of mass. Most of the models of the building does not satisfy the comfort criteria according to ISO 10137. However, it still shows patterns that provides useful information about the dynamic properties of the building. Lastly, based on the natural frequency of the building this study recognizes the stiffness as more relevant than the mass for a building with CLT as the structural system and with up to 16 floors in height. / Idag är höga trähus mer populära än någonsin och konstruktörer runtom i världen har upptäckt de fördelaktiga materialegenskaperna hos trä. I mitten på 1990-talet utvecklades korslimmat trä (KL-trä) i Österrike. KL-trä består av hyvlade brädor som limmas ihop för att bilda en lätt och stark träskiva. På senare år har KL-trä varit på uppgång och idag anses materialet vara ett bra alternativ till betong och stål i framför allt höga byggnader. Jämfört med betong och stål har trä både lägre massa och styvhet. En hög träbyggnad är därför mer känslig för vibrationer. En vibrerande byggnad kan leda till obehag för de boende och det är därför viktigt att analysera byggnadens dynamiska respons då den utsätts för yttre belastning. Standarden ISO 10137 ger riktlinjer för att kunna utvärdera komfortkravet för byggnader med avseende på människors känslighet för vibrationer orsakade av vind. Komfortkravet i fråga jämför byggnadens första naturliga egenfrekvens med dess acceleration. Syftet med detta examensarbete är att identifiera de viktiga egenskaperna i en dynamisk analys av en hög träbyggnad. Förhoppningsvis leder det här examensarbetet till en ökad förståelse av samspelseffekterna mellan dessa egenskaper. För att undersöka dessa egenskaper och eventuella samspelseffekter genomförs ett så kallat faktorförsök. Ett faktorförsök är ett försök där alla faktorer varieras tillsammans, istället för en och en, vilket gör det möjligt att studera effekterna av faktorerna samt eventuella samspelseffekter. Faktorerna varieras mellan två nivåer: en låg nivå och en hög nivå. Ett faktorförsök använder sig av samtliga kombinationer av faktorernas nivåer. Försöket utförs med hjälp av programmet FEM-Design, vilket är ett modelleringsverktyg för FE-analys. En fiktiv byggnad modelleras med CLT som stomsystem och en dynamisk analys görs. Försöket analyseras ytterligare med hjälp av statistiska metoder och valideras enligt ISO 10137. Dessa steg upprepas enligt faktorförsöket. Den statistiska analysen av försöket visar att höjden på byggnaden, tjockleken på väggarna samt en ökad massa är viktiga i en dynamisk analys. Den visar också på en samspelseffekt mellan höjden på byggnaden och tjockleken på väggarna, samt mellan höjden på byggnaden och en ökad massa. Merparten av modellerna av byggnaden uppfyller inte komfortkravet enligt ISO 10137. Däremot går det att urskönja mönster som bidrar med viktig information om byggnadens dynamiska egenskaper. Avslutningsvis, baserat på byggnadens naturliga egenfrekvens framhåller den här studien byggnadens styvhet framför dess massa då byggnaden i fråga stabiliseras med KL-trä och har upp till 16 våningar.
54

Named Entity Recognition för Klassificering av Rubriker i Fakturor / Classification of Invoice Headers using Named Entity Recognition

Karlsson, Ludvig, Gyllström, Benjamin January 2021 (has links)
Fakturor är en viktig källa av information för företag. Två exempel på viktiga fält i en faktura kan vara, hur mycket pengar som ska betalas och faktura id. På grund av olika format och innehåll i fakturor som skiljer sig åt är extraktionen av information från dessa fakturor ofta en manuell process som kräver mycket tid. För att kunna spara viktig information från semi-strukturerade dokument som fakturor så måste vissa företag lägga ner mycket manuellt arbete. Detta arbete inkluderar att behöva förstå fakturan och därefter veta vilket innehåll som är av intresse för företaget. Detta arbete kan ta mycket tid och därför hade en automatisering av denna process varit av stort intresse. I denna forskningen används named entity recognition för att lösa problemet. De frågor som forskningen besvarar är: Hur effektiv named entity recognition är för klassificering av rubriker i fakturor, samt hur mycket effektiviteten kan öka vid komplettering av ytterligare komponenter. Named entity recognition används för att kategorisera entiteter som i detta fallet är rubriker för fält i fakturor. Modellen som skapas ska avgöra om rubriker i fakturan kan kategoriseras under någon av kategorierna: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount eller currency. Forskningen försöker endast göra en proof of concept för att se om denna algoritm kan användas för att minska tiden av manuellt arbete. Produktionsmodellen som skapas evalueras med måttet f1-score. Den får med denna metod resultatet 79 av 100. Detta resultatet antyder på att named entity recognition kan användas i ett verkligt scenario för att identifiera rubriker av intresse i en faktura. Men för att få så bra resultat som möjligt så bör modellen kombineras med en lösning som identifierar fält med hjälp av dess data. / Invoices are an important source of information for businesses. Two examples of important fields in an invoice could be the amount of money to be paid and the invoice Id. Due to the different formats and content of invoices, the extraction of information from these is often a manual and time consuming process. In order to save important information from semi-structured documents such as invoices, some companies have to put in a lot of manual work. This work includes understanding the invoice and then knowing what content is of interest to the company. This work can take a lot of time and therefore an automation of this process would be of great interest. In this research named entity recognition is used to solve the mentioned problem. The topics for this research are: How effective named entity recognition is for classification of headers in invoices, as well as how much the efficiency can be improved by complementing with further components. Named entity recognition is used to categorize entities. In this case the entities are the headings of the invoice. The model that is created must determine whether headings in the invoice can be categorized under one of the following categories: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount or currency. This research tries to make a proof of concept to discover if this algorithm can be used to reduce the time spent on manual work. The production model that is created is evaluated with the f1-score measurement. With this method, it gets a result of 79 out of 100. This result indicates that named entity recognition can be used by companies in real-world scenarios to identify headings in invoices. But to get the best results possible, the model should also be combined with a solution that identifies fields using its corresponding data.
55

Deep Learning för klassificering av kundsupport-ärenden

Jonsson, Max January 2020 (has links)
Företag och organisationer som tillhandahåller kundsupport via e-post kommer över tid att samla på sig stora mängder textuella data. Tack vare kontinuerliga framsteg inom Machine Learning ökar ständigt möjligheterna att dra nytta av tidigare insamlat data för att effektivisera organisationens framtida supporthantering. Syftet med denna studie är att analysera och utvärdera hur Deep Learning kan användas för att automatisera processen att klassificera supportärenden. Studien baseras på ett svenskt företags domän där klassificeringarna sker inom företagets fördefinierade kategorier. För att bygga upp ett dataset extraherades supportärenden inkomna via e-post (par av rubrik och meddelande) från företagets supportdatabas, där samtliga ärenden tillhörde en av nio distinkta kategorier. Utvärderingen gjordes genom att analysera skillnaderna i systemets uppmätta precision då olika metoder för datastädning användes, samt då de neurala nätverken byggdes upp med olika arkitekturer. En avgränsning gjordes att endast undersöka olika typer av Convolutional Neural Networks (CNN) samt Recurrent Neural Networks (RNN) i form av både enkel- och dubbelriktade Long Short Time Memory (LSTM) celler. Resultaten från denna studie visar ingen ökning i precision för någon av de undersökta datastädningsmetoderna. Dock visar resultaten att en begränsning av den använda ordlistan heller inte genererar någon negativ effekt. En begränsning av ordlistan kan fortfarande vara användbar för att minimera andra effekter så som exempelvis träningstiden, och eventuellt även minska risken för överanpassning. Av de undersökta nätverksarkitekturerna presterade CNN bättre än RNN på det använda datasetet. Den mest gynnsamma nätverksarkitekturen var ett nätverk med en konvolution per pipeline som för två olika test-set genererade precisioner på 79,3 respektive 75,4 procent. Resultaten visar också att några kategorier är svårare för nätverket att klassificera än andra, eftersom dessa inte är tillräckligt distinkta från resterande kategorier i datasetet. / Companies and organizations providing customer support via email will over time grow a big corpus of text documents. With advances made in Machine Learning the possibilities to use this data to improve the customer support efficiency is steadily increasing. The aim of this study is to analyze and evaluate the use of Deep Learning methods for automizing the process of classifying support errands. This study is based on a Swedish company’s domain where the classification was made within the company’s predefined categories. A dataset was built by obtaining email support errands (subject and body pairs) from the company’s support database. The dataset consisted of data belonging to one of nine separate categories. The evaluation was done by analyzing the alteration in classification accuracy when using different methods for data cleaning and by using different network architectures. A delimitation was set to only examine the effects by using different combinations of Convolutional Neural Networks (CNN) and Recurrent Neural Networks (RNN) in the shape of both unidirectional and bidirectional Long Short Time Memory (LSTM) cells. The results of this study show no increase in classification accuracy by any of the examined data cleaning methods. However, a feature reduction of the used vocabulary is proven to neither have any negative impact on the accuracy. A feature reduction might still be beneficial to minimize other side effects such as the time required to train a network, and possibly to help prevent overfitting. Among the examined network architectures CNN were proven to outperform RNN on the used dataset. The most accurate network architecture was a single convolutional network which on two different test sets reached classification rates of 79,3 and 75,4 percent respectively. The results also show some categories to be harder to classify than others, due to them not being distinct enough towards the rest of the categories in the dataset.
56

De Tre Små Husen

Pokidko, Luna Madeleine January 2012 (has links)
Detta arbete är en studie i hållbar gestaltning, där de många teoretiska principer appliceras på tre mycket olika platser på jorden. Tre ekologiskt hållbara enfamiljshus projekteras i Sibirien, i sydöstra Spanien, och i Stockholms inre skärgård. Husen är helt olika. Vitruvius sade: "Vi måste börja med att beakta de länder och de klimat som hus skall byggas i, för att gestalta byggnaderna rätt. En typ av hus är lämplig för Egypten, en annan för Spanien, och ytterligare en för Rom. Detta för att en del av jorden ligger rakt under solens bana, en annan långt borta från den, medan den tredje ligger emellan de två. "
57

Designing a text-based AI scheduling assistant chatbot for a business environment. : A case study of a mobile-based AI scheduling assistant app.

Shih, Hau-Ben Benjamin January 2021 (has links)
Scheduling a time to meet can be time-consuming, especially when coordinating with email. It could be challenging for business people when each participant is required to email back and forth to propose their availability, matching each other's time availability, and finding a suitable location to meet. It is even worse when participants must reschedule the entire meeting.   This thesis aims to design and develop an artificial intelligence (AI) scheduling assistant chatbot mobile app that could assist people in scheduling meetings efficiently in the business environment. The research process involves two rounds of design iterations. In the first design iteration, the goal was to explore and test the possible ways to design the chatbot. In the second design iteration, the goal was to learn from the first iteration and improve the design to fulfil the users' needs. The results implied five options for designers to consider when designing an AI assistant chatbot for the business environment. The considerations include the (1) maturity of natural language processing, (2) instructions to new users, (3) feedback provided by the AI assistant, (4) effort of typing messages, and (5) personality of the AI assistant. / Det kan vara tidskrävande att planera en tid att träffas, särskilt när man samordnar med e-post. Det kan vara utmanande för affärsmän när varje deltagare måste skicka e-post fram och tillbaka för att föreslå deras tillgänglighet, matcha varandras tillgänglighet och hitta en lämplig plats att möta. Det är ännu värre när deltagarna måste planera om hela mötet. Denna avhandling syftar till att utforma och utveckla en artificiell intelligens (AI) schemaläggningsassistent chatbot mobilapp som kan hjälpa människor att schemalägga möten effektivt i affärsmiljön. Forskningsprocessen innefattar två omgångar med design-iterationer. I den första designversionen var målet att utforska och testa möjliga sätt att utforma chatboten. I den andra designiterationen var målet att lära av den första iteration och förbättra designen för att uppfylla användarnas behov. Resultaten innebar fem alternativ för designers att överväga när de designade en AI-assistent-chatbot för affärsmiljön. Övervägandena inkluderar (1) mognad för naturlig språkbehandling, (2) instruktioner till nya användare, (3) feedback från AI-assistenten, (4) ansträngning att skriva meddelanden och (5) AI-assistentens personlighet.
58

Graph Neural Networks for Article Recommendation based on Implicit User Feedback and Content

Bereczki, Márk January 2021 (has links)
Recommender systems are widely used in websites and applications to help users find relevant content based on their interests. Graph neural networks achieved state- of-the- art results in the field of recommender systems, working on data represented in the form of a graph. However, most graph- based solutions hold challenges regarding computational complexity or the ability to generalize to new users. Therefore, we propose a novel graph- based recommender system, by modifying Simple Graph Convolution, an approach for efficient graph node classification, and add the capability of generalizing to new users. We build our proposed recommender system for recommending the articles of Peltarion Knowledge Center. By incorporating two data sources, implicit user feedback based on pageview data as well as the content of articles, we propose a hybrid recommender solution. Throughout our experiments, we compare our proposed solution with a matrix factorization approach as well as a popularity- based and a random baseline, analyse the hyperparameters of our model, and examine the capability of our solution to give recommendations to new users who were not part of the training data set. Our model results in slightly lower, but similar Mean Average Precision and Mean Reciprocal Rank scores to the matrix factorization approach, and outperforms the popularity- based and random baselines. The main advantages of our model are computational efficiency and its ability to give relevant recommendations to new users without the need for retraining the model, which are key features for real- world use cases. / Rekommendationssystem används ofta på webbplatser och applikationer för att hjälpa användare att hitta relevant innehåll baserad på deras intressen. Med utvecklingen av grafneurala nätverk nådde toppmoderna resultat inom rekommendationssystem och representerade data i form av en graf. De flesta grafbaserade lösningar har dock svårt med beräkningskomplexitet eller att generalisera till nya användare. Därför föreslår vi ett nytt grafbaserat rekommendatorsystem genom att modifiera Simple Graph Convolution. De här tillvägagångssätt är en effektiv grafnodsklassificering och lägga till möjligheten att generalisera till nya användare. Vi bygger vårt föreslagna rekommendatorsystem för att rekommendera artiklarna från Peltarion Knowledge Center. Genom att integrera två datakällor, implicit användaråterkoppling baserad på sidvisningsdata samt innehållet i artiklar, föreslår vi en hybridrekommendatörslösning. Under våra experiment jämför vi vår föreslagna lösning med en matrisfaktoriseringsmetod samt en popularitetsbaserad och en slumpmässig baslinje, analyserar hyperparametrarna i vår modell och undersöker förmågan hos vår lösning att ge rekommendationer till nya användare som inte deltog av träningsdatamängden. Vår modell resulterar i något mindre men liknande Mean Average Precision och Mean Reciprocal Rank poäng till matrisfaktoriseringsmetoden och överträffar de popularitetsbaserade och slumpmässiga baslinjerna. De viktigaste fördelarna med vår modell är beräkningseffektivitet och dess förmåga att ge relevanta rekommendationer till nya användare utan behov av omskolning av modellen, vilket är nyckelfunktioner för verkliga användningsfall.
59

Natural Language Processing Model for Log Analysis to Retrieve Solutions For Troubleshooting Processes / En NLP-model för analys av loggar för att inhämta lösningar till felsökningsprocesser

Marzo i Grimalt, Núria January 2021 (has links)
In the telecommunications industry, one of the most time-consuming tasks is troubleshooting and the resolution of Trouble Report (TR) tickets. This task involves the understanding of textual data which can be challenging due to its domain- and company-specific features. The text contains many abbreviations, typos, tables as well as numerical information. This work tries to solve the issue of retrieving solutions for new troubleshooting reports in an automated way by using a Natural Language Processing (NLP) model, in particular Bidirectional Encoder Representations from Transformers (BERT)- based approaches. It proposes a text ranking model that, given a description of a fault, can rank the best possible solutions to that problem using answers from past TRs. The model tackles the trade-off between accuracy and latency by implementing a multi-stage BERT-based architecture with an initial retrieval stage and a re-ranker stage. Having a model that achieves a desired accuracy under a latency constraint allows it to be suited for industry applications. The experiments to evaluate the latency and the accuracy of the model have been performed on Ericsson’s troubleshooting dataset. The evaluation of the proposed model suggest that it is able to retrieve and re-rank solution for TRs with a significant improvement compared to a non-BERT model. / En av de mest tidskrävande uppgifterna inom telekommunikationsindustrin är att felsöka och hitta lösningar till felrapporter (TR). Denna uppgift kräver förståelse av textdata, som försvåras as att texten innehåller företags- och domänspecifika attribut. Texten innehåller typiskt sett många förkortningar, felskrivningar och tabeller blandat med numerisk information. Detta examensarbete ämnar att förenkla inhämtningen av lösningar av nya felsökningar på ett automatiserat sätt med hjälp av av naturlig språkbehandling (NLP), specifikt modeller baserade på dubbelriktad kodrepresentation (BERT). Examensarbetet föreslår en textrankningsmodell som, givet en felbeskrivning, kan rangordna de bästa möjliga lösningarna till felet baserat på tidigare felsökningar. Modellen hanterar avvägningen mellan noggrannhet och fördröjning genom att implementera den dubbelriktade kodrepresentationen i två faser: en initial inhämtningsfas och en omordningsfas. För industrianvändning krävs att modellen uppnår en given noggrannhet med en viss tidsbegränsning. Experimenten för att utvärdera noggrannheten och fördröjningen har utförts på Ericssons felsökningsdata. Utvärderingen visar att den föreslagna modellen kan hämta och omordna data för felsökningar med signifikanta förbättringar gentemot modeller utan dubbelriktad kodrepresentation.
60

Exploring Construction of a Company Domain-Specific Knowledge Graph from Financial Texts Using Hybrid Information Extraction

Jen, Chun-Heng January 2021 (has links)
Companies do not exist in isolation. They are embedded in structural relationships with each other. Mapping a given company’s relationships with other companies in terms of competitors, subsidiaries, suppliers, and customers are key to understanding a company’s major risk factors and opportunities. Conventionally, obtaining and staying up to date with this key knowledge was achieved by reading financial news and reports by highly skilled manual labor like a financial analyst. However, with the development of Natural Language Processing (NLP) and graph databases, it is now possible to systematically extract and store structured information from unstructured data sources. The current go-to method to effectively extract information uses supervised machine learning models, which require a large amount of labeled training data. The data labeling process is usually time-consuming and hard to get in a domain-specific area. This project explores an approach to construct a company domain-specific Knowledge Graph (KG) that contains company-related entities and relationships from the U.S. Securities and Exchange Commission (SEC) 10-K filings by combining a pre-trained general NLP with rule-based patterns in Named Entity Recognition (NER) and Relation Extraction (RE). This approach eliminates the time-consuming data-labeling task in the statistical approach, and by evaluating ten 10-k filings, the model has the overall Recall of 53.6%, Precision of 75.7%, and the F1-score of 62.8%. The result shows it is possible to extract company information using the hybrid methods, which does not require a large amount of labeled training data. However, the project requires the time-consuming process of finding lexical patterns from sentences to extract company-related entities and relationships. / Företag existerar inte som isolerade organisationer. De är inbäddade i strukturella relationer med varandra. Att kartlägga ett visst företags relationer med andra företag när det gäller konkurrenter, dotterbolag, leverantörer och kunder är nyckeln till att förstå företagets huvudsakliga riskfaktorer och möjligheter. Det konventionella sättet att hålla sig uppdaterad med denna viktiga kunskap var genom att läsa ekonomiska nyheter och rapporter från högkvalificerad manuell arbetskraft som till exempel en finansanalytiker. Men med utvecklingen av ”Natural Language Processing” (NLP) och grafdatabaser är det nu möjligt att systematiskt extrahera och lagra strukturerad information från ostrukturerade datakällor. Den nuvarande metoden för att effektivt extrahera information använder övervakade maskininlärningsmodeller som kräver en stor mängd märkta träningsdata. Datamärkningsprocessen är vanligtvis tidskrävande och svår att få i ett domänspecifikt område. Detta projekt utforskar ett tillvägagångssätt för att konstruera en företagsdomänspecifikt ”Knowledge Graph” (KG) som innehåller företagsrelaterade enheter och relationer från SEC 10-K-arkivering genom att kombinera en i förväg tränad allmän NLP med regelbaserade mönster i ”Named Entity Recognition” (NER) och ”Relation Extraction” (RE). Detta tillvägagångssätt eliminerar den tidskrävande datamärkningsuppgiften i det statistiska tillvägagångssättet och genom att utvärdera tio SEC 10-K arkiv har modellen den totala återkallelsen på 53,6 %, precision på 75,7 % och F1-poängen på 62,8 %. Resultatet visar att det är möjligt att extrahera företagsinformation med hybridmetoderna, vilket inte kräver en stor mängd märkta träningsdata. Projektet kräver dock en tidskrävande process för att hitta lexikala mönster från meningar för att extrahera företagsrelaterade enheter och relationer.

Page generated in 0.065 seconds