• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 217
  • 21
  • Tagged with
  • 238
  • 113
  • 89
  • 72
  • 69
  • 50
  • 43
  • 41
  • 32
  • 27
  • 26
  • 24
  • 24
  • 23
  • 23
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
211

Dockningsstation

Söderman, Hampus, Erik, Hedin January 2016 (has links)
Denna rapport behandlar arbetet med att ta fram en ny produkt med ändamålet att underlätta för jägare som jagar med hund. I ungefär tio år har så kallade GPS-pejlar använts av jägare. Hunden utrustas med ett sändarhalsband och hundföraren tar med sig en handenhet på vilken denne kan se vart hunden befinner sig. Genom en undersökning riktad mot hundförare som görs i projektets startskede klargörs dock ett behov av ett nytt sätt att bära handenheten vid jakt, någon typ av dockningsstation. Något som tillåter hundföraren att kunna utnyttja pejlens praktiska funktioner och fortfarande ha båda händer fria till att exempelvis hålla i sitt vapen eller klättra i branta sluttningar. En målsättning skapas för projektet, att ta fram ett produktkoncept vilket utgör en dockningsstation för en pejl av modellen Astro 320 från tillverkaren Garmin. Produkten skall vara tillförlitlig i fält, tillåta hundföraren att i alla lägen ha båda händer tillgängliga och inte begränsa varken rörlighet eller skytte. Utifrån den undersökning som görs skapas även en kravspecifikation vilken används som riktlinje i arbetet med dockningsstationen. I projektets slutskede genereras ett koncept bestående av tre delsystem, ett enhetsfäste vilket fäster i handenheten, ett armfäste vilket sitter som ett armband runt hundförarens underarm samt en länk vilken kopplar samman de två övriga delsystemen. Länken består av två separata delar vilka enkelt kan docka stabilt i varandra och lika enkelt tas isär och erbjuder hundföraren val av vart denne vill bära handenheten samt vilken vinkel handenheten har gentemot underarmen. Armfästet är utrustat med ett särskilt designat klickspänne vilket genom två lägen både erbjuder stabil fastspänning av dockningsstationen och snabb justeringsmöjlighet av handenhetens placering på underarmen. En fysisk funktionsprototyp tillverkas för att utföra tester på och utvärdera resultatet av projektet. Efter tester kan det konstateras att samtliga krav i kravspecifikationen uppfyllts, att projektets målsättning har nåtts och att konceptet anses ha god potential för vidareutveckling till en färdig välfungerande produkt. / This report reviews the process of designing a new product with the purpose of aiding hunters using dogs. Since approximately 10 years GPS tacking devices have been used by hunters using dogs. The dog is equipped with a transmitting collar and the hunter brings a hand held receiver unit. The hunter can keep track of the dog’s current position through the handheld units display. But through a survey targeted at hunters, which is done in the first phase of the project, a desire for a new method of carrying the unit, some sort of docking system, is made clear. A device which would allow the user to utilize the handheld unites practical features while retaining full capability to use both hands to hold their weapon or climb steep slopes. An objective for the project is formed, to design a product concept for a docking station made to fit the product Garmin Astro 320. The docking station should be reliable during hunting, allow the user to always retain the possibility of using both hands and it shouldn’t decrease neither movement nor the ability to shoot. Based on the survey a list of requirements is made which acts as guidelines during the design process. In the later phases of the project a product concept is designed consisting of three subsystems, a unit attachment which attaches to the handheld unit, an arm attachment which mounts the users forearm and a link connecting the other subsystems. The link consists of two separate parts that easily dock with each other and as easily are separated allowing the user to choose where to carry the unit and at what angle it sits on the forearm. The arm attachment is equipped with a specially designed clip buckle with two modes, offering both a stabile attachment to the arm and the possibility to quickly adjust the attachments positioning around the forearm. A physical prototype is made for testing in order to evaluate the projects results. After completed tests the results establish that all the requirements have been met, the project obtained its objective and the product concept has a lot of potential to further develop into a functioning product.
212

Design av hemsida för att underlätta sökning av spel

Björnström, Ebba, Carlsson, Josefin January 2022 (has links)
Studiens syfte var att undersöka hur sökning/filtrering av spel och information för enskilda spel kan förbättras på hemsidan Gamilab. En enkät för användare av hemsidan besvarades av 48 personer och användartester som undersökte hemsidans användarvänlighet och mentala ansträngning genomfördes med fyra personer utan erfarenhet av hemsidan. Baserat på litteratur, resultatet från enkäten och resultatet från användartesterna, utvecklades en prototyp med fler filtreringsmöjligheter och mer information för enskilda spel. Användartester för att undersöka användarvänlighet och mentala ansträngning för prototypen genomfördes med samma deltagare som i tidigare användartester. Ett riktat beroende t-test utfördes och resultatet visade en signifikant minskning av upplevd mental ansträngning för prototypen jämfört med hemsidan. Användartesterna på prototypen visade även att deltagarnas attityd mot prototypen överlag var positiv och deltagarna kritiserade prototypen mindre än hemsidan. / The purpose of the study was to investigate how search/filtering of games and information for individual games could be improved on the website Gamilab. A survey was answered by 48 users of the website and user tests that examined the website’s usability and mental effort were conducted with four people without prior experience of the website. Based on literature, the results of the survey and the results of the user tests, a prototype was developed with more filtering options and more information for individual games. User tests to examine the prototype’s usability and mental effort were performed with the same participants as in previous user tests. A one-tailed paired samples t-test was conducted and the result showed a significant decrease in experienced mental effort for the prototype compared to the website. The user tests of the prototype also showed that the participants’ attitudes towards the website were generally positive, and the participants criticised the prototype less than the website.
213

Informationspraktik i vardagen samt dess innebörd under en global pandemi : En studie av SFI-studenter / Information practice in everyday life and its meaning during a global pandemic : A study of SFI-students

Sandén, David, Tomas Simao, Vicente January 2021 (has links)
The intention of this thesis is to take a closer look at the information practices of SFI students, a group that is not researched much in regards to their behavior of handling, processing and searching for information and news. This was done using a survey that was sent out to 90 students at an SFI school and it resulted in 59 students answering, furthermore this empirical data was then analyzed using Reckwitz (2002) basic ideas about practice theory, further built on Shove, Pantzar & Watsons (2012) thoughts on the different concepts, as well as Savolainen's (2007, 2008) thoughts on information practice. Findings show that a majority of the respondents search for both information and news with the help of the internet, and furthermore is sharing as well as receiving information and news to and from others of great importance. The study also finds that the respondents think of information as knowledge and learning, and that information and news is something that can be helpful in regards to being aware of ones surroundings and the rest of the world. Findings show as well that the global COVID-19 pandemic has had an impact in regards to how the respondents search for information and news, and how they perceive it.
214

" Det är ju superenkelt att fejka grejer idag" : En intervjustudie om lärares tankar om informationssökning och källkritik inom samhällskunskapsämnet 7–9 / "It´s super easy to fake stuff today" : An interview study on teachers' thoughts on information retrieval and source criticism in civics 7-9

Ronge, Erik January 2021 (has links)
Det källkritiska förhållningssättet utgör en viktig del inom samhällskunskapsämnet (Skolverket, 2019). I takt med den snabba digitala utvecklingen har mängden information ökat i omfattning, vilket fått som konsekvens att desinformation och konspirationer blivit allt vanligare (Önnerfors, 2021). En viktig motåtgärd är undervisning inom informationssökning och källkritik, eftersom det utvecklar det källkritiska förhållningssättet. Undervisningen utformning inom informationssökning och källkritik är därför intressant och viktigt att belysa och undersöka. Syftet med intervjustudien är att lyfta fram tankar från samhällskunskapslärare 7–9 kring informationssökning och källkritik inom samhällskunskapsämnet. Därtill ämnas faktorer för framgångsrik undervisning kring det källkritiska området behandlas liksom framtida utmaningar och utvecklingspunkter. Studiens teoretiska grund är fenomenologisk, vilket ger en inblick i lärarnas tankar och uppfattningar. Baserat på ett strategiskt urval utgör fem samhällskunskapslärare 7–9 underlaget i denna intervjustudie, vilken kan ses som ett bidrag till den fortsatta forskningen inom området. Intervjustudien visar på att de intervjuade samhällskunskapslärarna besitter goda kunskaper inom informationssökning och det källkritiska området. En viktig faktor är att behandla informationssökning och källkritik som både ett separat och ett enhetligt område. Vidare är det av vikt att utgå ifrån elevnära exempel, eftersom det främjar lärandet. Andra faktorer som påverkar är styrning av resurser såsom fortbildning och möjligheter till ämnesövergripande samarbeten, vilket denna studie visar behov av att utveckla. Det är av vikt att elever får en allsidig undervisning inom området. Förmågan till ett källkritiskt förhållningssätt är en viktigt för att kunna verka som en aktiv samhällsmedborgare. I förlängningen är ett källkritiskt förhållningssätt en viktig förutsättning för att fortsatt upprätthålla förtroende för demokrati, demokratiska institutioner och vetenskapen och dess forskning. / The source-critical approach constitutes an important part in civics (Skolverket, 2019). Alongside with the rapid digital development, the amount of information has increased in scope, which has had the consequence that disinformation and conspiracies have become increasingly common (Önnerfors, 2021). Teaching in information retrieval and source criticism is an important countermeasure, as it develops the source-critical approach. The teaching design in information retrieval and source criticism is therefore interesting and important to illuminate and investigate. The aim of the interview study is to highlight thoughts from teachers in civics in grade 7–9 about information retrieval and source criticism in civics.  In addition, factors for successful teaching around the source-critical area are addressed, as well as future challenges and development points. The theoretical basis of the study is phenomenological, which gives an insight into the teachers' thoughts and perceptions. Based on a strategic selection, five civic teachers in grade 7–9 form the basis of this interview study which can be seen as a contribution to the ongoing research in information retrieval and source criticism.  The interview study shows that the interviewed civic teachers possess good knowledge in information retrieval and the source-critical area. An important factor is to treat information retrieval and source criticism both as a separate and a uniform area. Furthermore, it is important to start from student-friendly examples, as it promotes learning. Other factors that influence is the management of resources such as continuing education and opportunities for interdisciplinary collaborations, which this study points out a need to develop. It is important that students receive a comprehensive education in the area. The ability to meet different types of information is important to act as an active citizen. In the long run, a source-critical approach is an important prerequisite for continuing to maintain confidence in democracy and science.
215

Investigating Search Algorithms for Shorter Documents : A study on how to search for titles / Undersökning av sökalgoritmer för kortare dokument : En studie i hur man söker på titlar

Rostami, Lara January 2022 (has links)
The objective of this thesis was to explore whether there are alternatives to the established search ranking algorithm Best Matching 25 (BM25) when searching for shorter documents, in particular for the search of titles. Five search engines were compared to BM25, three of them being variants of the BM25 algorithm and the other two being based on a binary independence model that does not take term frequency or length normalisation into account. The evaluation data consisted of titles of Wikipedia articles from the fair ranking track retrieved from the main conference in the field, Text REtrieval Conference (TREC), and user logs collected from user search queries from Spotify. It was found that none of the alternative models consistently outperformed the standard BM25 for a query q where the number of words in q ranges between 1 ≤ |q| ≤ 8. Yet, for shorter queries |q| ≤ 3, the binary independence model and BM25 adaptive term (BM25adpt) outperformed the standard BM25. Furthermore, a 1% increase in Mean Average Precision (MAP) score was acquired with a binary independence model and BM25adpt compared to BM25 when sampling queries from the user log data. However, because of the bias in the evaluation data together with the small percentage increase in MAP score, it was concluded that the potential benefit of using the methods explored in this thesis is not enough to justify switching from the BM25 algorithm when searching for titles. / Målet med avhandlingen var att undersöka om det finns alternativ till den vedertagna sökalgoritmen Best matching 25 (BM25) vid sökning bland kortare document, närmare bestämt vid titelsökning. Fem sökmotorer jämfördes med BM25, tre av dem var varianter av BM25 och de andra två varianter av en binär oberoende modell. Den senare modellen använder sig inte av ordfrekvens eller längdnormalisering i sin beräkning, till skillnad från de tidigare modellerna. Evalueringsdatan bestod av titlar från Wikipedia som hämtats från den främsta konferensen inom informationssökning, Text retrieval conference (TREC), och även användarloggar hämtade från användarsökningar från Spotifys datasamling. Ingen av de alternativa modellerna presterade konsekvent bättre än BM25 när antalet ord i söktexten q varierade mellan 1 ≤ |q| ≤ 8. För kortare söktexter |q| ≤ 3 kunde både en binär oberoende modell och en BM25 adaptive term-modell (BM25adpt) prestera bättre än BM25. Vidare så kunde man se en ökning på den genomsnittliga precisionen (MAP) på 1% både hos den binära oberoende modellen och BM25adpt-modellen jämfört med BM25 när flera stickprov från användarloggdatan gjordes. På grund av att evalueringsdatan har en bias tillsammans med att den potentiella ökningen av MAP endast når upp till 1% drogs slutsatsen att fördelen med att använda en annan modell inte rättfärdigar bytet från BM25 vid titelsökning.
216

Expressive Automatic Music Transcription : Using hard onset detection to transcribe legato slurs for violin / Expressiv Automatisk Musiktranskription : Användning av hård ansatsdetektion för transkription av legatobågar för violin

Falk, Simon January 2022 (has links)
Automatic Music Transcriptions systems such as ScoreCloud aims to convert audio signals to sheet music. The information contained in sheet music can be divided into increasingly descriptive layers, where most research on Automatic Music Transcription is restricted on note-level transcription and disregard expressive markings such as legato slurs. In case of violin playing, legato can be determined from the articulated, "hard" onsets that occur on the first note of a legato slur. We detect hard onsets in violin recordings by three different methods — two based on signal processing and one on Convolutional Neural Networks. ScoreCloud notes are then labeled as articulated or slurred, depending on the distance to the closest hard onset. Finally, we construct legato slurs between articulated notes, and count the number of notes where the detected slur label matches ground-truth. Our best-performing method correctly labels notes in 82.9% of the cases, when averaging on the test set recordings. The designed system serves as a proof-of-concept for including expressive notation within Automatic Music Transcription. Vibrato was seen to have a major negative impact on the performance, while the method is less affected by varying sound quality and polyphony. Our system could be further improved by using phase input, data augmentation, or high-dimensional articulation representations. / System för automatisk musiktranskription såsom ScoreCloud syftar till att konvertera ljudsignaler till notskrift. Informationen i en notbild kan delas in i flera lager med en ökande nivå av beskrivning, där huvuddelen av forskningen har begränsats till transkription av noter och har bortsett från uttrycksmarkeringar såsom legatobågar. I fallet med violin kan legato bestämmas från de artikulerade, ’hårda’ ansatser som uppkommer vid den första noten i en legatobåge. Vi detekterar här hårda ansatser i inspelningar av violin genom tre olika metoder — två baserade på signalbehandling och en baserat på faltningsnätverk. Noter från ScoreCloud märks sedan som artikulerade eller bundna, beroende på det närmaste avståndet till en hård ansats. Slutligen konstrueras legatobågar mellan artikulerade noter, och vi räknar antalet noter där den predicerade märkningen stämmer med den sanna. Vår bäst presterande metod gör en korrekt märkning i 82.9% i genomsnitt taget över testinspelningarna. Vårt system validerar idén att innefatta uttrycksmarkeringar i automatisk musiktranskription. Vibrato observerades påverka resultatet mycket negativt, medan metoden är mindre påverkad av varierande ljudkvalitet och polyfoni. Vårt system kan förbättras ytterligare genom användandet av fas i indata, datautvidgning och högdimensionella representationer av artikulation.
217

Transfer Learning in Deep Structured Semantic Models for Information Retrieval / Kunskapsöverföring mellan datamängder i djupa arkitekturer för informationssökning

Zarrinkoub, Sahand January 2020 (has links)
Recent approaches to IR include neural networks that generate query and document vector representations. The representations are used as the basis for document retrieval and are able to encode semantic features if trained on large datasets, an ability that sets them apart from classical IR approaches such as TF-IDF. However, the datasets necessary to train these networks are not available to the owners of most search services used today, since they are not used by enough users. Thus, methods for enabling the use of neural IR models in data-poor environments are of interest. In this work, a bag-of-trigrams neural IR architecture is used in a transfer learning procedure in an attempt to increase performance on a target dataset by pre-training on external datasets. The target dataset used is WikiQA, and the external datasets are Quora’s Question Pairs, Reuters’ RCV1 and SQuAD. When considering individual model performance, pre-training on Question Pairs and fine-tuning on WikiQA gives us the best individual models. However, when considering average performance, pre-training on the chosen external dataset result in lower performance on the target dataset, both when all datasets are used together and when they are used individually, with different average performance depending on the external dataset used. On average, pre-training on RCV1 and Question Pairs gives the lowest and highest average performance respectively, when considering only the pre-trained networks. Surprisingly, the performance of an untrained, randomly generated network is high, and beats the performance of all pre-trained networks on average. The best performing model on average is a neural IR model trained on the target dataset without prior pre-training. / Nya modeller inom informationssökning inkluderar neurala nät som genererar vektorrepresentationer för sökfrågor och dokument. Dessa vektorrepresentationer används tillsammans med ett likhetsmått för att avgöra relevansen för ett givet dokument med avseende på en sökfråga. Semantiska särdrag i sökfrågor och dokument kan kodas in i vektorrepresentationerna. Detta möjliggör informationssökning baserat på semantiska enheter, vilket ej är möjligt genom de klassiska metoderna inom informationssökning, som istället förlitar sig på den ömsesidiga förekomsten av nyckelord i sökfrågor och dokument. För att träna neurala sökmodeller krävs stora datamängder. De flesta av dagens söktjänster används i för liten utsträckning för att möjliggöra framställande av datamängder som är stora nog att träna en neural sökmodell. Därför är det önskvärt att hitta metoder som möjliggör användadet av neurala sökmodeller i domäner med små tillgängliga datamängder. I detta examensarbete har en neural sökmodell implementerats och använts i en metod avsedd att förbättra dess prestanda på en måldatamängd genom att förträna den på externa datamängder. Måldatamängden som används är WikiQA, och de externa datamängderna är Quoras Question Pairs, Reuters RCV1 samt SquAD. I experimenten erhålls de bästa enskilda modellerna genom att föträna på Question Pairs och finjustera på WikiQA. Den genomsnittliga prestandan över ett flertal tränade modeller påverkas negativt av vår metod. Detta äller både när samtliga externa datamänder används tillsammans, samt när de används enskilt, med varierande prestanda beroende på vilken datamängd som används. Att förträna på RCV1 och Question Pairs ger den största respektive minsta negativa påverkan på den genomsnittliga prestandan. Prestandan hos en slumpmässigt genererad, otränad modell är förvånansvärt hög, i genomsnitt högre än samtliga förtränade modeller, och i nivå med BM25. Den bästa genomsnittliga prestandan erhålls genom att träna på måldatamängden WikiQA utan tidigare förträning.
218

Employing a Transformer Language Model for Information Retrieval and Document Classification : Using OpenAI's generative pre-trained transformer, GPT-2 / Transformermodellers användbarhet inom informationssökning och dokumentklassificering

Bjöörn, Anton January 2020 (has links)
As the information flow on the Internet keeps growing it becomes increasingly easy to miss important news which does not have a mass appeal. Combating this problem calls for increasingly sophisticated information retrieval methods. Pre-trained transformer based language models have shown great generalization performance on many natural language processing tasks. This work investigates how well such a language model, Open AI’s General Pre-trained Transformer 2 model (GPT-2), generalizes to information retrieval and classification of online news articles, written in English, with the purpose of comparing this approach with the more traditional method of Term Frequency-Inverse Document Frequency (TF-IDF) vectorization. The aim is to shed light on how useful state-of-the-art transformer based language models are for the construction of personalized information retrieval systems. Using transfer learning the smallest version of GPT-2 is trained to rank and classify news articles achieving similar results to the purely TF-IDF based approach. While the average Normalized Discounted Cumulative Gain (NDCG) achieved by the GPT-2 based model was about 0.74 percentage points higher the sample size was too small to give these results high statistical certainty. / Informationsflödet på Internet fortsätter att öka vilket gör det allt lättare att missa viktiga nyheter som inte intresserar en stor mängd människor. För att bekämpa detta problem behövs allt mer sofistikerade informationssökningsmetoder. Förtränade transformermodeller har sedan ett par år tillbaka tagit över som de mest framstående neurala nätverken för att hantera text. Det här arbetet undersöker hur väl en sådan språkmodell, Open AIs General Pre-trained Transformer 2 (GPT-2), kan generalisera från att generera text till att användas för informationssökning och klassificering av texter. För att utvärdera detta jämförs en transformerbaserad modell med en mer traditionell Term Frequency- Inverse Document Frequency (TF-IDF) vektoriseringsmodell. Målet är att klargöra hur användbara förtränade transformermodeller faktiskt är i skapandet av specialiserade informationssökningssystem. Den minsta versionen av språkmodellen GPT-2 anpassas och tränas om till att ranka och klassificera nyhetsartiklar, skrivna på engelska, och uppnår liknande prestanda som den TF-IDF baserade modellen. Den GPT-2 baserade modellen hade i genomsnitt 0.74 procentenheter högre Normalized Discounted Cumulative Gain (NDCG) men provstorleken var ej stor nog för att ge dessa resultat hög statistisk säkerhet.
219

Integrating Telecommunications-Specific Language Models into a Trouble Report Retrieval Approach / Integrering av telekommunikationsspecifika språkmodeller i en metod för hämtning av problemrapporter

Bosch, Nathan January 2022 (has links)
In the development of large telecommunications systems, it is imperative to identify, report, analyze and, thereafter, resolve both software and hardware faults. This resolution process often relies on written trouble reports (TRs), that contain information about the observed fault and, after analysis, information about why the fault occurred and the decision to resolve the fault. Due to the scale and number of TRs, it is possible that a newly written fault is very similar to previously written faults, e.g., a duplicate fault. In this scenario, it can be beneficial to retrieve similar TRs that have been previously created to aid the resolution process. Previous work at Ericsson [1], introduced a multi-stage BERT-based approach to retrieve similar TRs given a newly written fault observation. This approach significantly outperformed simpler models like BM25, but suffered from two major challenges: 1) it did not leverage the vast non-task-specific telecommunications data at Ericsson, something that had seen success in other work [2], and 2) the model did not generalize effectively to TRs outside of the telecommunications domain it was trained on. In this thesis, we 1) investigate three different transfer learning strategies to attain stronger performance on a downstream TR duplicate retrieval task, notably focusing on effectively integrating existing telecommunicationsspecific language data into the model fine-tuning process, 2) investigate the efficacy of catastrophic forgetting mitigation strategies when fine-tuning the BERT models, and 3) identify how well the models perform on out-of-domain TR data. We find that integrating existing telecommunications knowledge through the form of a pretrained telecommunications-specific language model into our fine-tuning strategies allows us to outperform a domain adaptation fine-tuning strategy. In addition to this, we find that Elastic Weight Consolidation (EWC) is an effective strategy for mitigating catastrophic forgetting and attaining strong downstream performance on the duplicate TR retrieval task. Finally, we find that the generalizability of models is strong enough to perform reasonably effectively on out-of-domain TR data, indicating that the approaches may be eligible in a real-world deployment. / Vid utvecklingen av stora telekommunikationssystem är det absolut nödvändigt att identifiera, rapportera, analysera och därefter lösa både mjukvaru och hårdvarufel. Denna lösningsprocess bygger ofta på noggrant skrivna felrapporter (TRs), som innehåller information om det observerade felet och, efter analys, information om varför felet uppstod och beslutet att åtgärda felet. På grund av skalan och antalet TR:er är det möjligt att ett nyskrivet fel är mycket likt tidigare skrivna fel, t.ex. ett duplikatfel. I det här scenariot kan det vara mycket fördelaktigt att hämta tidigare skapade, liknande TR:er för att underlätta upplösningsprocessen. Tidigare arbete på Ericsson [1], introducerade en flerstegs BERT-baserad metod för att hämta liknande TRs givet en nyskriven felobservation. Detta tillvägagångssätt överträffade betydligt enklare modeller som BM-25, men led av två stora utmaningar: 1) det utnyttjade inte den stora icke-uppgiftsspecifika telekommunikationsdatan hos Ericsson, något som hade sett framgång i annat arbete [2], och 2) modellen generaliserades inte effektivt till TR:er utanför den telekommunikationsdomän som den bildades på. I den här masteruppsatsen undersöker vi 1) tre olika strategier för överföringsinlärning för att uppnå starkare prestanda på en nedströms TR dubbletthämtningsuppgift, varav några fokuserar på att effektivt integrera fintliga telekommunikationsspecifika språkdata i modellfinjusteringsprocessen, 2) undersöker effektiviteten av katastrofala missglömningsreducerande strategier vid finjustering av BERT-modellerna, och 3) identifiera hur väl modellerna presterar på TR-data utanför domänen. Resultatet är genom att integrera befintlig telekommunikationskunskap i form av en förtränad telekommunikationsspecifik språkmodell i våra finjusteringsstrategier kan vi överträffa en finjusteringsstrategi för domänanpassning. Utöver detta har vi fåt fram att EWC är en effektiv strategi för att mildra katastrofal glömska och uppnå stark nedströmsprestanda på dubbla TR hämtningsuppgiften. Slutligen finner vi att generaliserbarheten av modeller är tillräckligt stark för att prestera någorlunda effektivt på TR-data utanför domänen, vilket indikerar att tillvägagångssätten som beskrivs i denna avhandling kan vara kvalificerade i en verklig implementering.
220

Re-ranking search results with KB-BERT / Omrankning av sökresultat med KB-BERT

Viðar Kristjánsson, Bjarki January 2022 (has links)
This master thesis aims to determine if a Swedish BERT model can improve a BM25 search by re-ranking the top search results. We compared a standard BM25 search algorithm with a more complex algorithm composed of a BM25 search followed by re-ranking the top 10 results by a BERT model. The BERT model used is KB-BERT, a publicly available neural network model built by the National Library of Sweden. We fine-tuned this model to solve the specific task of evaluating the relevancy of search results. A new Swedish search evaluation dataset was automatically generated from Wikipedia text to compare the algorithms. The search evaluation dataset is a standalone product and can be beneficial for evaluating other search algorithms on Swedish text in the future. The comparison of the two algorithms resulted in a slightly better ranking for the BERT re-ranking algorithm. These results align with similar studies using an English BERT and an English search evaluation dataset. / Denna masteruppsats syftar till att avgöra om en svensk BERT-modell kan förbättra en BM25-sökning genom att ranka om de bästa sökresultaten. Vi jämförde en standard BM25-sökalgoritm med en mer komplex algoritm som består av en BM25-sökning följt av omrankning av de 10 bästa resultaten med en BERT-modell. BERT-modellen som används är KB-BERT, en allmänt tillgänglig neural nätverksmodell byggd av Kungliga biblioteket. Vi finjusterade den här modellen för att lösa den specifika uppgiften att utvärdera sökresultatens relevans. En ny svensk datamängd för utvärdering av sökresultat genererades automatiskt från Wikipedia-text för att jämföra algoritmerna. Datamängden är en fristående produkt och kan vara till nytta för att utvärdera andra sökalgoritmer på svensk text i framtiden. Jämförelsen av de två algoritmerna resulterade i en något bättre rankning för BERT-omrankningsalgoritmen. Dessa resultat överensstämmer med liknande studier som använder en engelsk BERT och en engelsk datamängd för utvärdering av sökresultat.

Page generated in 0.1359 seconds