Spelling suggestions: "subject:"ordinbäddningar"" "subject:"inbäddning""
1 |
Text ranking based on semantic meaning of sentences / Textrankning baserad på semantisk betydelse hos meningarStigeborn, Olivia January 2021 (has links)
Finding a suitable candidate to client match is an important part of consultant companies work. It takes a lot of time and effort for the recruiters at the company to read possibly hundreds of resumes to find a suitable candidate. Natural language processing is capable of performing a ranking task where the goal is to rank the resumes with the most suitable candidates ranked the highest. This ensures that the recruiters are only required to look at the top ranked resumes and can quickly get candidates out in the field. Former research has used methods that count specific keywords in resumes and can make decisions on whether a candidate has an experience or not. The main goal of this thesis is to use the semantic meaning of the text in the resumes to get a deeper understanding of a candidate’s level of experience. It also evaluates if the model is possible to run on-device and if the database can contain a mix of English and Swedish resumes. An algorithm was created that uses the word embedding model DistilRoBERTa that is capable of capturing the semantic meaning of text. The algorithm was evaluated by generating job descriptions from the resumes by creating a summary of each resume. The run time, memory usage and the ranking the wanted candidate achieved was documented and used to analyze the results. When the candidate who was used to generate the job description is ranked in the top 10 the classification was considered to be correct. The accuracy was calculated using this method and an accuracy of 68.3% was achieved. The results show that the algorithm is capable of ranking resumes. The algorithm is able to rank both Swedish and English resumes with an accuracy of 67.7% for Swedish resumes and 74.7% for English. The run time was fast enough at an average of 578 ms but the memory usage was too large to make it possible to use the algorithm on-device. In conclusion the semantic meaning of resumes can be used to rank resumes and possible future work would be to combine this method with a method that counts keywords to research if the accuracy would increase. / Att hitta en lämplig kandidat till kundmatchning är en viktig del av ett konsultföretags arbete. Det tar mycket tid och ansträngning för rekryterare på företaget att läsa eventuellt hundratals CV:n för att hitta en lämplig kandidat. Det finns språkteknologiska metoder för att rangordna CV:n med de mest lämpliga kandidaterna rankade högst. Detta säkerställer att rekryterare endast behöver titta på de topprankade CV:erna och snabbt kan få kandidater ut i fältet. Tidigare forskning har använt metoder som räknar specifika nyckelord i ett CV och är kapabla att avgöra om en kandidat har specifika erfarenheter. Huvudmålet med denna avhandling är att använda den semantiska innebörden av texten iCV:n för att få en djupare förståelse för en kandidats erfarenhetsnivå. Den utvärderar också om modellen kan köras på mobila enheter och om algoritmen kan rangordna CV:n oberoende av om CV:erna är på svenska eller engelska. En algoritm skapades som använder ordinbäddningsmodellen DistilRoBERTa som är kapabel att fånga textens semantiska betydelse. Algoritmen utvärderades genom att generera jobbeskrivningar från CV:n genom att skapa en sammanfattning av varje CV. Körtiden, minnesanvändningen och rankningen som den önskade kandidaten fick dokumenterades och användes för att analysera resultatet. När den kandidat som användes för att generera jobbeskrivningen rankades i topp 10 ansågs klassificeringen vara korrekt. Noggrannheten beräknades med denna metod och en noggrannhet på 68,3 % uppnåddes. Resultaten visar att algoritmen kan rangordna CV:n. Algoritmen kan rangordna både svenska och engelska CV:n med en noggrannhet på 67,7 % för svenska och 74,7 % för engelska. Körtiden var i genomsnitt 578 ms vilket skulle möjliggöra att algoritmen kan köras på mobila enheter men minnesanvändningen var för stor. Sammanfattningsvis kan den semantiska betydelsen av CV:n användas för att rangordna CV:n och ett eventuellt framtida arbete är att kombinera denna metod med en metod som räknar nyckelord för att undersöka hur noggrannheten skulle påverkas.
|
2 |
”Du är så mogen för din ålder…” : Identifiering av grooming med hjälp av en AI-språkmodell.O'Neill, Monia, Chroscielewski, Jasmin January 2024 (has links)
Genom litteratursökning och manuell datakompilering av sexualbrott mot barn, besvaras frågan “Vilka ord och fraser som förbrytare använder i konversationer är vanligt förekommande och kan användas som identifierande markörer av grooming?” och resulterade i en ordlista av könsord, sexuellt nedvärderande skällsord, och interjektioner som utrop, uppmaningar, och svordomar, som förekommer i högre utsträckning än i vardagliga konversationer. Denna lista användes för träning och test av en språkmodell som flaggar för skadlig data som kan indikera på grooming. Med en semistrukturerad intervju, kompletterat med litteratursökningen av sexualbrottmål besvarades frågan “Vilka sociala plattformar används av förbrytare för att kontakta barn med syfte att utsätta dem för sexualbrott, och varför är dessa plattformar mer använda än andra?”. Dessa metoder påvisade att Snapchat hade en överväldigande majoritet och var den mest använda plattformen, följt av Instagram på en andraplats, samt Tiktok och Kik på en gemensam tredjeplats. För att besvara den tredje frågeställningen “Kan identifiering av grooming underlättas genom Djupinlärning och Naturlig språkbehandling?" utfördes ett flertal experiment på den skapade detekteringsmodell med Naïve Bayes algoritmen som gav positiva utslag. Motiveringen till användandet av AI var att underlätta för IT-forensiker och utredare i deras arbete genom att snabbt identifiera förekomsten av grooming. Eftersom mängden data som extraheras är väldigt omfattande och innehållsklassificering har stor potential för automatisering, kan AI-modeller avsevärt minska arbetsbördan och öka effektiviteten. / By investigating and analyzing court cases, the question of which are the most commonly used words and phrases during grooming attempts that could be used as grooming indicators. A list was compiled and utilized as “harmful” and “harmless” for a training- and test dataset for an AI-model. The list contained snippets of conversations where genital, sexually derogatory terms, commands, and swear words averaged higher than in daily conversation. Through the methods of a semistructured interview and analyzing court cases, results of which social platforms perpetrators use to contact children could be compiled. This showed that Snapchat was by far the most prevalent platform used, followed by Instagram and in third place Tiktok and Kik Messaging. To answer this question, “harmless” data from the same platforms were used in the experiments. The third and final question, pertaining to the possibility of using an AI in grooming detection, was answered through multiple experiments. In an effort to determine if the conversations contained grooming or not, similar in fashion to e-mail spam classification problems, a script with Naïve Bayes as the classifier produced positive results. The goal of this study was to compile a list of words and phrases that, once used to train the model, could detect usage of these words and phrases. And notify the user if the current conversation has been flagged for suspected grooming attempts.
|
3 |
Automatic Question Paraphrasing in Swedish with Deep Generative Models / Automatisk frågeparafrasering på svenska med djupa generativa modellerLindqvist, Niklas January 2021 (has links)
Paraphrase generation refers to the task of automatically generating a paraphrase given an input sentence or text. Paraphrase generation is a fundamental yet challenging natural language processing (NLP) task and is utilized in a variety of applications such as question answering, information retrieval, conversational systems etc. In this study, we address the problem of paraphrase generation of questions in Swedish by evaluating two different deep generative models that have shown promising results on paraphrase generation of questions in English. The first model is a Conditional Variational Autoencoder (C-VAE) and the other model is an extension of the first one where a discriminator network is introduced into the model to form a Generative Adversarial Network (GAN) architecture. In addition to these models, a method not based on machine-learning was implemented to act as a baseline. The models were evaluated using both quantitative and qualitative measures including grammatical correctness and equivalence to source question. The results show that the deep generative models outperformed the baseline across all quantitative metrics. Furthermore, from the qualitative evaluation it was shown that the deep generative models outperformed the baseline at generating grammatically correct sentences, but there was no noticeable difference in terms of equivalence to the source question between the models. / Parafrasgenerering syftar på uppgiften att, utifrån en given mening eller text, automatiskt generera en parafras, det vill säga en annan text med samma betydelse. Parafrasgenerering är en grundläggande men ändå utmanande uppgift inom naturlig språkbehandling och används i en rad olika applikationer som informationssökning, konversionssystem, att besvara frågor givet en text etc. I den här studien undersöker vi problemet med parafrasgenerering av frågor på svenska genom att utvärdera två olika djupa generativa modeller som visat lovande resultat på parafrasgenerering av frågor på engelska. Den första modellen är en villkorsbaserad variationsautokodare (C-VAE). Den andra modellen är också en C-VAE men introducerar även en diskriminator vilket gör modellen till ett generativt motståndarnätverk (GAN). Förutom modellerna presenterade ovan, implementerades även en icke maskininlärningsbaserad metod som en baslinje. Modellerna utvärderades med både kvantitativa och kvalitativa mått inklusive grammatisk korrekthet och likvärdighet mellan parafras och originalfråga. Resultaten visar att de djupa generativa modellerna presterar bättre än baslinjemodellen på alla kvantitativa mätvärden. Vidare, visade the kvalitativa utvärderingen att de djupa generativa modellerna kunde generera grammatiskt korrekta frågor i större utsträckning än baslinjemodellen. Det var däremot ingen större skillnad i semantisk ekvivalens mellan parafras och originalfråga för de olika modellerna.
|
4 |
Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum / Distributional Representations of Words for Effective Information Retrieval : Information Retrieval in Customer Support ForumsLachmann, Tim, Sabel, Johan January 2017 (has links)
I takt med att informationsmängden ökar i samhället ställs högre krav på mer förfinade metoder för sökning och hantering av information. Att utvinna relevant data från företagsinterna system blir en mer komplex uppgift då större informationsmängder måste hanteras och mycket kommunikation förflyttas till digitala plattformar. Metoder för vektorbaserad ordinbäddning har under senare år gjort stora framsteg; i synnerhet visade Google 2013 banbrytande resultat med modellen Word2vec och överträffade äldre metoder. Vi implementerar en sökmotor som utnyttjar ordinbäddningar baserade på Word2vec och liknande modeller, avsedd att användas på IT-företaget Kundo och för produkten Kundo Forum. Resultaten visar på potential för informationssökning med markant bättre täckning utan minskad precision. Kopplat till huvudområdet informationssökning genomförs också en analys av vilka implikationer en förbättrad sökmotor har ur ett marknads- och produktutvecklingsperspektiv. / As the abundance of information in society increases, so does the need for more sophisticated methods of information retrieval. Extracting information from internal systems becomes a more complex task when handling larger amounts of information and when more communications are transferred to digital platforms. Recent years methods for word embedding in vector space have gained traction. In 2013 Google sent ripples across the field of Natural Language Processing with a new method called Word2vec, significantly outperforming former practices. Among different established methods for information retrieval, we implement a retrieval method utilizing Word2vec and related methods of word embedding for the search engine at IT company Kundo and their product Kundo Forum. We demonstrate the potential to improve information retrieval recall by a significant margin without diminishing precision. Coupled with the primary subject of information retrieval we also investigate potential market and product development implications related to a different kind of search engine.
|
Page generated in 0.046 seconds