Global ETD Search

1	Språkmedvetenhetens betydelse för inlärning av de naturvetenskapliga begreppen / The importance of language awareness in the process of learning concepts of science Larsson, Ulla January 2008 (has links) <p>Avsikten med detta examensarbete är att få en uppfattning om hur elevers läsvanor på fritiden påverkar deras betyg, naturvetenskapliga begreppsförståelse och språkbehandling. En grupp om 75 elever i år 8 fick skriftligt redogöra för sina läsvanor och förmodade höstterminsbetyg i svenska samt i de naturvetenskapliga ämnena. De ombads även förklara några vetenskapliga begrepp och sätta de naturvetenskapliga ämnenas svårighetsgrad i förhållande till övriga ämnen i skolan samt gradera sitt intresse för de olika naturvetenskapliga ämnena.</p><p>Undersökningen visar en varierande kvalitet beträffande elevernas skriftspråk utan egentlig koppling till läsvanor. En majoritet har svårt att förklara de angivna begreppen ens ur vardaglig synvinkel. De elever som inte läser alls eller endast seriemagasin har dock till övervägande delen svaga prestationer i undersökningen och låga betyg, medan kopplingen är tydlig mellan goda läsvanor och höga betyg. I fråga om begreppsförståelse och språkbehandling tycks det inte spela så stor roll om eleven läser ofta eller ibland. Den tyngst vägande förutsättningen verkar istället vara intresse.</p> / <p>The purpose of this diploma work is to investigate how leisure time reading habits of students affect their grades, understanding of concepts of science and language handling. A group of 75 pupils in the 8th grade gave written answers to questions about their reading habits and presumed autumn grades in the subjects Swedish and Science. They were also asked to explain some scientific concepts, compare the difficulty level of science to that of other school subjects and rate their interest in science</p><p>The survey shows a variation in writing skills that has no actual connection to reading habits. The majority fails to explain the given concepts even from an everyday point of view. Students who don’t read at all or only read comic books achieves poor results in the survey as well as low grades and students who read every day achieves high grades. In the matter of understanding of concepts of science and language handling it doesn’t seem to matter whether a student is reading every day or more seldom. It appears that the most important factor in this case is the student’s interest in science.</p> reading habits concepts of science grades language handling Läsvanor naturvetenskapliga begrepp betyg språkbehandling Education Pedagogik
2	Språkmedvetenhetens betydelse för inlärning av de naturvetenskapliga begreppen / The importance of language awareness in the process of learning concepts of science Larsson, Ulla January 2008 (has links) Avsikten med detta examensarbete är att få en uppfattning om hur elevers läsvanor på fritiden påverkar deras betyg, naturvetenskapliga begreppsförståelse och språkbehandling. En grupp om 75 elever i år 8 fick skriftligt redogöra för sina läsvanor och förmodade höstterminsbetyg i svenska samt i de naturvetenskapliga ämnena. De ombads även förklara några vetenskapliga begrepp och sätta de naturvetenskapliga ämnenas svårighetsgrad i förhållande till övriga ämnen i skolan samt gradera sitt intresse för de olika naturvetenskapliga ämnena. Undersökningen visar en varierande kvalitet beträffande elevernas skriftspråk utan egentlig koppling till läsvanor. En majoritet har svårt att förklara de angivna begreppen ens ur vardaglig synvinkel. De elever som inte läser alls eller endast seriemagasin har dock till övervägande delen svaga prestationer i undersökningen och låga betyg, medan kopplingen är tydlig mellan goda läsvanor och höga betyg. I fråga om begreppsförståelse och språkbehandling tycks det inte spela så stor roll om eleven läser ofta eller ibland. Den tyngst vägande förutsättningen verkar istället vara intresse. / The purpose of this diploma work is to investigate how leisure time reading habits of students affect their grades, understanding of concepts of science and language handling. A group of 75 pupils in the 8th grade gave written answers to questions about their reading habits and presumed autumn grades in the subjects Swedish and Science. They were also asked to explain some scientific concepts, compare the difficulty level of science to that of other school subjects and rate their interest in science The survey shows a variation in writing skills that has no actual connection to reading habits. The majority fails to explain the given concepts even from an everyday point of view. Students who don’t read at all or only read comic books achieves poor results in the survey as well as low grades and students who read every day achieves high grades. In the matter of understanding of concepts of science and language handling it doesn’t seem to matter whether a student is reading every day or more seldom. It appears that the most important factor in this case is the student’s interest in science. reading habits concepts of science grades language handling Läsvanor naturvetenskapliga begrepp betyg språkbehandling Education Pedagogik
3	Keyword Extraction from Swedish Court Documents / Extraktion av nyckelord från svenska rättsdokument Grosz, Sandra January 2020 (has links) This thesis addresses the problem of extracting keywords which represent the rulings and and grounds for the rulings in Swedish court documents. The problem of identifying the candidate keywords was divided into two steps; first preprocessing the documents and second extracting keywords using a keyword extraction algorithm on the preprocessed documents. The preprocessing methods used in conjunction with the keywords extraction algorithms were that of using stop words and a stemmer. Then, three different approaches for extracting keywords were used; one statistic approach, one machine learning approach and lastly one graph-based approach. The three different approaches used to extract keywords were then evaluated to measure the quality of the keywords and the rejection rate of keywords which were not of a high enough quality. Out of the three approaches implemented and evaluated the results indicated that the graph-based approach showed the most promise. However, the results also showed that neither of the three approaches had a high enough accuracy to be used without human supervision. / Detta examensarbete behandlar problemet om att extrahera nyckelord som representerar domslut och domskäl ur svenska rättsdokument. Problemet med att identifiera möjliga nyckelord delades upp i två steg; det första steget är att använda förbehandlingsmetoder och det andra steget att extrahera nyckelord genom att använda en algoritm för nyckelordsextraktion. Förbehandlingsmetoderna som användes tillsammans med nyckelordsextraktionsalgoritmerna var stoppord samt avstammare. Sedan användes tre olika metoder för att extrahera nyckelord; en statistisk, en maskininlärningsbaserad och slutligen en grafbaserad. De tre metoderna för att extrahera nyckelord blev sedan evaluerade för att kunna mäta kvaliteten på nyckelorden samt i vilken grad nyckelord som inte var av tillräckligt hög kvalitet förkastades. Av de tre implementerade och evaluerade tillvägagångssätten visade den grafbaserade metoden mest lovande resultat. Däremot visade resultaten även att ingen av de tre metoderna hade en tillräckligt hög riktighet för att kunna användas utan mänsklig övervakning. Keywords extraction Information Retrieval Natural Language Processing nyckelordsextraktion informationssökning naturligt språkbehandling. Computer and Information Sciences Data- och informationsvetenskap
4	En undersökning av metoder förautomatiserad text ochparameterextraktion frånPDF-dokument med NaturalLanguage Processing / An investigation of methods forautomated text and parameterextraction from PDF documentsusing Natural LanguageProcessing Värling, Alexander, Hultgren, Emil January 2024 (has links) I dagens affärsmiljö strävar många organisationer efter att automatisera processen för att hämta information från fakturor. Målet är att göra hanteringen av stora mängder fakturor mer effektiv. Trots detta möter man utmaningar på grund av den varierande strukturen hos fakturor. Placeringen och formatet för information kan variera betydligt mellan olika fakturor, vilket skapar komplexitet och hinder vid automatiserad utvinning av fakturainformation. Dessa utmaningar kan påverka noggrannheten och effektiviteten i processen. Förmågan att navigera genom dessa utmaningar blir därmed avgörande för att framgångsrikt implementera automatiserade system för hantering av fakturor. Detta arbete utforskar fyra olika textextraktions metoder som använder optisk teckenigenkänning, bildbehandling, vanlig textextraktion och textbearbetning, följt av en jämförelse mellan de naturliga språkbehandlingsmodellerna GPT- 3.5 (Generative Pre-trained Transformer) och GPT-4 för parameterextraktion av fakturor. Dessa modeller testades på sin förmåga att extrahera åtta specifika fält i PDF-dokument, sedan jämfördes deras resultat. Resultatet presenteras med valideringsmetoden ”Micro F1-poäng” en skala mellan 0 till 1, där 1 är en perfekt extraktion. Metoden som använde GPT-4 visade sig vara mest framgångsrik, som gav ett resultat på 0.98 och felfri extraktion i sex av åtta fält när den testades på 19 PDF-dokument. GPT 3.5 kom på andraplats och visade lovande resultat i fyra av de åtta fält, men presterade inte lika bra i de återstående fält, vilket resulterade i ett Micro F1-poäng på 0.71. På grund av det begränsade datamängden kunde GPT 3.5 inte uppnå sin fulla potential, eftersom finjustering och validering kräver större datamängder. Likaså behöver GPT-4 valideras med ett mer omfattande dataset för att kunna dra slutsatser om modellernas faktiska prestanda. Ytterligare forskning är nödvändig för att fastställa GPT-modellernas kapacitet med dessa förbättringar. / In today’s business environment, many organizations aim to automate the process of extracting information from invoices with the goal of making the management of large volumes of invoices more efficient. However, challenges arise due to the varied structure of invoices. The placement and format of information can significantly differ between different invoices, creating complexity and obstacles in the automated extraction of invoice information. These challenges can impact the accuracy and efficiency of the process, making the ability to navigate through them crucial for the successful implementation of automated systems for invoice management. This work explores four different text extraction methods that use optical character recognition, image processing, plain text extraction, and text processing, followed by a comparison between the natural language processing models GPT-3.5 (Generative Pre-trained Transformer) and GPT-4 for parameter extraction of invoices. These models were tested on their ability to extract eight specific fields in PDF documents, after which their results were compared. The results are presented using the ”Micro F1-Score” validation method, a scale from 0 to 1, where 1 represents perfect extraction. The method that used GPT-4 proved to be the most successful, yielding a result of 0.98 and error-free extraction in six out of eight fields when tested on 19 PDF documents. GPT-3.5 came in second place and showed promising results in four of the eight fields but did not perform as well in the remaining fields, resulting in a Micro F1-Score of 0.71. Due to the limited amount of data, GPT-3.5 could not reach its full potential, as fine-tuning and validation require larger datasets. Similarly, GPT-4 needs validation with a more comprehensive dataset to draw conclusions about the models’ actual performance. Further research is necessary to determine the capacities of GPT models with these improvements. portable document format faktura digitalisering IT-lösningar optisk teckenigenkänning textextraktion naturlig språkbehandling generative pre-trained transformer portable document format faktura digitalisering IT-lösningar optisk teckenigenkänning textextraktion naturlig språkbehandling generative pre-trained transformer Software Engineering Programvaruteknik
5	Rättssäker Textanalys Svensson, Henrik, Lindqvist, Kalle January 2019 (has links) Digital språkbehandling (natural language processing) är ett forskningsområde inom vilketdet ständigt görs nya framsteg. En betydande del av den textanalys som sker inom dettafält har som mål att uppnå en fullgod tillämpning kring dialogen mellan människa ochdator. I denna studie vill vi dock fokusera på den inverkan digital språkbehandling kan hapå den mänskliga inlärningsprocessen. Vårt praktiska testområde har också en framtidainverkan på en av de mest grundläggande förutsättningarna för ett rättssäkert samhälle,nämligen den polisiära rapportskrivningen.Genom att skapa en teoretisk idébas som förenar viktiga aspekter av digital språk-behandling och polisrapportskrivning samt därefter implementera dem i en pedagogiskwebbplattform ämnad för polisstudenter är vi av uppfattningen att vår forskning tillförnågot nytt inom det datavetenskapliga respektive det samhällsvetenskapliga fälten.Syftet med arbetet är att verka som de första stegen mot en webbapplikation somunderstödjer svensk polisdokumentation. / Natural language processing is a research area in which new advances are constantly beingmade. A significant portion of text analyses that takes place in this field have the aim ofachieving a satisfactory application in the dialogue between human and computer. In thisstudy, we instead want to focus on what impact natural language processing can have onthe human learning process.Simultaneously, the context for our research has a future impact on one of the mostbasic principles for a legally secure society, namely the writing of the police report.By creating a theoretical foundation of ideas that combines aspects of natural languageprocessing as well as official police report writing and then implementing them in aneducational web platform intended for police students, we are of the opinion that ourresearch adds something new in the computer science and sociological fields.The purpose of this work is to act as the first steps towards a web application thatsupports the Swedish police documentation. digital text analysis digital språkbehandling natural language processing nlp datorlingvistik datalingvistik computational linguistics rättssäkerhet Engineering and Technology Teknik och teknologier
6	Decentralizing Large-Scale Natural Language Processing with Federated Learning / Decentralisering av storskalig naturlig språkbearbetning med förenat lärande Garcia Bernal, Daniel January 2020 (has links) Natural Language Processing (NLP) is one of the most popular and visible forms of Artificial Intelligence in recent years. This is partly because it has to do with a common characteristic of human beings: language. NLP applications allow to create new services in the industrial sector in order to offer new solutions and provide significant productivity gains. All of this has happened thanks to the rapid progression of Deep Learning models. Large scale contextual representation models, such asWord2Vec, ELMo and BERT, have significantly advanced NLP in recently years. With these latest NLP models, it is possible to understand the semantics of text to a degree never seen before. However, they require large amounts of text data to process to achieve high-quality results. This data can be gathered from different sources, but one of the main collection points are devices such as smartphones, smart appliances and smart sensors. Lamentably, joining and accessing all this data from multiple sources is extremely challenging due to privacy and regulatory reasons. New protocols and techniques have been developed to solve this limitation by training models in a massively distributed manner taking advantage of the powerful characteristic of the devices that generates the data. Particularly, this research aims to test the viability of training NLP models, in specific Word2Vec, with a massively distributed protocol like Federated Learning. The results show that FederatedWord2Vecworks as good as Word2Vec is most of the scenarios, even surpassing it in some semantics benchmark tasks. It is a novel area of research, where few studies have been conducted, with a large knowledge gap to fill in future researches. / Naturlig språkbehandling är en av de mest populära och synliga formerna av artificiell intelligens under de senaste åren. Det beror delvis på att det har att göra med en gemensam egenskap hos människor: språk. Naturlig språkbehandling applikationer gör det möjligt att skapa nya tjänster inom industrisektorn för att erbjuda nya lösningar och ge betydande produktivitetsvinster. Allt detta har hänt tack vare den snabba utvecklingen av modeller för djup inlärning. Modeller i storskaligt sammanhang, som Word2Vec, ELMo och BERT har väsentligt avancerat naturligt språkbehandling på senare tid år. Med dessa senaste naturliga språkbearbetningsmo modeller är det möjligt att förstå textens semantik i en grad som aldrig sett förut. De kräver dock stora mängder textdata för att bearbeta för att uppnå högkvalitativa resultat. Denna information kan samlas in från olika källor, men ett av de viktigaste insamlingsställena är enheter som smartphones, smarta apparater och smarta sensorer. Beklagligtvis är det extremt utmanande att gå med och komma åt alla dessa uppgifter från flera källor på grund av integritetsskäl och regleringsskäl. Nya protokoll och tekniker har utvecklats för att lösa denna begränsning genom att träna modeller på ett massivt distribuerat sätt med fördel av de kraftfulla egenskaperna hos enheterna som genererar data. Särskilt syftar denna forskning till att testa livskraften för att utbilda naturligt språkbehandling modeller, i specifika Word2Vec, med ett massivt distribuerat protokoll som Förenat Lärande. Resultaten visar att det Förenade Word2Vec fungerar lika bra som Word2Vec är de flesta av scenarierna, till och med överträffar det i vissa semantiska riktmärken. Det är ett nytt forskningsområde, där få studier har genomförts, med ett stort kunskapsgap för att fylla i framtida forskningar. Natural Language Processing distributed systems Federated Learning Word2Vec Naturligt språkbehandling distribuerade system federerat lärande Word2Vec Computer and Information Sciences Data- och informationsvetenskap
7	Investigating the Effect of Complementary Information Stored in Multiple Languages on Question Answering Performance : A Study of the Multilingual-T5 for Extractive Question Answering / Vad är effekten av kompletterande information lagrad i flera språk på frågebesvaring : En undersökning av multilingual-T5 för frågebesvaring Aurell Hansson, Björn January 2021 (has links) Extractive question answering is a popular domain in the field of natural language processing, where machine learning models are tasked with answering questions given a context. Historically the field has been centered on monolingual models, but recently more and more multilingual models have been developed, such as Google’s MT5 [1]. Because of this, machine translations of English have been used when training and evaluating these models, but machine translations can be degraded and do not always reflect their target language fairly. This report investigates if complementary information stored in other languages can improve monolingual QA performance for languages where only machine translations are available. It also investigates if exposure to more languages can improve zero-shot cross-lingual QA performance (i.e. when the question and answer do not have matching languages) by providing complementary information. We fine-tune 3 different MT5 models on QA datasets consisting of machine translations, as well as one model on the datasets together in combination with 3 other datasets that are not translations. We then evaluate the different models on the MLQA and XQuAD datasets. The results show that for 2 out of the 3 languages evaluated, complementary information stored in other languages had a positive effect on the QA performance of the MT5. For zero-shot cross-lingual QA, the complementary information offered by the fused model lead to improved performance compared to 2/3 of the MT5 models trained only on translated data, indicating that complementary information from other languages do not offer any improvement in this regard. / Frågebesvaring (QA) är en populär domän inom naturlig språkbehandling, där maskininlärningsmodeller har till uppgift att svara på frågor. Historiskt har fältet varit inriktat på enspråkiga modeller, men nyligen har fler och fler flerspråkiga modeller utvecklats, till exempel Googles MT5 [1]. På grund av detta har maskinöversättningar av engelska använts vid träning och utvärdering av dessa modeller, men maskinöversättningar kan vara försämrade och speglar inte alltid deras målspråk rättvist. Denna rapport undersöker om kompletterande information som lagras i andra språk kan förbättra enspråkig QA-prestanda för språk där endast maskinöversättningar är tillgängliga. Den undersöker också om exponering för fler språk kan förbättra QA-prestanda på zero-shot cross-lingual QA (dvs. där frågan och svaret inte har matchande språk) genom att tillhandahålla kompletterande information. Vi finjusterar 3 olika modeller på QA-datamängder som består av maskinöversättningar, samt en modell på datamängderna tillsammans i kombination med 3 andra datamängder som inte är översättningar. Vi utvärderar sedan de olika modellerna på MLQA- och XQuAD-datauppsättningarna. Resultaten visar att för 2 av de 3 utvärderade språken hade kompletterande information som lagrats i andra språk en positiv effekt på QA-prestanda. För zero-shot cross-lingual QA leder den kompletterande informationen som erbjuds av den sammansmälta modellen till förbättrad prestanda jämfört med 2/3 av modellerna som tränats endast på översättningar, vilket indikerar att kompletterande information från andra språk inte ger någon förbättring i detta avseende. Machine learning Transformers multilingual-T5 question answering NLP Maskininlärning transformatormodeller frågeställning naturlig språkbehandling. Computer Sciences Datavetenskap (datalogi)
8	NLP-baserad kravhantering: möjligheter och utmaningar : En kvalitativ undersökning / NLP-based requirements management: opportunities and challenges : A qualitative study Blystedt, Theo, Sandberg, Albin January 2024 (has links) Denna studie utforskar det växande området för naturlig språkbehandling (NLP) och dess tillämpning inom kravhantering, ett kritiskt område i mjukvaruutveckling för att säkerställa att system uppfyller uppsatta standarder och användarförväntningar. Komplexiteten i moderna IT-projekt har ökat efterfrågan på effektiv kravhantering. Trots omfattande studier inom NLP finns det brist på fokuserad forskning om dess specifika möjligheter och utmaningar inom ett företags- och verksamhetsperspektiv för att förbättra processerna inom kravhantering. Studien utgår från en kvalitativ metod genom semistrukturerade intervjuer med respondenter inom kravhantering och AI för att få djupgående insikter i praktiska implikationer av NLP inom kravhantering. Genom en tematisk analys på den data som samlades in genom intervjuerna togs fem olika teman fram som var relevant för forskningsfrågorna. Tillsammans med detta genomförs även en litteratursökning som syftar att ge förståelse över insikter och kunskap utifrån relevant forskning. Resultatet som framförs utifrån intervjuerna jämfördes sedan med artiklarna i litteratursökningen. Resultatet visar att NLP har potentialen att effektivisera hanteringen av krav, men medför också betydande utmaningar och komplexitet. Teknikens förmåga att hantera stora datamängder och automatisera extraktion och tolkning av krav kan avsevärt påskynda projektets tidiga skeden. Tidig implementering låter organisationer att snabbt anpassa och identifiera krav baserat på föränderliga omständigheter och insikter. Specifikt så har generativa modeller, så som BERT, hög potential inom kravhanteringsfältet på grund av dess höga effektivitet jämfört med traditionella NLP-modeller. Dock är de största utmaningarna kopplade till risker inom säkerhet och sekretess då NLP-system ofta bearbetar stora mängder textdata som kan innehålla känslig eller konfidentiell information Tillförlitlighet är även en utmaning då systemen måste hantera språklig otydlighet och kontextberoendetolkningar utan att förlora noggrannhet. Kvalitén och mängden träningsdata är även en utmaning på grund av dess direkta påverkan på prestandan och effektiviteten av modellen. Utmaningarna och möjligheterna som denna studie presenterar kan hjälpa verksamheter och företag att implementera NLP-teknologier i kravhanteringsprocesser. / This thesis explores the evolving field of Natural Language Processing (NLP) and its application in requirement management, a critical area in software development ensuring that systems meet set standards and user expectations. The complexity of modern IT projects has heightened the demand for effective requirements management. Despite extensive studies on NLP, there is a lack of focused research on its specific opportunities and challenges from a company and business perspective regarding requirement management processes. This study adopts a qualitative approach through semi-structured interviews with respondents in the requirement management and AI field, to gain deep insights into the practical implications of NLP in requirements management. The study uses a thematic analysis to analyze the data gathered from the interviews and produce themes which are relevant to the research questions. The study also conducts a literature search to gain scientific insight, which will be used to compare the results from the interviews. The findings reveal that NLP has promising potential to streamline information handling and requirement interpretation, but also introduces significant risks and complexities. The technology's ability to process large data volumes and automate requirement extraction and interpretation can significantly speed up project stages. Early implementation allows organizations to swiftly adjust, and pinpoint requirements based on changing circumstances and insights. There is also a lot of potential regarding generative models, such as BERT, in the requirement management field due to its extreme efficiency compared to traditional NLP-models. However, major challenges include risks regarding security and secrecy due to the sensitive and confidential information which the NLP-system handles. Additionally, reliability remains a challenge as these systems must handle linguistic ambiguities and context-dependent interpretations without losing accuracy. The quality and the amount of training data regarding the NLP-models also is a major challenge due to its direct impact of the model’s performance and efficiency. The challenges and opportunities in this study can help organizations and businesses in adapting NLP-technologies into their requirement management processes. Artificial intelligence Natural language processing Requirement engineering Security Artificiell intelligens Kravteknik Naturlig språkbehandling Säkerhet Information Systems
9	”Du är så mogen för din ålder…” : Identifiering av grooming med hjälp av en AI-språkmodell. O'Neill, Monia, Chroscielewski, Jasmin January 2024 (has links) Genom litteratursökning och manuell datakompilering av sexualbrott mot barn, besvaras frågan “Vilka ord och fraser som förbrytare använder i konversationer är vanligt förekommande och kan användas som identifierande markörer av grooming?” och resulterade i en ordlista av könsord, sexuellt nedvärderande skällsord, och interjektioner som utrop, uppmaningar, och svordomar, som förekommer i högre utsträckning än i vardagliga konversationer. Denna lista användes för träning och test av en språkmodell som flaggar för skadlig data som kan indikera på grooming. Med en semistrukturerad intervju, kompletterat med litteratursökningen av sexualbrottmål besvarades frågan “Vilka sociala plattformar används av förbrytare för att kontakta barn med syfte att utsätta dem för sexualbrott, och varför är dessa plattformar mer använda än andra?”. Dessa metoder påvisade att Snapchat hade en överväldigande majoritet och var den mest använda plattformen, följt av Instagram på en andraplats, samt Tiktok och Kik på en gemensam tredjeplats. För att besvara den tredje frågeställningen “Kan identifiering av grooming underlättas genom Djupinlärning och Naturlig språkbehandling?" utfördes ett flertal experiment på den skapade detekteringsmodell med Naïve Bayes algoritmen som gav positiva utslag. Motiveringen till användandet av AI var att underlätta för IT-forensiker och utredare i deras arbete genom att snabbt identifiera förekomsten av grooming. Eftersom mängden data som extraheras är väldigt omfattande och innehållsklassificering har stor potential för automatisering, kan AI-modeller avsevärt minska arbetsbördan och öka effektiviteten. / By investigating and analyzing court cases, the question of which are the most commonly used words and phrases during grooming attempts that could be used as grooming indicators. A list was compiled and utilized as “harmful” and “harmless” for a training- and test dataset for an AI-model. The list contained snippets of conversations where genital, sexually derogatory terms, commands, and swear words averaged higher than in daily conversation. Through the methods of a semistructured interview and analyzing court cases, results of which social platforms perpetrators use to contact children could be compiled. This showed that Snapchat was by far the most prevalent platform used, followed by Instagram and in third place Tiktok and Kik Messaging. To answer this question, “harmless” data from the same platforms were used in the experiments. The third and final question, pertaining to the possibility of using an AI in grooming detection, was answered through multiple experiments. In an effort to determine if the conversations contained grooming or not, similar in fashion to e-mail spam classification problems, a script with Naïve Bayes as the classifier produced positive results. The goal of this study was to compile a list of words and phrases that, once used to train the model, could detect usage of these words and phrases. And notify the user if the current conversation has been flagged for suspected grooming attempts. Grooming AI Chattanalys Ordinbäddning Djupinlärning Naturlig språkbehandling Naïve Bayes IT-Forensik Text klassificering Information Systems
10	Semantiska modeller för syntetisk textgenerering - en jämförelsestudie / Semantic Models for Synthetic Textgeneration - A Comparative Study Åkerström, Joakim, Peñaloza Aravena, Carlos January 2018 (has links) Denna kunskapsöversikt undersöker det forskningsfält som rör musikintegrerad matematikundervisning. Syftet med översikten är att få en inblick i hur musiken påverkar elevernas matematikprestationer samt hur forskningen ser ut inom denna kombination. Därför är vår frågeställning: Vad kännetecknar forskningen om integrationen mellan matematik och musik? För att besvara denna fråga har vi utfört litteratursökningar för att finna studier och artiklar som tillsammans bildar en överblick. Med hjälp av den metod som Claes Nilholm beskriver i SMART (2016) har vi skapat en struktur för hur vi arbetat. Ur det material som vi fann under sökningarna har vi funnit mönster som talar för musikens positiva inverkan på matematikundervisning. Förmågan att uttrycka sina känslor i form av ord eller beröra andra med dem har alltid varit enbeundransvärd och sällsynt egenskap. Det här projektet handlar om att skapa en text generatorkapabel av att skriva text i stil med enastående män och kvinnor med den här egenskapen. Arbetet har genomförts genom att träna ett neuronnät med citat skrivna av märkvärdigamänniskor såsom Oscar Wilde, Mark Twain, Charles Dickens, etc. Nätverket samarbetar med två olika semantiska modeller: Word2Vec och One-Hot och alla tre är delarna som vår textgenerator består av. Med dessa genererade texterna gjordes en enkätudersökning för att samlaåsikter från studenter om kvaliteten på de genererade texterna för att på så vis utvärderalämpligheten hos de olika semantiska modellerna. Efter analysen av resultatet lärde vi oss att de flesta respondenter tyckte att texterna de läste var sammanhängande och roliga. Vi lärde oss också att Word2Vec, presterade signifikant bättre än One-hot. / The ability of expressing feelings in words or moving others with them has always been admired and rare feature. This project involves creating a text generator able to write text in the style of remarkable men and women with this ability, this gift. This has been done by training a neural network with quotes written by outstanding people such as Oscar Wilde, Mark Twain, Charles Dickens, et alt. This neural network cooperate with two different semantic models: Word2Vec and One-Hot and the three of them compound our text generator. With the text generated we carried out a survey in order to collect the opinion of students about the quality of the text generated by our generator. Upon examination of the result, we proudly learned that most of the respondents thought the texts were coherent and fun to read, we also learned that the former semantic model performed, not by a factor of magnitude, better than the latter. semantic models word embeddings natural language processing natural language generation semantiska modeller syntetisk textgenerering naturlig språkbehandling Information Systems

Search results