Spelling suggestions: "subject:"stora språkmodeller"" "subject:"atora språkmodeller""
1 |
Comparative Analysis of Language Models: hallucinations in ChatGPT : Prompt Study / Jämförande analys av språkmodeller: hallucinationer i ChatGPT : Prompt StudieHanna, Elias, Levic, Alija January 2023 (has links)
This thesis looks at the percentage of hallucinations in two large language models (LLM), ChatGPT 3.5 and ChatGPT 4 output for a set of prompts. This work was motivated by two factors: the release of ChatGPT 4 and its parent company OpenAI, claiming it to be much more potent than its predecessor ChatGPT 3.5, which raised questions regarding the capabilities of the LLM. Furthermore, the other factor is that ChatGPT 3.5 showcased hallucinations (creating material that is factually wrong, deceptive, or untrue.) in response to different prompts, as shown by other studies. The intended audience was members of the computer science community, such as researchers, software developers, and policymakers. The aim was to highlight large language models' potential capabilities and provide insights into their dependability. This study used a quasi-experimental study design and a systematic literature review.Our hypothesis predicted that the percentage of hallucinations (creating factually wrong, deceptive, or untrue material) would be more prevalent in ChatGPT 3.5 compared to ChatGPT 4. We based our prediction on the fact that OpenAI trained ChatGPT 4 on more material than ChatGPT 3.5. We experimented on both LLMS, and our findings supported The hypothesis. Furthermore, we looked into the literature and found studies that also agree that ChatGPT 4 is better than ChatGPT 3.5. The research concluded with suggestions for future work, like using extensive datasets and comparing the performance of different models, not only ChatGPT 3.5 and ChatGPT 4.
|
2 |
Generativ AI i gymnasieskolan : Undersökning av en lektionsseries påverkan på gymnasieelevernas färdigheter / Generative AI in Upper Secondary School : Investigating the impact of a lesson series on upper secondary students' skillsPiorkowski, Bartosz Michal January 2024 (has links)
Denna kvasiexperimentella studie syftade till att undersöka hur en lektionsserie kan struktureras och implementeras med mål att utveckla gymnasieelevers förmåga att använda sig av generativ artificiell intelligens som ett pedagogiskt verktyg. För att möta detta syfte genomfördes tre lektioner om artificiell intelligens, maskininlärning, neurala nätverk och stora språkmodeller med fokus på utveckling av teknisk kunskap och praktiska färdigheter med inslag av etik och kritik. Valet av dessa teman grundades i ett tidigare etablerat ramverk för undervisning inom AIläskunnighet. Vidare teman tas dessa teman upp som del av teknikprogrammet och den kommande AI-kursen enligt Skolverkets förslag. Lektionsseriens påverkan kvantifierades med hjälp av två enkäter – en innan och en efter genomförandet av lektionsserien. Lektionsserien presenterades för två gymnasieklasser vilka bestod av totalt ungefär 50 elever. Urvalet av gymnasieklasserna grundades i deras anslutning till den uppdragsgivande läraren. Vidare valdes respondenterna till enkäten utifrån de elever som fysiskt deltog på den första och sista lektionen och frivilligt valde att svara på enkäten. Dessutom intervjuades fyra tekniklärare för att bättre anpassa lektionsinnehållet till målgruppen. Analysen av svarsfrekvensen till enkätfrågorna visade att lektionsserien hade en statistiskt signifikant påverkan på elevernas tekniska kunskaper, men dess påverkan på elevernas praktiska färdigheter var i stort statistiskt insignifikant. Samtidigt påvisade frekvensanalysen att gymnasieeleverna i regel överskattade sin förmåga att kritiskt granska datorgenererad text och var i stort omedvetna om relevanta etiska frågeställningar. Explorativa faktoranalysen visade att det existerar åtminstone två typer av elever. En elevgrupp av okänd storlek använder sig av stora språkmodeller för att accelerera sina studier genom att lösa problem de annars inte kunde lösa. I detta fall har artificiell intelligens en multiplicerande effekt på elevernas produktivitet. En annan elevgrupp av okänd storlek har i stället som mål att förbättra sina skolresultat genom att använda sig av stora språkmodeller för att lösa deras problem åt dem. Samtidigt överskattar dessa elever sin förmåga att granska datorgenererad text. I detta fall har artificiell intelligens en dämpande effekt på elevernas lärande. Studiens slutsats är att det i dagsläget finns behov för undervisning av gymnasieelever på teknikprogrammet om artificiell intelligens. Detta utrymme kan i stort uppfyllas av en tre lektioner lång lektionsserie. Dock erkänner studien att det finns ytterligare utrymme för praktiska moment där läraren handleder eleverna i deras användning av verktyg såsom ChatGPT. Vidare finns det utrymme för kontinuerligt arbete med kritik och etik, möjligtvis som del av de tidigare nämnda praktiska momenten. / This quais-experimental study aimed to investigate how a series of lessons could be structured and implemented with the goal of developing secondary level students’ ability to use generative artificial intelligence as an educational tool. To meet this goal three lessons on artificial intelligence, machine learning, neural networks, and large language models were conducted, focusing on the development of technical knowledge and practical skills with the inclusion of ethics and critical thinking. The choice of these topics was based on a previously established framework for AI-literacy education. Further, these topics are brought up as part of the Swedish upper secondary school technology programme as well as the upcoming AI-course as per the proposal made by the Swedish Agency for Education. The impact of the lesson series was quantified using two form surveys – one before and one after the implementation of the lesson series. The lesson series was presented to two student classes totalling roughly 50 students. The selection of student classes were based on their affiliation with the assigning teacher. Further, the survey respondents were sampled from the students who physically attended the first and last lesson and voluntarily elected to respond. Additionally, four technology teachers were interviewed to better adapt the teaching material to the student demographic. Response analysis showed that the lesson series had a statistically significant impact on students’ technical knowledge, but its impact on students’ practical skills was largely statistically insignificant. At the same time, the frequency analysis indicated that students generally overestimated their ability to critically evaluate computer-generated text and were largely unaware of relevant ethical issues. Exploratory factor analysis had shown that there exist at least two types of students. A student group of unknown size use large language models to accelerate their studies through solving problems they could not otherwise solve. In this case, artificial intelligence has a multiplying effect on the students’ productivity. Another group of students of unknown size instead use large language models to solve their problems for them with the goal of improving their academic performance. At the same time, these students overestimate their ability to evaluate computer-generated text critically. In this case, artificial intelligence has a dampening effect on the students’ learning. The study concludes that there is a need for teaching secondary level students from the technology programme about artificial intelligence. This space can largely be fulfilled by a series of three lessons. However, the study acknowledges that there remains room for practical activities where the teacher guides students in their use of tools such as ChatGPT. Furthermore, there is room for ongoing work on critical thinking and ethics, possibly as part of the aforementioned practical activities.
|
3 |
Generating Terraform Configuration Files with Large Language Models / Att skapa Terraform-konfigurationsfiler med stora språkmodellerBonde, Oskar January 2022 (has links)
This thesis explores how large language models can be used to generate configuration files for Terraform from natural language descriptions. Few-shot and fine-tuning paradigms are evaluated on decoder-only models of varying size, including the state-of-the-art Codex model. The generated configuration files are evaluated with regard to functional correctness on a custom dataset using Terraform, to account for the large space of functionally equivalent configuration files. Results show that the largest model Codex is very capable at generating configuration files given an English description of network infrastructure even without fine-tuning. The result could be a useful tool for engineers who know Terraform fundamentals and have experience with the cloud platforms: AWS, GCP, or Azure. A future study could fine-tune Codex for Terraform using OpenAI's API or create an open source Codex-replication by fine-tuning the GPT-3 replication OPT, which in turn can be \hbox{fine-tuned}. / Denna avhandling undersöker hur stora språkmodeller kan användas till att generera konfigurationsfiler för Terraform med hjälp av språkbeskrivningar. Både few-shot och fine-tuning paradigm utvärderas på decoder-only modeller i olika storlekar, inklusive Codex. För att ta hänsyn till konfigurationsfiler som i utseende ser olika ut men som är funktionellt ekvivalenta utvärderas konfigurationsfilerna utifrån deras funktion. Resultaten visar att Codex, som är den största modellen, har förmågan att generera konfigurationsfiler givet en engelsk beskrivning av nätverksinfrastruktur, trots att Codex inte har undergått fine-tuning. Resultatet kan vara ett användbart verktyg för ingenjörer som har grundläggande kunskap om Terraform och erfarenhet av molnplattformarna: AWS, GCP eller Azure. En framtida studie skulle kunna träna Codex för Terraform med OpenAI:s API eller skapa en Codex-kopia genom att träna GPT-3 kopian OPT som i sin tur kan bli tränad för Terraform.
|
4 |
Language Models as Evaluators : A Novel Framework for Automatic Evaluation of News Article Summaries / Språkmodeller som Utvärderare : Ett Nytt Ramverk för Automatiserad Utvärdering av NyhetssammanfattningarHelgesson Hallström, Celine January 2023 (has links)
The advancements in abstractive summarization using Large Language Models (LLMs) have brought with it new challenges in evaluating the quality and faithfulness of generated summaries. This thesis explores a human-like automated method for evaluating news article summaries. By leveraging two LLMs with instruction-following capabilities (GPT-4 and Claude), the aim is to examine to what extent the quality of summaries can be measured by predictions of an LLM. The proposed framework involves defining specific attributes of desired summaries, which are used to design generation prompts and evaluation questions. These questions are presented to the LLMs in natural language during evaluation to assess of various summary qualities. To validate the effectiveness of the evaluation method, an adversarial approach is employed, in which a dataset comprising summaries with distortions related to various summary attributes is generated. In an experiment, the two LLMs evaluate the adversarial dataset, and their ability to detect known distortions is measured and analyzed. The findings suggest that the LLM-based evaluations demonstrate promise in detecting binary qualitative issues, such as incorrect facts. However, the reliability of the zero-shot evaluation varies depending on the evaluating LLM and the specific questions used. Further research is required to validate the accuracy and generalizability of the results, particularly in subjective dimensions where the results of this thesis are inconclusive. Nonetheless, this thesis provides insights that can serve as a foundation for future advancements in the field of automatic text evaluation. / De framsteg som gjorts inom abstrakt sammanfattning med hjälp av stora språkmodeller (LLM) har medfört nya utmaningar när det gäller att utvärdera kvaliteten och sanningshalten hos genererade sammanfattningar. Detta examensarbete utforskar en mänskligt inspirerad automatiserad metod för att utvärdera sammanfattningar av nyhetsartiklar. Genom att dra nytta av två LLM:er med instruktionsföljande förmågor (GPT-4 och Claude) är målet att undersöka i vilken utsträckning kvaliteten av sammanfattningar kan bestämmas med hjälp av språkmodeller som utvärderare. Det föreslagna ramverket innefattar att definiera specifika egenskaper hos önskade sammanfattningar, vilka används för att utforma genereringsuppmaningar (prompts) och utvärderingsfrågor. Dessa frågor presenteras för språkmodellerna i naturligt språk under utvärderingen för att bedöma olika kvaliteter hos sammanfattningar. För att validera utvärderingsmetoden används ett kontradiktoriskt tillvägagångssätt där ett dataset som innefattar sammanfattningar med förvrängningar relaterade till olika sammanfattningsattribut genereras. I ett experiment utvärderar de två språkmodellerna de motstridiga sammanfattningar, och deras förmåga att upptäcka kända förvrängningar mäts och analyseras. Resultaten tyder på att språkmodellerna visar lovande resultat vid upptäckt av binära kvalitativa problem, såsom faktafel. Dock varierar tillförlitligheten hos utvärderingen beroende på vilken språkmodell som används och de specifika frågorna som ställs. Ytterligare forskning krävs för att validera tillförlitligheten och generaliserbarheten hos resultaten, särskilt när det gäller subjektiva dimensioner där resultaten är osäkra. Trots detta ger detta arbete insikter som kan utgöra en grund för framtida framsteg inom området för automatisk textutvärdering.
|
5 |
Self-Reflection on Chain-of-Thought Reasoning in Large Language Models / Självreflektion över Chain-of-Thought-resonerande i stora språkmodellerPraas, Robert January 2023 (has links)
A strong capability of large language models is Chain-of-Thought reasoning. Prompting a model to ‘think step-by-step’ has led to great performance improvements in solving problems such as planning and question answering, and with the extended output it provides some evidence about the rationale behind an answer or decision. In search of better, more robust, and interpretable language model behavior, this work investigates self-reflection in large language models. Here, self-reflection consists of feedback from large language models to medical question-answering and whether the feedback can be used to accurately distinguish between correct and incorrect answers. GPT-3.5-Turbo and GPT-4 provide zero-shot feedback scores to Chain-of-Thought reasoning on the MedQA (medical questionanswering) dataset. The question-answering is evaluated on traits such as being structured, relevant and consistent. We test whether the feedback scores are different for questions that were either correctly or incorrectly answered by Chain-of-Thought reasoning. The potential differences in feedback scores are statistically tested with the Mann-Whitney U test. Graphical visualization and logistic regressions are performed to preliminarily determine whether the feedback scores are indicative to whether the Chain-of-Thought reasoning leads to the right answer. The results indicate that among the reasoning objectives, the feedback models assign higher feedback scores to questions that were answered correctly than those that were answered incorrectly. Graphical visualization shows potential for reviewing questions with low feedback scores, although logistic regressions that aimed to predict whether or not questions were answered correctly mostly defaulted to the majority class. Nonetheless, there seems to be a possibility for more robust output from self-reflecting language systems. / En stark förmåga hos stora språkmodeller är Chain-of-Thought-resonerande. Att prompta en modell att tänka stegvis har lett till stora prestandaförbättringar vid lösandet av problem som planering och frågebesvarande, och med den utökade outputen ger det en del bevis rörande logiken bakom ett svar eller beslut. I sökandet efter bättre, mer robust och tolk bart beteende hos språkmodeller undersöker detta arbete självreflektion i stora språkmodeller. Forskningsfrågan är: I vilken utsträckning kan feedback från stora språkmodeller, såsom GPT-3.5-Turbo och GPT-4, på ett korrekt sätt skilja mellan korrekta och inkorrekta svar i medicinska frågebesvarande uppgifter genom användningen av Chainof-Thought-resonerande? Här ger GPT-3.5-Turbo och GPT-4 zero-shot feedback-poäng till Chain-ofThought-resonerande på datasetet för MedQA (medicinskt frågebesvarande). Frågebesvarandet bör vara strukturerat, relevant och konsekvent. Feedbackpoängen jämförs mellan två grupper av frågor, baserat på om dessa besvarades korrekt eller felaktigt i första hand. Statistisk testning genomförs på skillnaden i feedback-poäng med Mann-Whitney U-testet. Grafisk visualisering och logistiska regressioner utförs för att preliminärt avgöra om feedbackpoängen är indikativa för huruvida Chainof-Thought-resonerande leder till rätt svar. Resultaten indikerar att bland resonemangsmålen tilldelar feedbackmodellerna fler positiva feedbackpoäng till frågor som besvarats korrekt än de som besvarats felaktigt. Grafisk visualisering visar potential för granskandet av frågor med låga feedbackpoäng, även om logistiska regressioner som syftade till att förutsäga om frågorna besvarades korrekt eller inte för det mesta majoritetsklassen. Icke desto mindre verkar det finnas potential för robustare från självreflekterande språksystem.
|
6 |
Leveraging Generative AI in Enterprise Settings : A Case Study-Based Framework / Generativ AI i företagsmiljöer : ett fallstudiebaserat ramverkAgeling, Lisette Elisabet, Nilsson, Elliot January 2024 (has links)
The emergence of Generative AI (GenAI) foundation models presents transformative potential across industries, promising not only to increase productivity but also to pioneer new ways of working and introduce novel business models. Despite this, GenAI adoption levels have lagged behind early projections, and many firms report difficulties in finding appropriate applications. One such firm is Scandic Hotels, a Swedish hospitality company seeking to identify use cases for GenAI within the Scandic Data Platform (SDP), the firm’s analytics unit. The goals of this study were twofold: firstly, to identify GenAI use cases for the SDP based on their organizational needs, and secondly, to create a framework to guide organizations in harnessing the technology’s potential purposefully based on their specific organizational contexts. A conceptual framework was developed based on a synthesis of existing AI use case frameworks and the incorporation of GenAI characteristics to guide the investigation of the SDP. A qualitative case study approach was employed, achieving the first research goal through two primary activities: first, by assessing the organizational context through interviews and a questionnaire, and subsequently, by identifying concrete use cases designed to address organizational challenges based on the domain mapping through collaborative workshops. The investigation into the organizational context culminated in the formulation of a complex problem space with eleven logically interconnected domain problems stemming from two root causes: a high technological complexity of the data platform and a lack of organizational ownership concerning data. These problems lead the SDP to be occasionally overwhelmed with support requests, resulting in a range of time-consuming downstream issues that lock the team in reactive rather than proactive work. The use case identification process yielded eleven concrete use cases leveraging a range of GenAI technologies, including retrieval-augmented generation, fine-tuning, and prompt chaining. An evaluation based on the perceived business value of these use cases found that those directly addressing root problems or contributing to strategic imperatives received the highest value scores by members of the SDP. Our findings reinforce the problem-driven use case identification approach suggested by previous AI use case literature and offer nuances in the importance of basing use cases on a structured hierarchical problem space, allowing use cases to be designed to address root problems and break negative feedback loops for maximal business value. By iterating the literature-informed conceptual framework with these practical insights, a novel framework for GenAI use case formulation was developed, centered around matching root domain problems with GenAI-specific capabilities. This framework provides an overview of key components for the identification of use cases based on the organization’s unique context, contributing important starting points for managers wishing to engage in GenAI adoption and addressing the literature gap in GenAI-specific use case exploration frameworks. / Utvecklingen av grundmodeller inom generativ AI (GenAI) har demonstrerat potential att öka produktivitet, omdefiniera befintliga arbetsflöden och införa nyskapande affärsmodeller. Trots detta har införandegraden i näringslivet legat under tidigare prognosticerade nivåer, och många företag rapporterar svårigheter med att identifiera lämpliga tillämpningar. Ett exempel på ett sådant företag är den svenska hotellkedjan Scandic, som önskar identifiera interna användningsområden för GenAI inom analysenheten i företagets centrala organisation, Scandic Data Platform (SDP). Denna studie ämnade att först identifiera användningsfall för GenAI inom SDP baserat på enhetens specifika behov, och sedan utveckla ett ramverk för att vägleda organisationer i identifieringen av GenAI-användningsfall baserat på deras specifika organisatoriska kontext. Baserat på en syntes av befintlig litteratur inom AI-användningsfall och integreringen av karaktäristiska egenskaper för GenAI konstruerades ett konceptuellt ramverk för att orientera utredningen inom SDP. En kvalitativ fallstudieansats uppdelad i två huvudaktiviteter tillämpades för att uppnå det första forskningsmålet: först undersöktes den organisatoriska kontexten genom nio intervjuer samt en enkät, sedan identifierades konkreta användningsfall utformade för att behandla organisatoriska behov förankrade i kartläggningen av domänen genom kollaborativa workshoppar. Undersökningen av den organisatoriska kontexten kulminerade i formuleringen av en komplext problemrymd med elva logiskt sammanlänkade domänproblem härrörande från två grundorsaker: en hög teknologisk komplexitet hos dataplattformen och en brist på organisatoriskt ägarskap gällande data. Dessa problem leder till att SDP ibland överväldigas av supportförfrågningar, vilket resulterar i en rad tidskrävande efterföljande problem som låser in teamet i reaktivt snarare än proaktivt arbete. Identifiering av användningsfall resulterade i formuleringen av elva konkreta användningsfall som utnyttjar en rad GenAI-teknologier såsom retrieval-augmented generation, finjustering och promptkedjning. En utvärdering baserad på det uppskattade affärsvärdet av dessa visade att de användningsfall som direkt bemötte de två rotproblemen eller bidrog uppfyllandet av strategiska imperativ fick de högsta värdebetygen av SDP:s medlemmar. Våra resultat validerar framgången i det problemstyrda tillvägagångssättet för identifiering av användningsfall som föreslagits av tidigare litteratur, men nyanserar förfarandet genom att understryka vikten av att förankra användningsfall i en hierarkiskt strukturerad problemrymd—vilket gör att användningsfall kan utformas för att direkt bemöta rotproblem och bryta negativa återkopplingsslingor för att uppnå maximalt organisatoriskt värde. Genom att iterera det litteraturinformerade konceptuella ramverket med dessa praktiska insikter utvecklades vi ett nytt ramverk för identifieringen av GenAI-användningsfall, baserat på matchningen av rotproblemen inom domänen med GenAI-specifika kapaciteter. Detta ramverk ger en översikt över nyckelkomponenter för identifiering av användningsfall baserade på den organisatoriska kontexten. På så sätt bidrar studien med en utgångspunkt för företag som önskar engagera sig i införandet av GenAI och bemöter bristen på litteratur innehållandes GenAI-specifika ramverk för utforskning av användningsfall.
|
7 |
Evaluating ChatGPT's Effectiveness in Web Accessibility for the Visually Impaired / En utvärdering av ChatGPTs effektivitet inom tillängligt innehåll på webben för synskadadeHolmlund, Miranda January 2024 (has links)
Web accessibility is essential for making the internet available to everyone, including individuals with disabilities. This study explores ChatGPT-4s potential in improving webaccessibility for visually impaired users by evaluating its effectiveness in interpreting andconveying web content with accessibility issues.The methodology involved creating websites with intentional accessibility barriers, craftingprompts to simulate real-time issues, and using ChatGPT-4 to provide solutions. Data was gathered from both visually impaired and those without disabilities, who rated ChatGPT-4s responses on relevance, conciseness, clarity, and usability using a 1-5 Likert scale. Results showed that ChatGPT-4 had 64.42% effectiveness in assisting with web accessibility, particularly in summarizing and clarifying content. However, issues such ashallucinations and false information were noted.This study underscores the promise of ChatGPT-4 in enhancing web accessibility and emphasizes the need for further refinement to ensure accuracy and reliability in real-world applications. / Tillgängligt innehåll på webben är en nödvändig del för att skapa ett internet som är användbart av alla, även personer med en funktionsnedsättning. Denna studie utforskar potentialen hos ChatGPT-4 som verktyg för att förbättra tillgänglighet på webben för synskade genom att utvärdera verktygets effektivitet att tolka och förmedla innehåll på webben som har tillgänglighetsproblem. Metodiken innebar att skapa webbsidor avsiktligen innehållandes tillgänglighetsbarriärer, skapa prompts för att simulera realtidsproblem, och att använda ChatGPT-4 som en lösning. Insamlingen av information innefattade data från både individer med och utan en synskada, där personerna rankade ChatGPT-4s svar på kriterierna relevans, kortfattadhet, tydlighet och användbarhet på en 1-5 Likert skala. Reultatet visade att ChatGPT-4 hade en effektitvet på 64,42% i att hjälpa med webbtillgänglighet, och särskilt effektiv i att summera och förklara innehåll. Dock så uppvisade verktyget problem såsom hallucinationer och falsk informarion. Denna studie visar prov på ChatGPT-4s potential i att förbättra tillgänglighet på webben, samt understryker att vidareutveckling behövs för att garantera korrekthet och tillförlitlighet i verkliga applikationer.
|
8 |
ChatGPT som socialt disruptiv teknologi : En fallstudie om studierektorers inställning till ChatGPT och dess påverkan på utbildningBack, Hampus, Fischer, Fredrik January 2023 (has links)
Teknologiutvecklingen av stora språkmodeller har på senaste tiden blivit uppmärksammad genom lanseringen av OpenAI:s ChatGPT. Det har förekommit diskussioner om vad detta innebär för samhället i stort men också hur utbildningen på lärosäten påverkas. Syftet med denna studie var att studera hur stor påverkan dessa verktyg har på utbildningen på Uppsala universitet. Fem studierektorer från olika institutioner har intervjuats. Datan analyserades sedan med hjälp av teorin för socialt disruptiva teknologier för att undersöka hur stor påverkansgraden är. Resultatet visar att det främst är examinationer som har påverkats, där vissa studierektorer har behövt ta bort eller kommer att ta bort hemuppgifter som konsekvens av ChatGPT. Skillnader i förändringsarbetet finns mellan olika institutioner, vilket tycks delvis grunda sig i brist på riktlinjer, men även i utbildningsstruktur och personligt engagemang. Det går dock inte att fastslå några systematiska skillnader mellan universitetets olika delar. Vidare har det diskuterats bredare frågor om studenternas lärande och hur man som studierektor kan förhålla sig till utvecklingen. / The technology development of large language models has recently received attention through the launch of OpenAI’s ChatGPT. There have been discussions of what this means for society overall, but also how the education at universities is affected. The purpose of this study was to study how much impact these tools have on education at Uppsala University. Five directors of studies from different departments have been interviewed. The data was then analyzed using the theory of socially disruptive technologies to investigate the degree of impact. The result shows that it is mainly examinations that have been affected, where some principals have had to remove or will remove homework assignments as a consequence of ChatGPT. Differences in change management exist between different institutions, which seem to be partly due to the lack of guidelines, but also due to educational structure and personal commitment. However, no systematic differences can be determined between the different parts of the university. Furthermore, there have been discussions about broader questions about the students' learning and how one should relate to the development as a director of studies.
|
9 |
KARTAL: Web Application Vulnerability Hunting Using Large Language Models : Novel method for detecting logical vulnerabilities in web applications with finetuned Large Language Models / KARTAL: Jakt på sårbarheter i webbapplikationer med hjälp av stora språkmodeller : Ny metod för att upptäcka logiska sårbarheter i webbapplikationer med hjälp av finjusterade stora språkmodellerSakaoglu, Sinan January 2023 (has links)
Broken Access Control is the most serious web application security risk as published by Open Worldwide Application Security Project (OWASP). This category has highly complex vulnerabilities such as Broken Object Level Authorization (BOLA) and Exposure of Sensitive Information. Finding such critical vulnerabilities in large software systems requires intelligent and automated tools. State-of-the-art (SOTA) research including hybrid application security testing tools, algorithmic brute forcers, and artificial intelligence has shown great promise in detection. Nevertheless, there exists a gap in research for reliably identifying logical and context-dependant Broken Access Control vulnerabilities. We modeled the problem as text classification and proposed KARTAL, a novel method for web application vulnerability detection using a Large Language Model (LLM). It consists of 3 components: Fuzzer, Prompter, and Detector. The Fuzzer is responsible for methodically collecting application behavior. The Prompter processes the data from the Fuzzer and formulates a prompt. Finally, the Detector uses an LLM which we have finetuned for detecting vulnerabilities. In the study, we investigate the performance, key factors, and limitations of the proposed method. Our research reveals the need for a labeled Broken Access Control vulnerability dataset in the cybersecurity field. Thus, we custom-generate our own dataset using an auto-regressive LLM with SOTA few-shot prompting techniques. We experiment with finetuning 3 types of decoder-only pre-trained transformers for detecting 2 sophisticated vulnerabilities. Our best model attained an accuracy of 87.19%, with an F1 score of 0.82. By using hardware acceleration on a consumer-grade laptop, our fastest model can make up to 539 predictions per second. The experiments on varying the training sample size demonstrated the great learning capabilities of our model. Every 400 samples added to training resulted in an average MCC score improvement of 19.58%. Furthermore, the dynamic properties of KARTAL enable inferencetime adaption to the application domain, resulting in reduced false positives. / Brutet åtkomstkontroll är den allvarligaste säkerhetsrisken för webbapplikationer enligt Open Worldwide Application Security Project (OWASP). Denna kategori har mycket komplexa sårbarheter såsom Brutet behörighetskontroll på objektnivå (BOLA) och exponering av känslig information. Att hitta sådana kritiska sårbarheter i stora programvarusystem kräver intelligenta och automatiserade verktyg. Senaste tekniken (SOTA)-forskning, inklusive hybridverktyg för säkerhetstestning av applikationer, algoritmiska bruteforcers och artificiell intelligens, har visat stor potential för upptäckt. Trots detta finns det en lucka i forskningen när det gäller tillförlitlig identifiering av logiska och kontextberoende sårbarheter relaterade till Brutet åtkomstkontroll. Vi modellerade problemet som textklassificering och föreslog KARTAL, en ny metod för att upptäcka sårbarheter i webbapplikationer med hjälp av en stor språkmodell (LLM). Den består av 3 komponenter: Fuzzer, Prompter och Detector. Fuzzer ansvarar för att systematiskt samla in applikationsbeteende. Prompter bearbetar data från Fuzzer och formulerar en förfrågan. Slutligen använder Detector en LLM som vi har finjusterat för att upptäcka sårbarheter. I studien undersöker vi prestanda, nyckelfaktorer och begränsningar hos den föreslagna metoden. Vår forskning visar behovet av en märkt dataset för sårbarheter relaterade till Brutet åtkomstkontroll inom cybersäkerhetsområdet. Därför genererar vi anpassade dataset med hjälp av en auto-regressiv LLM med SOTA few-shot-prompting-tekniker. Vi experimenterar med att finjustera 3 typer av endast avkodare transformers som är förtränade för att upptäcka 2 sofistikerade sårbarheter. Vår bästa modell uppnådde en noggrannhet på 87.19% med en F1-poäng på 0.82. Genom att använda hårdvaruacceleration på en bärbar dator för konsumenter kan vår snabbaste modell göra upp till 539 förutsägelser per sekund. Experimenten med varierande storlek på träningsprovet visade på vår modells stora förmåga att lära sig. Varje 400 prover som lades till träningen resulterade i en genomsnittlig förbättring av MCC-poängen med 19.58%. Dessutom möjliggör de dynamiska egenskaperna hos KARTAL anpassning vid inferringstid till applikationsdomänen, vilket resulterar i färre falska positiva resultat.
|
10 |
Round-Trip Translation : A New Path for Automatic Program Repair using Large Language Models / Tur och retur-översättning : En ny väg för automatisk programreparation med stora språkmodellerVallecillos Ruiz, Fernando January 2023 (has links)
Research shows that grammatical mistakes in a sentence can be corrected by machine translating it to another language and back. We investigate whether this correction capability of Large Language Models (LLMs) extends to Automatic Program Repair (APR), a software engineering task. Current generative models for APR are pre-trained on source code and fine-tuned for repair. This paper proposes bypassing fine-tuning and using Round-Trip Translation (RTT): translation of code from one programming language to another programming or natural language, and back. We hypothesize that RTT with LLMs performs a regression toward the mean, which removes bugs as they are a form of noise w.r.t. the more frequent, natural, bug-free code in the training data. To test this hypothesis, we employ eight recent LLMs pre-trained on code, including the latest GPT versions, and four common program repair benchmarks in Java. We find that RTT with English as an intermediate language repaired 101 of 164 bugs with GPT-4 on the HumanEval-Java dataset. Moreover, 46 of these are unique bugs that are not repaired by other LLMs fine-tuned for APR. Our findings highlight the viability of round-trip translation with LLMs as a technique for automated program repair and its potential for research in software engineering. / Forskning visar att grammatiska fel i en mening kan korrigeras genom att maskinöversätta den till ett annat språk och tillbaka. Vi undersöker om denna korrigeringsegenskap hos stora språkmodeller (LLMs) även gäller för Automatisk Programreparation (APR), en uppgift inom mjukvaruteknik. Nuvarande generativa modeller för APR är förtränade på källkod och finjusterade för reparation. Denna artikel föreslår att man undviker finjustering och använder Tur och retur-översättning (RTT): översättning av kod från ett programmeringsspråk till ett annat programmerings- eller naturspråk, och tillbaka. Vi antar att RTT med LLMs utför en regression mot medelvärdet, vilket tar bort buggar eftersom de är en form av brus med avseende på den mer frekventa, naturliga, buggfria koden i träningsdatan. För att testa denna hypotes använder vi åtta nyligen förtränade LLMs på kod, inklusive de senaste GPT-versionerna, och fyra vanliga programreparationsstandarder i Java. Vi upptäcker att RTT med engelska som ett mellanspråk reparerade 101 av 164 buggar med GPT-4 på HumanEval-Java-datasetet. Dessutom är 46 av dessa unika buggar som inte repareras av andra LLMs finjusterade för APR. Våra resultat belyser genomförbarheten av tur och retur-översättning med LLMs som en teknik för automatiserad programreparation och dess potential för forskning inom mjukvaruteknik.
|
Page generated in 0.0606 seconds