• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 6
  • 1
  • Tagged with
  • 7
  • 7
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Evaluating ChatGPT's Effectiveness in Web Accessibility for the Visually Impaired / En utvärdering av ChatGPTs effektivitet inom tillängligt innehåll på webben för synskadade

Holmlund, Miranda January 2024 (has links)
Web accessibility is essential for making the internet available to everyone, including individuals with disabilities. This study explores ChatGPT-4s potential in improving webaccessibility for visually impaired users by evaluating its effectiveness in interpreting andconveying web content with accessibility issues.The methodology involved creating websites with intentional accessibility barriers, craftingprompts to simulate real-time issues, and using ChatGPT-4 to provide solutions. Data was gathered from both visually impaired and those without disabilities, who rated ChatGPT-4s responses on relevance, conciseness, clarity, and usability using a 1-5 Likert scale. Results showed that ChatGPT-4 had 64.42% effectiveness in assisting with web accessibility, particularly in summarizing and clarifying content. However, issues such ashallucinations and false information were noted.This study underscores the promise of ChatGPT-4 in enhancing web accessibility and emphasizes the need for further refinement to ensure accuracy and reliability in real-world applications. / Tillgängligt innehåll på webben är en nödvändig del för att skapa ett internet som är användbart av alla, även personer med en funktionsnedsättning. Denna studie utforskar potentialen hos ChatGPT-4 som verktyg för att förbättra tillgänglighet på webben för synskade genom att utvärdera verktygets effektivitet att tolka och förmedla innehåll på webben som har tillgänglighetsproblem. Metodiken innebar att skapa webbsidor avsiktligen innehållandes tillgänglighetsbarriärer, skapa prompts för att simulera realtidsproblem, och att använda ChatGPT-4 som en lösning. Insamlingen av information innefattade data från både individer med och utan en synskada, där personerna rankade ChatGPT-4s svar på kriterierna relevans, kortfattadhet, tydlighet och användbarhet på en 1-5 Likert skala. Reultatet visade att ChatGPT-4 hade en effektitvet på 64,42% i att hjälpa med webbtillgänglighet, och särskilt effektiv i att summera och förklara innehåll. Dock så uppvisade verktyget problem såsom hallucinationer och falsk informarion. Denna studie visar prov på ChatGPT-4s potential i att förbättra tillgänglighet på webben, samt understryker att vidareutveckling behövs för att garantera korrekthet och tillförlitlighet i verkliga applikationer.
2

Dazai to Digital: Assessing Translation Accuracy of “Ningen Shikkaku" Across ChatGPT-4, Donald Keene, and Mark Gibeau

Malmqvist, Emilia January 2024 (has links)
This study assesses the translation accuracy of ChatGPT-4 against two human translators, Donald Keene and Mark Gibeau, focusing on the first 50 sentences of Osamu Dazai's Japanese novel "Ningen Shikkaku" translated into English. In the rapidly advancing field of artificial intelligence, where AI increasingly integrates into fields such as translation traditionally occupied by humans, it examines the effectiveness and reliability of AI incapturing both the literal and figurative meaning of a literary text. A significant gap in the field is the scarcity of comparative studies between AI and human translators, and all the more so in Japanese-English translation. Most existing research on AI translation focuses on European languages or evaluates AI against other machine translation tools. The study employs a translation quality assessment framework based on how erroneous the translations are, where either one or two points are deducted for each error depending on severity to evaluate the accuracy of each translation. The identified error types are grounded on the standardized error marking system utilized by the American Translators Association, and endeavors to provide an objective measure of translation quality. The results of the study show that ChatGPT-4's translation incurred the least number of point deductions, roughly half as many as those of Gibeau and Keene. Gibeau's translation rankedsecond in accuracy, with Keene's trailing closely behind. The results also reveal that Keene's translation errors typically stemmed from altered words and phrases, while Gibeau's translation rather added, intensified, or omitted elements. ChatGPT-4's translation had fewer errors overall, except in relation to literalness. It is discussed that the utility of AI in literary translation varies depending on whether accuracy or aesthetic is most valued. Nevertheless, translators can already at present utilize AI to manage routine tasks and accelerate translation processes, enabling them to concentrate on aspects such as flow, rhythm, and readability.
3

ENHANCING PEDAGOGICAL RESEARCH EFFICIENCY: PROMPT-BASED CLASSIFICATION OF MATHEMATICAL REASONING

Svahn, Ola January 2024 (has links)
This thesis investigates the possibility of automating the classification of post-feedback mathematical reasoning styles, Creative Mathematical Reasoning (CMR) and Algorithmic Reasoning (AR), using prompt-based classification with a Large Language Model (LLM). The study, conducted in collaboration with the Department of Science and Mathematics Education of Umeå University, aims to enhance the efficiency of pedagogical research by reducing the manual labor involved in classifying student responses. The thesis utilizes a dataset of 40 expert-labeled student mathematical solutions, incorporating feedback interactions to assess shifts in reasoning post-feedback. Various prompting methods, including definitions-only and examples-inclusive prompts, were systematically tested to determine their effectiveness in classifying reasoning styles. The classification performance was measured using accuracy, F1-score, and Cohen’s kappa. Results indicate that definitionbased prompts performed robustly, achieving moderate to strong inter-rater agreement. The study also explored the impact of output formats and found that allowing the LLM to classify uncertain cases as indeterminate could potentially automate about 25% of the classification tasks without compromising performance. This thesis underscores the potential of LLMs in automating complex cognitive task classifications in educational research, suggesting further exploration into optimal prompting strategies and reliability enhancements for practical applications. / Denna uppsats undersöker möjligheten att automatisera klassificeringen av matematiska resonemangstyper efter feedback, Kreativt Matematiskt Resonemang (CMR) och Algoritmiskt Resonemang (AR), med hjälp av promptbaserad klassificering med en stor språkmodell (LLM). Studien, som genomfördes i samarbete med Institutionen för naturvetenskapernas och matematikens didaktik vid Umeå universitet, syftar till att öka effektiviteten i pedagogisk forskning genom att minska det manuella arbetet som krävs för att klassificera studenters matematiska resonemang. Uppsatsen använder ett dataset med 40 matematiska lösningar från studenter, klassificerade av experter. Dessa lösningar inkluderar feedback-interaktioner för att bedöma förändringar i resonemang efter feedback. Olika promptmetoder, innehållandes enbart definitioner och exempel-inkluderande promptar, testades systematiskt för att avgöra deras effektivitet vid klassificering av resonemangsstilar. Klassificeringsprestandan mättes med hjälp av accuracy, F1-score och Cohen’s kappa. Resultaten visar att promptar baserade på definitioner hade en robust prestanda och uppnådde måttlig till stark överensstämmelse mellan bedömare. Studien undersökte också påverkan av utdataformat och fann att genom att tillåta LLM att klassificera osäkra fall som obestämdbarkunde cirka 25% av klassificeringsuppgifterna automatiseras utan att kompromissa med prestandan. Denna avhandling framhäver potentialen hos LLMs att automatisera komplexa kognitiva uppgiftsklassificeringar inom utbildningsforskning och föreslår vidare studier av optimala promptstrategier och tillförlitlighetsförbättringar för praktiska tillämpningar.
4

Avancerade Stora Språk Modeller i Praktiken : En Studie av ChatGPT-4 och Google Bard inom Desinformationshantering

Ahmadi, Aref, Barakzai, Ahmad Naveed January 2023 (has links)
SammanfattningI  denna  studie  utforskas  kapaciteterna  och  begränsningarna  hos  avancerade  stora språkmodeller (SSM), med särskilt fokus på ChatGPT-4 och Google Bard. Studien inleds med att ge en historisk bakgrund till artificiell intelligens och hur denna utveckling har lett fram till skapandet av dessa modeller. Därefter genomförs en kritisk analys av deras prestanda i språkbehandling och problemlösning. Genom att evaluera deras effektivitet i hanteringen av nyhetsinnehåll och sociala medier, samt i utförandet av kreativa uppgifter som pussel, belyses deras förmåga inom språklig bearbetning samt de utmaningar de möter i att förstå nyanser och utöva kreativt tänkande.I denna studie framkom det att SSM har en avancerad förmåga att förstå och reagera på komplexa språkstrukturer. Denna förmåga är dock inte utan begränsningar, speciellt när det kommer till uppgifter som kräver en noggrann bedömning för att skilja mellan sanning och osanning. Denna observation lyfter fram en kritisk aspekt av SSM:ernas nuvarande kapacitet, de är effektiva inom många områden, men möter fortfarande utmaningar i att hantera de finare nyanserna i mänskligt språk och tänkande. Studiens resultat betonar även vikten av mänsklig tillsyn vid användning av artificiell intelligens (AI), vilket pekar på behovet av att ha realistiska förväntningar på AI:s kapacitet och betonar vidare betydelsen av en ansvarsfull utveckling  av  AI,  där  en  noggrann  uppmärksamhet  kring etiska  aspekter  är  central.  En kombination av mänsklig intelligens och AI föreslås som en lösning för att hantera komplexa utmaningar, vilket bidrar till en fördjupad förståelse av avancerade språkmodellers dynamik och deras roll inom AI:s bredare utveckling och tillämpning.
5

Evaluating Artificial Intelligence in Dental Radiography / Utvärdering av artificiell intelligens inom tandradiografi

Baza, Rabi January 2024 (has links)
The integration of Artificial Intelligence (AI) in dental radiography not only presents an opportunity but also holds immense potential to enhance diagnostic accuracy and efficiency. This study addresses the exciting challenge of leveraging AI, specifically a generative pre-trained transformer model, to interpret dental panoramic X-rays, a task traditionally reliant on human expertise. The central purpose of the study is to evaluate the diagnostic capabilities of this AI model compared to professional dental evaluations, focusing on its accuracy and consistency, thereby paving the way for a promising future in dental diagnostics. The research involved a sample of 35 dental panoramic X-rays obtained from Flexident AB, anonymized and annotated by a panel of dental professionals. The study was conducted in two stages: Stage One tested the AI model in three different methods: 1- without any annotations, 2- with numbered teeth, and 3- with colored circles highlighting areas of interest. Stage Two involved training a specialized GPT model with domain-specific knowledge. Key findings indicate that the AI model, when provided with detailed visual annotations, achieved diagnostic accuracy comparable to that of dental professionals, as statistical analysis showed no significant differences between the golden standard (dentist group) and the visually annotated group (P>0.05). However, the model struggled with unannotated images, highlighting the importance of structured input. The research underscores the potential of language-based AI in medical imaging while emphasizing the need for detailed input to optimize performance. This study is pioneering in applying a generative pre-trained transformer model for dental diagnostics, opening new avenues for AI integration in healthcare. / Integrationen av artificiell intelligens (AI) inom tandradiografi innebär inte bara en möjlighet utan har också en enorm potential att förbättra diagnostisk noggrannhet och effektivitet. Denna studie tar upp den spännande utmaningen att utnyttja AI, specifikt en generativ förtränad transformer-modell, för att tolka panoramaröntgenbilder av tänder, en uppgift som traditionellt är beroende av mänsklig expertis. Studiens centrala syfte är att utvärdera de diagnostiska förmågorna hos denna AI-modell jämfört med professionella tandläkarbedömningar, med fokus på dess noggrannhet och konsekvens, vilket banar väg för en lovande framtid inom tanddiagnostik. Forskningen omfattade ett urval av 35 panoramaröntgenbilder av tänder erhållna från Flexident AB, anonymiserade och annoterade av en panel av tandläkare. Studien genomfördes i två steg: Steg ett testade AI-modellen på tre olika sätt: 1- utan några annoteringar, 2- med numrerade tänder och 3- med färgade cirklar som markerade intressanta områden. Steg två involverade träning av en specialiserad GPT-modell med domänspecifik kunskap. Nyckelresultat visar att AI-modellen, när den tillhandahölls detaljerade visuella annotationer, uppnådde en diagnostisk noggrannhet jämförbar med professionella tandläkare, då statistisk analys visade inga signifikanta skillnader mellan guldstandarden (tandläkargruppen) och den visuellt annoterade gruppen (P>0,05). Modellen hade dock svårigheter med icke-annoterade bilder, vilket understryker vikten av strukturerad inmatning. Forskningen betonar potentialen hos språkbaserad AI inom medicinsk avbildning och behovet av detaljerad inmatning för att optimera prestanda. Denna studie är banbrytande i sin tillämpning av en generativ förtränad transformer-modell för tanddiagnostik, vilket öppnar nya möjligheter för AI-integrering inom sjukvården.
6

Investigating an Age-Inclusive Medical AI Assistant with Large Language Models : User Evaluation with Older Adults / Undersökning av en åldersinkluderande medicinsk AI-assistent med stora språkmodeller : Snvändarstudier med äldre vuxna

Magnus, Thulin January 2024 (has links)
The integration of Large Language Models (LLMs) such as GPT-4 and Gemini into healthcare, particularly for elderly care, represents a significant opportunity in the use of artificial intelligence in medical settings. This thesis investigates the capabilities of these models to understand and respond to the healthcare needs of older adults effectively. A framework was developed to evaluate their performance, consisting of specifically designed medical scenarios that simulate real-life interactions, prompting strategies to elicit responses and a comprehensive user evaluation to assess technical performance and contextual understanding.  The analysis reveals that while LLMs such as GPT-4 and Gemini exhibit high levels of technical proficiency, their contextual performance shows considerable variability, especially in personalization and handling complex, empathy-driven interactions. In simpler tasks, these models demonstrate appropriate responsiveness, but they struggle with more complex scenarios that require deep medical reasoning and personalized communication.  Despite these challenges, the research highlights the potential of LLMs to significantly enhance healthcare delivery for older adults by providing timely and relevant medical information. However, to realize a truly effective implementation, further development is necessary to improve the models’ ability to engage in meaningful dialogue and understand the nuanced needs of an aging population.  The findings underscore the necessity of actively involving older adults in the development of AI technologies, ensuring that these models are tailored to their specific needs. This includes focusing on enhancing the contextual and demographic awareness of AI systems. Future efforts should focus on enhancing these models by incorporating user feedback from the older population and applying user-centered design principles to improve accessibility and usability. Such improvements will better support the diverse needs of aging populations in healthcare settings, enhancing care delivery for both patients and doctors while maintaining the essential human touch in medical interactions. / Integrationen av stora språkmodeller (LLMs) såsom GPT-4 och Gemini inom sjukvården, särskilt inom äldrevård, representerar betydande möjligheter i användningen av artificiell intelligens i medicinska sammanhang. Denna avhandling undersöker dessa modellers förmåga att förstå och effektivt svara på äldres vårdbehov. För att utvärdera deras prestanda utvecklades ett ramverk bestående av specifikt utformade medicinska situationer som simulerar verkliga interaktioner, strategier för att framkalla relevanta svar från modellerna och en omfattande användarutvärdering för att bedöma både teknisk prestanda och kontextuell förståelse.  Analysen visar att även om LLMs såsom GPT-4 och Gemini visar på hög teknisk prestationsförmåga, är dess kontextuella förmåga mer begränsad, särskilt när det gäller personalisering och hantering av komplexa, empatidrivna interaktioner. Vid enklare uppgifter visar dessa modeller på en lämplig responsivitet, men de utmanas vid mer komplexa scenarier som kräver djup medicinsk resonemang och personlig kommunikation.  Trots dessa utmaningar belyser denna forskning potentialen hos LLMs att väsentligt förbättra vårdleveransen för äldre genom att tillhandahålla aktuell och relevant medicinsk information. Däremot krävs ytterligare utveckling för att verkligen möjliggöra en effektiv implementering, vilket inkluderar att förbättra modellernas förmåga att delta i en meningsfull dialog och förstå de nyanserade behoven hos äldre patienter.  Resultaten från denna avhandling understryker nödvändigheten av att aktivt involvera äldre individer i utvecklingen av AI-teknologier, för att säkerställa att dessa modeller är skräddarsydda för deras specifika behov. Detta inkluderar ett fokus på att förbättra den kontextuella och demografiska medvetenheten hos AI-system. Framtida insatser bör inriktas på att förbättra dessa modeller genom att integrera användarfeedback från äldre populationer och tillämpa principer för användarcentrerad design för att förbättra tillgänglighet och användbarhet. Sådana förbättringar kommer att bättre stödja de mångsidiga behoven hos äldre i vårdsammanhang, förbättra vårdleveransen för både patienter och läkare samtidigt som den väsentliga mänskliga kontakten i medicinska interaktioner bibehålls.
7

A Method for Automated Assessment of Large Language Model Chatbots : Exploring LLM-as-a-Judge in Educational Question-Answering Tasks

Duan, Yuyao, Lundborg, Vilgot January 2024 (has links)
This study introduces an automated evaluation method for large language model (LLM) based chatbots in educational settings, utilizing LLM-as-a-Judge to assess their performance. Our results demonstrate the efficacy of this approach in evaluating the accuracy of three LLM-based chatbots (Llama 3 70B, ChatGPT 4, Gemini Advanced) across two subjects: history and biology. The analysis reveals promising performance across different subjects. On a scale from 1 to 5 describing the correctness of the judge itself, the LLM judge’s average scores for correctness when evaluating each chatbot on history related questions are 3.92 (Llama 3 70B), 4.20 (ChatGPT 4), 4.51 (Gemini Advanced); for biology related questions, the average scores are 4.04 (Llama 3 70B), 4.28 (ChatGPT 4), 4.09 (Gemini Advanced). This underscores the potential of leveraging the LLM-as-a-judge strategy to evaluate the correctness of responses from other LLMs.

Page generated in 0.1802 seconds