Global ETD Search

1	IMAGE CAPTIONING USING TRANSFORMER ARCHITECTURE Wrucha A Nanal (14216009) 06 December 2022 (has links) <p> </p> <p>The domain of Deep Learning that is related to generation of textual description of images is called ‘Image Captioning.’ The central idea behind Image Captioning is to identify key features of an image and create meaningful sentences that describe the image. The current popular models include image captioning using Convolution Neural Network - Long Short-Term Memory (CNN-LSTM) based models and Attention based models. This research work first identifies the drawbacks of existing image captioning models namely – sequential style of execution, vanishing gradient problem and lack of context during training.</p> <p>This work aims at resolving the discovered problems by creating a Contextually Aware Image Captioning (CATIC) Model. The Transformer architecture, which solves the issues of vanishing gradients and sequential execution, forms the basis of the suggested model. In order to inject the contextualized embeddings of the caption sentences, this work uses Bidirectional Encoder Representation of Transformers (BERT). This work uses Remote Sensing Image Captioning Dataset. The results of the CATIC model are evaluated using BLEU, METEOR and ROGUE scores. On comparison the proposed model outperforms the CNN-LSTM model in all metrices. When compared to the Attention based model’s metrices, the CATIC model outperforms for BLEU2 and ROGUE metrices and gives competitive results for others.</p> Natural language processing Computer vision Deep learning Transformer Architecture Remote Sensing Images
2	Evaluating Text Summarization Models on Resumes : Investigating the Quality of Generated Resume Summaries and their Suitability as Resume Introductions / Utvärdering av Textsammanfattningsmodeller för CV:n : Undersökning av Kvaliteten på Genererade CV-sammanfattningar och deras Lämplighet som CV-introduktioner Krohn, Amanda January 2023 (has links) This thesis aims to evaluate different abstractive text summarization models and techniques for summarizing resumes. It has two main objectives: investigate the models’ performance on resume summarization and assess the suitability of the generated summaries as resume introductions. Although automatic abstractive text summarization has gained traction in various areas, its application in the resume domain has not yet been explored. Resumes present a unique challenge for abstractive summarization due to their diverse style, content, and length. To address these challenges, three state-of-the-art pre-trained text generation models: BART, T5, and ProphetNet, were selected. Additionally, two approaches that can handle longer resumes were investigated. The first approach, named LongBART, modified the BART architecture by incorporating the Longformer’s self-attention into the encoder. The second approach, named HybridBART, used an extractive-then-abstractive summarization strategy. The models were fine-tuned on a dataset of 653 resume-introduction pairs and were evaluated using automatic metrics as well as two types of human evaluations: a survey and expert interviews. None of the models demonstrated superiority across all criteria and evaluation metrics. However, the survey responses indicated that LongBART showed promising results, receiving the highest scores in three out of five criteria. On the other hand, ProphetNet consistently received the lowest scores across all criteria in the survey, and across all automatic metrics. Expert interviews emphasized that the generated summaries cannot be considered correct summaries due to the presence of hallucinated personal attributes. However, there is potential for using the generated texts as resume introductions, given that measures are taken to ensure the hallucinated personal attributes are sufficiently generic. / Denna avhandling utvärderar olika modeller och tekniker för automatisk textsammanfattning för sammanfattning av CV:n. Avhandlingen har två mål: att undersöka modellernas prestanda på sammanfattning av CV:n och bedöma lämpligheten att använda de genererade sammanfattningar som CV-introduktioner. Även om automatisk abstrakt textsummering har fått fotfäste inom olika sammanhang är dess tillämpning inom CV-domänen ännu outforskad. CV:n utgör en unik utmaning för abstrakt textsammanfattning på grund av deras varierande stil, innehåll och längd. För att hantera dessa utmaningar valdes tre av de främsta förtränade modellerna inom textgenerering: BART, T5 och ProphetNet. Dessutom undersöktes två extra metoder som kan hantera längre CV:n. Det första tillvägagångssättet, kallat LongBART, modifierade BART-arkitekturen genom att inkludera självuppmärksamhet från Longformer-arkitekturen i kodaren. Det andra tillvägagångssättet, kallat HybridBART, använde en extraktiv-sen-abstraktiv sammanfattningsstrategi. Modellerna finjusterades med ett dataset med 653 CV-introduktionspar och utvärderades med hjälp av automatiska mått, samt två typer av mänsklig utvärdering: en enkätundersökning och intervjuer med experter. Ingen av modellerna visade överlägsenhet på alla kriterier och utvärderingsmått. Dock indikerade enkätsvaren att LongBART visade lovande resultat, genom att få högst poäng i tre av fem utvärderingskategorier. Å andra sidan fick ProphetNet lägst poäng i samtliga utvärderingskategorier, samt lägst poäng i alla automatiska mätningar. Expertintervjuer framhävde att de genererade sammanfattningarna inte kan anses vara pålitliga som fristående sammanfattningar på grund av förekomsten av hallucinerade personliga egenskaper. Trots detta finns det potential att använda dessa sammanfattningar som introduktioner, under förutsättningen att åtgärder vidtas för att säkerställa att hallucinerade personliga attribut är tillräckligt generiska. Natural language processing Abstractive text summarization Transformer architecture Fine-tuning Resumes Språkteknologi Abstrakt textsammanfattning Transformer-arkitektur Finjustering CV Computer Sciences Datavetenskap (datalogi)
3	Avancerade Stora Språk Modeller i Praktiken : En Studie av ChatGPT-4 och Google Bard inom Desinformationshantering Ahmadi, Aref, Barakzai, Ahmad Naveed January 2023 (has links) SammanfattningI denna studie utforskas kapaciteterna och begränsningarna hos avancerade stora språkmodeller (SSM), med särskilt fokus på ChatGPT-4 och Google Bard. Studien inleds med att ge en historisk bakgrund till artificiell intelligens och hur denna utveckling har lett fram till skapandet av dessa modeller. Därefter genomförs en kritisk analys av deras prestanda i språkbehandling och problemlösning. Genom att evaluera deras effektivitet i hanteringen av nyhetsinnehåll och sociala medier, samt i utförandet av kreativa uppgifter som pussel, belyses deras förmåga inom språklig bearbetning samt de utmaningar de möter i att förstå nyanser och utöva kreativt tänkande.I denna studie framkom det att SSM har en avancerad förmåga att förstå och reagera på komplexa språkstrukturer. Denna förmåga är dock inte utan begränsningar, speciellt när det kommer till uppgifter som kräver en noggrann bedömning för att skilja mellan sanning och osanning. Denna observation lyfter fram en kritisk aspekt av SSM:ernas nuvarande kapacitet, de är effektiva inom många områden, men möter fortfarande utmaningar i att hantera de finare nyanserna i mänskligt språk och tänkande. Studiens resultat betonar även vikten av mänsklig tillsyn vid användning av artificiell intelligens (AI), vilket pekar på behovet av att ha realistiska förväntningar på AI:s kapacitet och betonar vidare betydelsen av en ansvarsfull utveckling av AI, där en noggrann uppmärksamhet kring etiska aspekter är central. En kombination av mänsklig intelligens och AI föreslås som en lösning för att hantera komplexa utmaningar, vilket bidrar till en fördjupad förståelse av avancerade språkmodellers dynamik och deras roll inom AI:s bredare utveckling och tillämpning. Large Language Models (LLMs) ChatGPT-4 Google Bard Natural Language Processing (NLP) Fact-checking Disinformation Misinformation Disinformation Mitigation Artificial Intelligence (AI) Transformer Architecture Deep Learning Stora Språkmodeller (SSM) ChatGPT-4 Google Bard Naturlig Språkbehandling (NSB) Faktagranskning Desinformation Felinformation Motverkan av Desinformation Artificiell Intelligens (AI) Transformer-arkitektur Djupinlärning Computer and Information Sciences Data- och informationsvetenskap

Search results

IMAGE CAPTIONING USING TRANSFORMER ARCHITECTURE

Avancerade Stora Språk Modeller i Praktiken : En Studie av ChatGPT-4 och Google Bard inom Desinformationshantering