Return to search

VL Tasks: Which Models Suit? : Investigate Different Models for Swedish Image-Text Relation Task / VL-uppgifter: Vilka modeller passar? : Undersök olika modeller för svensk bild-text relationsuppgift

In common sense, modality measures the number of areas a model covers. Multi-modal or cross-modal models can handle two or more areas simultaneously. Some common cross-models include Vision-Language models, Speech-Language models, and Vision-Speech models. A Vision-Language (VL) model is a network architecture that can interpret both textual and visual inputs, which has always been challenging. Driven by the interest in exploring such an area, this thesis implements several VL models and investigates their performance on a specific VL task: The Image-Text Relation Task. Instead of using English as the context language, the thesis focuses on other languages where the available resources are less. Swedish is chosen as a case study and the results can be extended to other languages. The experiments show that the Transformer style architecture efficiently handles both textual and visual inputs, even trained with simple loss functions. The work suggests an innovative way for future development in cross-modal models, especially for VL tasks. / I vanlig mening är modalitet ett mått på hur många områden en modell täcker. Multimodala eller tvärmodala modeller kan hantera två eller flera områden samtidigt. Några vanliga tvärmodala modeller är vision-språk-modeller, tal-språk-modeller och vision-språk-modeller. En Vision-Language-modell (VL-modell) är en nätverksarkitektur som kan tolka både text- och visuell input samtidigt, vilket alltid har varit en utmaning. I denna avhandling, som drivs av intresset för att utforska ett sådant område, implementeras flera VL-modeller och deras prestanda undersöks på en specifik VL-uppgift: Uppgiften bild-text-relation. I stället för att använda engelska som kontextspråk fokuserar avhandlingen på andra språk där de tillgängliga resurserna är mindre. Svenskan har valts som fallstudie och resultaten kan utvidgas till andra språk. Experimenten visar att arkitekturen i Transformer-stilen effektivt hanterar både text- och visuella indata, även om den tränas med enkla förlustfunktioner. Arbetet föreslår en innovativ väg för framtida utveckling av intermodala modeller, särskilt för VL-uppgifter.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-322961
Date January 2022
CreatorsGou, Meinan
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:859

Page generated in 0.0028 seconds