• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 18
  • 7
  • Tagged with
  • 27
  • 27
  • 8
  • 7
  • 7
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Investigating reading comprehension in Reading While Listening and the relevancy of The Voice Effect / Undersökning av läsförståelse och rösteffekten inom samtidig lyssning och läsning

Hedenström, Edvin, Barck-Holst, Axel January 2023 (has links)
Various forms of multimedia learning have been shown to aid learners time and time again. One form of multimedia learning that has not been thoroughly studied is reading while listening (RWL). This is especially the case when it comes to the immediate impacts on reading comprehension from practising RWL. Furthermore the recent advancements of Text-To-Speech (TTS) have started to challenge the established notion that real human recorded spoken word is always preferable for learning, also known as The Voice Effect. This study looked at Swedish University students with English as their second language (L2) and examined how their reading comprehension in L2 was performing in three different groups. The groups were Reading Only (RO), Reading-While-Listening with spoken word (RWL-SW) and Reading-While-Listening with text-to-speech (RWL-TTS). The RO group was then compared to The RWL groups. The two RWL groups were also compared on test scores as well as perceived enjoyment and aid from the narration as reported by the participants. Our results did not exhibit any statistically significant difference in reading comprehension between the RO group and the RWL groups. When looking at the results of the reading comprehension test the RO and RWL-TTS groups got the exact same number of correct answers. This suggests that RWL did not have any notable impact on reading comprehension. Furthermore no statistical significant difference was found between the two RWL groups in test scores or perceived enjoyment and aid from the narration. What’s interesting to note is that RWL-SW performed slightly worse than RWL-TTS on the comprehension test. The reported perceived enjoyment and aid from the narration was also notably similar to each other. This suggests that The Voice Effect did not have relevance in this test. / Olika former av multimediainlärning har visat sig hjälpa eleverna gång på gång. En form av multimedieinlärning som inte har studerats grundligt är läsning medan man lyssnar (RWL). Detta gäller särskilt när det gäller de omedelbara effekterna på läsförståelsen av att använda på RWL. Dessutom har de senaste framstegen med text till tal (TTS) börjat utmana den etablerade uppfattningen att verkligt mänskligt inspelat talat ord alltid är att föredra vid inlärning, även kallat “Rösteffekten” (The Voice Effect). I den här studien undersöktes svenska universitetsstudenter med engelska som andraspråk (L2) och hur deras läsförståelse i L2 presterade i tre olika grupper. Grupperna var Reading Only (RO), Reading-While-Listening med en mänsklig talare (RWL-SW) och Reading-While-Listening med text-to-speech (RWL-TTS). RO-gruppen jämfördes sedan med RWL-grupperna. De två RWL-grupperna jämfördes också med avseende på testresultat samt upplevd njutning och hjälp från berättandet enligt deltagarnas rapporter. Våra resultat visade ingen statistiskt signifikant skillnad i läsförståelse mellan RO-gruppen och RWL-grupperna. När man tittar på resultaten av läsförståelsetestet fick RO- och RWL-TTS- grupperna exakt lika många korrekta svar. Detta tyder på att RWL inte hade någon anmärkningsvärd inverkan på läsförståelsen. Dessutom hittades ingen statistiskt signifikant skillnad mellan de två RWL-grupperna när det gäller testresultat eller upplevd njutning och hjälp av uppläsningen. Vad som är intressant att notera är att RWL-SW presterade något sämre än RWL-TTS på läsförståelsetestet. Den rapporterade upplevda uppskattningen och hjälp från uppläsning var också anmärkningsvärt likartade. Detta tyder på att “The Voice Effect” inte hade någon betydelse i detta test.
12

MultiModal Neural Network for Healthcare Applications / Multimodal neural network för tillämpningar inom hälso- och sjukvård

Satayeva, Malika January 2023 (has links)
BACKGROUND. Multimodal Machine Learning is a powerful paradigm that capitalizes on the complementary predictive capabilities of different data modalities, such as text, image, time series. This approach allows for an extremely diverse feature space, which proves useful for combining different real-world tasks into a single model. Current architectures in the field of multimodal learning often integrate feature representations in parallel, a practice that not only limits their interpretability but also creates a reliance on the availability of specific modalities. Interpretability and robustness to missing inputs are particularly important in clinical decision support systems. To address these issues, the iGH Research Group at EPFL proposed a modular sequential input fusion called Modular Decision Support Network (MoDN). MoDN was tested on unimodal tabular inputs for multitask outputs and was shown to be superior to its monolithic parallel counterparts, while handling any number and combination of inputs and providing continuous real-time predictive feedback. AIM. We aim to extend MoDN to MultiModN with multimodal inputs and compare the benefits and limitations of sequential fusion with a state-of-the-art parallel fusion (P-Fusion) baseline.METHODS & FINDINGS. We align our experimental setup with a previously published P-Fusion baseline, focusing on two binary diagnostic predictive tasks (presence of pleural effusion and edema) in a popular multimodal clinical benchmark dataset (MIMIC).We perform four experiments: 1) comparing MultiModN to P-Fusion, 2) extending the architecture to multiple tasks, 3) exploring MultiModN's inherent interpretability in several metrics, and 4) testing its ability to be resistant to biased missingness by simulating missing not at random (MNAR) data during training and flipping the bias at inference. We show that MultiModN's sequential architecture does not compromise performance compared with the P-Fusion baseline, despite the added advantages of being multitask, composable and inherently interpretable. The final experiment shows that MultiModN resists catastrophic failure from MNAR data, which is particularly prevalent in clinical settings. / Multimodal maskininlärning är ett kraftfullt paradigm som utnyttjar de kompletterande prediktiva egenskaperna hos olika datamodaliteter, såsom text, bild, tidsserier. Detta tillvägagångssätt möjliggör ett extremt varierat funktionsutrymme, vilket visar sig vara användbart för att kombinera olika verkliga uppgifter i en enda modell. Nuvarande arkitekturer för multimodal inlärning integrerar ofta funktionsrepresentationer parallellt, en praxis som inte bara begränsar deras tolkningsbarhet utan också skapar ett beroende av tillgängligheten av specifika modaliteter. Tolkningsbarhet och robusthet mot saknade indata är särskilt viktigt i kliniska beslutsstödsystem. För att lösa dessa problem har forskargruppen iGH vid EPFL föreslagit en modulär sekventiell fusion av indata som kallas Modular Decision Support Network (MoDN). MoDN testades på unimodala tabulära indata för multitask-utdata och visade sig vara överlägsen sina monolitiska parallella motsvarigheter, samtidigt som den hanterar alla antal och kombinationer av indata och ger kontinuerlig prediktiv feedback i realtid. Vårt mål är att utöka MoDN till MultiModN med multimodala indata och jämföra fördelarna och begränsningarna med sekventiell fusion med en toppmodern baslinje för parallell fusion (P-Fusion). Vi anpassar vår experimentuppsättning till en tidigare publicerad P-Fusion-baslinje, med fokus på två binära diagnostiska prediktiva uppgifter (närvaro av pleural effusion och ödem) i en populär multimodal klinisk benchmark datauppsättning (MIMIC), som omfattar bilder, text, tabelldata och tidsserier. Vi utför fyra experiment och visar att MultiModN:s sekventiella arkitektur inte försämrar prestandan jämfört med P-Fusions baslinje, trots de extra fördelarna med att vara multitasking, komponerbar och tolkningsbar i sin egen rätt. Det sista experimentet visar att MultiModN motstår katastrofala fel från MNAR-data, vilket är särskilt vanligt i kliniska miljöer.
13

Playful writing i Sverige : Möjligheter och hinder ur verksamma pedagogers synvinkel / Playful writing in Sweden : Opportunities and obstacles from the working educator's point of view

Ingvarsdotter, Anna, Walter, Maria January 2018 (has links)
Metoden Playful writing är utarbetad i Storbritannien utifrån deras läroplan. Metoden bygger på att elever via högläsning och guidad lek med byggande i grupp med 3D material får närma sig narrativt skrivande. Metoden bygger på multimodalt och kooperativt lärande. Syftet med vår studie är att undersöka hur pedagoger i Sverige uppfattar metoden Playful writings möjligheter och hinder med avseende på inkludering under narrativ skrivundervisning. För att kunna ta del av hur pedagoger uppfattar metoden behöver vi undersöka hur de uppfattar metodens olika delmoment. Vi har därför under hösten 2018 erbjudit två workshoptillfällen till pedagoger för att de ska prova på och bilda sig en uppfattning om metoden. Workshoptillfällena har utgått från vår tolkning av metoden utifrån den engelska handledningen. Efter workshopstillfällena har de deltagande pedagogerna fått en förfrågan om att delta i vår webbenkätstudie. Studiens 46 deltagare är överlag positiva till metoden. De anser att metoden ger elever möjlighet att öka måluppfyllelsen i narrativ skrift. Deltagarna anser också att metoden Playful writing har möjligheter att bidra till alla elevers delaktighet i undervisningen. I enkätsvaren framkommer fler möjligheter än hinder för metoden. Från första juli 2019 gäller läsa, skriva, räkna garantin i alla Sveriges skolor (Regeringskansliet, 2018). Personal med specialpedagogisk kompetens förväntas då tidigt bedöma elevers kunskapsutveckling. Personalen med specialpedagogisk kompetens skall också tillsammans med de pedagoger som arbetar i klasserna erbjuda inkluderande undervisningsmetoder. De metoderna erbjuder ett rikt utbud av variation i undervisningen som bidrar till en väl fungerande skrivundervisning. Utifrån resultatet i vår studie menar vi att Playful writing kan vara en inkluderande undervisningsmetod i narrativ skrift. / The method is developed in the UK and based on the UK curriculum. The method is based on pupils being able to approaching narrative writing by reading together and by guided play with building in groups using 3D material. The method is based on multimodal and cooperative learning. The aim with our study is to investigate how educators in Sweden perceive the method Playful writing opportunities and obstacles with regard to inclusion during narrative writing. To be able to find out how the educators perceive the method we need to find out how they perceive the different steps of the method. In the autumn of 2018, we have carried thorugh two workshop opportunities for educators to try and form an idea of ​​the method. The workshops are based on our understanding of the handbook Playful writing. After the workshops the participating educators have been asked to participate in our web survey. The 46 participants of the study are generally positive towards the method. They believe that the method gives pupils the opportunity to increase goal achievement in narrative writing. The participants also believe that the method Playful writing has the opportunity to contribute to all pupils' participation in learning. The answers in the questionnaire suggest that the method has more possibilities than obstacles. From July 1, 2019, reading, writing, counting the guarantee applies to all Swedish schools (Government Offices, 2018). Personnel with special educational skills are expected to assess pupils' knowledge development at an early stage. The staff with special pedagogical competence shall also, together with the educators working in the classes, offer inclusive teaching methods. These methods offer a rich diversity in teaching that contributes to a well-functioning writing instruction. Based on the results in our study, we suggest that Playful writing can be such a method.
14

Playful writing i Sverige : Möjligheter och hinder ur verksamma pedagogers synvinkel

Ingvarsdotter, Anna, Walter, Maria January 2018 (has links)
Metoden Playful writing är utarbetad i Storbritannien utifrån deras läroplan. Metoden bygger på att elever via högläsning och guidad lek med byggande i grupp med 3D material får närma sig narrativt skrivande. Metoden bygger på multimodalt och kooperativt lärande. Syftet med vår studie är att undersöka hur pedagoger i Sverige uppfattar metoden Playful writings möjligheter och hinder med avseende på inkludering under narrativ skrivundervisning. För att kunna ta del av hur pedagoger uppfattar metoden behöver vi undersöka hur de uppfattar metodens olika delmoment. Vi har därför under hösten 2018 erbjudit två workshoptillfällen till pedagoger för att de ska prova på och bilda sig en uppfattning om metoden. Workshoptillfällena har utgått från vår tolkning av metoden utifrån den engelska handledningen. Efter workshopstillfällena har de deltagande pedagogerna fått en förfrågan om att delta i vår webbenkätstudie. Studiens 46 deltagare är överlag positiva till metoden. De anser att metoden ger elever möjlighet att öka måluppfyllelsen i narrativ skrift. Deltagarna anser också att metoden Playful writing har möjligheter att bidra till alla elevers delaktighet i undervisningen. I enkätsvaren framkommer fler möjligheter än hinder för metoden. Från första juli 2019 gäller läsa, skriva, räkna garantin i alla Sveriges skolor (Regeringskansliet, 2018). Personal med specialpedagogisk kompetens förväntas då tidigt bedöma elevers kunskapsutveckling. Personalen med specialpedagogisk kompetens skall också tillsammans med de pedagoger som arbetar i klasserna erbjuda inkluderande undervisningsmetoder. De metoderna erbjuder ett rikt utbud av variation i undervisningen som bidrar till en väl fungerande skrivundervisning. Utifrån resultatet i vår studie menar vi att Playful writing kan vara en inkluderande undervisningsmetod i narrativ skrift. / The method is developed in the UK and based on the UK curriculum. The method is based on pupils being able to approaching narrative writing by reading together and by guided play with building in groups using 3D material. The method is based on multimodal and cooperative learning. The aim with our study is to investigate how educators in Sweden perceive the method Playful writing opportunities and obstacles with regard to inclusion during narrative writing. To be able to find out how the educators perceive the method we need to find out how they perceive the different steps of the method. In the autumn of 2018, we have carried thorugh two workshop opportunities for educators to try and form an idea of the method. The workshops are based on our understanding of the handbook Playful writing. After the workshops the participating educators have been asked to participate in our web survey. The 46 participants of the study are generally positive towards the method. They believe that the method gives pupils the opportunity to increase goal achievement in narrative writing. The participants also believe that the method Playful writing has the opportunity to contribute to all pupils' participation in learning. The answers in the questionnaire suggest that the method has more possibilities than obstacles. From July 1, 2019, reading, writing, counting the guarantee applies to all Swedish schools (Government Offices, 2018). Personnel with special educational skills are expected to assess pupils' knowledge development at an early stage. The staff with special pedagogical competence shall also, together with the educators working in the classes, offer inclusive teaching methods. These methods offer a rich diversity in teaching that contributes to a well-functioning writing instruction. Based on the results in our study, we suggest that Playful writing can be such a method.
15

Multimodal storytelling : exploring the role of pedagogy in developing student literacy via school television.

Lockyer, Caroline January 2014 (has links)
This research study was designed to explore the effectiveness of pedagogical practices on student literacy learning within a student television context. The study was undertaken in response to practitioner inquiry into the value and worth of school television for student literacy learning. Over the research period this project evolved into a deeply reflective self-study of teaching practice within a technological environment. This research took place in a suburban primary school where school television had been created by students for the previous two years. Twenty-two students aged between 10 and 12 participated in three cycles of action research to investigate how pedagogy influences learning within this context. A range of pedagogical actions designed to influence students’ critical thinking were implemented into action research cycles. The selection of actions for intervention was influenced by an investigation into current literature from the field, and an analysis of existing multi-literacy learning, pedagogical conditions and student views of teaching and learning within student television at the beginning of the research cycles. This study gathered information during research cycles using student learning conversations and student interviews, which provided insight into learning from the point of view of students. Supporting this information were daily researcher observations and end-of-cycle interviews with classroom teachers. Through careful monitoring, analysis and reflection on each research cycle it was clear that strategic pedagogical interventions did positively influence multi-literacy learning. Rather than attempt to measure differences in student learning, this study explored how multi-literacy learning, strategic pedagogy and learning within student television inter-related with one another. This research study identified and explored the complex inter-relationships between pedagogies and multi-literacy learning.
16

Möjligheter och utmaningar: Fritidslärares vardag med digitala verktyg / Possibilities and challenges: Leisure-time teachers day to day work with digital tools

Hjerpe, Frida, Thorell, Moa January 2022 (has links)
Syftet med denna studie är att undersöka hur fritidslärare beskriver sitt arbete meddigitala verktyg i fritidshemmet. Studien har ett multimodalt perspektiv på lärande, föratt förtydliga hur digitala verktyg kan fungera som verktyg i undervisningen. Detta är en kvantitativ studie med kvalitativa inslag för att lyfta fram fritidsläraresförhållningssätt och förutsättningar i arbetet med digitala verktyg. Datainsamlingen harskett genom en enkätstudie med majoriteten slutna frågor utöver en öppen fråga omrespondenternas upplevda utmaningar i arbetet med digitala verktyg. Enkäten lades uppi olika intressegrupper på Facebook med en gemensam nämnare gällandefritidspedagogik. Den insamlade empiriska data kategoriseras utefter studiensfrågeställningar för att kunna se samband mellan respondenternas upplevelser. Studiens resultat visade att förutsättningarna för att bedriva en verksamhet med digitalaverktyg såg olika ut på de olika fritidshemmen. Medan några respondenter menar att dehar en låg tillgång och sämre förutsättningar att arbeta med digitala verktyg, menarandra respondenter att deras fortsättningar för att bedriva en verksamhet med digitalaverktyg är betydligt bättre. Samtliga respondenter upplever att det finns utmaningar,även på de fritidshem där förhållningssättet och förutsättningar var goda. Studienpåvisar att det finns utmaningar i arbetet med digitala verktyg, men att utmaningarna serolika ut.
17

News article segmentation using multimodal input : Using Mask R-CNN and sentence transformers / Artikelsegmentering med multimodala artificiella neuronnätverk : Med hjälp av Mask R-CNN och sentence transformers

Henning, Gustav January 2022 (has links)
In this century and the last, serious efforts have been made to digitize the content housed by libraries across the world. In order to open up these volumes to content-based information retrieval, independent elements such as headlines, body text, bylines, images and captions ideally need to be connected semantically as article-level units. To query on facets such as author, section, content type or other metadata, further processing of these documents is required. Even though humans have shown exceptional ability to segment different types of elements into related components, even in languages foreign to them, this task has proven difficult for computers. The challenge of semantic segmentation in newspapers lies in the diversity of the medium: Newspapers have vastly different layouts, covering diverse content, from news articles to ads to weather reports. State-of-the-art object detection and segmentation models have been trained to detect and segment real-world objects. It is not clear whether these architectures can perform equally well when applied to scanned images of printed text. In the domain of newspapers, in addition to the images themselves, we have access to textual information through Optical Character Recognition. The recent progress made in the field of instance segmentation of real-world objects using deep learning techniques begs the question: Can the same methodology be applied in the domain of newspaper articles? In this thesis we investigate one possible approach to encode the textual signal into the image in an attempt to improve performance. Based on newspapers from the National Library of Sweden, we investigate the predictive power of visual and textual features and their capacity to generalize across different typographic designs. Results show impressive mean Average Precision scores (>0:9) for test sets sampled from the same newspaper designs as the training data when using only the image modality. / I detta och det förra århundradet har kraftiga åtaganden gjorts för att digitalisera traditionellt medieinnehåll som tidigare endast tryckts i pappersformat. För att kunna stödja sökningar och fasetter i detta innehåll krävs bearbetning påsemantisk nivå, det vill säga att innehållet styckas upp påartikelnivå, istället för per sida. Trots att människor har lätt att dela upp innehåll påsemantisk nivå, även påett främmande språk, fortsätter arbetet för automatisering av denna uppgift. Utmaningen i att segmentera nyhetsartiklar återfinns i mångfalden av utseende och format. Innehållet är även detta mångfaldigt, där man återfinner allt ifrån faktamässiga artiklar, till debatter, listor av fakta och upplysningar, reklam och väder bland annat. Stora framsteg har gjorts inom djupinlärning just för objektdetektering och semantisk segmentering bara de senaste årtiondet. Frågan vi ställer oss är: Kan samma metodik appliceras inom domänen nyhetsartiklar? Dessa modeller är skapta för att klassificera världsliga ting. I denna domän har vi tillgång till texten och dess koordinater via en potentiellt bristfällig optisk teckenigenkänning. Vi undersöker ett sätt att utnyttja denna textinformation i ett försök att förbättra resultatet i denna specifika domän. Baserat pådata från Kungliga Biblioteket undersöker vi hur väl denna metod lämpar sig för uppstyckandet av innehåll i tidningar längsmed tidsperioder där designen förändrar sig markant. Resultaten visar att Mask R-CNN lämpar sig väl för användning inom domänen nyhetsartikelsegmentering, även utan texten som input till modellen.
18

Building a low-cost IoT sensor system that recognizes behavioral patterns for collaborative learning - A Proof of Concept

Sundblad, Graziella January 2021 (has links)
Since the advent of the Internet, we have been observing a fast-paced development within the computing world. One of the major innovations in recent years is the “Internet of Things”, which brings interconnectedness between devices and humans to unprecedented heights. This technological breakthrough enabled the emergence of a new sub-field within Learning Analytics, Multimodal Learning Analytics, which makes use of several types of data sources to study learning-related processes. As computers and sensors become increasingly cheaper and more accessible,  research within this new sub-field grows, yet some gaps remain unexplored. Additionally, there is a research bias toward computer-assisted learning environments, rather than physical ones. At the same time, the current labor market is highly competitive, and possessing profession-related skills is not sufficient to land a job. Besides these skills, there is an increasing demand for social skills, such as communication, teamwork, and collaboration. However, there is a gap between the skills that are trained in an academic setting and the ones that are required by the labor market. Having this background in mind, this work aims at designing and evaluating an IoT sensor system capable of tracking patterns observed under social interactions within a group, and more specifically, in terms of the distance between group members while solving a task. Another important aspect of this study is the system's cost-effectiveness so that it can be employed in a scalable and sustainable manner. To achieve this goal, a multimethodological approach for Design Science Research was adopted, which implied the combination of several methods such as sketching, prototyping, and testing. As a result, this study contributes both to the research area of Multimodal Learning Analytics, and to educational practices.
19

"Jag är också lite gammalmodig" : En kvalitativ studie om lärares uppfattning av multimodalt lärande med lärplattan i differentierad undervisning i ämnet svenska i årskurs F-3. / "Im also a bit old-fashioned" : A qualitative study on teachers´perception of multimodal learning with the learning tablet in differentiated teaching in the subject of Swedish in preschool and grades 1-3.

Pettersson, Julia January 2023 (has links)
Syftet med denna studie är att bidra med kunskap om hur multimodalt lärande med lärplattan kan användas i svenskundervisningen för att skapa en differentierad undervisning som ett medel för att möta elevers behov. Syftet besvaras genom kvalitativ metod och semistrukturerade intervjuer av fem lärare som är verksamma i grundskolan F-3. Det insamlade materialet genom intervjuerna har analyserats i form av kategoriseringar, kodningar samt tolkningar. Sociokulturellt perspektiv är studiens teoretiska utgångspunkt.  I resultatet beskrivs det att lärare har olika tankar kring multimodalt lärande med lärplattan i svenskundervisning för att skapa en differentierad undervisning som medel för att möta elevers behov. Däremot har majoriteten av lärarna övervägande positiv inställning. Fördelar är att det med olika medel går att genomföra en differentierad undervisning med lärplattan genom olika applikationer. Detta i sin tur beskriver lärarna ger eleverna ökad motivation och de orkar lägga mer tid på sina texter och bearbetning av dem. De slutsatser som framgår är att lärarna ser multimodalt lärande med lärplattan i svenskundervisning för att skapa differentierad undervisning som en fördel. Däremot framgår det att det ska finnas en variation mellan digitalt och analogt arbetssätt, detta för att skapa en undervisning som når alla. / The purpose of this study is to contribute with knowledge about how multimodal learning with the learning tablet can be used in teaching in Swedish to create a differentiated teaching as a means to meet students' needs. The purpose is answered through qualitative methods and semi-structured interviews of five teachers who works in primary school F-3. The material collected through the interviews has been analyzed in the form of categorizations, coding and interpretations. Sociocultural theory is the study's theoretical starting point. In the results, it is described that teachers have different thoughts about multimodal learning with the learning tablet in Swedish teaching to create a differentiated teaching as a means to meet students' needs. However, the majority of teachers have a predominantly positive attitude. Advantages are that with different means it is possible to carry out differentiated teaching with the learning tablet through different applications. This, in turn, the teachers describe, gives the students increased motivation and they are able to spend more time on their texts and processing them. The conclusions that emerge are that the teachers see multimodal learning with the learning board in Swedish teaching to create differentiated teaching as an advantage. On the other hand, it appears that there must be a variation between digital and analogue working methods, this in order to create teaching that reaches everyone.
20

Multimodal Classification of Second-Hand E-Commerce Ads / Multimodal klassiciering av annonser på Second-Hand-Marknadsplatser

Åberg, Ludvig January 2018 (has links)
In second-hand e-commerce, categorization of new products is typically done by the seller. Automating this process makes it easier to upload ads and could lower the number of incorrectly categorized ads. Automatic ad categorization also makes it possible for a second-hand e-commerce platform to use a more detailed category system, which could make the shopping experience better for potential buyers. Product ad categorization is typically addressed as a text classification problem as most metadata associated with products are textual. By including image information, i.e. using a multimodal approach, better performance can however be expected. The work done in this thesis evaluates different multimodal deep learning models for the task of ad categorization on data from Blocket.se. We examine late fusion models, where the modalities are combined at decision level, and early fusion models, where the modalities are combined at feature level. We also introduce our own approach Text Based Visual Attention  (TBVA), which extends the image CNN Inception v3 with an attention mechanism to incorporate textual information. For all models evaluated, the text classifier fastText is used to process text data and the Inception v3 network to process image data. Our results show that the late fusion models perform best in our setting. We conclude that these models generally learn which of the baseline models to ’trust’, while early fusion and the TBVA models learn more abstract concepts. As future work, we would like to examine how the TBVA models perform on other tasks, such as ad similarity. / Produkter som läggs ut på marknadsplatser, såsom Blocket.se, kategoriseras oftast av säljaren själv. Att automatisera processen för kategorisering gör det därför både enklare och snabbare att lägga upp annonser och kan minska antalet produkter med felaktig kategori. Automatisk kategorisering gör det ocksåmöjligt för marknadsplatsen att använda ett mer detaljerat kategorisystem, vilket skulle kunna effektivisera sökandet efter produkter för potentiella köpare.Produktkategorisering adresseras ofta som ett klassificeringsproblem för text, eftersom den största delen av produktinformationen finns i skriftlig form. Genom att också inkludera produktbilder kan vi dock förvänta oss bättre resultat.I den här uppsatsen evalueras olika metoder för att använda både bild och text för annonsklassificering av data från blocket.se. I synnerhetundersökslate fusion modeller, där informationen från modaliteterna kombineras i samband med klassificeringen, samt early fusion modeller, där modaliteterna istället kombineras på en abstrakt nivå innan klassificeringen. Vi introduserar också vår egen modell Text Based Visual Attention (TBVA), en utvidgning av bildklassificeraren Inception v3 [1], som använder en attention mekanism för att inkorporera textinformation. För alla modeller som beskrivs i denna uppsats används textklassificeraren fast Text[2] för att processa text och bildklassificeraren Inception v3 för att processa bild. Våra resultat visar att late fusion modeller presterar bäst med vår data. I slutsatsen konstateras att late fusion modellerna lär sig vilka fall den ska 'lita' på text eller bild informationen, där early fusion och TBVA modellerna istället lär sig mer abstrakta koncept. Som framtida arbete tror vi det skulle vara av värde att undersöka hur TBVA modellerna presterar på andra uppgifter, såsom att bedöma likheter mellan annonser.

Page generated in 0.1163 seconds