Global ETD Search

1	News article segmentation using multimodal input : Using Mask R-CNN and sentence transformers / Artikelsegmentering med multimodala artificiella neuronnätverk : Med hjälp av Mask R-CNN och sentence transformers Henning, Gustav January 2022 (has links) In this century and the last, serious efforts have been made to digitize the content housed by libraries across the world. In order to open up these volumes to content-based information retrieval, independent elements such as headlines, body text, bylines, images and captions ideally need to be connected semantically as article-level units. To query on facets such as author, section, content type or other metadata, further processing of these documents is required. Even though humans have shown exceptional ability to segment different types of elements into related components, even in languages foreign to them, this task has proven difficult for computers. The challenge of semantic segmentation in newspapers lies in the diversity of the medium: Newspapers have vastly different layouts, covering diverse content, from news articles to ads to weather reports. State-of-the-art object detection and segmentation models have been trained to detect and segment real-world objects. It is not clear whether these architectures can perform equally well when applied to scanned images of printed text. In the domain of newspapers, in addition to the images themselves, we have access to textual information through Optical Character Recognition. The recent progress made in the field of instance segmentation of real-world objects using deep learning techniques begs the question: Can the same methodology be applied in the domain of newspaper articles? In this thesis we investigate one possible approach to encode the textual signal into the image in an attempt to improve performance. Based on newspapers from the National Library of Sweden, we investigate the predictive power of visual and textual features and their capacity to generalize across different typographic designs. Results show impressive mean Average Precision scores (>0:9) for test sets sampled from the same newspaper designs as the training data when using only the image modality. / I detta och det förra århundradet har kraftiga åtaganden gjorts för att digitalisera traditionellt medieinnehåll som tidigare endast tryckts i pappersformat. För att kunna stödja sökningar och fasetter i detta innehåll krävs bearbetning påsemantisk nivå, det vill säga att innehållet styckas upp påartikelnivå, istället för per sida. Trots att människor har lätt att dela upp innehåll påsemantisk nivå, även påett främmande språk, fortsätter arbetet för automatisering av denna uppgift. Utmaningen i att segmentera nyhetsartiklar återfinns i mångfalden av utseende och format. Innehållet är även detta mångfaldigt, där man återfinner allt ifrån faktamässiga artiklar, till debatter, listor av fakta och upplysningar, reklam och väder bland annat. Stora framsteg har gjorts inom djupinlärning just för objektdetektering och semantisk segmentering bara de senaste årtiondet. Frågan vi ställer oss är: Kan samma metodik appliceras inom domänen nyhetsartiklar? Dessa modeller är skapta för att klassificera världsliga ting. I denna domän har vi tillgång till texten och dess koordinater via en potentiellt bristfällig optisk teckenigenkänning. Vi undersöker ett sätt att utnyttja denna textinformation i ett försök att förbättra resultatet i denna specifika domän. Baserat pådata från Kungliga Biblioteket undersöker vi hur väl denna metod lämpar sig för uppstyckandet av innehåll i tidningar längsmed tidsperioder där designen förändrar sig markant. Resultaten visar att Mask R-CNN lämpar sig väl för användning inom domänen nyhetsartikelsegmentering, även utan texten som input till modellen. Historical newspapers Image segmentation Multimodal learning Deep learning Digital humanities Mask R-CNN Historiska tidningar Bildsegmentering Multimodal inlärning Djupinlärning Digital humaniora Mask R-CNN Computer Sciences Datavetenskap (datalogi)
2	Multi-modal Neural Representations for Semantic Code Search / Multimodala neurala representationer för semantisk kodsökning Gu, Jian January 2020 (has links) In recent decades, various software systems have gradually become the basis of our society. Programmers search existing code snippets from time to time in their daily life. It would be beneficial and meaningful to have better solutions for the task of semantic code search, which is to find the most semantically relevant code snippets for a given query. Our approach is to introduce tree representations by multi-modal learning. The core idea is to enrich semantic information for code snippets by preparing data of different modalities, and meanwhile ignore syntactic information. We design one novel tree structure named Simplified Semantic Tree and then extract RootPath representations from that. We utilize RootPath representation to complement the conventional sequential representation, namely the token sequence of the code snippet. Our multi-modal model receives code-query pair as input and computes similarity score as output, following the pseudo-siamese architecture. For each pair, besides the ready-made code sequence and query sequence, we extra one extra tree sequence from Simplified Semantic Tree. There are three encoders in our model, and they respectively encode these three sequences as vectors of the same length. Then we combine the code vector with the tree vector for one joint vector, which is still of the same length, as the multi-modal representation for the code snippet. We introduce triplet loss to ensure vectors of code and query in the same pair be close at the shared vector space. We conduct experiments in one large-scale multi-language corpus, with comparisons of strong baseline models by specified performance metrics. Among baseline models, the simplest Neural Bag-of-Words model is with the most satisfying performance. It indicates that syntactic information is likely to distract complex models from critical semantic information. Results show that our multi-modal representation approach performs better because it surpasses baseline models by far in most cases. The key to our multi-modal model is that it is totally about semantic information, and it learns from data of multiple modalities. / Under de senaste decennierna har olika programvarusystem gradvis blivit basen i vårt samhälle. Programmerare söker i befintliga kodavsnitt från tid till annan i deras dagliga liv. Det skulle vara fördelaktigt och meningsfullt att ha bättre lösningar för uppgiften att semantisk kodsökning, vilket är att hitta de mest semantiskt relevanta kodavsnitten för en given fråga. Vår metod är att introducera trädrepresentationer genom multimodal inlärning. Grundidén är att berika semantisk information för kodavsnitt genom att förbereda data med olika modaliteter och samtidigt ignorera syntaktisk information. Vi designar en ny trädstruktur med namnet Simplified Semantic Tree och extraherar sedan RootPath-representationer från det. Vi använder RootPath-representation för att komplettera den konventionella sekvensrepresentationen, nämligen kodsekvensens symbolsekvens. Vår multimodala modell får kodfrågeställningar som inmatning och beräknar likhetspoäng som utgång efter den pseudo-siamesiska arkitekturen. För varje par, förutom den färdiga kodsekvensen och frågesekvensen, extrager vi en extra trädsekvens från Simplified Semantic Tree. Det finns tre kodare i vår modell, och de kodar respektive tre sekvenser som vektorer av samma längd. Sedan kombinerar vi kodvektorn med trädvektorn för en gemensam vektor, som fortfarande är av samma längd som den multimodala representationen för kodavsnittet. Vi introducerar tripletförlust för att säkerställa att vektorer av kod och fråga i samma par är nära det delade vektorn. Vi genomför experiment i ett storskaligt flerspråkigt korpus, med jämförelser av starka baslinjemodeller med specificerade prestandametriker. Bland baslinjemodellerna är den enklaste Neural Bag-of-Words-modellen med den mest tillfredsställande prestanda. Det indikerar att syntaktisk information sannolikt kommer att distrahera komplexa modeller från kritisk semantisk information. Resultaten visar att vår multimodala representationsmetod fungerar bättre eftersom den överträffar basmodellerna i de flesta fall. Nyckeln till vår multimodala modell är att den helt handlar om semantisk information, och den lär sig av data om flera modaliteter. multi-modal learning pseudo-siamese architecture neural bagof- words model tree representation Simplified Semantic Tree semantic code search multimodal inlärning pseudo-siamesisk arkitektur neural väskamed- ord-modell trädrepresentation förenklat semantiskt träd semantisk kodsökning Computer and Information Sciences Data- och informationsvetenskap
3	"En bild säger mer än tusen ord" : Hur tre olika skönlitterärt uppbyggda läroböcker utformat bildstöd för årskurs 1. / "A picture is worth a thousand words" : How three different fiction-based textbooks designed visual support for year 1. Simonsson, Kim, Kraaijenbrink, Elin January 2020 (has links) Den här kvalitativa studien syftar till att undersöka hur bildstöd är utformat i tre skönlitterärt uppbyggda läroböcker på ingångsnivå riktade mot årskurs 1 i svenska för att stödja elevers läsinlärning. Studien tar avstamp i Richard E. Mayers (2014) teori om multimodal inlärning: Cognitive Theory of Multimedia Learning. Teorin bygger på idén att människor lär bättre och djupare från text och bild än från enbart text. Läroböckerna analyseras utifrån Lundh och Limbergs (2012) kategorier när det gäller bildstöd: dekorativ, illustrativ, narrativ och förklarande. I läroböckerna analyseras även förhållandet mellan text och bild samt vilka tidigare kunskaper eleverna behöver för att förstå bildstödet. Resultatet visar att alla de tre läroböckerna använder sig av bildstöd i berättelsen. Det bildstöd som används mest i läroböckerna är narrativt, samtidigt som dekorativt bildstöd saknas helt. Förhållandet mellan bild och text ser genomgående olika ut i läroböckerna men visar sig ha stor betydelse speciellt för elevernas läsförståelse. Precis som med allt annat i vardagen behöver eleverna ha tidigare kunskaper för att kunna “läsa” och förstå bilderna i läroböckerna. Av studiens resultat kan slutsatsen dras att läroböckerna använder sig av bilder avsiktligen för att stödja läsningen, att bilderna ger bäst stöd om de berättar samma sak som texten gör samt att eleverna måste kunna ”läsa” och förstå bilderna för att få full läsförståelse. Visual support multimedia learning multimedia reading textbook analysis CTML Mayer previous knowledge decorative illustrative narrative explaining picture/ text relationship reading comprehension Bildstöd multimodal inlärning multimodal läsning läroboksanalys CTML Mayer dekorativ illustrativ narrativ förklarande tidigare kunskaper förhållandet mellan text och bild Other Humanities not elsewhere specified Övrig annan humaniora

1

Page generated in 0.0679 seconds