Global ETD Search

131	Layout Analysis on modern Newspapers using the Object Detection model Faster R-CNN Funkquist, Mikaela January 2022 (has links) As society is becoming more and more digitized the amount of digital data is increasing rapidly. Newspapers are one example of this, that many Libraries around the world are storing as digital images. This enables a great opportunity for research on Newspapers, and a particular research area is Document Layout Analysis where one divides the document into different segments and classifies them. In this thesis modern Newspaper pages, provided by KBLab, were used to investigate how well a Deep Learning model developed for General Object Detection performs in this area. In particular the Faster R-CNN Object detection model was trained on manually annotated newspaper pages from two different Swedish publishers, namely Dagens Nyheter and Aftonbladet. All newspaper pages were taken from editions published between 2010 and 2020, meaning only modern newspapers were considered. The methodology in this thesis involved sampling editions from the given publishers and time periods and then manually annotating these by marking out the desired layout elements with bounding boxes. The classes considered were: headlines, subheadlines, decks, charts/infographics, photographs, pull quotes, cartoons, fact boxes, bylines/credits, captions, tableaus and tables. Given the annotated data, a Faster R-CNN with a ResNet-50-FPN backbone was trained on both the Dagens Nyheter and Aftonbladet train sets and then evaluated on different test set. Results such as a mAP0.5:0.95 of 0.6 were achieved for all classes, while class-wise evaluation indicate precisions around 0.8 for some classes such as tableaus, decks and photographs. / I takt med att samhället blir mer och mer digitaliserat ökar mängden digital data snabbt. Tidningar är ett exempel på detta, som många bibliotek runt om i världen lagrar som digitala bilder. Detta möjliggör en stor möjlighet för forskning på tidningar, och ett särskilt forskningsområde är Dokument Layout Analys där man delar in dokumentet i olika segment och klassificerar dem. I denna avhandling användes moderna tidningssidor, tillhandahållna av KBLab, för att undersöka hur väl en djupinlärnings-modell utvecklad för generell Objektdetektering presterar inom detta område. Mer precist, tränades en Faster R-CNN Objektdetekteringsmodell på manuellt annoterade tidningssidor från två olika svenska förlag, nämligen Dagens Nyheter och Aftonbladet. Alla tidningssidor togs från utgåvor som publicerats mellan 2010 och 2020, vilket innebär att endast moderna tidningar behandlades. Metodiken i detta examensarbete innebar att först göra ett urval av utgåvor från givna förlag och tidsperioder och sedan manuellt annotera dessa genom att markera ut önskade layoutelement med begränsningsrutor. Klasserna som användes var: rubriker, underrubriker, ingress, diagram/infografik, fotografier, citat, tecknade serier, faktarutor, författares signatur, bildtexter, tablåer och tabeller. Givet den annoterade datan, tränades en Faster R-CNN med en ResNet-50-FPN ryggrad på både Dagens Nyheter och Aftonbladet träningsdatan och sedan utvärderades dem på olika testset. Resultat som mAP0.5:0.95 på 0.6 uppnåddes för alla klasser, medan klassvis utvärdering indikerar precision kring 0.8 för vissa klasser som tablåer, ingresser och fotografier. Document Layout Analysis Newspapers Object Detection Faster R-CNN Deep Learning Dokument Layout Analys Tidningar Objektdetektering Faster R-CNN Djupinlärning Computer and Information Sciences Data- och informationsvetenskap
132	Exploring the effects of state-action space complexity on training time for AlphaZero agents / Undersökning av påverkan av spelkomplexitet på träningstiden för AlphaZero-agenter Glimmerfors, Tobias January 2022 (has links) DeepMind’s development of AlphaGo took the world by storm in 2016 when it became the first computer program to defeat a world champion at the game of Go. Through further development, DeepMind showed that the underlying algorithm could be made more general, and applied to a large set of problems. This thesis will focus on the AlphaZero algorithm and what parameters affect the rate at which an agent is able to learn through self-play. We investigated the effect that the neural network size has on the agent’s learning as well as how the environment complexity affects the agent’s learning. We used Connect4 as the environment for our agents, and by varying the width of the board we were able to simulate environments with different complexities. For each board width, we trained an AlphaZero agent and tracked the rate at which it improved. While we were unable to find a clear correlation between the complexity of the environment and the rate at which the agent improves, we found that a larger neural network both improved the final performance of the agent as well as the rate at which it learns. Along with this, we also studied what impact the number of MonteCarlo tree search iterations have on an already trained AlphaZero agent. Unsurprisingly, we found that a higher number of iterations led to an improved performance. However, the difference between using only the priors of the neural network and a series of Monte-Carlo tree search iterations is not very large. This suggest that using solely the priors can sometimes be useful if inferences need to made quickly. / DeepMinds utveckling av AlphaGo blev ett stort framsteg året 2016 då det blev första datorprogrammet att besegra världsmästaren i Go. Med utvecklingen av AlphaZero visade DeepMind att en mer generell algoritm kunde användas för att lösa en större mängd problem. Den här rapporten kommer att fokusera på AlphaZero-algoritmen och hur olika parametrar påverkar träningen. Vi undersökte påverkan av neuronnätets storlek och spelkomplexiteten på agentens förmåga att förbättra sig. Med hjälp av 4 i rad som testningsmiljö för våra agenter, och genom att ändra på bredden på spelbrädet kunde vi simulera olika komplexa spel. För varje bredd som vi testade, tränade vi en AlphaZero-agent och mätte dens förbättring. Vi kunde inte hitta någon tydlig korrelation mellan spelets komplexitet och agentens förmåga att lära sig. Däremot visade vi att ett större neuronnät leder till att agenten förbättrar sig mer, och dessutom lär sig snabbare. Vi studerade även påverkan av att variera antalet trädsökningar för en färdigtränad agent. Våra experiment visar på att det finns en korrelation mellan agentens spelstyrka och antalet trädsökningar, där fler trädsökningar innebär en förbättrad förmåga att spela spelet. Skillnaden som antalet trädsökningar gör visade sig däremot inte vara så stor som förväntad. Detta visar på att man kan spara tid under inferensfasen genom att sänka antalet trädsökningar, med en minimal bestraffning i prestanda. Deep learning Reinforcement learning AlphaZero Monte-Carlo tree search Environment complexity Djupinlärning Förstärkande inlärning AlphaZero Monte-Carlo tree search spelkomplexitet Computer and Information Sciences Data- och informationsvetenskap
133	Error detection in blood work : Acomparison of self-supervised deep learning-based models / Felupptäckning i blodprov : En jämförelse av självbevakade djupinlärningsmodeller Vinell, Paul January 2022 (has links) Errors in medical testing may cause serious problems that has the potential to severely hurt patients. There are many machine learning methods to discover such errors. However, due to the rarity of errors, it is difficult to collect enough examples to learn from them. It is therefore important to focus on methods that do not require human labeling. This study presents a comparison of neural network-based models for the detection of analytical errors in blood tests containing five markers of cardiovascular health. The results show that error detection in blood tests using deep learning is a promising preventative mechanism. It is also shown that it is beneficial to take a multivariate approach to error detection so that the model examines several blood tests at once. There may also be benefits to looking at multiple health markers simultaneously, although this benefit is more pronounced when looking at individual blood tests. The comparison shows that a supervised approach significantly outperforms outlier detection methods on error detection. Given the effectiveness of the supervised model, there is reason to further study and potentially employ deep learning-based error detection to reduce the risk of errors. / Fel i medicinska tester kan orsaka allvarliga problem som har potential att allvarligt skada patienter. Det finns många maskininlärningsmetoder för att upptäcka sådana fel. Men på grund av att felen är sällsynta så är det svårt att samla in tillräckligt många exempel för att lära av dem. Det är därför viktigt att fokusera på metoder som inte kräver mänsklig märkning. Denna studie presenterar en jämförelse av neurala nätverksbaserade modeller för detektering av analytiska fel i blodprov som innehåller fem markörer för kardiovaskulär hälsa. Resultaten visar att feldetektering i blodprov med hjälp av djupinlärning är en lovande förebyggande mekanism. Det har också visat sig att det är fördelaktigt att använda ett multivariat tillvägagångssätt för feldetektering så att modellen undersöker flera blodprov samtidigt. Det kan också finnas fördelar med att titta på flera hälsomarkörer samtidigt, även om denna fördel är tydligare när modellen tittar på individuella blodprov. Jämförelsen visar att ett övervakat tillvägagångssätt avsevärt överträffar metoder för detektering av extremvärden vid feldetektering. Med tanke på effektiviteten av den övervakade modellen finns det anledning att studera tillvägagångssättet vidare och eventuellt använda djupinlärningsbaserad feldetektering för att minska risken för fel. anomaly detection outlier detection error detection machine learning deep learning blood work blood tests felupptäckning extremvärden maskininlärning djupinlärning blodprov Computer Sciences Datavetenskap (datalogi)
134	Sequential Deep Learning Models for Neonatal Sepsis Detection : A suitability assessment of deep learning models for event detection in physiological data / Sekventiella djupinlärningsmodeller för detektering av neonatal sepsis : En lämplighetsbedömning av djupinlärningsmodeller för händelsedetektering i fysiologisk data Alex Siren, Henrik January 2022 (has links) Sepsis is a life-threatening condition that neonatal patients are especially susceptible to. Fortunately, improved bedside monitoring has enabled the collection and use of continuous vital signs data for the purpose of detecting conditions such as sepsis. While current research has found some success in reducing mortality in neonatal intensive care units with linear directly interpretable models, such as logistic regression, accurate detection of sepsis from inherently noisy time-series data still remains a challenge. Furthermore, previous research has generally relied on pre-defined features extracted from rawvital signs data, which may not be optimal for the detection task. Therefore, assessing the overall feasibility of sequential deep learning models, such as recurrent and convolutional models, could improve the results of current research. This task was tackled in three phases. Firstly, baseline scores were established with a logistic regression model. Secondly, three common recurrent classifiers were tested on pre-defined window based features and compared with each other. Thirdly, a convolutional architecture with a recurrent and non-recurrent classifier was tested on raw low frequency (1Hz) signals in order to examine their capability to automatically extract features from the data. The final results from all phases were compared with each other. Results show that recurrent classifiers trained on pre-defined features do outperform automatic feature extraction with the convolutional models. The best model was based on a long-short term memory unit that achieved an area under the characteristic receiver operating unit curve of 0.806, and outperformed the established baseline results. In comparison with previous research, said model performed on par with the examined simple interpretable baseline models. The low results can likely be attributed to a insufficient sample size of patients with sepsis for the examined models and sub-optimal hyperparameter optimization due to the number of possible configurations. Further avenues of research include examination of high frequency data and more complex models for automatic feature extraction. / Sepsis är ett livshotande tillstånd som neonatala patienter är särskilt mottagliga för. Lyckligtvis har förbättrad patientmonitorering möjliggjort kontinuerlig insamling och andvänding av vitalparametrar i syfte att upptäcka tillstånd som sepsis. Medan aktuell forskning har funnit viss framgång i att minska dödligheten på neonatala intensivvårdsavdelningar med hjälp av linjära tolkbara modeller, såsom logistisk regression, är noggrann detektering av sepsis från brusig tidsseriedata fortfarande en utmaning. Dessutom har tidigare forskning i allmänhet förlitat sig på fördefinierade prediktorer extraherade från rå vitalparameterdata, som kanske inte är optimala för detektionsuppgiften. På grund av detta kan en bedömning av den övergripande användbarheten av sekventiella modeller för djupinlärning, såsom RNN- och CNN-modeller, förbättra resultaten av aktuell forskning. Denna uppgift tacklades i tre faser. Först och främst etablerades baslinjeresultat med en logistisk regressionsmodell. För det andra testades tre RNN-baserad klassificerare på data med fördefinierade fönsterbaserade prediktorer och jämfördes med varandra. För det tredje testades en CNN-arkitektur med både en RNN-klassificerare och MLP-klassificerare på råa lågfrekventa (1Hz) signaler för att undersöka deras förmåga att automatiskt extrahera egna prediktorer från datan. Slutresultaten från alla faser jämfördes med varandra. Resultaten visar att RNN-klassificerare som tränats på fördefinierade prediktorer överträffar automatisk extraktion av prediktorer med CNN-modellerna. Den bäst presterande modellen baserades på en långtidsminnesenhet som uppnådde en AUROC på 0.806, och överträffade de etablerade baslinjeresultaten. I jämförelse med tidigare forskning uppnådde ifrågavarande modell lika hög prestation som de väl undersökta enklare tolkbara baslinjemodellerna. De låga resultaten kan sannolikt tillskrivas en otillräcklig provstorlek av patienter med sepsis för de undersökta modellerna och suboptimal hyperparameteroptimering på grund av antalet möjliga konfigurationer. Ytterligare forskningsvägar inkluderar undersökning av högfrekventa data och mer komplexa modeller för automatisk extraktion av prediktorer. Neonatal sepsis Deep learning Recurrent models Convolutional models Physiological data Neonatal sepsis Djupinlärning RNN-modeller CNN-modeller Fysiologisk data Computer and Information Sciences Data- och informationsvetenskap
135	Memory and Reasoning in Deep Learning : Data efficiency of the SAM-based Two-memory (STM) Model / Minne och Resonemang i Djupinlärning : Dataeffektivitet av SAM-baserad Tvåminnesmodellen (STM) Perzanowski, Andrzej January 2022 (has links) Developing Deep Learning models capable of learning to reason and store memories are some of the most important current challenges in AI research. Finding out which network architectures are best suited for tackling this problem can guide research toward the most promising approaches. The bAbI challenge is a popular benchmark dataset composed of different Question Answering tasks each designed to test specific memory and reasoning abilities fundamental for text comprehension. A model well adapted to learning reasoning should be able to efficiently extract relevant knowledge from small amount of training data and generalise from it to achieve good performance, referred to as the model being data efficient. Memory-augmented networks are one of the most successful kinds of neural network architecture at the bAbI challenge and the SAM-based Two-memory (STM) model uses this architectural approach. This thesis compares STM model performance on the version of the bAbI challenge with little training data (bAbI 1k) to the best performing memory-augmented model on this challenge, the MemN2N model. The aim is to find out which memory-augmented architecture approach is more data efficient at bAbI. STM model performance is compared to two variants of the MemN2N model: MemN2N basic and its enhanced version MemN2N LS-RN. STM and MemN2N basic are found to have similar overall performance while the MemN2N LS-RN model is found to outperform them both, meaning it is more data efficient at bAbI. Differences in performance between models on several individual bAbI tasks are found, with a few being significant. STM is found to perform significantly worse at tasks involving temporal relation and time dependency reasoning than both MemN2N models. MemN2N LS-RN is also found to vastly outperform both STM and MemN2N basic at basic induction. Lastly, all models are found to perform poorly at complex spatial reasoning tasks. / En av de viktigaste aktuella utmaningarna inom AI-forskning är att utveckla och studera Djupinlärning-modeller som kan lära sig att resonera och lagra minnen. Att ta reda på vilka nätverksarkitekturer är bäst lämpade för att hantera detta problem kan leda forskningen fram mot de mest lovande lösningarna. bAbI-utmaningen är en populär benchmark-datauppsättning sammansatt av olika fråga och svarsuppgifter, var och designad för att testa specifika minnes- och resonemangsförmågor grundläggande för textförståelse. En modell väl anpassad för att lära sig resonemang bör kunna effektivt utvinna relevant kunskap från små mängder träningsdata och generalisera från det för att uppnå bra prestanda. En sådan modell kallas dataeffektiv. Minnesförstärkta nätverk är en av de mest framgångsrika typerna av neurala nätverksarkitektur er vid bAbI-utmaningen och den SAM-baserade Tvåminnesmodellen (STM) använder denna arkitektoniska lösning. Denna avhandling jämför STM-modellens prestanda på versionen av bAbI-utmaningen med liten mängd träningsdata (bAbI 1k) med den bäst presterande minnesförstärkta modellen på denna utmaning, MemN2N-modellen. Syftet är att ta reda på vilken minnesförstärkt arkitektur är mer dataeffektiv för bAbI. STM-modellens prestanda jämförs med två varianter av MemN2N-modellen: MemN2N basic och dess förbättrade version MemN2N LS-RN. STM och MemN2N basic har visat sig ha liknande övergripande prestanda, medan MemN2N LS-RN modellen visar sig överträffa dem båda, vilket betyder att den är mer dataeffektiv vid bAbI. Skillnader i prestanda mellan modeller på flera individuella bAbI uppgifter finns, och några få av dem är betydande. STM visar sig prestera betydligt sämre vid uppgifter som involverar tidsrelativa och tidsberoende resonemang än båda MemN2N modeller. MemN2N LS-RN visar sig också överträffa både STM och MemN2N basic vid grundläggande induktion. Slutligen har alla modeller visat sig prestera dåligt vid komplexa spatiala resonemangsuppgifter. Deep learning Data efficiency Memory-augmented neural networks Memory Reasoning bAbI challenge Djupinlärning Dataeffektivitet Minnesförstärkta nätverk Minne Resonemang bAbI-utmaning Computer and Information Sciences Data- och informationsvetenskap
136	Tools for AI Music Creatives : Mapping the field Martin, Elliot, Avila Rojas, Ley-Olivia January 2022 (has links) Within the creative industries, such as visual arts and music, there has been a rise of AI implementations to solve various tasks, in each respective creative field. Implementations within the field of AI music creation have gained a lot of attention in recent years, due to the fact that many tools have become proficient in making music. Previously, there has been a lot of research dedicated to the algorithms behind these tools, but not as much to other software qualities that may be useful to both users of these tools, and developers of such tools to know. Hence, the focus of this thesis will be on completing a mapping of 6 established AI music creation tools, after a set of technical evaluation components. The mapping was carried out by a functional taxonomy. The results showcase that a majority of the tools implement DL algorithms, all data-sets are constructed differently, the majority apply user-friendly cloud-based environments for their tools, and that there was an equal divide between open-and closed source tools. The discussion chapter analyzes why developers have created the tools in a certain way, why potential developers should consider to implement a music creation tool with a DL algorithm, and why they should consider studying existing open-source tools, due to the knowledge and resources developers stand to gain from such a platform. Closed-source tools are more suitable for users who only want to create music with AI music creation tools, considering the uncomplicated usage, and access of such a tool. / Inom de kreativa branscherna, till exempel bildkonst och musik, har det skett en ökning av AI-implementeringar för att lösa olika uppgifter, inom respektive kreativt område. Implementeringar inom området AI-musikskapande har fått stor uppmärksamhet de senaste åren, på grund av att många verktyg har blivit skickliga i att skapa musik. Tidigare har det gjorts mycket forskning tillägnad till algoritmerna bakom dessa verktyg, men inte lika mycket andra mjukvaru-kvaliteter som kan vara användbara för både användare av dessa verktyg och utvecklare av sådana verktyg att känna till. Denna avhandling kommer därmed fokusera på att slutföra en kartläggning av 6 etablerade AI-musikskapande verktyg, med hjälp av en uppsättning tekniska utvärderingskomponenter. Kartläggningen utfördes med en funktionell taxonomi. Resultaten visar att en majoritet av verktygen implementerar DL-algoritmer, alla datamängder är konstruerade på olika sätt, majoriteten tillämpar användarvänliga molnbaserade miljöer för sina verktyg, och att det fanns en lika uppdelning mellan verktyg med öppen,-och sluten källkod. Diskussionskapitlet analyserar varför utvecklare har skapat verktygen på ett visst sätt, varför potentiella utvecklare bör överväga att implementera ett musikskapande verktyg med en DL-algoritm och varför de bör överväga att studera befintliga verktyg med öppen källkod, på grund av den kunskap och resurser som utvecklare har att vinna på från en sådan plattform. Verktyg med sluten källkod är mer lämpade för användare som endast vill skapa musik med AI-musikskapande verktyg, med tanke på den okomplicerade användningen och tillgången till dessa verktyg. AI Deep Learning Music creation Data-set Machine learning Environment AI Djupinlärning Musikskapande Data-set Maskininlärning Miljö Computer and Information Sciences Data- och informationsvetenskap
137	Deep Learning-based Regularizers for Cone Beam Computed Tomography Reconstruction / Djupinlärningsbaserade regulariserare för rekonstruktion inom volymtomografi Syed, Sabina, Stenberg, Josefin January 2023 (has links) Cone Beam Computed Tomography is a technology to visualize the 3D interior anatomy of a patient. It is important for image-guided radiation therapy in cancer treatment. During a scan, iterative methods are often used for the image reconstruction step. A key challenge is the ill-posedness of the resulting inversion problem, causing the images to become noisy. To combat this, regularizers can be introduced, which help stabilize the problem. This thesis focuses on Adversarial Convex Regularization that with deep learning regularize the scans according to a target image quality. It can be interpreted in a Bayesian setting by letting the regularizer be the prior, approximating the likelihood with the measurement error, and obtaining the patient image through the maximum-a-posteriori estimate. Adversarial Convex Regularization has previously shown promising results in regular Computed Tomography, and this study aims to investigate its potential in Cone Beam Computed Tomography. Three different learned regularization methods have been developed, all based on Convolutional Neural Network architectures. One model is based on three-dimensional convolutional layers, while the remaining two rely on 2D layers. These two are in a later stage crafted to be applicable to 3D reconstruction by either stacking a 2D model or by averaging 2D models trained in three orthogonal planes. All neural networks are trained on simulated male pelvis data provided by Elekta. The 3D convolutional neural network model has proven to be heavily memory-consuming, while not performing better than current reconstruction methods with respect to image quality. The two architectures based on merging multiple 2D neural network gradients for 3D reconstruction are novel contributions that avoid memory issues. These two models outperform current methods in terms of multiple image quality metrics, such as Peak Signal-to-Noise Ratio and Structural Similarity Index Measure, and they also generalize well for real Cone Beam Computed Tomography data. Additionally, the architecture based on a weighted average of 2D neural networks is able to capture spatial interactions to a larger extent and is adjustable to favor the plane that best shows the field of interest, a possibly desirable feature in medical practice. / Volymtomografi kan användas inom cancerbehandling för att skapa bilder av patientens inre anatomi i 3D som sedan används vid stråldosplanering. Under den rekonstruerande fasen i en skanning används ofta iterativa metoder. En utmaning är att det resulterande inversionsproblemet är illa ställt, vilket leder till att bilderna blir brusiga. För att motverka detta kan regularisering introduceras som bidrar till att stabilisera problemet. Fokus för denna uppsats är Adversarial Convex Regularization som baserat på djupinlärning regulariserar bilderna enligt en målbildskvalitet. Detta kan även tolkas ur ett Bayesianskt perspektiv genom att betrakta regulariseraren som apriorifördelningen, approximera likelihoodfördelningen med mätfelet samt erhålla patientbilden genom maximum-a-posteriori-skattningen. Adversarial Convex Regularization har tidigare visat lovande resultat för data från Datortomografi och syftet med denna uppsats är att undersöka dess potential för Volymtomografi. Tre olika inlärda regulariseringsmetoder har utvecklats med hjälp av faltningsnätverk. En av modellerna bygger på faltning av tredimensionella lager, medan de återstående två är baserade på 2D-lager. Dessa två sammanförs i ett senare skede för att kunna appliceras vid 3D-rekonstruktion, antingen genom att stapla 2D modeller eller genom att beräkna ett viktat medelvärde av tre 2D-modeller som tränats i tre ortogonala plan. Samtliga modeller är tränade på simulerad manlig bäckendata från Elekta. 3D-faltningsnätverket har visat sig vara minneskrävande samtidigt som det inte presterar bättre än nuvarande rekonstruktionsmetoder med avseende på bildkvalitet. De andra två metoderna som bygger på att stapla flera gradienter av 2D-nätverk vid 3D-rekonstruktion är ett nytt vetenskapligt bidrag och undviker minnesproblemen. Dessa två modeller överträffar nuvarande metoder gällande flera bildkvalitetsmått och generaliserar även väl för data från verklig Volymtomografi. Dessutom lyckas modellen som bygger på ett viktat medelvärde av 2D-nätverk i större utsträckning fånga spatiala interaktioner. Den kan även anpassas till att gynna det plan som bäst visar intresseområdet i kroppen, vilket möjligtvis är en önskvärd egenskap i medicinska sammanhang. Adversarial Convex Regularization Computer Vision Cone Beam Computed Tomography Convolutional Neural Networks Deep Learning Image Reconstruction Adversarial Convex Regularization Bildrekonstruktion Datorseende Djupinlärning Faltningsnätverk Volymtomografi Other Mathematics Annan matematik
138	Self-supervised pre-training of an attention-based model for 3D medical image segmentation / Självövervakad förberedande träning av en attention-baserad model för 3D medicinsk bildsegmentering Sund Aillet, Albert January 2023 (has links) Accurate segmentation of anatomical structures is crucial for radiation therapy in cancer treatment. Deep learning methods have been demonstrated effective for segmentation of 3D medical images, establishing the current standard. However, they require large amounts of labelled data and suffer from reduced performance on domain shift. A possible solution to these challenges is self-supervised learning, that uses unlabelled data to learn representations, which could possibly reduce the need for labelled data and produce more robust segmentation models. This thesis investigates the impact of self-supervised pre-training on an attention-based model for 3D medical image segmentation, specifically focusing on single-organ semantic segmentation, exploring whether self-supervised pre-training enhances the segmentation performance on CT scans with and without domain shift. The Swin UNETR is chosen as the deep learning model since it has been shown to be a successful attention-based architecture for semantic segmentation. During the pre-training stage, the contracting path is trained for three self-supervised pretext tasks using a large dataset of 5 465 unlabelled CT scans. The model is then fine-tuned using labelled datasets with 97, 142 and 288 segmentations of the stomach, the sternum and the pancreas. The results indicate that a substantial performance gain from self-supervised pre-training is not evident. Parameter freezing of the contracting path suggest that the representational power of the contracting path is not as critical for model performance as expected. Decreasing the amount of supervised training data shows that while the pre-training improves model performance when the amount of training data is restricted, the improvements are strongly decreased when more supervised training data is used. / Noggrann segmentering av anatomiska strukturer är avgörande för strålbehandling inom cancervården. Djupinlärningmetoder har visat sig vara effektiva och utgör standard för segmentering av 3D medicinska bilder. Dessa metoder kräver däremot stora mängder märkt data och kännetecknas av lägre prestanda vid domänskift. Eftersom självövervakade inlärningsmetoder använder icke-märkt data för inlärning, kan de möjligen minska behovet av märkt data och producera mer robusta segmenteringsmodeller. Denna uppsats undersöker effekten av självövervakad förberedande träning av en attention-baserad modell för 3D medicinsk bildsegmentering, med särskilt fokus på semantisk segmentering av enskilda organ. Syftet är att studera om självövervakad förberedande träning förbättrar segmenteringsprestandan utan respektive med domänskift. Swin UNETR har valts som djupinlärningsmodell eftersom den har visat sig vara en framgångsrik attention-baserad arkitektur för semantisk segmentering. Under den förberedande träningsfasen optimeras modellens kontraherande del med 5 465 icke-märkta CT-scanningar. Modellen tränas sedan på märkta dataset med 97, 142 och 288 segmenterade skanningar av magen, bröstbenet och bukspottkörteln. Resultaten visar att prestandaökningen från självövervakad förberedande träning inte är tydlig. Parameterfrysning av den kontraherande delen visar att dess representationer inte lika avgörande för segmenteringsprestandan som förväntat. Minskning av mängden träningsdata tyder på att även om den förberedande träningen förbättrar modellens prestanda när mängden träningsdata är begränsad, minskas förbättringarna betydligt när mer träningsdata används. Computer vision Deep learning 3D Medical image segmentation Self-supervised learning Datorseende Djupinlärning 3D Medicinsk bildsegmentering Självövervakad träning Computer and Information Sciences Data- och informationsvetenskap
139	Efficient Music Thumbnailing for Genre Classification / Effektiv urvalsteknik för musikgenreklassificering Skärbo Jonsson, Adam January 2022 (has links) For music genre classification purposes, the importance of an intelligent and content-based selection of audio samples has been mostly overlooked. One common approach toward representative results is to select samples at predetermined locations. This is done to avoid analysis of the full audio during classification. While methods in music thumbnailing could be used to find representative samples for genre classification, it has not yet been demonstrated. This thesis showed that efficient and genre representative sampling can be performed with a machine learning model (bidirectional RNN with either LSTM or GRU cells). The model was trained using a sub-optimal genre classifier and computationally inexpensive audio features. The genre classifier was used to compute losses for evenly spaced samples in 14000 tracks. The losses were then used as targets during training. Root mean square energy and zero-crossing rate were used as features, computed over relatively large time steps and wide intervals. The proposed framework can be used to give better predictions with trained genre classifiers and most likely also train, or retrain, them for higher classification accuracy at a low computational cost. / Vid musikgenreklassificering har betydelsen av ett intelligent och innehållsbaserat urval allt som oftast förbisetts. En ansats till ett representativt resultat görs vanligtvis genom att ett antal kortare utdrag tas vid förutbestämda tidpunkter. Detta görs för att under en klassificering undvika att analysera hela musikverket. Fastän det existerar metoder inom music thumbnailing för att hitta representativa urval har de ännu inte tillämpats inom genreklassificering. I denna uppsats visades att ett effektivt och genrerepresentativt musikurval kan utföras med en maskininlärningsmodell (dubbelriktad RNN med antingen LSTM- eller GRU-celler). Modellen tränades med hjälp av en suboptimal genreklassificerare och beräkningsmässigt enkla ljudattribut. Genreklassificeraren användes för att beräkna förlusten av jämnt fördelade urval i 14000 musikverk. Förlusterna användes sedan som utdata under träningen. Kvadratiskt energimedelvärde och zero-crossing rate beräknades över relativt långa tidssteg och breda intervall och användes som indata. Det föreslagna ramverket kan till beräkningsmässigt låga kostnader användas för att ge bättre förutsägelser med redan tränade genreklassificerare och sannolikt träna, eller omträna, dessa för högre noggrannhet vid klassificering. Music thumbnailing Music genre classification Machine learning Deep learning Bidirectional recurrent neural network RNN Musikgenreklassificering Maskininlärning Djupinlärning RNN Other Mathematics Annan matematik
140	Exploring the Use of Attention for Generation Z Fashion Style Recognition with User Annotations as Labels / Undersökande av uppmärksamhet för igenkänning av Generation Z:s klädstilar med användarannoteringar som träningsetiketter Samakovlis, Niki January 2023 (has links) As e-commerce and online shopping have increased worldwide, the interest and research of intelligent fashion systems have expanded. Given the competitive nature of the fashion market business, digital marketplaces depend on determining customer preferences. The fashion preferences of the next generation of consumers, Generation Z, are highly discovered on social media, where new fashion styles have emerged. For digital marketplaces to gain the attraction of Generation Z consumers, an understanding of their fashion style preferences may be crucial. However, fashion style recognition remains challenging due to the subjective nature of fashion styles. Previous research has approached the task by fine-tuning pre-trained convolutional neural networks (CNNs). The disadvantage of this approach is that a CNN leveraged on its own fails to find subtle visual differences between clothing items. Hence, this thesis seeks to approach the clothing style recognition task as a fine-grained image recognition task by incorporating a component that allows the model to focus on specific parts of the input images, referred to as an attention mechanism, into the network. Specifically, a convolutional block attention module (CBAM) is added to a CNN. Based on the results, it is concluded that the fine-tuned CNN without the attention module achieves superior performance. In contrast, qualitative analysis conducted on GradCAM visualizations shows that the attention mechanism aids the CNN in capturing discriminative features, while the network without the attention module tends to make predictions based on dataset bias. For a fair comparison, future work should involve extending this research by refining the dataset or using an additional dataset. / I takt med att e-handel har ökat världen över har intresset och forskningen för intelligenta modesystem ökat. Modemarknadens konkurrenskraft har gjort digitala marknadsplatser beroende av att bestämma deras kunders preferenser. Modepreferenserna för nästa generations konsumenter, Generation Z, upptäcks ofta på sociala medier, där nya klädstilar har skapats. För att digitala marknadsplatser ska kunna locka Generation Z kan en förståelse för deras klädstilpreferenser vara avgörande. Igenkänning av klädstilar är dock fortfarande svårt på grund av klädtilars subjektiva natur. Tidigare forskning har finjusterat faltningsnätverk. Nackdelen med detta tillvägagångssätt är att ett faltningsnätverk som utnyttjas på egen hand inte lyckas hitta dem subtila visuella skillnader mellan klädesplagg. Därför definierar denna avhandling problemet som finkornig bildigenkänning genom att addera en komponent som gör att modellen kan fokusera på specifika delar av bilderna, kallad en uppmärksamhetsmekanism, i nätverket. Specifikt läggs en convolutional block attention module (CBAM) till i arkitekturen av ett faltningsnätverk. Baserat på resultaten dras slutsatsen att det finjusterade faltningsnätverket utan uppmärksamhetsmekanismen uppnår överlägsen prestanda. Däremot visar kvalitativ analys utförd på Grad-CAMvisualiseringar att uppmärksamhetsmekanismen hjälper faltningsnätverket att fokusera på de diskriminerande egenskaperna, medan nätverket utan uppmärksamhetsmekanismen tenderar att klassificera baserat på bias i inputdatan. För en rättvis jämförelse bör framtida arbete innebära ett förfinande av datamängden eller använda en ytterligare datamängd. Attention mechanism CNN Deep Learning Fashion Style Recognition Feature Extraction Generation Z Uppmärksamhetsmekanism Faltningsnätverk Djupinlärning Igenkänning av klädstilar Särdragsextraktion Generation Z Computer and Information Sciences Data- och informationsvetenskap

Search results