CSAW-M is a dataset that contains about 10 000 x-ray images created from mammograms. Mammograms are used to identify patients with breast cancer through a screening process with the goal of catching cancer tumours early. Modern convolutional neural networks are very sophisticated and capable of identifying patterns nearly indistinguishable to humans. CSAW-M doesn’t contain images of active cancer tumours, rather, whether the patient will develop cancer or not. Classification tasks such as this are known to require large datasets for training, which is cumbersome to acquire in the biomedical domain. In this paper we investigate how classification performance of non-trivial classification tasks scale with the size of available annotated images. To research this, a wide range of data-sets are generated from CSAW-M, with varying sample size and cancer types. Three different convolutional neural networks were trained on all data-sets. The study showed that classification performance does increase with the size of the annotated dataset. All three networks generally improved their prediction on the supplied benchmarking dataset. However, the improvements were very small and the research question could not be conclusively answered. The primary reasons for this was the challenging nature of the classification task, and the size of the data-set. Further research is required to gain more understanding of how much data is needed to yield a usable model. / CSAW-M är ett dataset som innehåller ungefär 10 000 röntgenbilder skapade från ett stort antal mammografier. Mammografi används för att identifiera patienter med bröstcancer genom en screeningprocess med målet att fånga cancerfall tidigt. Moderna konvolutionella neurala nätverk är mycket sofistikerade och kan tränas till att identifiera mönster i bilder mycket bättre än människor. CSAW-M innehåller inga bilder av cancertumörer, utan istället data på huruvida patienten kommer att utveckla cancer eller inte. Klassificeringsuppgifter som denna är kända för att kräva stora datamängder för träning, vilket är svårt att införskaffa inom den biomedicinska domänen. I denna artikel undersöker vi hur klassificerings prestanda för svåra klassificeringsuppgifter skalar med storleken på tillgänglig annoterad data. För att undersöka detta, genererades ett antal nya dataset från CSAW-M, med varierande storleksurval och cancertyp. Tre olika konvolutionella neurala nätverk tränades på alla nya data-set. Studien visar att klassificeringsprestanda ökar med storleken på den annoterade datamängden. Alla tre nätverk förbättrade generellt sin klassificeringsprestanda desto större urval som gjordes från CSAW-M. Förbättringarna var dock små och den studerade frågan kunde inte besvaras fullständigt. De främsta anledningarna till detta var klassificeringsuppgiftens utmanande karaktär och storleken på det tillgängliga datat i CSAW-M. Ytterligare forskning krävs för att få mer förståelse för hur mycket data som behövs för att skapa en användbar modell.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-320027 |
Date | January 2022 |
Creators | Kristoffersson, Ludwig, Zetterman, Noa |
Publisher | KTH, Datavetenskap |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:499 |
Page generated in 0.0023 seconds