Over the last decade, neural networks have reached almost every field of science and technology. They have become a crucial part of various real-world applications, such as medical imaging. Still, their deployment in safety-critical applications remains limited owing to their inability to provide reliable uncertainty estimates and frequently occurring overconfident predictions, which is normally the case in modern neural networks possessing a substantial number of layers. In this thesis, we leverage the capability of data mining algorithms like density clustering to explain the behavior of a medical image classifier responsible for classifying white blood cells. We know that any clustering algorithm acts on the feature vector of the input data and annotates the data into different clusters as per the features. In this work, we lay down and prove the hypothesis that the output discrete probability matrix of a multi-class classification problem can be used as a feature vector where the confidence value of every class can be considered as a degree of resemblance with that class. Before implementing clustering, one needs to make sure that these confidence values represent actual probabilities so that they can be used as features; hence certain calibration techniques were incorporated to improve the calibration of the network first. Having a better calibrated medical classifier, density clustering was implemented, which generated results that provided solid arguments to justify the behavior of the network. As far as the use case of this method is concerned, it was observed that we could identify pathologies like myelodysplastic syndromes, acute lymphocytic leukemia, and chronic myelomonocytic leukemia in a patient. This was possible due to the presence of the same class of White blood cells in multiple clusters indicating the presence of subpopulations separated into healthy and pathological cells of the same class depending upon the pathology that needs to be detected. This was proved visually by mapping cluster points to actual cell images and quantitatively as well by using entropy as a method of quantifying uncertainty. This method showed that there is a lot of information embedded in the output probability matrix. Hence one can employ various data mining techniques to extract more information and not just limit themselves to misclassifications and confusion matrices. / Under det senaste decenniet har neurala nätverk nått nästan alla områden inom vetenskap och teknik. De har blivit en avgörande del av olika verkliga tillämpningar, såsom medicinsk bildbehandling. Ändå förblir deras användning i säkerhetskritiska applikationer begränsad på grund av deras oförmåga att tillhandahålla tillförlitliga osäkerhetsuppskattningar och ofta förekommande övermodiga förutsägelser, vilket normalt är fallet i moderna neurala nätverk som har ett stort antal lager. I den här avhandlingen utnyttjar vi förmågan hos datautvinningsalgoritmer som densitetsklustring för att förklara beteendet hos en medicinsk bildklassificerare som är ansvarig för att klassificera vita blodkroppar. Vi vet att alla klustringsalgoritmer verkar på funktionsvektorn för indata och annoterar data i olika kluster enligt funktionerna. I detta arbete lägger vi ner och bevisar hypotesen att den utgående diskreta sannolikhetsmatrisen för ett klassificeringsproblem med flera klasser kan användas som en egenskapsvektor där konfidensvärdet för varje klass kan betraktas som en grad av likhet med den klassen. Innan man implementerar klustring måste man se till att dessa konfidensvärden representerar faktiska sannolikheter så att de kan användas som funktioner; därför införlivades vissa kalibreringstekniker för att först förbättra kalibreringen av nätverket. Med en bättre kalibrerad medicinsk klassificerare implementerades densitetsklustring, vilket genererade resultat som gav solida argument för att motivera nätverkets beteende. När det gäller användningsfallet för denna metod, observerades det att vi kunde identifiera patologier som myelodysplastiska syndrom, akut lymfatisk leukemi och kronisk myelomonocytisk leukemi hos en patient. Detta var möjligt på grund av närvaron av samma klass av vita blodkroppar i flera kluster, vilket indikerar närvaron av subpopulationer separerade i friska och patologiska celler av samma klass beroende på vilken patologi som behöver detekteras. Detta bevisades visuellt genom att kartlägga klusterpunkter till faktiska cellbilder och kvantitativt också genom att använda entropi som en metod för att kvantifiera osäkerhet. Denna metod visade att det finns mycket information inbäddad i utmatningssannolikhetsmatrisen. Därför kan man använda olika datautvinningstekniker för att extrahera mer information och inte bara begränsa sig till felklassificeringar och förvirringsmatriser.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-322027 |
Date | January 2022 |
Creators | Gupta, Sanskar |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:824 |
Page generated in 0.0207 seconds