21 |
Improving Image Classification using Domain Adaptation for Autonomous Driving : A Master Thesis in Collaboration with Scania / Förbättring av Bildklassificering med hjälp av Domain Adaptation för Sjävkörande Fordon : Ett examensarbete i samarbete med ScaniaWestlund, Mikael January 2023 (has links)
Autonomous driving is a rapidly changing industry and has recently become a heavily focused research topic for vehicle producing companies and research organizations. These autonomous vehicles are typically equipped with sensors such as Light Detection and Radar (LiDAR) in order to perceive their surroundings. The problem of detecting and classifying surrounding objects from the sensor data can be solved using different types of algorithms. Recently, machine learning solutions have been investigated. One problem with the machine learning approach is that the models usually require a substantial amount of labeled data, and labeling LiDAR data is a time-consuming process. A promising solution to this problem is utilizing Domain Adaptation (DA) methods. The DA methods can use labeled camera data, which are easier to label, in conjunction with unlabeled LiDAR data to improve the performance of machine learning models on LiDAR data. This thesis investigates and compares different DA methods that can be used for classification of LiDAR data. In this thesis, two image classification datasets with data of humans and vehicles were created. One dataset contains camera images, and the other dataset contains LiDAR intensity images. The datasets were used to train and test three methods: (1) a baseline method, which simply uses labeled camera images to train a model. (2) Correlation Alignment (CORAL), a DA method that aligns the covariance of camera features towards LiDAR features. (3) Deep Adaptation Network (DAN), a DA method that includes a maximum mean discrepancy computation between camera and LiDAR features within the objective function of the model. These methods were then evaluated based on the resulting confusion matrices, accuracy, recall, precision and F1-score on LiDAR data. The results showed that DAN was the best out of the three methods, reaching an accuracy of 87% while the baseline and CORAL only measured at 65% and 73%, respectively. The strong performance of DAN showed that there is potential for using DA methods within the field of autonomous vehicles. / Industrin för självkörande fordon är snabbt förändlig och har under de senaste åren fått ett enormt fokus från biltillverkare och forskningsorganisationer. De självkörande fordonen är oftast utrustade med sensorer som Light Detection and Radar (LiDAR) för att hjälpa fordonen förstå omgivningen. Klassificering och identifiering av omgivande objekt är ett problem som kan lösas med hjälp av olika slags algoritmer. Nyligen har lösningar som utnyttjar maskininlärning undersökts. Ett problem med dessa lösningar är att modellerna oftast kräver en enorm mängd annoterad data, och att annotera LiDAR-data är en kostsam process. En lösning till detta problem är att utnyttja metoder inom Domain Adaptation (DA). DA metoder kan utnyttja både annoterad kameradata samt oannoterad LiDAR-data för att förbättra modellernas prestanda på LiDAR-data. Den här avhandlingen undersöker och jämför olika metoder inom DA som kan användas för att klassificera LiDAR-data. I det här arbetet skapades två dataset som består av data från människor och fordon. Det ena datasettet innehöll kamerabilder och det andra innehöll LiDAR-intensitetsbilder. Dessa dataset användes för att träna och testa tre olika metoder: (1) en baselinemetod, som endast använde annoterade kamerabilder för att träna en modell. (2) Correlation Alignment (CORAL), en metod inom DA som justerar kovariansen hos kamerafeatures mot kovariansen hos LiDAR-features. (3) Deep Adaptation Network (DAN), en metod inom DA som lägger till en uträkning av maximum mean discrepancy mellan kamerafeatures och LiDAR-features i modellens optimeringskriterie. Metoderna bedömdes sedan beroende på deras förvirringsmatriser, träffsäkerhet, precision, täckning och F1-träffsäkerhet på LiDAR-data. Resultaten avslöjade att DAN presterade bäst av de tre metoderna och uppnåde 87% träffsäkerhet medan baselinemetoden och CORAL bara uppnådde 65% respektive 73%. DANs imponerande prestation visade att det finns potential för att använda metoder inom DA för självkörande fordon.
|
22 |
Enhancing Deep Active Learning Using Selective Self-Training For Image ClassificationPanagiota Mastoropoulou, Emmeleia January 2019 (has links)
A high quality and large scale training data-set is an important guarantee to teach an ideal classifier for image classification. Manually constructing a training data- set with appropriate labels is an expensive and time consuming task. Active learning techniques have been used to improved the existing models by reducing the number of required annotations. The present work aims to investigate the way to build a model for identifying and utilizing potential informative and representativeness unlabeled samples. To this end, two approaches for deep image classification using active learning are proposed, implemented and evaluated. The two versions of active leaning for deep image classification differ in the input space exploration so as to investigate how classifier performance varies when automatic labelization on the high confidence unlabeled samples is performed. Active learning heuristics based on uncertainty measurements on low confidence predicted samples, a pseudo-labelization technique to boost active learning by reducing the number of human interactions and knowledge transferring form pre-trained models, are proposed and combined into our methodology. The experimental results on two benchmark image classification data-sets verify the effectiveness of the proposed methodology. In addition, a new pool-based active learning query strategy is proposed. Dealing with retraining-based algorithms we define a ”forgetting event” to have occurred when an individual training example transitions the maximum predicted probability class over the course of retraining. We integrated the new approach with the semi- supervised learning method in order to tackle the above challenges and observedgood performance against existing methods. / En högkvalitativ och storskalig träningsdataset är en viktig garanti för att bli en idealisk klassificerare för bildklassificering. Att manuellt konstruera en träningsdatasats med lämpliga etiketter är en dyr och tidskrävande uppgift. Aktiv inlärningstekniker har använts för att förbättra de befintliga modellerna genom att minska antalet nödvändiga annoteringar. Det nuvarande arbetet syftar till att undersöka sättet att bygga en modell för att identifiera och använda potentiella informativa och representativa omärkta prover. För detta ändamål föreslås, genomförs och genomförs två metoder för djup bildklassificering med aktivt lärande utvärderas. De två versionerna av aktivt lärande för djup bildklassificering skiljer sig åt i undersökningen av ingångsutrymmet för att undersöka hur klassificeringsprestanda varierar när automatisk märkning på de omärkta proverna med hög konfidens utförs. Aktiv lärande heuristik baserad på osäkerhetsmätningar på förutsagda prover med låg konfidens, en pseudo- märkningsteknik för att öka aktivt lärande genom att minska antalet mänskliga interaktioner och kunskapsöverföring av förutbildade modeller, föreslås och kombineras i vår metod. Experimentella resultat på två riktmärken för bildklassificering datauppsättningar verifierar effektiviteten hos den föreslagna metodiken. Dessutom föreslås en ny poolbaserad aktiv inlärningsfrågestrategi. När vi använder omskolningsbaserade algoritmer definierar vi en ”glömmer händelse” som skulle ha inträffat när ett individuellt träningsexempel överskrider den maximala förutsagda sannolikhetsklassen under omskolningsprocessen. Vi integrerade den nya metoden med den semi-övervakad inlärning för att hanteraovanstående utmaningar och observeras bra prestanda mot befintliga metoder.
|
23 |
Image-classification for Brain Tumor using Pre-trained Convolutional Neural Network : Bildklassificering för hjärntumör medhjälp av förtränat konvolutionell tneuralt nätverkOsman, Ahmad, Alsabbagh, Bushra January 2023 (has links)
Brain tumor is a disease characterized by uncontrolled growth of abnormal cells inthe brain. The brain is responsible for regulating the functions of all other organs,hence, any atypical growth of cells in the brain can have severe implications for itsfunctions. The number of global mortality in 2020 led by cancerous brains was estimatedat 251,329. However, early detection of brain cancer is critical for prompttreatment and improving patient’s quality of life as well as survival rates. Manualmedical image classification in diagnosing diseases has been shown to be extremelytime-consuming and labor-intensive. Convolutional Neural Networks (CNNs) hasproven to be a leading algorithm in image classification outperforming humans. Thispaper compares five CNN architectures namely: VGG-16, VGG-19, AlexNet, EffecientNetB7,and ResNet-50 in terms of performance and accuracy using transferlearning. In addition, the authors discussed in this paper the economic impact ofCNN, as an AI approach, on the healthcare sector. The models’ performance isdemonstrated using functions for loss and accuracy rates as well as using the confusionmatrix. The conducted experiment resulted in VGG-19 achieving best performancewith 97% accuracy, while EffecientNetB7 achieved worst performance with93% accuracy. / Hjärntumör är en sjukdom som kännetecknas av okontrollerad tillväxt av onormalaceller i hjärnan. Hjärnan är ansvarig för att styra funktionerna hos alla andra organ,därför kan all onormala tillväxt av celler i hjärnan ha allvarliga konsekvenser för dessfunktioner. Antalet globala dödligheten ledda av hjärncancer har uppskattats till251329 under 2020. Tidig upptäckt av hjärncancer är dock avgörande för snabb behandlingoch för att förbättra patienternas livskvalitet och överlevnadssannolikhet.Manuell medicinsk bildklassificering vid diagnostisering av sjukdomar har visat sigvara extremt tidskrävande och arbetskrävande. Convolutional Neural Network(CNN) är en ledande algoritm för bildklassificering som har överträffat människor.Denna studie jämför fem CNN-arkitekturer, nämligen VGG-16, VGG-19, AlexNet,EffecientNetB7, och ResNet-50 i form av prestanda och noggrannhet. Dessutom diskuterarförfattarna i studien CNN:s ekonomiska inverkan på sjukvårdssektorn. Modellensprestanda demonstrerades med hjälp av funktioner om förlust och noggrannhetsvärden samt med hjälp av en Confusion matris. Resultatet av det utfördaexperimentet har visat att VGG-19 har uppnått bästa prestanda med 97% noggrannhet,medan EffecientNetB7 har uppnått värsta prestanda med 93% noggrannhet.
|
24 |
A Novel System for Deep Analysis of Large-Scale Hand Pose DatasetsTouranakou, Maria January 2018 (has links)
This degree project proposes the design and the implementation of a novel systemfor deep analysis on large-scale datasets of hand poses. The system consists of a set ofmodules for automatic redundancy removal, classification, statistical analysis andvisualization of large-scale datasets based on their content characteristics. In thisproject, work is performed on the specific use case of images of hand movements infront of smartphone cameras. The characteristics of the images are investigated, andthe images are pre-processed to reduce repetitive content and noise in the data. Twodifferent design paradigms for content analysis and image classification areemployed, a computer vision pipeline and a deep learning pipeline. The computervision pipeline incorporates several stages of image processing including imagesegmentation, hand detection as well as feature extraction followed by a classificationstage. The deep learning pipeline utilizes a convolutional neural network forclassification. For industrial applications with high diversity on data content, deeplearning is suggested for image classification and computer vision is recommendedfor feature analysis. Finally, statistical analysis is performed to visually extractrequired information about hand features and diversity of the classified data. Themain contribution of this work lies in the customization of computer vision and deeplearning tools for the design and the implementation of a hybrid system for deep dataanalysis. / Detta examensprojekt föreslår design och implementering av ett nytt system för djup analys av storskaliga datamängder av handställningar. Systemet består av en uppsättning moduler för automatisk borttagning av redundans, klassificering, statistisk analys och visualisering av storskaliga dataset baserade på deras egenskaper. I det här projektet utförs arbete på det specifika användningsområdet för bilder av handrörelser framför smarttelefonkameror. Egenskaperna hos bilderna undersöks, och bilderna förbehandlas för att minska repetitivt innehåll och ljud i data. Två olika designparadigmer för innehållsanalys och bildklassificering används, en datorvisionspipeline och en djuplärningsrörledning. Datasynsrörledningen innehåller flera steg i bildbehandling, inklusive bildsegmentering, handdetektering samt funktionen extraktion följt av ett klassificeringssteg. Den djupa inlärningsrörledningen använder ett fällningsnätverk för klassificering. För industriella applikationer med stor mångfald på datainnehåll föreslås djupinlärning för bildklassificering och vision rekommenderas för funktionsanalys. Slutligen utförs statistisk analys för att visuellt extrahera nödvändig information om handfunktioner och mångfald av klassificerade data. Huvuddelen av detta arbete ligger i anpassningen av datasyn och djupa inlärningsverktyg för design och implementering av ett hybridsystem för djup dataanalys.
|
25 |
Detecting Defective Rail Joints on the Swiss Railways with Inception ResNet V2 : Simplifying Predictive Maintenance of Railway Infrastructure / Detektering av Defekta Järnvägsskarvar med Inception ResNet V2 : Förenkla Proaktivt Underhåll av JärnvägsinfrastrukturLu, Anton January 2022 (has links)
Manual investigation of railway infrastructure is a labor-intensive and time-consuming task, and automating it has become a high priority for railway operators to reduce unexpected infrastructure expenditure. In this thesis, we propose a new image classification approach for classifying defect and non-defective rail joints in image data, based on previous fault detection algorithms using object detection. The rail joints model is to our knowledge a world first, with the vast majority of research into applying computer vision for rail defect detection focusing mainly on the rail tracks and sleepers. Our new image classification models are based on the widely popular Inception ResNet V2, which we fine-tune and compare against a counterpart trained using self-supervision. Additional comparisons are performed against the Faster R-CNN object detector that has had successes with rail tracks and sleepers at the Swiss Federal Railways, as well as against the novel transformer-based DETR architecture. The research has used an in-house object detection annotated dataset from the Swiss railways, recorded in the context of predictive rail maintanance, with rail joints labeled as either defective, or non-defective. Our proposed image classification approach, using either a pre-trained and then fine-tuned, or self-supervised CNN, uses the bounding boxes in a dataset originally intended for object detection, to perform an expanded crop of the images around the rail joint before feeding it to the neural network. Our new image classification approach significantly outperforms object detection neural networks for the task of classifying defective and non-defective rail joints, albeit with the requirement that the rail joint has to be identified prior to classification. Furthermore, our results suggest that the trained models classify defective joints in the test set more consistently than human rail inspectors. The results show that our proposed method can achieve practical performance on unseen data, and can practically be applied to real-life defect detection with high precision and recall, notably on the railways operated by Swiss Federal Railways, SBB CFF FFS. / Manuell inspektion av järnvägsinfrastruktur är en tids- och arbetskrävande uppgift, och automatisering av inspektionerna har på senare tid blivit mer prioriterat av järnvägsoperatörer i syfte att minska oväntade utgifter som uppkommer till följd av undermålig infrastruktur. I det här examensarbetet presenterar vi en ny bildklassificeringsmetod för att klassificera defekta och icke-defekta järnvägsskarvar i bilder tagna från diagnostiska tåg. Modelleringen av järnvägsskarvar som vi har utfört är till vår kännedom något som aldrig gjorts förut för järnvägsinfrastruktur, då majoriteten av forskning inom datorseende för inspektion av järnvägsinfrastruktur historiskt mest har fokuserat på räls och sliprar. Den nya bildklassificeringsmodellen som vi har utvecklat använder den populära arkitekturen Inception ResNet V2, som vi finjusterar och jämför med ett dito som har tränats med självövervakad inlärning. Vidare jämförelser görs mot objektigenkänningsmetoden Faster R-CNN som fungerat väl för sliprar på den schweiziska järnvägen, samt mot den nya transformer-baserade arkitekturen DETR. Forskningen har använt ett dataset annoterat för objektigenkänning från den schweiziska järnvägen, med järnvägsskarvar märkta som defekta, eller icke-defekta. Vår föreslagna bildklassificeringsmetod, med antingen en förtränad och sedan finjusterad CNN, eller en CNN tränad med sjävövervakad inlärning, använder de annoterade boxarna från datasetet för att beskära bilderna runt skarvarna, och sedan klassificera dem. Vår nya metod baserad på bildklassificering presterar väsentligt bättre än neurala nätverk för objektigenkänning, dock med kravet att järnvägsskarven måste ha identifierats i bilden före klassificering. Vidare visar våra resultat att de tränade bildklassificeringsmodellerna klassificerar defekta skarvar i test-setet mer konsekvent än mänskliga järnvägsinspektörer. Resultaten visar att vår nya metod kan användas praktiskt för att upptäcka defekter i verkligheten, med hög precision och recall i data som inte setts under träningen. Specifikt visar vi att de nya modellerna är praktiskt användbara för järnvägen som drivs av Schweiziska Federala Järnvägarna, SBB CFF FFS.
|
26 |
Deep Multiple Description Coding for Semantic Communication : Theory and Practice / Djup kodning för parallella dataströmmar för semantisk kommunikation : Teori och praktikLindström, Martin January 2022 (has links)
With the era of wirelessly connected Internet of Things (IoT) devices on the horizon, eective data processing algorithms for IoT devices are of increasing importance. IoT devices often have limited power and computational resources, making data processing on the device unfeasible. Computational ooading, where the raw data is transmitted to a separate server, places a high load on the communication network, which in some cases may be prohibitively expensive. A split computing framework where some data pre-processing is done on the device, but the bulk of computations are done on a server at the network edge, provides a compromise between these limitations. Here, we employ a split computing framework in a semantic communication setting, where the semantic task is image classification. The system should fulfill three design requirements: low computational load on the IoT device, low load on the communication network, and good classification performance. We investigate the performance of two neural network structures: the first network is based on the VGG16 image classification network, and the second is the VGG16 network is augmented by separate encoder and decoder networks. The results are promising under both ideal and non-ideal channel conditions, where the first network gives good classification performance and low load on the communication network. The second network has low load on the IoT device, but surprisingly poor classification performance. Finally, we provide important insights into design choices and pitfalls, particularly reagrding network architecture and training, and hope that these results can aid future work in semantic communication systems. / I takt med att allt fler av våra system kopplas upp för kommunikation via internet, så kallad Internet of Things (IoT), får eektiva databehandlingsalgoritmer för dessa enheter av allt större betydelse. IoT-enheter har ofta begränsat minne, batteritid, och beräkningsresurser, vilket försvårar databehandling på enheten. Beräkningsavlastning, där rådata skickas till en separat server för behandling, kan leda till en hög belastning på kommunikationsnätverket, vilket i vissa fall är kostsamt. Att dela upp beräkningarna, där viss bearbetning av data görs på enheten men huvuddelen av beräkningarna görs på en server, är kompromiss mellan dessa två begränsningar. Här använder vi ett delat beräkningsramverk för semantisk kommunikation, där den semantiska uppgiften är bildklassificering. Systemet ska uppfylla tre designkrav: låg arbetsbelastning på IoT-enheten, låg belastning på kommunikationsnätverket och god klassificeringsprestanda. Vi undersöker två neurala nätverksstrukturer: den första är baserad på bildklassificeraren VGG16, och i den andra är VGG16-nätverket utökat med separata kodar- och avkodarnätverk. Resultaten är lovande under både ideala och icke-ideala förhållanden i kommunikationskanalen, där det första nätverket ger god klassificeringsprestanda och låg belastning på kommunikationsnätverket. Det andra nätverket har låg belastning på IoT-enheten, men överraskande dålig klassificeringsprestanda. Vi ger även viktiga insikter i designval och fallgropar, specifikt gällande nätverkens arkitektur och träning, och hoppas att dessa resultat kan gagna framtida arbete inom semantiska kommunikationssystem.
|
27 |
Improving Zero-Shot Learning via Distribution EmbeddingsChalumuri, Vivek January 2020 (has links)
Zero-Shot Learning (ZSL) for image classification aims to recognize images from novel classes for which we have no training examples. A common approach to tackling such a problem is by transferring knowledge from seen to unseen classes using some auxiliary semantic information of class labels in the form of class embeddings. Most of the existing methods represent image features and class embeddings as point vectors, and such vector representation limits the expressivity in terms of modeling the intra-class variability of the image classes. In this thesis, we propose three novel ZSL methods that represent image features and class labels as distributions and learn their corresponding parameters as distribution embeddings. Therefore, the intra-class variability of image classes is better modeled. The first model is a Triplet model, where image features and class embeddings are projected as Gaussian distributions in a common space, and their associations are learned by metric learning. Next, we have a Triplet-VAE model, where two VAEs are trained with triplet based distributional alignment for ZSL. The third model is a simple Probabilistic Classifier for ZSL, which is inspired by energy-based models. When evaluated on the common benchmark ZSL datasets, the proposed methods result in an improvement over the existing state-of-the-art methods for both traditional ZSL and more challenging Generalized-ZSL (GZSL) settings. / Zero-Shot Learning (ZSL) för bildklassificering syftar till att känna igen bilder från nya klasser som vi inte har några utbildningsexempel för. Ett vanligt tillvägagångssätt för att ta itu med ett sådant problem är att överföra kunskap från sett till osynliga klasser med hjälp av någon semantisk information om klassetiketter i form av klassinbäddningar. De flesta av de befintliga metoderna representerar bildfunktioner och klassinbäddningar som punktvektorer, och sådan vektorrepresentation begränsar uttrycksförmågan när det gäller att modellera bildklassernas variation inom klass. I denna avhandling föreslår vi tre nya ZSL-metoder som representerar bildfunktioner och klassetiketter som distributioner och lär sig deras motsvarande parametrar som distributionsinbäddningar. Därför är bildklassernas variation inom klass bättre modellerad. Den första modellen är en Triplet-modell, där bildfunktioner och klassinbäddningar projiceras som Gaussiska fördelningar i ett gemensamt utrymme, och deras föreningar lärs av metrisk inlärning. Därefter har vi en Triplet-VAE-modell, där två VAEs tränas med tripletbaserad fördelningsinriktning för ZSL. Den tredje modellen är en enkel Probabilistic Classifier för ZSL, som är inspirerad av energibaserade modeller. När de utvärderas på de vanliga ZSLdatauppsättningarna, resulterar de föreslagna metoderna i en förbättring jämfört med befintliga toppmoderna metoder för både traditionella ZSL och mer utmanande Generalized-ZSL (GZSL) -inställningar.
|
28 |
Image-classification for Brain Tumor using Pre-trained Convolutional Neural Network / Bildklassificering för hjärntumör med hjälp av förtränat konvolutionellt neuralt nätverkAlsabbagh, Bushra January 2023 (has links)
Brain tumor is a disease characterized by uncontrolled growth of abnormal cells in the brain. The brain is responsible for regulating the functions of all other organs, hence, any atypical growth of cells in the brain can have severe implications for its functions. The number of global mortality in 2020 led by cancerous brains was estimated at 251,329. However, early detection of brain cancer is critical for prompt treatment and improving patient’s quality of life as well as survival rates. Manual medical image classification in diagnosing diseases has been shown to be extremely time-consuming and labor-intensive. Convolutional Neural Networks (CNNs) has proven to be a leading algorithm in image classification outperforming humans. This paper compares five CNN architectures namely: VGG-16, VGG-19, AlexNet, EffecientNetB7, and ResNet-50 in terms of performance and accuracy using transfer learning. In addition, the authors discussed in this paper the economic impact of CNN, as an AI approach, on the healthcare sector. The models’ performance is demonstrated using functions for loss and accuracy rates as well as using the confusion matrix. The conducted experiment resulted in VGG-19 achieving best performance with 97% accuracy, while EffecientNetB7 achieved worst performance with 93% accuracy. / Hjärntumör är en sjukdom som kännetecknas av okontrollerad tillväxt av onormala celler i hjärnan. Hjärnan är ansvarig för att styra funktionerna hos alla andra organ, därför kan all onormala tillväxt av celler i hjärnan ha allvarliga konsekvenser för dess funktioner. Antalet globala dödligheten ledda av hjärncancer har uppskattats till 251329 under 2020. Tidig upptäckt av hjärncancer är dock avgörande för snabb behandling och för att förbättra patienternas livskvalitet och överlevnadssannolikhet. Manuell medicinsk bildklassificering vid diagnostisering av sjukdomar har visat sig vara extremt tidskrävande och arbetskrävande. Convolutional Neural Network (CNN) är en ledande algoritm för bildklassificering som har överträffat människor. Denna studie jämför fem CNN-arkitekturer, nämligen VGG-16, VGG-19, AlexNet, EffecientNetB7, och ResNet-50 i form av prestanda och noggrannhet. Dessutom diskuterar författarna i studien CNN:s ekonomiska inverkan på sjukvårdssektorn. Modellens prestanda demonstrerades med hjälp av funktioner om förlust och noggrannhets värden samt med hjälp av en Confusion matris. Resultatet av det utförda experimentet har visat att VGG-19 har uppnått bästa prestanda med 97% noggrannhet, medan EffecientNetB7 har uppnått värsta prestanda med 93% noggrannhet.
|
29 |
Image-Based Classification Solutions for Robust Automated Molecular Biology Labs / Bildbaserade klassificeringslösningar för robusta automatiserade molekylärbiologiska labbTeo, Arnold January 2023 (has links)
Single-cell genomics (SCG) are methods for investigating heterogeneity between biological cells, among these is Smart-seq which sequences from RNA molecules. A more recent version of this method is Smart-seq3xpress which is currently in the process of being automated by the Sandberg lab at Karolinska Institutet. As part of this automated lab system, microwell plates are moved by a robot arm between molecular biology instuments. The purpose of this project was to create and integrate an image-based classification solution to validate the placement of these plates. This was done by building upon the VGG-16 convolutional neural network (CNN) model and specialising it through transfer learning to train models which classify microwell plate placement as correct or incorrect. These models were then integrated into the automated lab pipeline so that the system could self-correct or warn lab personnel of misplacement, removing the need for constant human supervision. / Enskild cellgenomik (eng. single-cell genomics) är metoder för att undersöka heterogenitet mellan biologiska celler, bland dessa metoder är Smart-seq vilken sekvenserar från RNA molekyler. En nyare version av denna metod är Smart-seq3xpress vilken nu håller på att automatiseras av Sandberglabbet vid Karolinska Institutet. Som del av detta automatiserade labbsystem förflyttas mikrobrunnplattor av en robotarm mellan molekylärbiologiska mätinstrument. Syftet med detta projekt var att skapa samt integrera en bildbaserad klassificeringslösning för att säkerställa placeringen av dessa plattor. Detta gjordes genom att bygga på djupinlärningsmodellen VGG-16 och specialisera den med överförd inlärning för att kunna träna modeller vilka klassificerar om mikrobrunnplattornas placeringar är korrekta eller inkorrekta. Sedan integrerades dessa modeller som en del av det automatiserade labbsystemet sådan att systemet kunde självkorrigera eller varna labbpersonal vid felplaceringar, och därmed ta bort behovet av konstant mänsklig tillsyn.
|
30 |
Evaluating Hybrid Neural Network Approaches to Multimodal Web Page Classification Based on Textual and Visual Features / Extrahering av Representationer och Ensembletekniker för Multimodal Klassifiering av Webbsidor. : Utvärdering av neurala nätverksmodeller och ensembletekniker för multimodal webbsideklassificering.Ivarsson, Anton January 2021 (has links)
Given the explosive growth of web pages on the Internet in the last decade, automatic classification and categorization of web pages have grown into an important task. This thesis sets out to evaluate whether or not methods for text and image analysis, which had not been evaluated for web page classification, could improve on the state-of-the-art methods in web page classification. In web page classification, there is no dataset that is used for benchmarking. Therefore, in order to make comparisons, baseline models are implemented. The methods implemented are Bidirectional Encoder Representations from Transformers (BERT) for text and EfficientNet B4 for images. This thesis also sets out to evaluate methods for combining knowledge from two models. The thesis concludes that the proposed methods do improve on the state-of-the- art methods in web page classification. The proposed methods achieve approximately 92% accuracy while the baselines achieve approximately 87%. The proposed methods and the baselines are shown to be different using McNemar’s test at a significance level 0.05. The thesis also concludes that weighted average of logits could be preferable to weighted average of probabilities; weighted average of logits could be a more robust method, although more research is needed. / Givet den explosiva tillväxten av webbsidor på Internet under det senaste decenniet har automatisk klassificering och kategorisering av webbsidor vuxit till en viktig uppgift. Denna avhandling syftar till att utvärdera huruvida nya metoder för text- och bildanalys, som inte hade utvärderats för klassificering av webbsidor, skulle kunna prestera bättre än de senaste metoderna som har använts i området. Inom webbsideklassificering finns det inget dataset som används för jämförelser. För att göra jämförelser implementeras därför referensmodeller. De nya metoderna som implementerats är Bidirectional Encoder Representations from Transformers (BERT) för text och EfficientNet B4 för bilder. Den här avhandlingen syftar också till att utvärdera metoder för att kombinera kunskap från två modeller. Avhandlingen drar slutsatsen att de nya metoderna presterar bättre än de senaste metoderna inom klassificering av webbsidor. De nya metoderna uppnår cirka 92% noggrannhet medan referensmodellerna uppnår cirka 87%. De nya metoderna och referensmodellerna visar sig vara olika med hjälp av McNemars test med en signifikansnivå av 0.05. Avhandlingen drar också slutsatsen att det viktat genomsnitt av logits skulle kunna vara att föredra framför viktat genomsnitt av sannolikheter; viktat genomsnitt av logits skulle kunna vara en mer robust metod men måste undersökas mer.
|
Page generated in 0.0777 seconds