• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • 11
  • Tagged with
  • 32
  • 28
  • 28
  • 23
  • 22
  • 18
  • 17
  • 14
  • 12
  • 12
  • 12
  • 11
  • 10
  • 9
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Continual Learning and Biomedical Image Data : Attempting to sequentially learn medical imaging datasets using continual learning approaches / Kontinuerligt lärande och Biomedicinsk bilddata : Försöker att sekventiellt lära sig medicinska bilddata genom att använda metoder för kontinuerligt lärande

Soselia, Davit January 2022 (has links)
While deep learning has proved to be useful in a large variety of tasks, a limitation remains of needing all classes and samples to be present at the training stage in supervised problems. This is a major issue in the field of biomedical imaging since keeping samples in the training sets consistently is often a liability. Furthermore, this issue prevents the simple updating of older models with only the new data when it is introduced, and prevents collaboration between companies. In this work, we examine an array of Continual Learning approaches to try to improve upon the baseline of the naive finetuning approach when retraining on new tasks, and achieve accuracy levels similar to the ones seen when all the data is available at the same time. Continual learning approaches with which we attempt to mitigate the problem are EWC, UCB, EWC Online, SI, MAS, CN-DPM. We explore some complex scenarios with varied classes being included in the tasks, as well as close to ideal scenarios where the sample size is balanced among the tasks. Overall, we focus on X-ray images, since they encompass a large variety of diseases, with new diseases requiring retraining. In the preferred setting, where classes are relatively balanced, we get an accuracy of 63.30 versus a baseline of 53.92 and the target score of 66.83. For the continued training on the same classes, we get an accuracy of 35.52 versus a baseline of 27.73. We also examine whether learning rate adjustments at task level improve accuracy, with some improvements for EWC Online. The preliminary results indicate that CL approaches such as EWC Online and SI could be integrated into radiography data learning pipelines to reduce catastrophic forgetting in situations where some level of sequential training ability justifies the significant computational overhead. / Även om djupinlärning har visat sig vara användbart i en mängd olika uppgifter, kvarstår en begränsning av att behöva alla klasser och prover som finns på utbildningsstadiet i övervakade problem. Detta är en viktig fråga inom området biomedicinsk avbildning eftersom det ofta är en belastning att hålla prover i träningsuppsättningarna. Dessutom förhindrar det här problemet enkel uppdatering av äldre modeller med endast nya data när de introduceras och förhindrar samarbete mellan företag. I det här arbetet undersöker vi en rad kontinuerliga inlärningsmetoder för att försöka förbättra baslinjen för den naiva finjusteringsmetoden vid omskolning på nya uppgifter och närma sig noggrannhetsnivåer som de som ses när alla data är tillgängliga samtidigt. Kontinuerliga inlärningsmetoder som vi försöker mildra problemet med inkluderar bland annat EWC, UCB, EWC Online, SI. Vi utforskar några komplexa scenarier med olika klasser som ingår i uppgifterna, samt nära idealiska scenarier där exempelstorleken balanseras mellan uppgifterna. Sammantaget fokuserar vi på röntgenbilder, eftersom de omfattar ett stort antal sjukdomar, med nya sjukdomar som kräver omskolning. I den föredragna inställningen får vi en noggrannhet på 63,30 jämfört med en baslinje på 53,92 och målpoängen på 66,83. Medan vi för den utökade träningen på samma klasser får en noggrannhet på 35,52 jämfört med en baslinje på 27,73. Vi undersöker också om justeringar av inlärningsfrekvensen på uppgiftsnivå förbättrar noggrannheten, med vissa förbättringar för EWC Online. De preliminära resultaten tyder på att CL-metoder som EWC Online och SI kan integreras i rörledningar för röntgendatainlärning för att minska katastrofal glömska i situationer där en viss nivå av sekventiell utbildningsförmåga motiverar den betydande beräkningskostnaden.
12

Detecting illegal gold mining sites in the Amazon forest : Using Deep Learning to Classify Satellites Images

Labbe, Nathan January 2021 (has links)
Illegal gold mining in the Amazon forest has increased dramatically since 2005 with the rise in the price of gold. The use of chemicals such as mercury, which facilitate the gold extraction, increases the toxicity of the soil and can enter the food chain, leading to health problems for the inhabitants, and causes the environmental scourge we know today. In addition, the massive increase in these activities favours deforestation and impacts on protected areas such as indigenous areas and natural reserves. Organisations and governments from Peru, Brazil and French Guyana in particular, are trying to regulate these activities, but the area to cover being very large, by the time illegal exploitation is detected it is often too late to react. The idea of this thesis is to evaluate whether it is possible to automate the task of detecting these illegal gold mines using open satellite images and deep learning. In order to answer this question, this report includes the creation of new datasets, as well as the evaluation of two techniques which are object detection using RetinaNet and semantic segmentation using U-Net. The influence of image spectral bands is also studied in this thesis. The numerous trained models are all evaluated using the Dice Coefficient and Intersection over Union metrics, and each comparison is supported by the statistical sign-test. The report shows the superiority of the segmentation model for the binary classification of illegal mines. However, it is suggested to first use RetinaNet to find out more precisely whether the mine is legal or illegal, and then to use U-Net if the mine is illegal in order to make a more precise segmentation. It also shows and illustrates the importance of using the right image spectral bands which greatly increases the accuracy of the models. / Den illegala guldutvinningen i Amazonas har ökat dramatiskt sedan 2005 i och med att guldpriset stigit. Användningen av kemikalier, exempelvis kvicksilver, underlättar guldutvinningen men ökar giftigheten i marken och kan komma in i näringskedjan. Detta leder till hälsoproblem för invånarna och orsakar det miljöplågeri som vi känner till i dag. Dessutom leder den massiva ökningen av dessa verksamheter till ytterligare avskogning i skyddade områden, vilket exempelvis påverkar ursprungsområden och naturreservat. Organisationer och regeringar i Peru, Brasilien och Franska Guyana försöker att reglera denna verksamhet, men eftersom det område som ska täckas är mycket stort är det ofta för sent att agera när olaglig exploatering upptäcks. Syftet med denna avhandling är att utvärdera om det är möjligt att automatisera uppgiften att upptäcka dessa illegala guldgruvor med hjälp av öppna satellitbilder och djup inlärning. För att besvara denna fråga omfattar denna rapport skapandet av nya datamängder samt utvärderingen av två tekniker som är objektsdetektering med hjälp av RetinaNet och semantisk segmentering med hjälp av U-Net. Inflytandet av bildens spektralband studeras också i denna avhandling. De tränade modellerna utvärderas alla med hjälp av Dice-koefficienten och Intersection over Union-måtten, och varje jämförelse stöds av det statistiska sign-testet. Rapporten visar att segmenteringsmodellen är extremt överlägsen när det gäller binär klassificering av illegala gruvor. Det föreslås dock att man först använder RetinaNet för att mer exakt ta reda på om gruvan är laglig eller olaglig, och sedan använder U-Net om gruvan är olaglig för att göra en mer exakt segmentering. Rapporten visar och illustrerar också vikten av att använda rätt bildspektralband, vilket ökar modellernas noggrannhet avsevärt
13

Deep Active Learning for Image Classification using Different Sampling Strategies

Saleh, Shahin January 2021 (has links)
Convolutional Neural Networks (CNNs) have been proved to deliver great results in the area of computer vision, however, one fundamental bottleneck with CNNs is the fact that it is heavily dependant on the ground truth, that is, labeled training data. A labeled dataset is a group of samples that have been tagged with one or more labels. In this degree project, we mitigate the data greedy behavior of CNNs by applying deep active learning with various kinds of sampling strategies. The main focus will be on the sampling strategies random sampling, least confidence sampling, margin sampling, entropy sampling, and K- means sampling. We choose to study the random sampling strategy since it will work as a baseline to the other sampling strategies. Moreover, the least confidence sampling, margin sampling, and entropy sampling strategies are uncertainty based sampling strategies, hence, it is interesting to study how they perform in comparison with the geometrical based K- means sampling strategy. These sampling strategies will help to find the most informative/representative samples amongst all unlabeled samples, thus, allowing us to label fewer samples. Furthermore, the benchmark datasets MNIST and CIFAR10 will be used to verify the performance of the various sampling strategies. The performance will be measured in terms of accuracy and less data needed. Lastly, we concluded that by using least confidence sampling and margin sampling we reduced the number of labeled samples by 79.25% in comparison with the random sampling strategy for the MNIST dataset. Moreover, by using entropy sampling we reduced the number of labeled samples by 67.92% for the CIFAR10 dataset. / Faltningsnätverk har visat sig leverera bra resultat inom området datorseende, men en fundamental flaskhals med Faltningsnätverk är det faktum att den är starkt beroende av klassificerade datapunkter. I det här examensarbetet hanterar vi Faltningsnätverkens giriga beteende av klassificerade datapunkter genom att använda deep active learning med olika typer av urvalsstrategier. Huvudfokus kommer ligga på urvalsstrategierna slumpmässigt urval, minst tillförlitlig urval, marginal baserad urval, entropi baserad urval och K- means urval. Vi väljer att studera den slumpmässiga urvalsstrategin eftersom att den kommer användas för att mäta prestandan hos de andra urvalsstrategierna. Dessutom valde vi urvalsstrategierna minst tillförlitlig urval, marginal baserad urval, entropi baserad urval eftersom att dessa är osäkerhetsbaserade strategier som är intressanta att jämföra med den geometribaserade strategin K- means. Dessa urvalsstrategier hjälper till att hitta de mest informativa/representativa datapunkter bland alla oklassificerade datapunkter, vilket gör att vi behöver klassificera färre datapunkter. Vidare kommer standard dastaseten MNIST och CIFAR10 att användas för att verifiera prestandan för de olika urvalsstrategierna. Slutligen drog vi slutsatsen att genom att använda minst tillförlitlig urval och marginal baserad urval minskade vi mängden klassificerade datapunkter med 79, 25%, i jämförelse med den slumpmässiga urvalsstrategin, för MNIST- datasetet. Dessutom minskade vi mängden klassificerade datapunkter med 67, 92% med hjälp av entropi baserad urval för CIFAR10datasetet.
14

Kalibrering av en snömodell med satellitdata kring Kultsjöns avrinningsområde

Erikson, Torbjörn-Johannes January 2016 (has links)
För att förutsäga snö är en av de viktigaste redskapen en snömodell som beskriver hur snö ackumuleras och avsmälter. En viktig aspekt i snömodellering är variationmed höjden. Höjden påverkar temperatur och nederbörd och därigenom också mönstret för avsmältning och ackumulering.En grad-dag snömodell över området anslutande till Kultsjöns avrinningsområde utfördes med hänsyn till höjdfördelningen. Modellens snötäcke kalibrerades med hjälp av klassificerade satellitfoton över området under perioden mars till juni 2014. Jämförelsen gjordes med hjälp av Cohens Kappa.Resultatet av simuleringen påvisade en påtaglig överrensstämmelse mellan modellen och den observerade data. De simulerade värdena för snödjup jämfördes med observerade data för att utföra en enkel validering. Igen erhölls till stor del överrensstämmelse.Det finns säkert ett behov av tillägg till modellen som tar hänsyn till strålning och vind, då båda dessa faktorer uteblev i modellen. / To predict snow, one of the most important tools is a snow model that describes how snow accumulates and melts. An important aspect in snow modeling is variation with elevation. Elevation influences temperature and precipitation, and therefore also the patterns of snow melt and accumulation.A degree-day snow model over the area around Kultsjön’s catchment area was made with respect to elevation distribution. The modeled snow cover was calibrated using classified satellite photo over the area during the period March to June 2014. The comparison was done using Cohen’s Kappa.The results of the simulation show a large portion of agreement between the model and observed data. The simulated values for snow depth were then compared to the observed data to perform a basic validation. Again there was a large portion of agreement.There is certainly a need for supplementary adjustments to the model that take into account radiation and wind, as both factors were left out of the model.
15

The effect of model calibration on noisy label detection / Effekten av modellkalibrering vid detektering av felmärkta bildetiketter

Joel Söderberg, Max January 2023 (has links)
The advances in deep neural networks in recent years have opened up the possibility of using image classification as a valuable tool in various areas, such as medical diagnosis from x-ray images. However, training deep neural networks requires large amounts of annotated data which has to be labelled manually, by a person. This process always involves a risk of data getting the wrong label, either by mistake or ill will, and training a machine learning model on mislabelled images has a negative impact on accuracy. Studies have shown that deep neural networks are so powerful at memorization that if they train on mislabelled data, they will eventually overfit this data, meaning learning a data representation that does not fully mirror real data. It is therefore vital to filter out these images. Area under the margin is a method that filters out mislabelled images by observing the changes in a network’s predictions during training. This method does however not take into consideration the overconfidence in deep neural networks and the uncertainty of a model can give indications of mislabelled images during training. Calibrating the confidence can be done through label smoothing and this thesis aims to investigate if the performance of Area under the margin can be improved when combined with different smoothing techniques. The goal is to develop a better insight into how different types of label noise affects models in terms of confidence, accuracy and the impact it has depending on the dataset itself. Three different label smoothing techniques will be applied to evaluate how well they can mitigate overconfidence, prevent the model from memorizing the mislabelled samples and if this can improve the filtering process for the Area under the margin method. Results show when training on data with noise present, adding label smoothing improves accuracy, an indication of noise robustness. Label noise is seen to decrease confidence in the model and at the same time reduce the calibration. Adding label smoothing prevents this and allows the model to be more robust as the noise rate increases. In the filtering process, label smoothing was seen to prevent correctly labelled samples to be filtered and received a better accuracy at identifying the noise. This did not improve the classification results on the filtered data, indicating that it is more important to filter out as many mislabelled samples as possible even if this means filtering out correctly labelled images as well. The label smoothing methods used in this work was set up to preserve calibration, a future topic of research could be to adjust the hyperparameters to increase confidence instead, focusing on removing as much noise as possible. / De senaste årens framsteg inom djupa neurala nätverk har öppnat för möjligheten att använda bildklassificering som ett värdefullt verktyg inom olika områden, såsom medicinsk diagnos från röntgenbilder. Men att träna djupa neurala nätverk kräver stora mängder annoterad data som måste märkas antingen av människor eller datorer. Denna process involverar alltid med en risk för att data får fel etikett, antingen av misstag eller av uppsåt och att träna en maskininlärningsmodell på felmärkta bilder har negativ inverkan på resultatet. Studier har visat att djupa neurala nätverk är så kraftfulla att memorera att om de tränar på felmärkta data, kommer de så småningom att överanpassa dessa data, vilket betyder att de kommer att lära sig en representation som inte helt speglar verklig data. Det är därför viktigt att filtrera bort dessa bilder. Area under marginalen är en metod som filtrerar bort felmärkta bilder genom att observera förändringarna i ett nätverks beteende under träning. Denna metod tar dock inte hänsyn till översäkerhet i djupa neurala nätverk och osäkerheten i en modell kan ge indikationer på felmärkta bilder under träning. Kalibrering av förtroendet kan göras genom etikettutjämning och denna uppsats syftar till att undersöka om prestandan för Area under marginalen kan förbättras i kombination med olika tekniker för etikettutjämning. Målet är att utveckla en bättre insikt i hur olika typer av brusiga etiketter påverkar modeller när det gäller tillförlitlighet, noggrannhet och den påverkan det har beroende på själva datasetet. Tre olika tekniker för etikettutjämning kommer att tillämpas för att utvärdera hur väl de kan mildra översäkerheten, förhindra modellen från att memorera de felmärkta bilderna och om detta kan förbättra filtreringsprocessen för Area under marginalen-metoden. Resultaten visar att när man tränar på data innehållande felmärkt data, förbättrar etikettutjämning noggrannheten vilket indikerar på robusthet mot felmärkning. Felmärkning tycks minska säkerheten hos modellen och samtidigt minska kalibreringen. Att lägga till etikettutjämning förhindrar detta och gör att modellen blir mer robust när mängden brusiga etiketter ökar. I filtreringsprocessen sågs att etikettutjämning förhindrar att korrekt märkt data filtreras bort och fick en bättre noggrannhet vid identifiering av bruset. Detta förbättrade dock inte klassificeringsresultaten på den filtrerade datan, vilket indikerar att det är viktigare att filtrera bort så mycket felmärkta prover som möjligt även om detta innebär att filtrera bort korrekt märkta bilder. Metoderna för etikettutjämning som används i detta arbete sattes upp för att bevara kalibreringen, ett framtida forskningsämne kan vara att justera hyperparametrarna för att istället öka förtroendet, med fokus på att ta bort så mycket felmärkta etiketter som möjligt.
16

T-Distributed Stochastic Neighbor Embedding Data Preprocessing Impact on Image Classification using Deep Convolutional Neural Networks

Droh, Erik January 2018 (has links)
Image classification in Machine Learning encompasses the task of identification of objects in an image. The technique has applications in various areas such as e-commerce, social media and security surveillance. In this report the author explores the impact of using t-Distributed Stochastic Neighbor Embedding (t-SNE) on data as a preprocessing step when classifying multiple classes of clothing with a state-of-the-art Deep Convolutional Neural Network (DCNN). The t-SNE algorithm uses dimensionality reduction and groups similar objects close to each other in three-dimensional space. Extracting this information in the form of a positional coordinate gives us a new parameter which could help with the classification process since the features it uses can be different from that of the DCNN. Therefore, three slightly different DCNN models receives different input and are compared. The first benchmark model only receives pixel values, the second and third receive pixel values together with the positional coordinates from the t-SNE preprocessing for each data point, but with different hyperparameter values in the preprocessing step. The Fashion-MNIST dataset used contains 10 different clothing classes which are normalized and gray-scaled for easeof-use. The dataset contains 70.000 images in total. Results show minimum change in classification accuracy in the case of using a low-density map with higher learning rate as the data size increases, while a more dense map and lower learning rate performs a significant increase in accuracy of 4.4% when using a small data set. This is evidence for the fact that the method can be used to boost results when data is limited. / Bildklassificering i maskinlärning innefattar uppgiften att identifiera objekt i en bild. Tekniken har applikationer inom olika områden så som e-handel, sociala medier och säkerhetsövervakning. I denna rapport undersöker författaren effekten av att användat-Distributed Stochastic Neighbour Embedding (t-SNE) på data som ett förbehandlingssteg vid klassificering av flera klasser av kläder med ett state-of-the-art Deep Convolutio-nal Neural Network (DCNN). t-SNE-algoritmen använder dimensioneringsreduktion och grupperar liknande objekt nära varandra i tredimensionellt utrymme. Att extrahera denna information i form av en positionskoordinat ger oss en ny parameter som kan hjälpa till med klassificeringsprocessen eftersom funktionerna som den använder kan skilja sig från DCNN-modelen. Tre olika DCNN-modeller får olika in-data och jämförs därefter. Den första referensmodellen mottar endast pixelvärden, det andra och det tredje motar pixelvärden tillsammans med positionskoordinaterna från t-SNE-förbehandlingen för varje datapunkt men med olika hyperparametervärden i förbehandlingssteget. I studien används Fashion-MNIST datasetet som innehåller 10 olika klädklasser som är normaliserade och gråskalade för enkel användning. Datasetet innehåller totalt 70.000 bilder. Resultaten visar minst förändring i klassificeringsnoggrannheten vid användning av en låg densitets karta med högre inlärningsgrad allt eftersom datastorleken ökar, medan en mer tät karta och lägre inlärningsgrad uppnår en signifikant ökad noggrannhet på 4.4% när man använder en liten datamängd. Detta är bevis på att metoden kan användas för att öka klassificeringsresultaten när datamängden är begränsad.
17

Impact of data augmentations when training the Inception model for image classification

Barai, Milad, Heikkinen, Anthony January 2017 (has links)
Image classification is the process of identifying to which class a previously unobserved object belongs to. Classifying images is a commonly occurring task in companies. Currently many of these companies perform this classification manually. Automated classification however, has a lower expected accuracy. This thesis examines how automated classification could be improved by the addition of augmented data into the learning process of the classifier. We conduct a quantitative empirical study on the effects of two image augmentations, random horizontal/vertical flips and random rotations (<180◦). The data set that is used is from an auction house search engine under the commercial name of Barnebys. The data sets contain 700 000, 50 000 and 28 000 images with each set containing 28 classes. In this bachelor’s thesis, we re-trained a convolutional neural network model called the Inception-v3 model with the two larger data sets. The remaining set is used to get more class specific accuracies. In order to get a more accurate value of the effects we used a tenfold cross-validation method. Results of our quantitative study shows that the Inception-v3 model can reach a base line mean accuracy of 64.5% (700 000 data set) and a mean accuracy of 51.1% (50 000 data set). The overall accuracy decreased with augmentations on our data sets. However, our results display an increase in accuracy for some classes. The highest flat accuracy increase observed is in the class "Whine & Spirits" in the small data set where it went from 42.3% correctly classified images to 72.7% correctly classified images of the specific class. / Bildklassificering är uppgiften att identifiera vilken klass ett tidigare osett objekt tillhör. Att klassificera bilder är en vanligt förekommande uppgift hos företag. För närvarande utför många av dessa företag klassificering manuellt. Automatiserade klassificerare har en lägre förväntad nogrannhet. I detta examensarbete studeradas hur en maskinklassificerar kan förbättras genom att lägga till ytterligare förändrad data i inlärningsprocessen av klassificeraren. Vi genomför en kvantitativ empirisk studie om effekterna av två bildförändringar, slumpmässiga horisontella/vertikala speglingar och slumpmässiga rotationer (<180◦). Bilddatasetet som används är från ett auktionshus sökmotor under det kommersiella namnet Barnebys. De dataseten som används består av tre separata dataset, 700 000, 50 000 och 28 000 bilder. Var och en av dataseten innehåller 28 klasser vilka mappas till verksamheten. I det här examensarbetet har vi tränat Inception-v3-modellen med dataset av storlek 700 000 och 50 000. Vi utvärderade sedan noggrannhet av de tränade modellerna genom att klassificera 28 000-datasetet. För att få ett mer exakt värde av effekterna använde vi en tiofaldig korsvalideringsmetod. Resultatet av vår kvantitativa studie visar att Inceptionv3-modellen kan nå en genomsnittlig noggrannhet på 64,5% (700 000 dataset) och en genomsnittlig noggrannhet på 51,1% (50 000 dataset). Den övergripande noggrannheten minskade med förändringar på vårat dataset. Dock visar våra resultat en ökad noggrannhet i vissa klasser. Den observerade högsta noggrannhetsökningen var i klassen Åhine & Spirits", där vi gick från 42,3 % korrekt klassificerade bilder till 72,7 % korrekt klassificerade bilder i det lilla datasetet med förändringar.
18

A Comparison of CNN and Transformer in Continual Learning / En jämförelse mellan CNN och Transformer för kontinuerlig Inlärning

Fu, Jingwen January 2023 (has links)
Within the realm of computer vision tasks, Convolutional Neural Networks (CNN) and Transformers represent two predominant methodologies, often subject to extensive comparative analyses elucidating their respective merits and demerits. This thesis embarks on an exploration of these two models within the framework of continual learning, with a specific focus on their propensities for resisting catastrophic forgetting. We hypothesize that Transformer models exhibit a higher resilience to catastrophic forgetting in comparison to their CNN counterparts. To substantiate this hypothesis, a meticulously crafted experimental design was implemented, involving the selection of diverse models and continual learning approaches, and careful tuning of the networks to ensure an equitable comparison. In the majority of conducted experiments, encompassing both the contexts of class incremental learning settings and task incremental learning settings, our results substantiate the aforementioned hypothesis. Nevertheless, the insights garnered also underscore the necessity for more exhaustive and encompassing experimental evaluations to fully validate the asserted hypothesis. / Inom datorseende är Convolutional Neural Networks (CNN) och Transformers två dominerande metoder, som ofta är föremål för omfattande jämförande analyser som belyser deras respektive fördelar och nackdelar. Denna avhandling utforskar dessa två modeller inom ramen för kontinuerligt lärande, med särskilt fokus på deras benägenhet att motstå katastrofal glömska. Vi antar att Transformer-modeller uppvisar en ökad motståndskraft mot katastrofal glömska i jämförelse med deras CNN-motsvarigheter. För att underbygga denna hypotes implementerades en noggrant utformad experimentell design, som involverade val av olika modeller och kontinuerliga inlärningstekniker, och noggrann inställning av nätverken för att säkerställa en rättvis jämförelse. I majoriteten av de genomförda experimenten, som omfattade både inkrementell klassinlärning och inkrementell uppgiftsinlärning, bekräftade våra resultat den ovannämnda hypotesen. De insikter vi fått understryker dock också behovet av mer uttömmande och omfattande experimentella utvärderingar för att fullt ut validera den påstådda hypotesen.
19

Produktmatchning EfficientNet vs. ResNet : En jämförelse / Product matching EfficientNet vs. ResNet

Malmgren, Emil, Järdemar, Elin January 2021 (has links)
E-handeln ökar stadigt och mellan åren 2010 och 2014 var det en ökning på antalet konsumenter som handlar online från 28,9% till 34,2%. Otillräcklig information kring en produkts pris tvingar köpare att leta bland flera olika återförsäljare efter det bästa priset. Det finns olika sätt att ta fram informationen som krävs för att kunna jämföra priser. En metod för att kunna jämföra priser är automatiserad produktmatchning. Denna metod använder algoritmer för bildigenkänning där dess syfte är att detektera, lokalisera och känna igen objekt i bilder. Bildigenkänningsalgoritmer har ofta problem med att hitta objekt i bilder på grund av yttre faktorer såsom belysning, synvinklar och om bilden innehåller mycket onödig information. Tidigare har algoritmer såsom ANN (artificial neural network), random forest classifier och support vector machine används men senare undersökningar har visat att CNN (convolutional neural network) är bättre på att hitta viktiga egenskaper hos objekt som gör dem mindre känsliga mot dessa yttre faktorer. Två exempel på alternativa CNN-arkitekturer som vuxit fram är EfficientNet och ResNet som båda har visat bra resultat i tidigare forskning men det finns inte mycket forskning som hjälper en välja vilken CNN-arkitektur som leder till ett så bra resultat som möjligt. Vår frågeställning är därför: Vilken av EfficientNet- och ResNetarkitekturerna ger det högsta resultatet på produktmatchning med utvärderingsmåtten f1-score, precision och recall? Resultatet av studien visar att EfficientNet är den över lag bästa arkitekturen för produktmatchning på studiens datamängd. Resultatet visar också att ResNet var bättre än EfficientNet på att föreslå rätt matchningar av bilderna. De matchningarna ResNet gör stämmer mer än de matchningar EfficientNet föreslår då Resnet fick ett högre recall än vad EfficientNet fick.  EfficientNet uppnår dock en bättre recall som visar att EfficientNet är bättre än ResNet på att hitta fler eller alla korrekta matchningar bland sina potentiella matchningar. Men skillnaden i recall är större mellan modellerna vilket göra att EfficientNet får en högre f1-score och är över lag bättre än ResNet, men vad som är viktigast kan diskuteras. Är det viktigt att de föreslagna matchningarna är korrekta eller att man hittar alla korrekta matchningar. Är det viktigaste att de föreslagna matchningarna är korrekta har ResNet ett övertag men är det viktigare att hitta alla korrekta matchningar har EfficientNet ett övertag. Resultatet beror därför på vad som anses vara viktigast för att avgöra vilken av arkitekturerna som ger bäst resultat. / E-commerce is steadily increasing and between the years 2010 and 2014, there was an increase in the number of consumers shopping online from 28,9% to 34,2%. Insufficient information about the price of a product forces buyers to search among several different retailers for the best price. There are different ways to produce the information required to be able to compare prices. One method to compare prices is automated product matching. This method uses image recognition algorithms where its purpose is to detect, locate and recognize objects in images. Image recognition algorithms often have problems finding objects in images due to external factors such as brightness, viewing angles and if the image contains a lot of unnecessary information. In the past, algorithms such as ANN, random forest classifier and support vector machine have been used, but recent studies have shown that CNN is better at finding important properties of objects that make them less sensitive to these external factors. Two examples of alternative CNN architectures that have emerged are EfficientNet and ResNet, both of which have shown good results in previous studies, but there is not a lot of research that helps one choose which CNN architecture that leads to the best possible result. Our question is therefore: Which of the EfficientNet and ResNet architectures gives the highest result on product matching with the evaluation measures f1-score, precision, and recall? The results of the study show that EfficientNet is the overall best architecture for product matching on the dataset. The results also show that ResNet was better than EfficientNet in proposing the right matches for the images. The matches ResNet makes are more accurate than the matches EfficientNet suggests when Resnet received a higher precision than EfficientNet. However, EfficientNet achieves a better recall that shows that EfficientNet is better than ResNet at finding more or all correct matches among its potential matches. The difference in recall is greater than the difference in precision between the models, which means that EfficientNet gets a higher f1-score and is generally better than ResNet, but what is most important can be discussed. Is it important that the suggested matches are correct or that you find all the correct matches? If the most important thing is that the proposed matches are correct, ResNet has an advantage, but if it is more important to find all correct matches, EfficientNet has an advantage. The result therefore depends on what is considered to be most important in determining which of the architectures gives the best results
20

Utveckling av intelligens för en robotplattform AIDA / Developing intelligence for a robot platform AIDA

Tran, Danny, Norgren, Bo Valdemar, Winbladh, Hugo, Tsai, Emily, Magnusson, Jim, Kallström, Ebba, Tegnell, Fredrik January 2022 (has links)
Rapporten beskriver utvecklingsarbetet och resultatet från utvecklingen av en robotplattform vid namn AIDA (AI Design Assistant), som utvecklades åt Institutionen för datavetenskap vid Linköpings universitet. Plattformen består av en robotarm som utgörs av sex stycken servomotorer, som är anslutna till en enkortsdator. En Android-surfplatta sitter integrerad på robotarmen och har en applikation installerad som utgör användargränssnittet. Tre huvudsakliga funktioner för plattformen utvecklades. Dessa funktioner är objektigenkänning, objektspårning och taligenkänning. Objektigenkänningen kan klassificera fyra olika fruktsorter, objektspårningen kan spåra objekt och följa dem med robotarmen genom inverskinematik, och taligenkänningen kan transkribera tal till text och svara på kommandon. Utifrån resultatet och diskussionen härleds slutsatser över fyra frågeställningar relaterade till utvecklingsarbetet. Projektet utfördes som en del av kursen TDDD96 Kandidatprojekt i programvaruutveckling, och varje projektmedlem har även skrivit ett individuellt bidrag till rapporten som behandlar områden kopplade till projektarbetet. / This report describes the development process and the resulting product from the development of a robot platform named AIDA (AI Design Assistant), that was developed on a request from the Department of Computer and Information Science at Linköping University. The platform consists of a robot arm that is made up by six servo motors connected to a single-board computer. An Android tablet is attached to the robot arm and has an application installed which constitutes the user interface. Three main functions were developed for the platform. These functions constitute object recognition, object tracking, and speech recognition. The object recognition module can classify four different types of fruit, the object tracking module can track objects and follow them by moving the robot arm using inverse kinematics, and the speech recognition module can transcribe speech to text and respond to  audible commands. Conclusions over four questions related to the development of the product are derived from the results and discussion chapters of the report. The project was conducted as a part of the course TDDD96 Software Engineering – Bachelor Project, and each project member has produced an individual contribution to the report which covers subjects related to the project.

Page generated in 0.1189 seconds