Return to search

Specialization of an Existing Image Recognition Service Using a Neural Network

To help combat the environmental impacts caused by humans this project is about investigating one way to simplify the waste management process. The idea is to use image recognition to identify what material the recyclable object is made of. A large data set containing labeled images of trash, called Trashnet, was analyzed using Google Cloud Vision. Since this API is not written for material detection specifically, a feed forward neural network was created using Tensorflow and trained with the output from Google Cloud Vision. Thus, the network learned how different word combinations from Google Cloud Vision implicated one of five different materials; glass, plastic, paper, metal and combustible waste. The network checked for 518 unique words in the input and ran them through two hidden layers with a size of 1000 nodes each, before having a one hot output layer. This neural network received an accuracy of around 60%, which beat Google Cloud Vision’s meager accuracy of around 30%. An application, with which the user can take pictures of the object he or she would like to recycle, could be developed with an educational purpose to let its user know what material the waste is made of, and with this information be able to throw the waste in the right bin. / För att hjälpa till att motverka människans negativa påverkan på miljön kommer detta projekt handla om att undersöka hur man kan göra det enklare att källsortera. Grundidén är att använda bildigenkänning för att identifiera vilket återvinningsbart material som objektet i bilden består av. Ett stort dataset med bilder indelade i olika återvinningsbara material, kallat Trashnet, analyserades med hjälp av Google Cloud Vision, vilket är ett API för bildigenkänning och inte specifikt igenkänning av material. Med hjälp av Tensorflow skapades ett neuralt nätverk som använder utdatan från Google Cloud Vision som indata, vilket i sin tur kan ge ett av fem olika material som utdata; glas, plast, papper, metall eller brännbart. Nätverket lärde sig hur olika ordkombinationer från Google Cloud Vision implikerade ett av de fem materialen. Nätverkets indata-lager består av de 518 unika orden som Google Cloud Vision sammanlagt gav som utdata efter att ha analyserade Trashnets dataset. Dessa ord körs igenom två dolda lager, vilka båda består av 1000 noder var, innan det sista lagret, som är ett ”one hot”-utdatalager. Detta nätverk fick en träffsäkerhet på cirka 60%, vilket slog Google Cloud Visions träffsäkerhet på cirka 30%. Detta skulle kunna användas i en applikation, där användaren tar en bild på det skräp som önskas återvinnas, som utvecklas i utbildningssyfte att lära användaren vilket material dennes återvinningsbara föremål är gjort av, och med denna information bättre kunna källsortera.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-232072
Date January 2018
CreatorsErsson, Sara, Dahl, Oskar
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:149

Page generated in 0.0019 seconds