Return to search

Detection of Humans in Video Streams Using Convolutional Neural Networks / Detektion av människor i videoströmmar med hjälp av convolutional neural networks

This thesis is focused on human detection in video streams using Convolutional Neural Networks (CNNs). In recent years, CNNs have become common methods in various computer vision problems, and image detection is one popular application. The performance of CNNs on the detection problem has undergone a rapid increase in both accuracy and speed. In this thesis, we focus on a specific sub-domain of detection: human detection. Furthermore, it makes the problem more challenging as the data extracted from video streams captured by a head-mounted camera and therefore include difficult view points and strong motion blur. Considering both accuracy and speed, we choose two models with typical structures--You Only Look Once (YOLO) and Single Shot MultiBox Detector (SSD)--to experiment how robust the models perform on human domain with motion blur, and how the differences between the structures may influence the results. Several experiments are carried out in this thesis. With a better design of structure, SSD outperforms YOLO in various aspects. It is further proved as we fine-tuned YOLO and SSD300 on human data in Pascal VOC 2012 trainval dataset, showing the efficiency of SSD with fewer classes trained. As for motion blur problem, it is shown in the experiments that SSD300 has good ability to learn blurred patterns. The structure of SSD300 is further tested with regard to the design of default boxes and its performance on different scales and locations. The results show that the SSD model has a superior performance on online detection in video streams, but with a more customized structure it has potential to achieve even better results. / Detta examensarbete undersöker problemet att detektera människor i videströmmar med hjälp av convolutional neural networks (CNNs). Under de senaste åren har CNNs ökat i användning, vilket medfört stora förbättringar i noggrannhet och beräkningshastighet. CNN är nu en populär metod i olika datorseende- och bildigenkänningsproblem. I detta projekt fokuserar vi på en specifik subdomän: detektion av människor. Problemet försvåras ytterligare av att vår videodata är inspelad från en huvudmonterad kamera. Detta medför att vårt system behöver hantera ovanliga betraktningsvinklar och rörelseoskärpa. Efter att ha tagit hänsyn till beräkningshastighet och detektionskvalitet har vi valt att undersöka två olika CNN-modeller: You Only Look Once (YOLO) och Single Shot MultiBox Detector (SSD). Experimenten har designats för att visa hur robusta metoderna är på att detektera människor i bilder med rörelseoskärpa. Vi har också undersökt hur modifikationer på nätverksstrukturer kan påverka slutresultaten. Flera experiment har gjorts i detta projekt. Vi visar att SSD ger bättre resultat än YOLO i många avseenden, vilket beror på att SSD har en bättre designad nätverksstruktur. Genom att utföra fin-anpassning av YOLO och SSD på bildkollektionen i Pascal VOC 2012 kan vi visa att SSD fungerar bra även när vi tränar på färre objektklasser. SSD300 har också god förmåga att lära mönster som påverkats av oskärpa. Vi analyserar även hur valet av position och skalor av de predefinierade sökområdenen påverkar resultaten från SSD300. Resultaten visar att SSD-modellen presterar överlägset i realtidsdetektion i videoströmmar. Genom att anpassa strukturerna ytterligare finns potential att uppnå ännu bättre resultat.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-214436
Date January 2017
CreatorsWang, Huijie
PublisherKTH, Skolan för datavetenskap och kommunikation (CSC)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds