In modern industrial environments, human-robot collaboration is a trend in automation to improve performance and productivity. Instead of isolating robot from human to guarantee safety, collaborative robotics allows human and robot working in the same area at the same time. New hazards and risks, such as the collision between robot and human, arise in this situation. Safety analysis is necessary to protect both human and robot when using a collaborative robot.To perform safety analysis, robots need to perceive the surrounding environment in realtime. This surrounding environment is perceived and stored in the form of scene graph, which is a direct graph with semantic representation of the environment, the relationship between the detected objects and properties of these objects. In order to generate the scene graph, a simulated warehouse is used: robots and humans work in a common area for transferring products between shelves and conveyor belts. Each robot generates its own scene graph from the attached camera sensor. In the graph, each detected object is represented by a node and edges are used to denote the relationship among the identified objects. The graph node includes values like velocity, bounding box sizes, orientation, distance and directions between the object and the robot.We generate scene graph in a simulated warehouse scenario with the frequency of 7 Hz and present a study of Mask R-CNN based on the qualitative comparison. Mask R-CNN is a method for object instance segmentation to get the properties of the objects. It uses ResNetFPN for feature extraction and adds a branch to Faster R-CNN for predicting segmentation mask for each object. And its results outperform almost all existing, single-model entries on instance segmentation and bounding-box object detection. With the help of this method, the boundaries of the detected object are extracted from the camera images. We initialize Mask R-CNN model using three different types of weights: COCO pre-trained weight, ImageNet pre-trained weight and random weight, and the results of these three different weights are compared w.r.t. precision and recall.Results showed that Mask R-CNN is also suitable for simulated environments and can meet requirements in both detection precision and speed. Moreover, the model trained used the COCO pre-trained weight outperformed the model with ImageNet and randomly assigned initial weights. The calculated Mean Average Precision (mAP) value for validation dataset reaches 0.949 with COCO pre-trained weights and execution speed of 11.35 fps. / I modern industriella miljöer, för att förbättra prestanda och produktivitet i automatisering är human-robot samarbete en trend. Istället för att isolera roboten från människan för att garantera säkerheten, möjliggör samarbets robotar att man och robot arbetar i samma område samtidigt. Nya risker, såsom kollisionen mellan robot och människa, uppstår i denna situation. Säkerhetsanalys är nödvändig för att skydda både människa och robot när man använder en samarbets robot.För att utföra säkerhetsanalys måste robotar uppfatta omgivningen i realtid. Denna omgivande miljö uppfattas och lagras i form av scen graf, som är ett direkt diagram med semantisk representation av miljön, samt förhållandet mellan de detekterade objekten och egenskaperna hos dessa objekt. För att skapa scen grafen används ett simulerat lager: robotar och människor arbetar i ett gemensamt område för överföring av produkter mellan hyllor och transportband. Varje robot genererar sin egen scen grafik från den medföljande kamerasensorn. I diagrammet presenteras varje detekterat objekt av en nod och kanterna används för att beteckna förhållandet mellan de identifierade objekten. Diagram noden innehåller värden som hastighet, gränsvärde, orientering, avstånd och riktningar mellan objektet och roboten.Vi genererar scen graf i ett simulerat lager scenario med frekvensen 7 Hz och presenterar en studie av Mask R-CNN baserat på den kvalitativa jämförelsen. Mask R-CNN är ett sätt att segmentera objekt exempel för att få objektens egenskaper. Det använder ResNetFPN för funktion extraktion och lägger till en gren till Snabbare R-CNN för att förutsäga segmenterings mask för varje objekt. Och dess resultat överträffar nästan alla befintliga, enkel modell poster, till exempel segmentering och avgränsning av objektiv detektering. Med hjälp av denna metod extraheras kanterna för det detekterade objektet från kamerabilderna. Vi initierar Mask R-CNN-modellen med tre olika typer av vikter: COCO-utbildade vikter, ImageNet-tränade vikter och slumpmässiga vikter, och resultaten av dessa tre olika vikter jämförs med avseende på precision och återkallelse.Resultaten visade att Mask R-CNN också är lämplig för simulerade miljöer och kan uppfylla kraven i både detekterings precision och hastighet. Dessutom använde den utbildade modellen de COCO-tränade vikterna överträffat modellen med slumpmässigt tilldelade initial vikter. Det beräknade medelvärdet för precision (mAP) för validerings dataset når 0.949 med COCO-pre-utbildade vikter och körhastighet på 11.35 fps.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-254898 |
Date | January 2018 |
Creators | Wang, Shaolei |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:766 |
Page generated in 0.0167 seconds