The up to date mapping data is of great importance in social services and disaster relief as well as in city planning. The vast amounts of data and the constant increase of geographical changes lead to large loads of continuous manual analysis. This thesis takes the process of updating maps and breaks it down to the problem of discovering buildings by comparing different machine learning methods to automate the finding of buildings. The chosen methods, YOLOv3 and Mask R-CNN, are based on Region Convolutional Neural Network(R-CNN) due to their capabilities of image analysis in both speed and accuracy. The image data supplied by Lantmäteriet makes up the training and testing data; this data is then used by the chosen machine learning methods. The methods are trained at different time limits, the generated models are tested and the results analysed. The results lay ground for whether the model is reasonable to use in a fully or partly automated system for updating mapping data from aerial imagery. The tested methods showed volatile results through their first hour of training, with YOLOv3 being more so than Mask R-CNN. After the first hour and until the eight hour YOLOv3 shows a higher level of accuracy compared to Mask R-CNN. For YOLOv3, it seems that with more training, the recall increases while precision decreases. For Mask R-CNN, however, there is some trade-off between the recall and precision throughout the eight hours of training. While there is a 90 % confidence interval that the accuracy of YOLOv3 is decreasing for each hour of training after the first hour, the Mask R-CNN method shows that its accuracy is increasing for every hour of training,however, with a low confidence and can therefore not be scientifically relied upon. Due to differences in setups the image size varies between the methods, even though they train and test on the same areas; this results in a fair evaluation where YOLOv3 analyses one square kilometre 1.5 times faster than the Mask R-CNN method does. Both methods show potential for automated generation of footprints, however, the YOLOv3 method solely generates bounding boxes, leaving the step of polygonization to manual work while the Mask R-CNN does, as the name implies, create a mask of which the object is encapsulated. This extra step is thought to further automate the manual process and with viable results speed up the updating of map data. / Uppdaterad kartdata är av stor betydelse för sociala tjänster och katastrofhjälp såväl som inom stadsplanering. De enorma mängderna data och den ständiga ökningen av geografiska förändringar leder till mycket arbete för kontinuerlig manuell analys. Denna avhandling kommer att behandla detta problem med att uppdatera kartor, bryta ned det till det specifika problemet att upptäcka byggnader och ur den synvinkelen jämföra olika maskininlärningsmetoder för automatisera detektering av byggnader. De valda metoderna, YOLOv3 och Mask R-CNN, är baserade på Region Convolutional Neural Network (R-CNN) på grund av dess förmåga av bildanalys i både hastighet och träffsäkerhet. Bildmaterial från Lantmäteriet utgör tränings- och testdatan, denna data används sedan av de utvalda maskininlärningmetoderna. Metoderna tränas med olika tidsgränser och de genererade modellerna testas och resultaten analyseras. Resultaten lägger grund för huruvida modellen är rimlig att använda i ett helt eller delvis automatiserat system för uppdatering av kartdata från flygbilder. De testade metoderna visade varierande resultat under sin första timmes träning, med YOLOv3 mer så än Mask R-CNN. Efter den första timmen fram till den åttonde timmen visar YOLOv3 en högre nivå av precision jämfört med Mask R-CNN. För YOLOv3 ser det ut som att mer träning ökar recall samtidigt som precision minskar. För Mask R-CNN är det emellertid en avvägning mellan recall och precision under de åtta timmarnas träning. Medan det finns en 90 % konfidens att accuracy minskar med YOLOv3 för varje timmes träning efter första timmen så visar Mask R-CNN-metoden att dess accuracy ökar för varje timmes träning, det är dock med låg konfidens och har därmed inte vetenskapligt stöd. På grund av skillnader i konfigurationer varierar bildstorleken mellan metoderna, de tränar och testar dock på samma områden för att ge en rättvis jämförelse. I dessa test analyserar YOLOv3 en kvadratkilometer 1.5 gånger snabbare än Mask R-CNN. Båda metoderna visar potential för en automatiserad generering av footprints. Dock så genererar YOLOv3-metoden endast en bounding box, vilket gör att polygoniseringen återstår för manuellt arbete medan Mask R-CNN, som namnet antyder, skapar en mask som objektet inkapslas i. Detta extrasteg är tänkt att automatisera den manuella processen och med rimliga resultat påskynda uppdateringen av kartdata.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:bth-18543 |
Date | January 2019 |
Creators | Jerkenhag, Joakim |
Publisher | Blekinge Tekniska Högskola, Institutionen för programvaruteknik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds