Correct insertion of computer graphics into live-action broadcasts of outdoor sports requires precise knowledge of the foreground, i.e. players present in the scene. This thesis proposes a foreground detection and segmentation- framework with focus on real-time performance for 1080p resolution. A dataset consisting of four scenes; single-, multi-segment-, transcending-foreground and a light-witch scene all with dynamic backgrounds was constructed together with 26 ground-truths. Results show that the framework should run internally at 288p using GPU acceleration with geometrical nearest-neighbour-interpolation to attain real-time-capability. To maximize accuracy of the results, the framework uses two instances of OpenCV MOG2 in parallel on differently downsampled frames that are bitwise-joined to increase robustness. A set of morphological operations provides post-processing to get spatial coherence and a specific turf- consideration gives accurate contours. Thanks to additional camera- operator input, a crude distance-estimate lets foreground segments fade into background at a predetermined depth. The framework suffers from inaccurate segmentation during rapid light-switches, but recovers in a matter of seconds like the 'vanilla' MOG algorithm. For the specific scenes the framework provides excellent performance, especially considering the light-switch scene by comparison to the MOG-algorithm. For non-specific scenes of the 'BMC 2012' performance does not exceed the current state-of-the-art. / Korrekt placering av datorgrafik i video för tv-produktion kräver god känndedom om aktuell förgrund. Denna avhandling föreslår ett förgrundsdetektions- och segmenterings- ramverk med fokus på realtidsbearbetning av full-HD upplöst sport i utomhusmiljö. För utvärdering skapades ett dataset bestående av fyra scener; singel-, multisegment-, avlägsnande-förgrund och en ljusomväxlingsscen tillsammans med 26 referensförgrunder. För att erhålla realtidsbearbetning skall ramverket internt nyttja 288p upplösning med GPU acceleration och geometrisk närmaste-granne-interpolation. Resultaten visade att maximal noggranhet och ökad robusthet erhölls med två instanser av OpenCV MOG2 arbetandes parallellt på olikt nerskalade bilder för att därefter pixelvis förenas. För att erhålla sammanhängande förgrundssegment nyttjades morfologiska operationer på den binära sammansatta förgrunden vilket tillsammans med en specifik gräskantskorrektion ger precisa konturer. Tack vare givna kameraparametrar kan djupet till förgrundselementen uppskattas därmed låts de övergå till bakgrund för ett visst djupt. Ramverket lider av oprecis segmententering vid snabba ljusomväxlingar, men återhämtar sig när bakgrundsmodellen uppdaterats till de nya ljusförutsättningarna. För ovan nämnda specifika scener presterar ramverket utmärkt, speciellt med avseende på ljusomväxlingen, där prestandan är flerfaldigt bättre än den enskilda 'MOG'-metoden. För generella scener ur 'BMC 2012' datasetet presterar vår metod dock inte bättre än state-of-the-art.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-200128 |
Date | January 2016 |
Creators | Sandström, Gustav |
Publisher | KTH, Skolan för datavetenskap och kommunikation (CSC), 9211092599 |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0019 seconds