Global ETD Search

1	A Comparison Between KeyFrame Extraction Methods for Clothing Recognition Lindgren, Gabriel January 2023 (has links) With an ever so high video consumption, applications and services need to use smart approaches to make the experience better for their users. By using key frames from a video, useful information can be retrieved regarding the entire video, and used for better explaining the content. At present, many key frame extraction (KFE) methods aim at selecting multiple frames from videos composed of multiple scenes, and coming from various contexts. In this study a proposed key frame extraction method that extracts a single frame for further clothing recognition purposes is implemented and compared against two other methods. The proposed method utilizes the state-of-the-art object detector YOLO (You Only Look Once) to ensure the extracted key frames contain people, and is referred to as YKFE (YOLO-based Key Frame Extraction). YKFE is then compared against the simple and baseline method named MFE (Middle Frame Extraction) which always extracts the middle frame of the video, and the famous optical flow based method referred to as Wolf KFE, that extracts frames having the lowest amount of optical flow. The YOLO model is pre-trained and further fine tuned on a custom dataset. Furthermore, three versions of the YKFE method are developed and compared, each utilizing different measurements in order to select the best key frame, the first one being optical flow, the second aspect ratio, and the third by combining both optical flow and aspect ratio. At last, three proposed metrics: RDO (Rate of Distinguishable Outfits), RSAR (Rate of Successful API Returns), and AET (Average Extraction Time) were used to evaluate and compare the performance of the methods against each other on two sets of test data containing 100 videos each. The results show that YKFE yields more reliable results while taking significantly more time than both MFE and Wolf KFE. However, both MFE and Wolf KFE do not consider whether frames contain people or not, meaning the context in which the methods are used is of significant importance for the rate of successful key frame extractions. Finally as an experiment, a method named Slim YKFE was developed as a combination of both MFE and YKFE, resulting in a substantially reduced extraction time while still maintaining high accuracy. / Med en ständigt växande videokonsumption så måste applikationer och tjänster använda smarta tillvägagångssätt för att göra upplevelsen så bra som möjligt för dess användare. Genom att använda nyckelbilder från en video kan användbar information erhållas om hela videon och användas för att bättre förklara dess innehåll. För nuvarande fokuserar många metoder för nyckelbildutvinning (KFE) på att utvinna ett flertal bilder från videoklipp komponerade av flera scener och många olika kontext. I denna studie föreslås och implementeras en ny nyckelbildutvinningsmetod som enbart extraherar en bild med syfte att användas av ett API för klädigenkänning. Denna metod jämförs sedan med två andra redan existerande metoder. Den föreslagna metoden använder sig av det moderna objektdetekteringssystemet YOLO (You Only Look Once) för att säkerställa förekomsten av personer i de extraherade nyckelbilderna och hänvisas som YKFE (YOLO-based Key Frame Extraction). YKFE jämförs sedan med en enkel basmetod kallad MFE (Middle Frame Extraction) som alltid extraherar den mittersta bilden av en video, och en känd metod som extraherar de bilder med lägst optiskt flöde, kallad Wolf KFE. YOLO-modellen är förtränad och vidare finjusterad på ett eget dataset. Fortsättningsvis utvecklas tre versioner av YKFE-metoden där varje version använder olika värden för att välja ut den bästa nyckelbilden. Den första versionen använder optiskt flöde, den andra använder bildförhållande och den tredje kombinerar både optiskt flöde och bildförhållande. Slutligen används tre föreslagna mättyper; RDO (Rate of Distinguishable Outfits), RSAR (Rate of Successful API Returns), and AET (Average Extraction Time) för att evaluera och jämföra metodernas prestanda mot varandra på två uppsättningar testdata bestånde av 100 videoklipp vardera. Resultaten visar att YKFE ger de mest stabila resultaten samtidigt som den har en betydligt längre exekveringstid än både MFE och Wolf KFE. Däremot betraktar inte MFE och Wolf YKFE bildernas innehåll vilket betyder att kontextet där dessa metoder används är av stor betydelse för antalet lyckade nyckelbildextraheringar. Som ett experiment så utvecklas även en metod kallad Slim YKFE, som kombinerar både MFE och YKFE som resulterade i en betydande minskning av exekveringstid samtidigt som antal lyckade extraheringar förblev hög. key frame extraction video analyzis yolo yolov7 optical flow nyckelbildutvinning videoanalys yolo yolov7 optiskt flöde Computer and Information Sciences Data- och informationsvetenskap
2	Sub-frame synchronisation and motion interpolation for panoramic video stitching / Synkronisering och Interpolering av Videodata för Panoramagenerering Remì, Chierchia January 2022 (has links) This study was carried out in collaboration with Tracab, a brand leader in real-time digital sports data. As a result, the application field is centred on sports analytics. The technology, for instance, consists of multiple cameras that capture a football pitch in a panoramic setup. The alignment of two or more cameras in both a spatial and temporal manner is referred to as sub-frame synchronisation. Because the cameras are already in the same geometric coordinates, only temporal synchronisation will be addressed in this project. The main method for retrieving the desynchronisation information that affects the cameras is based on optical flow. The off-sync cameras' spacial information is then synthesised to the time required by the synchronisation constraint using motion interpolation. In addition, the created system is compared to a real-time intermediate flow interpolation approach. The latter method relies on machine learning techniques, whereas this study focuses on more traditional methods. The metrics Peak Signal-to-Noise Ratio and Structural Similarity Index Measure are used to address the quality criteria required by this subject of study. Furthermore, visually perceived quality is examined to identify differences between measured and perceived quality. The results reveal that in every realistic situation investigated, temporal synchronisation can be addressed by an error measure of less than 1ms. The frame synthesis stage, on the other hand, fails to accurately estimate complicated scenarios, while the machine learning approach stands out. The implemented approach, on the other hand, addresses fast-moving objects with greater precision. Furthermore, the machine learning approach is unable to interpolate intermediate frames in arbitrary time steps, which is critical for the project's application. Finally, considering the lack of real-time computational speed and the quality achieved by machine learning approaches, more research is required in these directions. / Denna studie genomfördes i samarbete med Tracab, en marknadsledare inom digital sportdata levererad i realtid. Studiens applikationsområde kommer där av centreras kring sportdata där två eller flera kameror filmar en fotbollsplan i ett videopanorama. Kamerasynkroniseringen måste ske både spatialt och temporalt. Eftersom kamerorna har samma position kommer endast den temporala synkronisering tas upp i detta projekt. Den övergripande metoden för att göra detta är baserat på optiskt flöde. Data från en ej synkroniserad kamera syntetiseras via en synkroniseringkonstant mha. rörelseinterpolering. Detta jämförs även mot ett tillvägagångssätt som bygger på maskininlärning medan man i denna studie fokuserar på en mer traditionell lösningsmetod. Mätvärdena Peak Signal-to-Noise Ratio och Structural Similarity Index Measure används som kvalitetskriteria. Även visuellt upplevd kvalitet undersöks för att identifiera skillnaden mellan mätt och upplevd kvalitet. Resultatet visar att vid realistiska situationer kan den temporala synkroniseringen beräknas till under 1ms. Den syntetiserade datan lyckas dock inte estimera komplicerade situationer, medan maskininlärningsmetoden presterar bra. Dock så klarar studiens lösningsmetod att bättre generera objekt i snabb rörelse. Vidare så kan inte maskininlärningsmetoden generera video med en godtycklig tidförskjutning, något som är avgörande för projektets tillämpningsområde. Slutligen, med tanke på svårigheter i realtidsberäkning kontra kvaliteten hos maskin- inlärningsmetoder krävs därför mer forskning inom området. Sub-Frame Synchronisation Motion Interpolation Optical Flow Panoramic Stitching Traditional Approach NVIDIA Optical Flow SDK Synkronisering Interpolering Rörelseinterpolering NVIDIA Optical Flow SDK Panoramagenerering Panorama Optiskt Flöde Natural Sciences Naturvetenskap
3	Analyzing different approaches to Visual SLAM in dynamic environments : A comparative study with focus on strengths and weaknesses / Analys av olika metoder för Visual SLAM i dynamisk miljö : En jämförande studie med fokus på styrkor och svagheter Ólafsdóttir, Kristín Sól January 2023 (has links) Simultaneous Localization and Mapping (SLAM) is the crucial ability for many autonomous systems to operate in unknown environments. In recent years SLAM development has focused on achieving robustness regarding the challenges the field still faces e.g. dynamic environments. During this thesis work different existing approaches to tackle dynamics with Visual SLAM systems were analyzed by surveying the recent literature within the field. The goal was to define the advantages and drawbacks of the approaches to provide further insight into the field of dynamic SLAM. Furthermore, two methods of different approaches were chosen for experiments and their implementation was documented. Key conclusions from the literature survey and experiments are the following. The exclusion of dynamic objects with regard to camera pose estimation presents promising results. Tracking of dynamic objects provides valuable information when combining SLAM with other tasks e.g. path planning. Moreover, dynamic reconstruction with SLAM offers better scene understanding and analysis of objects’ behavior within an environment. Many solutions rely on pre-processing and heavy hardware requirements due to the nature of the object detection methods. Methods of motion confirmation of objects lack consideration of camera movement, resulting in static objects being excluded from feature extraction. Considerations for future work within the field include accounting for camera movement for motion confirmation and producing available benchmarks that offer evaluation of the SLAM result as well as the dynamic object detection i.e. ground truth for both camera and objects within the scene. / Simultaneous Localization and Mapping (SLAM) är för många autonoma system avgörande för deras förmåga att kunna verka i tidigare outforskade miljöer. Under de senaste åren har SLAM-utvecklingen fokuserat på att uppnå robusthet när det gäller de utmaningar som fältet fortfarande står inför, t.ex. dynamiska miljöer. I detta examensarbete analyserades befintliga metoder för att hantera dynamik med visuella SLAM-system genom att kartlägga den senaste litteraturen inom området. Målet var att definiera för- och nackdelar hos de olika tillvägagångssätten för att bidra med insikter till området dynamisk SLAM. Dessutom valdes två metoder från olika tillvägagångssätt ut för experiment och deras implementering dokumenterades. De viktigaste slutsatserna från litteraturstudien och experimenten är följande. Uteslutningen av dynamiska objekt vid uppskattning av kamerans position ger lovande resultat. Spårning av dynamiska objekt ger värdefull information när SLAM kombineras med andra uppgifter, t.ex. path planning. Dessutom ger dynamisk rekonstruktion med SLAM bättre förståelse om omgivningen och analys av objekts beteende i den kringliggande miljön. Många lösningar är beroende av förbehandling samt ställer höga hårdvarumässiga krav till följd av objektdetekteringsmetodernas natur. Metoder för rörelsebekräftelse av objekt tar inte hänsyn till kamerarörelser, vilket leder till att statiska objekt utesluts från funktionsextraktion. Uppmaningar för framtida studier inom området inkluderar att ta hänsyn till kamerarörelser under rörelsebekräftelse samt att ta ändamålsenliga riktmärken för att möjliggöra tydligare utvärdering av SLAM-resultat såväl som för dynamisk objektdetektion, dvs. referensvärden för både kamerans position såväl som för objekt i scenen. Visual SLAM RGB-D Vision Dynamic Objects Object Detection Multi-Object Tracking Image Segmentation Optical Flow Visual SLAM RGB-D Syn Dynamiska objekt Objektdetektering Multi-Objekt Spårning Bildsegmentation Optiskt Flöde Robotics Robotteknik och automation Computer and Information Sciences Data- och informationsvetenskap
4	Towards Visual-Inertial SLAM for Dynamic Environments Using Instance Segmentation and Dense Optical Flow Sarmiento Gonzalez, Luis Alejandro January 2021 (has links) Dynamic environments pose an open problem for the performance of visual SLAM systems in real-life scenarios. Such environments involve dynamic objects that can cause pose estimation errors. Recently, Deep Learning semantic segmentation networks have been employed to identify potentially moving objects in visual SLAM; however, semantic information is subject to misclassifications and does not yield motion information alone. The thesis presents a hybrid method that employs semantic information and dense optical flow to determine moving objects through a motion likelihood. The proposed approach builds over stereo- inertial ORBSLAM 3, adding the capability of dynamic object detection to allow a more robust performance in dynamic scenarios. The system is evaluated in the OpenLORIS dataset, which considers stereo-inertial information in challenging scenes. The impact of dynamic objects on the system’s performance is studied through the use of ATE, RPE and Correctness Rate metrics. A comparison is made between the original ORBSLAM 3, ORBSLAM 3 considering only semantic information and the hybrid approach. The comparison helps identify the benefits and limitations of the proposed method. Results suggest an improvement in ATE for the hybrid approach with respect to the original ORBSLAM 3 in dynamic scenes. / Dynamiska miljöer utgör ett öppet problem för prestanda för visuella SLAM-system i verkliga scenarier. Sådana miljöer involverar dynamiska objekt som kan orsaka uppskattningsfel vid positionering. Nyligen har djupinlärning med semantiska segmenteringsnätverk använts för att identifiera potentiellt rörliga objekt i visuellt SLAM; emellertid är semantisk information föremål för felklassificeringar och ger inte enskilt rörelseinformation. Avhandlingen presenterar en hybridmetod som använder semantisk information och tätt optiskt flöde för att bestämma rörliga föremål genom en rörlig sannolikhet. Det föreslagna tillvägagångssättet bygger på stereotröghet ORBSLAM 3 och lägger till möjligheten för dynamisk objektdetektering för att möjliggöra en mer robust prestanda i dynamiska scenarier. Systemet utvärderas i OpenLORIS dataset, som tar hänsyn till stereo-inertial information i utmanande scener. Dynamiska objekts inverkan på systemets prestanda studeras med hjälp av medelvärdet av translationsfelet (ATE), relativa positioneringsfelet (RPE) och korrekthetsfördelning (Correctness Rate). En jämförelse görs mellan den ursprungliga ORBSLAM 3, ORBSLAM 3 med endast semantisk information, samt hybridmetoden. Jämförelsen hjälper till att identifiera fördelarna och begränsningarna med den föreslagna metoden. Resultaten tyder på en förbättring av ATE för hybridmetoden i jämförelse med den ursprungliga ORBSLAM 3 i dynamiska scener. Semantic SLAM Stereo Vision VisualInertial SLAM Motion likelihood Stereo disparity Dense optical flow Dynamic objects. Semantisk SLAM Stereo Vision Visual-Inertial SLAM Sannolikhet för rörelse Stereoskillnader Tätt optiskt flöde Dynamiska objekt. Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.0578 seconds