Return to search

A LiDAR and Camera Based Convolutional Neural Network for the Real-Time Identification of Walking Terrain

La combinaison de données multi-capteurs joue un rôle croissant dans les systèmes de percep- tion artificielle. Les données de profondeur et les capteurs LiDAR en particulier sont devenus la norme pour les systèmes de vision dans les applications de robotique et de conduite auto- nome. La fusion de capteurs peut améliorer la précision des tâches et a été largement étudiée dans des environnements à ressources élevées, mais elle est moins bien comprise dans les ap- plications où les systèmes peuvent être limités en termes de puissance de calcul et de stockage d’énérgie. Dans l’analyse de la démarche chez l’homme, la compréhension du contexte local de la marche joue un rôle important, et l’analyse en laboratoire à elle même peut limiter la capacité des chercheurs à évaluer correctement la marche réelle des patients. La capacité de classifier automatiquement les terrains de marche dans divers environnements pourrait donc constituer un élément important des systèmes d’analyse de l’activité de marche. Le ter- rain de marche peut être mieux identifié à partir de données visuelles. Plusieurs contraintes (notamment les problèmes de confidentialité liés à l’envoi de données visuelles en temps réel hors appareil) limitent cette tâche de classification au dispositif Edge Computing lui- même, un environnement aux ressources limitées. Ainsi, dans ce travail, nous présentons une architecture de réseau neuronal convolutif parallèle, à fusion tardive et optimisée par calcul de bord pour l’identification des terrains de marche. L’analyse est effectuée sur un nouvel ensemble de données intitulé L-AVATeD: l’ensemble de données Lidar et visibles de terrain de marche, composé d’environ 8000 paires de données de scène visuelles (RVB) et de profondeur (LiDAR). Alors que les modèles formés sur des données visuelles uniquement produisent un modèle de calcul de bord capable d’une précision de 82%, une architecture composée d’instances parallèles de MobileNetV2 utilisant à la fois RVB et LiDAR améliore de manière mesurable la précision de la classification (92%) / Terrain classification is a critical sub-task of many autonomous robotic control processes and important to the study of human gait in ecological contexts. Real-time terrain iden- tification is traditionally performed using computer vision systems with input from visual (camera) data. With the increasing availability of affordable multi-sensor arrays, multi- modal data inputs are becoming ubiquitous in mobile, edge and Internet of Things (IoT) devices. Combinations of multi-sensor data therefore play an increasingly important role in artificial perception systems.
Depth data in general and LiDAR sensors in particular are becoming standard for vision systems in applications in robotics and autonomous driving. Sensor fusion using depth data can enhance perception task accuracy and has been widely studied in high resource environments (e.g. autonomous automobiles), but is less well understood in applications where resources may be limited in compute, memory and battery power.
An understanding of local walking context also plays an important role in the analysis of gait in humans, and laboratory analysis of on its own can constrain the ability of researchers to properly assess real-world gait in patients. The ability to automatically classify walking terrain in diverse environments is therefore an important part of gait analysis systems for use outside the laboratory. Several important constraints (notably privacy concerns associated with sending real-time image data off-device) restrict this classification task to the edge- computing device, itself a resource-constrained environment.
In this study, we therefore present an edge-computation optimized, late-fusion, parallel Convolutional Neural Network (CNN) architecture for the real-time identification of walking terrain. Our analysis is performed on a novel dataset entitled L-AVATeD: the Lidar And Visible wAlking Terrain Dataset, consisting of approximately 8,000 pairs of visual (RGB) and depth (LiDAR) scene data. While simple models trained on visual only data produce an edge-computation model capable of 82% accuracy, an architecture composed of parallel instances of MobileNetV2 using both RGB and LiDAR data, measurably improved classifi- cation accuracy (92%).

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/33901
Date07 1900
CreatorsWhipps, David
ContributorsDixon, Philippe, Rish, Irina
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0021 seconds