• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Leveraging foundation models towards semantic world representations for robotics

Kuwajerwala, Alihusein 06 1900 (has links)
Un défi central en robotique est la construction de représentations du monde exploitables. Pour accomplir des tâches complexes, les robots doivent construire une représentation 3D de leur environnement qui représente les informations géométriques, visuelles et sémantiques de la scène, et qui est efficace à utiliser. Les approches existantes encodent les informations sémantiques en utilisant un ensemble (fini) d’étiquettes de classes sémantiques, tels que “personne” et “chaise”. Cependant, pour des instructions ambiguës données à un robot, telles que “apporte-moi une collation saine”, cette approche est insuffisante. En conséquence, des travaux récents ont exploité de grands réseaux de neurones pré-entraînés appelés “modèles de fondation”, dont les représentations latentes apprises offrent plus de flexibilité que les étiquettes de classe, mais ces approches peuvent être inefficaces. Dans ce travail, nous construisons des représentations de scènes 3D qui tirent parti des modèles de fondation pour encoder la sémantique, permettant des requêtes à vocabulaire ouvert et multimodales, tout en restant évolutives et efficaces. Nous présentons initialement ConceptFusion, qui construit des cartes 3D à vocabulaire ouvert en assignant à chaque point 3D un vecteur de caractéristiques qui encode la sémantique, permettant des requêtes nuancées et multimodales, mais à un coût de mémoire élevé. Nous présentons ensuite ConceptGraphs, qui s’appuie sur l’approche précédente avec une structure de graphe de scène qui assigne des vecteurs de caractéristiques sémantiques aux objets au lieu des points, augmentant ainsi l’efficacité, tout en permettant la planification sur le graphe de scène construit. Les deux systèmes ne nécessitent pas d’entraînement supplémentaire ni de réglage fin des modèles, mais permettent aux robots d’effectuer des tâches de recherche et de navigation inédites, comme le montrent nos expériences dans le monde réel. / A central challenge in robotics is building actionable world representations. To perform complex tasks, robots need to build a 3D representation of their environment that represents the geometric, visual, and semantic information of the scene, and is efficient to use. Existing approaches encode semantic information using a (finite) set of semantic class labels, such as “person” and “chair”. However, for ambiguous instructions to a robot, such as “get me a healthy snack”, this approach is insufficient. As a result, recent works have leveraged large pre-trained neural networks called “foundation models”, whose learned latent representations offer more flexibility than class labels, but these approaches can be inefficient. For example, they may require prohibitive amounts of video memory, or an inability to edit the map. In this work, we construct 3D scene representations that leverage foundation models to encode semantics, allowing for open-vocabulary and multimodal queries, while still being scalable and efficient. We initially present ConceptFusion, which builds open-vocabulary 3D maps by assigning each 3D point a feature vector that encodes semantics, enabling nuanced and multimodal queries, but at high memory cost. We then present ConceptGraphs, which builds upon the previous approach with a scene graph structure that assigns semantic feature vectors to objects instead of points, increasing efficiency, while also enabling planning over the constructed scene graph. Both systems do not require any additional training or fine-tuning of models, yet enable novel search and navigation tasks to be performed by robots, as shown by our real world experiments.

Page generated in 0.0934 seconds