Return to search

Modelamiento semántico del entorno de un robot utilizando información RGB-D

Ingeniero Civil Eléctrico / En el ámbito de visión computacional, uno de los paradigmas más desafiantes es el de segmentación semántica. La dificultad de esta área de estudio radica en tener que identificar todo lo que se encuentra en la imagen de una escena, cosa que resulta particularmente complicada en entornos pequeños debido a la gran cantidad de oclusiones, cambios de iluminación e información ruidosa que rodean a éstos.
En este trabajo de memoria se diseñó e implementó un sistema de visión capaz de detectar y etiquetar todos los objetos en una imagen tomada dentro de un entorno pequeño y cerrado. La idea es que este sistema no sólo utilice la información del posible objeto para etiquetarlo, sino que también sea capaz de usar la información de los objetos que lo rodean para optimizar dicho etiquetado y tomar una decisión final. Esto se conoce como aprendizaje estructurado y existen varias representaciones que son capaces de lidiar con el problema. Para este caso particular se utilizaron Modelos Gráficos Probabilísticos debido a su capacidad de abstraer problemas de visión como si fueran grafos. Este enfoque entregó la libertad de poder definir las relaciones entre componentes del grafo de la manera más conveniente, permitiendo darle mayor o menor importancia a las relaciones semánticas en función de parámetros arbitrarios.
La principal contribución de este trabajo es la introducción de un Modelo Gráfico Probabilístico que puede ser fácilmente modificado para utilizar en problemas de segmentación semántica en general, cuyas implementaciones son difíciles de encontrar para un sistema de clasificación de entornos o son implementaciones muy específicas y poco modulares como para reutilizar en otro sistema.
Se realizaron diversas pruebas de desempeño para evaluar y analizar la efectividad del modelo en términos de resultados de detección, tiempo de procesamiento e influencia de parámetros sobre el etiquetado de objetos. Para ello se utilizó la base de datos NYUD de la Universidad de Nueva York que contiene imágenes RGB-D tomadas con un sensor Microsoft Kinect que fue creada con la intención de entrenar robots.
Los resultados son prometedores, entregando para todos los casos un aumento de detección con respecto al caso base, permitiendo confirmar la utilidad del modelo de inferencia utilizado. En base a esto se concluye que los modelos semánticos o contextuales son capaces de mejorar considerablemente la capacidad de detección de un sistema de visión, sin embargo el tiempo de procesamiento aún requiere trabajo para tener aplicaciones en tiempo real que es lo que se desea usualmente en el área de robótica.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/141358
Date January 2016
CreatorsSilva Pérez, Cristóbal Ignacio
ContributorsGuerrero Pérez, Pablo, Agusto Alegría, Héctor, Correa Pérez, Mauricio
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAttribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0024 seconds