En el presente trabajo de título, que se presenta para obtener el título de Ingeniero Civil
Electricista, se diseña y construye un sistema de capaz de interpretar una serie de gestos realizados
con las manos. Este sistema hace uso de una cámara web con la que se obtienen imágenes de
manera periódica, que son procesadas y analizadas individualmente para poder luego interpretar el
gesto ejecutado mediante métodos estadísticos.
El problema se ha separado en dos etapas distintas: la localización inicial de la(s) mano(s)
en una imagen cualquiera y la posterior interpretación del gesto que se realiza. Para este fin se
hace uso de varios subsistemas dentro del campo de la visión computacional, como lo son
clasificadores estadísticos basados en ‘Adaboost’, seguimiento de objetos mediante ‘Meanshift’ y
detección de piel con métodos adaptivos.
El sistema diseñado funciona de la manera siguiente: en una serie de imágenes obtenidas a
través de una cámara se ejecuta un detector de caras, continuándose este proceso hasta que se
logre encontrar alguna. Una vez detectada una cara se le aplica un algoritmo de seguimiento de
objetos para conocer su ubicación dentro de la imagen a lo largo del tiempo, usándose además la
información del color presente en esta cara para construir un modelo que identifique la piel. Este
modelo de piel se aplica sobre todas las imágenes siguientes para detectar zonas que posean este
color, y que por lo tanto tienen alta probabilidad de corresponder a alguna parte del cuerpo
humano. Estas zonas de interés son analizadas en mayor profundidad, aplicando sobre ellas un
detector de manos, entrenado en el marco de este trabajo de título y que hace uso de un
procedimiento similar al del detector de cara. Al igual que en el caso de las caras, este detector se
aplica sobre todas las imágenes de entrada hasta que se obtenga una detección positiva. Una vez
detectada una mano se usa el mismo sistema de seguimiento empleado para las caras, y se aplica
sobre esta zona otra serie de detectores. Estos nuevos detectores cumplen la función de
identificar cual es el gesto que el usuario está realizando en ese momento, basados en un
diccionario gestual previamente definido y que consta de cuatro tipos diferentes para este trabajo.
Los resultados de estos detectores son finalmente analizados por un clasificador que finalmente
toma la decisión de cual gesto está realizando el usuario. Este proceso se continúa efectuando
iterativamente mientras se tenga un vídeo de entrada al sistema.
Los resultados obtenidos en la etapa de detección de los gestos son para todos los casos
superior al 60%, obteniéndose para un caso detecciones correctas mayores al 95%. El sistema
final logra un 69% de éxito en la clasificación de los gestos conocidos por él, debiéndose la mayor
cantidad de errores a confusiones entre gestos parecidos entre si. La totalidad del algoritmo puede
llegar a funcionar a una velocidad promedio de 6,6 [cuadros/seg.], lo que se considera un número
aceptable para su uso sin molestias para el usuario del mismo.
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/104833 |
Date | January 2007 |
Creators | Francke Henríquez, Hardy Einar |
Contributors | Ruiz del Solar, Javier, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Eléctrica, Agusto Alegría, Héctor, Verschae Tannenbaum, Rodrigo |
Publisher | Universidad de Chile |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ |
Page generated in 0.0022 seconds