Según los últimos censos, nuestro planeta tiene cerca de 7.000 millones de habitantes principalmente concentrados en zonas urbanas. Consecuencia de esto las multitudes de personas se congregan en estos sitios, complicando la tarea de supervisión y vigilancia para mantener la seguridad pública en calles, plazas, avenidas y demás. Esto motiva el estudio y mejora de métodos de análisis automático del comportamiento humano. A esta área de investigación se le denomina Análisis del Comportamiento Humano, o Reconocimiento de Actividades Humanas. Gran parte de los trabajos dedicados a este problema se basan en técnicas de visión por computador junto con algoritmos de Machine Learning y, más recientemente, en Deep Learning. En este proyecto de tesis, se ha hecho inicialmente una revisión del estado del arte respecto al tema del análisis y reconocimiento de actividades y comportamientos humanos. En este estudio se han analizado los principales trabajos de machine learning tradicional y deep learning para el tema de la tesis, así como los principales datasets. Se ha visto que no existe un estándar o arquitectura que proponga solución genérica. Por otro lado, la mayoría de trabajos se centran en un determinado rango de individuos, habiendo propuestas para personas individuales, para pequeños grupos, grandes grupos o multitudes. Además, no existe un consenso en la nomenclatura respecto a los grados de complejidad, niveles de comportamiento o, como aquí se denomina, nivel de semántica de las acciones que se realizan. Tras este estudio, se ha propuesto una taxonomía bidimensional que permite clasificar las propuestas en el espacio "número de personas/nivel de semántica", siendo más descriptivo respecto al actual estado del arte y permitiendo ver donde se concentran mayormente los trabajos y cuales los retos aun no resueltos. Tras el estudio del estado del arte, en este trabajo se ha propuesto una arquitectura de visión y aprendizaje para reconocer actividades de grupos usando descriptores de movimiento. Se compone de dos bloques principales, el descriptor de movimiento y el clasificador de actividad. Las arquitecturas de red profunda que se estudian actualmente tienen la bondad de, dados unos datos en crudo (imágenes, secuencias, etc.) tratarlos internamente de forma que devuelvan un resultado, sin necesidad de pre-procesarlos primero. Sin embargo, esto los hace dependientes de los datos de entrenamiento y necesitan grandes datasets para que el entrenamiento sea suficiente. El hecho de introducir un descriptor hace que el espacio de búsqueda se reduzca, y por lo tanto se pueda entrenar con menor número de datos, y además, se pueda independizar la escena (número de individuos, localización de la actividad en el espacio, etc.) del comportamiento en sí. Para el descriptor de la arquitectura se propone en esta tesis como una variante del descriptor Activity Descriptor Vector (ADV), que se denomina D-ADV, y que obtiene dos imágenes del movimiento local acumulado, una UDF (de los movimientos arriba, Up, abajo, Down, y Frecuencia) y otra LRF (de los movimientos Left, izquierda, Right, derecha y Frecuencia). Por otro lado, como instancias de la arquitectura haciendo uso del D-ADV, se proponen el D-ADV-MultiClass para clasificación de múltiples clases. Esta propuesta se basa en utilizar los dos streams UDF y LRF, junto con una red profunda y transfer learning, para reconocer la actividad del grupo. Además, se ha propuesto otra instancia, llamada D-ADV-OneClass, que añade a los dos streams anteriores, otro con información de contexto. Esta última instancia da solución a problemas en los que solo se conoce una clase durante el entrenamiento, y por lo tanto se utilizan técnicas de one-class classification. En la experimentación se ha validado la arquitectura con las dos instancias D-ADV-MultiClass y D-ADV-OneClass utilizando los datasets públicos ampliamente conocidos, como son BEHAVE, INRIA y CAVIAR para multi-class, y para one-class los datasets Ped 1, Ped 2 y Avenue. Los resultados experimentales muestran la capacidad de la arquitectura para clasificar las actividades de los grupos presentados en los datasets. Además, se demuestra que la arquitectura es capaz de tener buenos resultados utilizando datasets con poca cantidad de datos. En este caso, no a partir de la imagen sino de la representación del movimiento. Por último se plantean como trabajos futuros experimentar con otros datasets de mayor tamaño o con otro tipo de datos (peleas callejeras y en rings de boxeo para ver como afecta el contexto en estas situaciones). A medio o largo plazo se realizarán mejoras aumentando y comprobando otras instancias de la arquitectura utilizando múltiples streams de entrada que puedan permitir detectar otros comportamientos.
Identifer | oai:union.ndltd.org:ua.es/oai:rua.ua.es:10045/111289 |
Date | 25 June 2020 |
Creators | Borja, Luis Felipe |
Contributors | Azorin-Lopez, Jorge, Saval-Calvo, Marcelo, Universidad de Alicante. Instituto Universitario de Investigación Informática |
Publisher | Universidad de Alicante |
Source Sets | Universidad de Alicante |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/doctoralThesis |
Rights | Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, info:eu-repo/semantics/openAccess |
Page generated in 0.0017 seconds