Return to search

Human action recognition in image sequences based on a two-stream convolutional neural network classifier

Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2017. / Submitted by Priscilla Sousa (priscillasousa@bce.unb.br) on 2017-10-31T12:50:55Z
No. of bitstreams: 1
2017_ViníciusdeOliveiraSilva.pdf: 12072182 bytes, checksum: 8abe6dbc46ba985620334c2ebac9ea8a (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2017-11-07T14:09:45Z (GMT) No. of bitstreams: 1
2017_ViníciusdeOliveiraSilva.pdf: 12072182 bytes, checksum: 8abe6dbc46ba985620334c2ebac9ea8a (MD5) / Made available in DSpace on 2017-11-07T14:09:45Z (GMT). No. of bitstreams: 1
2017_ViníciusdeOliveiraSilva.pdf: 12072182 bytes, checksum: 8abe6dbc46ba985620334c2ebac9ea8a (MD5)
Previous issue date: 2017-11-07 / A evolução tecnológica nas últimas décadas contribuiu para a melhoria de computadores com excelente capacidade de processamento, armazenamento e câmeras com maior qualidade digital. Os dispositivos de geração de vídeo têm sido mais fáceis de manipular, mais portáteis e com preços mais baixos. Isso permitiu a geração, armazenamento e transmissão de grandes quantidades de vídeos, o que demanda uam forma de análise automática de informações, independente de assistência humana para avaliação e busca exaustiva de vídeos. Existem várias aplicações que podem se beneficiar de técnicas de inteligência computacional, tais como realidade virtual, robótica, telemedicina, interface homemmáquina, tele-vigilância e assistência aos idosos em acompanhamento constante. Este trabalho descreve um método para o Reconhecimento de Ações Humanas em sequências de imagens usando duas Redes (canais) Neurais Convolutivas (RNCs). O Canal Espacial é treinado usando quadros de uma sequência de imagens com técnicas de transferência de aprendizagem a partir da rede VGG16 (pré-treinada para classificação de objetos). O outro canal, Canal Temporal, recebe pilhas de Fluxo Óptico Denso (FOD) como entrada e é treinado com pesos inicais aleatórios. A técnica foi testada em dois conjuntos de dados públicos de ações humanas: Weizmann e UCF Sports. Na abordagem do Canal Espacial, conseguimos 84,44% de precisão no conjunto de dados Weizmann e 78,46% no conjunto de dados UCF Sports. Com os canais temporal e espacial combinados, obtivemos uma taxa de precisão de 91,11% para o conjunto de dados Weizmann. Mostramos que quadros estáticos pertencentes a uma certa sequência de imagens curiosamente possibilitam classificar a ação realizada em tal seqüência. Acreditamos que, uma vez que a rede VGG16 foi pré-treinada para um conjunto de dados de 1000 classes de objetos diferentes e algumas ações estão associadas a certos tipos de objetos, isso contribuiu significativamente para a aprendizagem da rede espacial. Isso indica que a técnica de transferência de aprendizado foi usada de forma eficiente para reconhecer ações humanas, usando uma rede previamente treinada para reconhecer objetos. / The technological evolution in the last decades has contributed to the improvement of computers with excellent processing and storage capacity and cameras with higher digital quality. Nowadays, video generation devices are simpler to manipulate, more portable and with lower prices. This allowed easy generation, storage and transmission of large amounts of videos, which demands a form of automatic analysis, independent of human assistance for evaluation and exhaustive search of videos. There are several applications that can benefit from such techniques such as virtual reality, robotics, tele-medicine, humanmachine interface, tele-surveillance and assistance to the elderly in timely caregiving. This work describes a method for human action recognition in a sequence of images using two convolutional neural networks (CNNs). The Spatial network stream is trained 1using frames from a sequence of images with transfer learning techniques from the VGG16 network (pre-trained for classification of objects). The other stream channel, Temporal stream, receives stacks of Dense Optical Flow (DOF) as input and it is trained from scratch. The technique was tested in two public action video datasets: Weizmann and UCF Sports. In the Spatial stream approach we achieve 84.44% of accuracy on Weizmann dataset and 78.46% on UCF Sports dataset. With the Temporal and Spatial streams combined, we obtained an accuracy rate of 91.11% for the Weizmann dataset. We showed that still frames belonging to a certain sequence of images curiously make it possible to classify the action performed in such a sequence. We believe that, since the VGG16 network was pre-trained for a dataset of 1000 classes of different objects and some actions are associated with certain types of objects, this contributed significantly to the learning of the spatial network. This indicates that the transfer learning technique was used efficiently to recognize human actions, using a previously trained network to recognize objects.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/25201
Date07 August 2017
CreatorsSilva, Vinícius de Oliveira
ContributorsRomariz, Alexandre Ricardo Soares
Source SetsIBICT Brazilian ETDs
LanguageInglês
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
RightsA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data., info:eu-repo/semantics/openAccess

Page generated in 0.0706 seconds