Return to search

[en] A CLUSTER-BASED METHOD FOR ACTION SEGMENTATION USING SPATIO-TEMPORAL AND POSITIONAL ENCODED EMBEDDINGS / [pt] MÉTODO BASEADO EM AGRUPAMENTO PARA A SEGMENTAÇÃO DE AÇÕES UTILIZANDO EMBEDDINGS ESPAÇO-TEMPORAIS E COM CODIFICAÇÃO POSICIONAL

[pt] Vídeos se tornaram a principal mídia para a comunicação, com um
volume massivo de dados criado a cada segundo. Conseguir entender essa
quantidade de dados de forma automática se tornou importante e, por
conseguinte, métodos de video understanding são cada vez mais necessários.
Uma tarefa crucial para o entendimento de vídeos é a classificação e
localização no tempo de diferentes ações. Para isso, a segmentação de ações
precisa ser realizada. Segmentação de ações é a tarefa que consiste em
segmentar temporalmente um vídeo, classificando cada quadro com alguma
ação. Neste trabalho, é proposto um método de segmentação de ações que
não requer análise prévia do vídeo e nenhum dado anotado. O método
envolve a extração de embeddings espaço-temporais dos vídeos com redes
de aprendizado profundo pré-treinadas, seguida por uma transformação
realizada por um codificador posicional e pela aplicação de um algoritmo de
grupamento em que cada cluster gerado corresponde a uma ação diferente.
Os experimentos realizados demonstram que o método produz resultados
competitivos nos conjuntos de dados Breakfast e Inria Instructional Videos. / [en] The rise of video content as the main media for communication has
been creating massive volumes of video data every second. The ability
of understanding this huge quantities of data automatically has become
increasingly important, therefore better video understanding methods are
needed. A crucial task to overall video understanding is the recognition
and localisation in time of dierent actions. To address this problem,
action segmentation must be achieved. Action segmentation consists of
temporally segmenting a video by labeling each frame with a specific
action. In this work, we propose a novel action segmentation method that
requires no prior video analysis and no annotated data. Our method involves
extracting spatio-temporal features from videos using a pre-trained deep
network. Data is then transformed using a positional encoder, and finally a
clustering algorithm is applied where each cluster presumably corresponds
to a dierent single and distinguishable action. In experiments, we show
that our method produces competitive results on the Breakfast and Inria
Instructional Videos dataset benchmarks.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:62315
Date20 April 2023
CreatorsGUILHERME DE AZEVEDO P MARQUES
ContributorsSERGIO COLCHER
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.0023 seconds