Global ETD Search

1	A graph-based approach for online multi-object tracking in structured videos with an application to action recognition / Uma abordagem baseada em grafos para rastreamento de múltiplos objetos em vídeos estruturados com um aplicação para o reconhecimento de ações Morimitsu, Henrique 20 October 2015 (has links) In this thesis we propose a novel approach for tracking multiple objects using structural information. The objects are tracked by combining particle filter and frame description with Attributed Relational Graphs (ARGs). We start by learning a structural probabilistic model graph from annotated images. The graphs are then used to evaluate the current tracking state and to correct it, if necessary. By doing so, the proposed method is able to deal with challenging situations such as abrupt motion and tracking loss due to occlusion. The main contribution of this thesis is the exploration of the learned probabilistic structural model. By using it, the structural information of the scene itself is used to guide the object detection process in case of tracking loss. This approach differs from previous works, that use structural information only to evaluate the scene, but do not consider it to generate new tracking hypotheses. The proposed approach is very flexible and it can be applied to any situation in which it is possible to find structural relation patterns between the objects. Object tracking may be used in many practical applications, such as surveillance, activity analysis or autonomous navigation. In this thesis, we explore it to track multiple objects in sports videos, where the rules of the game create some structural patterns between the objects. Besides detecting the objects, the tracking results are also used as an input for recognizing the action each player is performing. This step is performed by classifying a segment of the tracking sequence using Hidden Markov Models (HMMs). The proposed tracking method is tested on several videos of table tennis matches and on the ACASVA dataset, showing that the method is able to continue tracking the objects even after occlusion or when there is a camera cut. / Nesta tese, uma nova abordagem para o rastreamento de múltiplos objetos com o uso de informação estrutural é proposta. Os objetos são rastreados usando uma combinação de filtro de partículas com descrição das imagens por meio de Grafos Relacionais com Atributos (ARGs). O processo é iniciado a partir do aprendizado de um modelo de grafo estrutural probabilístico utilizando imagens anotadas. Os grafos são usados para avaliar o estado atual do rastreamento e corrigi-lo, se necessário. Desta forma, o método proposto é capaz de lidar com situações desafiadoras como movimento abrupto e perda de rastreamento devido à oclusão. A principal contribuição desta tese é a exploração do modelo estrutural aprendido. Por meio dele, a própria informação estrutural da cena é usada para guiar o processo de detecção em caso de perda do objeto. Tal abordagem difere de trabalhos anteriores, que utilizam informação estrutural apenas para avaliar o estado da cena, mas não a consideram para gerar novas hipóteses de rastreamento. A abordagem proposta é bastante flexível e pode ser aplicada em qualquer situação em que seja possível encontrar padrões de relações estruturais entre os objetos. O rastreamento de objetos pode ser utilizado para diversas aplicações práticas, tais como vigilância, análise de atividades ou navegação autônoma. Nesta tese, ele é explorado para rastrear diversos objetos em vídeos de esporte, na qual as regras do jogo criam alguns padrões estruturais entre os objetos. Além de detectar os objetos, os resultados de rastreamento também são usados como entrada para reconhecer a ação que cada jogador está realizando. Esta etapa é executada classificando um segmento da sequência de rastreamento por meio de Modelos Ocultos de Markov (HMMs). A abordagem de rastreamento proposta é testada em diversos vídeos de jogos de tênis de mesa e na base de dados ACASVA, demonstrando a capacidade do método de lidar com situações de oclusão ou cortes de câmera. Action recognition Filtro de partículas Grafo Graph Informação estrutural Object tracking Particle filter Rastreamento de objetos Reconhecimento de ações Structural information
2	A graph-based approach for online multi-object tracking in structured videos with an application to action recognition / Uma abordagem baseada em grafos para rastreamento de múltiplos objetos em vídeos estruturados com um aplicação para o reconhecimento de ações Henrique Morimitsu 20 October 2015 (has links) In this thesis we propose a novel approach for tracking multiple objects using structural information. The objects are tracked by combining particle filter and frame description with Attributed Relational Graphs (ARGs). We start by learning a structural probabilistic model graph from annotated images. The graphs are then used to evaluate the current tracking state and to correct it, if necessary. By doing so, the proposed method is able to deal with challenging situations such as abrupt motion and tracking loss due to occlusion. The main contribution of this thesis is the exploration of the learned probabilistic structural model. By using it, the structural information of the scene itself is used to guide the object detection process in case of tracking loss. This approach differs from previous works, that use structural information only to evaluate the scene, but do not consider it to generate new tracking hypotheses. The proposed approach is very flexible and it can be applied to any situation in which it is possible to find structural relation patterns between the objects. Object tracking may be used in many practical applications, such as surveillance, activity analysis or autonomous navigation. In this thesis, we explore it to track multiple objects in sports videos, where the rules of the game create some structural patterns between the objects. Besides detecting the objects, the tracking results are also used as an input for recognizing the action each player is performing. This step is performed by classifying a segment of the tracking sequence using Hidden Markov Models (HMMs). The proposed tracking method is tested on several videos of table tennis matches and on the ACASVA dataset, showing that the method is able to continue tracking the objects even after occlusion or when there is a camera cut. / Nesta tese, uma nova abordagem para o rastreamento de múltiplos objetos com o uso de informação estrutural é proposta. Os objetos são rastreados usando uma combinação de filtro de partículas com descrição das imagens por meio de Grafos Relacionais com Atributos (ARGs). O processo é iniciado a partir do aprendizado de um modelo de grafo estrutural probabilístico utilizando imagens anotadas. Os grafos são usados para avaliar o estado atual do rastreamento e corrigi-lo, se necessário. Desta forma, o método proposto é capaz de lidar com situações desafiadoras como movimento abrupto e perda de rastreamento devido à oclusão. A principal contribuição desta tese é a exploração do modelo estrutural aprendido. Por meio dele, a própria informação estrutural da cena é usada para guiar o processo de detecção em caso de perda do objeto. Tal abordagem difere de trabalhos anteriores, que utilizam informação estrutural apenas para avaliar o estado da cena, mas não a consideram para gerar novas hipóteses de rastreamento. A abordagem proposta é bastante flexível e pode ser aplicada em qualquer situação em que seja possível encontrar padrões de relações estruturais entre os objetos. O rastreamento de objetos pode ser utilizado para diversas aplicações práticas, tais como vigilância, análise de atividades ou navegação autônoma. Nesta tese, ele é explorado para rastrear diversos objetos em vídeos de esporte, na qual as regras do jogo criam alguns padrões estruturais entre os objetos. Além de detectar os objetos, os resultados de rastreamento também são usados como entrada para reconhecer a ação que cada jogador está realizando. Esta etapa é executada classificando um segmento da sequência de rastreamento por meio de Modelos Ocultos de Markov (HMMs). A abordagem de rastreamento proposta é testada em diversos vídeos de jogos de tênis de mesa e na base de dados ACASVA, demonstrando a capacidade do método de lidar com situações de oclusão ou cortes de câmera. Filtro de partículas Grafo Informação estrutural Rastreamento de objetos Reconhecimento de ações Action recognition Graph Object tracking Particle filter Structural information
3	Um descritor tensorial de movimento baseado em múltiplos estimadores de gradiente Sad, Dhiego Cristiano Oliveira da Silva 22 February 2013 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-05-30T19:45:09Z No. of bitstreams: 1 dhiegocristianooliveiradasilvasad.pdf: 1920111 bytes, checksum: c7bccda6c65e798776738b9581721c98 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-06-01T11:37:10Z (GMT) No. of bitstreams: 1 dhiegocristianooliveiradasilvasad.pdf: 1920111 bytes, checksum: c7bccda6c65e798776738b9581721c98 (MD5) / Made available in DSpace on 2017-06-01T11:37:10Z (GMT). No. of bitstreams: 1 dhiegocristianooliveiradasilvasad.pdf: 1920111 bytes, checksum: c7bccda6c65e798776738b9581721c98 (MD5) Previous issue date: 2013-02-22 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Este trabalho apresenta uma nova abordagem para a descrição de movimento em vídeos usando múltiplos ﬁltros passa-banda que agem como estimadores derivativos de primeira ordem. A resposta dos ﬁltros em cada quadro do vídeo é extraída e codiﬁcada em histogramas de gradientes para reduzir a sua dimensionalidade. Essa combinação é realizada através de tensores de orientação. O grande diferencial deste trabalho em relação à maioria das abordagens encontradas na literatura é que nenhuma característica local é extraída e nenhum método de aprendizagem é realizado previamente, isto é, o descritor depende unicamente do vídeo de entrada. Para o problema de reconhecimento da ação humana utilizando a base de dados KTH, nosso descritor alcançou a taxa de reconhecimento de 93,3% usando três ﬁltros da família Daubechies combinado com mais um ﬁltro extra que é a correlação entre esses três ﬁltros. O descritor resultante é então classiﬁcado através do SVM utilizando um protocolo two-fold. Essa classiﬁcação se mostra superior para a maioria das abordagens que usam descritores globais e pode ser comparável aos métodos do estado-da-arte. / This work presents a novel approach for motion description in videos using multiple band-pass ﬁlters that act as ﬁrst order derivative estimators. The ﬁlters response on each frame are coded into individual histograms of gradients to reduce their dimensionality. They are combined using orientation tensors. No local features are extracted and no learning is performed, i.e., the descriptor depends uniquely on the input video. Motion description can be enhanced even using multiple ﬁlters with similar or overlapping fre quency response. For the problem of human action recognition using the KTH database, our descriptor achieved the recognition rate of 93,3% using three Daubechies ﬁlters, one extra ﬁlter designed to correlate them, two-fold protocol and a SVM classiﬁer. It is su perior to most global descriptor approaches and fairly comparable to the state-of-the-art methods. Múltiplos ﬁltros Descritor de movimento Filtros correlacionados Tensor de orientação Reconhecimento de ações humanas Multifilter analysis Motion descriptor Correlation filter Orientation tensor Human action recognition
4	A video descriptor using orientation tensors and shape-based trajectory clustering Caetano, Felipe Andrade 29 August 2014 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-06-06T17:54:07Z No. of bitstreams: 1 felipeandradecaetano.pdf: 7461489 bytes, checksum: 93cea870d7bf162be4786d1d6ffb2ec9 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-06-07T11:06:08Z (GMT) No. of bitstreams: 1 felipeandradecaetano.pdf: 7461489 bytes, checksum: 93cea870d7bf162be4786d1d6ffb2ec9 (MD5) / Made available in DSpace on 2017-06-07T11:06:08Z (GMT). No. of bitstreams: 1 felipeandradecaetano.pdf: 7461489 bytes, checksum: 93cea870d7bf162be4786d1d6ffb2ec9 (MD5) Previous issue date: 2014-08-29 / Trajetórias densas têm se mostrado um método extremamente promissor na área de reconhecimento de ações humanas. Baseado nisso, propomos um novo tipo de descritor de vídeos, calculado a partir da relação do ﬂuxo ótico que compõe a trajetória com o gradiente de sua vizinhança e sua localidade espaço-temporal. Tensores de orientação são usados para acumular informação relevante ao longo do vídeo, representando tendências de direção do descritor para aquele tipo de movimento. Além disso, um método para aglomerar trajetórias usando o seu formato como métrica é proposto. Isso permite acu- mular características de movimentos distintos em tensores separados e diferenciar com maior facilidade trajetórias que são criadas por movimentos reais das que são geradas a partir do movimento de câmera. O método proposto foi capaz de atingir os melhores níveis de reconhecimento conhecidos para métodos com a restrição de métodos autodescritores em bases populares — Hollywood2 (Acima de 46%) e KTH (Acima de 94%). / Dense trajectories has been shown as a very promising method in the human action recognition area. Based on that, we propose a new kind of video descriptor, calculated from the relationship between the trajectory’s optical ﬂow with the gradient ﬁeld in its neighborhood and its spatio-temporal location. Orientation tensors are used to accumulate relevant information over the video, representing the tendency of direction for that kind of movement. Furthermore, a method to cluster trajectories using their shape is proposed. This allow us to accumulate diﬀerent motion patterns in diﬀerent tensors and easier distinguish trajectories that are created by real movements from the trajectories generated by the camera’s movement. The proposed method is capable to achieve the best known recognition rates for methods based on the self-descriptor constraint in popular datasets — Hollywood2 (up to 46%) and KTH (up to 94%). Trajetórias densas Autodescritor Tensor de orientação Dense trajectories Human action recognition in videos Self-descriptor Orientation tensor Clustering
5	A video self-descriptor based on sparse trajectory clustering Figueiredo, Ana Mara de Oliveira 10 September 2015 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-05-30T17:44:26Z No. of bitstreams: 1 anamaradeoliveirafigueiredo.pdf: 5190215 bytes, checksum: f9ec4e5f37ac1ca446fcef9ac91c1fb5 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-06-01T11:48:59Z (GMT) No. of bitstreams: 1 anamaradeoliveirafigueiredo.pdf: 5190215 bytes, checksum: f9ec4e5f37ac1ca446fcef9ac91c1fb5 (MD5) / Made available in DSpace on 2017-06-01T11:48:59Z (GMT). No. of bitstreams: 1 anamaradeoliveirafigueiredo.pdf: 5190215 bytes, checksum: f9ec4e5f37ac1ca446fcef9ac91c1fb5 (MD5) Previous issue date: 2015-09-10 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O reconhecimento de ações humanas é um problema desaﬁador em visão computacional que tem potenciais áreas de aplicações. Para descrever o principal movimento do vídeo um novo descritor de movimento é proposto neste trabalho. Este trabalho combina dois métodos para estimar o movimento entre as imagens: casamento de blocos e de gradiente de intensidade de brilho da imagem. Neste trabalho usa-se um algoritmo de casamento de blocos de tamanho variável para extrair vetores de deslocamento, os quais contém a informação de movimento. Estes vetores são computados em uma sequência de frames obtendo a trajetória do bloco, que possui a informação temporal. Os vetores obtidos através do casamento de blocos são usados para clusterizar as trajetórias esparsas de acordo com a forma. O método proposto computa essa informação para obter tensores de orientação e gerar o descritor ﬁnal. Este descritor é chamado de autodescritor porque depende apenas do vídeo de entrada. O tensor usado como descritor global é avaliado através da classiﬁcação dos vídeos das bases de dados KTH, UCF11 e Hollywood2 com o classiﬁcador não linear SVM. Os resultados indicam que este método de trajetórias esparsas é competitivo comparado ao já conhecido método de trajetórias densas, usando tensores de orientação, além de requerer menos esforço computacional. / Human action recognition is a challenging problem in Computer Vision which has many potential applications. In order to describe the main movement of the video a new motion descriptor is proposed in this work. We combine two methods for estimating the motion between frames: block matching and brightness gradient of image. In this work we use a variable size block matching algorithm to extract displacement vectors as a motion information. The cross product between the block matching vector and the gra dient is used to obtain the displacement vectors. These vectors are computed in a frame sequence, obtaining the block trajectory which contains the temporal information. The block matching vectors are also used to cluster the sparse trajectories according to their shape. The proposed method computes this information to obtain orientation tensors and to generate the ﬁnal descriptor. It is called self-descriptor because it depends only on the input video. The global tensor descriptor is evaluated by classiﬁcation of KTH, UCF11 and Hollywood2 video datasets with a non-linear SVM classiﬁer. Results indicate that our sparse trajectories method is competitive in comparison to the well known dense tra jectories approach, using orientation tensors, besides requiring less computational eﬀort. Casamento de blocos Reconhecimento de ações humanas Autodescritor Trajetórias esparsas e densas Clusterização de trajetórias Block Matching Human action recognition Self-descriptor Sparse and dense trajectories Trajectory clustering
6	Video motion description based on histograms of sparse trajectories Oliveira, Fábio Luiz Marinho de 05 September 2016 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-06-06T19:12:19Z No. of bitstreams: 1 fabioluizmarinhodeoliveira.pdf: 1410854 bytes, checksum: cb71ee666cda7d462ce0dd33963a988c (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-06-07T13:33:08Z (GMT) No. of bitstreams: 1 fabioluizmarinhodeoliveira.pdf: 1410854 bytes, checksum: cb71ee666cda7d462ce0dd33963a988c (MD5) / Made available in DSpace on 2017-06-07T13:33:08Z (GMT). No. of bitstreams: 1 fabioluizmarinhodeoliveira.pdf: 1410854 bytes, checksum: cb71ee666cda7d462ce0dd33963a988c (MD5) Previous issue date: 2016-09-05 / Descrição de movimento tem sido um tema desaﬁador e popular há muitos anos em visão computacional e processamento de sinais, mas também intimamente relacionado a aprendizado de máquina e reconhecimento de padrões. Frequentemente, para realizar essa tarefa, informação de movimento é extraída e codiﬁcada em um descritor. Este trabalho apresenta um método simples e de rápida computação para extrair essa informação e codiﬁcá-la em descritores baseados em histogramas de deslocamentos relativos. Nossos descritores são compactos, globais, que agregam informação de quadros inteiros, e o que chamamos de auto-descritor, que não depende de informações de sequências senão aquela que pretendemos descrever. Para validar estes descritores e compará-los com outros tra balhos, os utilizamos no contexto de Reconhecimento de Ações Humanas, no qual cenas são classiﬁcadas de acordo com as ações nelas exibidas. Nessa validação, obtemos resul tados comparáveis aos do estado-da-arte para a base de dados KTH. Também avaliamos nosso método utilizando as bases UCF11 e Hollywood2, com menores taxas de reconhe cimento, considerando suas maiores complexidades. Nossa abordagem é promissora, pelas razoáveis taxas de reconhecimento obtidas com um método muito menos complexo que os do estado-da-arte, em termos de velocidade de computação e compacidade dos descritores obtidos. Adicionalmente, experimentamos com o uso de Aprendizado de Métrica para a classiﬁcação de nossos descritores, com o intuito de melhorar a separabilidade e a com pacidade dos descritores. Os resultados com Aprendizado de Métrica apresentam taxas de reconhecimento inferiores, mas grande melhoria na compacidade dos descritores. / Motion description has been a challenging and popular theme over many years within computer vision and signal processing, but also very closely related to machine learn ing and pattern recognition. Very frequently, to address this task, one extracts motion information from image sequences and encodes this information into a descriptor. This work presents a simple and fast computing method to extract this information and en code it into descriptors based on histograms of relative displacements. Our descriptors are compact, global, meaning it aggregates information from whole frames, and what we call self-descriptors, meaning they do not depend on information from sequences other than the one we want to describe. To validate these descriptors and compare them to other works, we use them in the context of Human Action Recognition, where scenes are classiﬁed according to the action portrayed. In this validation, we achieve results that are comparable to those in the state-of-the-art for the KTH dataset. We also evaluate our method on the UCF11 and Hollywood2 datasets, with lower recognition rates, considering their higher complexity. Our approach is a promising one, due to the fairly good recogni tion rates we obtain with a much less complex method than those of the state-of-the-art, in terms of speed of computation and ﬁnal descriptor compactness. Additionally, we ex periment with the use of Metric Learning in the classiﬁcation of our descriptors, aiming to improve the separability and compactness of the descriptors. Our results for Metric Learning show inferior recognition rates, but great improvement for the compactness of the descriptors. Trajetórias esparsas Descrição de movimento Aprendizado de métrica Histograma Descritor tensorial Sparse trajectories Motion description Video human action recognition Metric learning Histogram Tensor descriptor

1

Page generated in 0.2483 seconds