Global ETD Search

1	Semantic Movie Scene Segmentation Using Bag-of-Words Representation luo, sai 07 December 2017 (has links) No description available. Civil Engineering
2	Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda / A vídeo scene segmentation method based on deep learnig Trojahn, Tiago Henrique 27 June 2019 (has links) A segmentação automática de vídeo em cenas é um problema atual e relevante dado sua aplicação em diversos serviços ligado à área de multimídia. Dentre as diferentes técnicas reportadas pela literatura, as multimodais são consideradas mais promissoras, dado a capacidade de extrair informações de diferentes mídias de maneira potencialmente complementar, possibilitando obter segmentações mais significativas. Ao usar informações de diferentes naturezas, tais técnicas enfrentam dificuldades para modelar e obter uma representação combinada das informações ou com elevado custo ao processar cada fonte de informação individualmente. Encontrar uma combinação adequada de informação que aumente a eficácia da segmentação a um custo computacional relativamente baixo torna-se um desafio. Paralelamente, abordagens baseadas em Aprendizagem Profunda mostraram-se eficazes em uma ampla gama de tarefas, incluindo classificação de imagens e vídeo. Técnicas baseadas em Aprendizagem Profunda, como as Redes Neurais Convolucionais (CNNs), têm alcançado resultados impressionantes em tarefas relacionadas por conseguirem extrair padrões significativos dos dados, incluindo multimodais. Contudo, CNNs não podem aprender adequadamente os relacionamentos entre dados que estão temporalmente distribuídos entre as tomadas de uma mesma cena. Isto pode tornar a rede incapaz de segmentar corretamente cenas cujas características mudam entre tomadas. Por outro lado, Redes Neurais Recorrentes (RNNs) têm sido empregadas com sucesso em processamento textual, pois foram projetadas para analisar sequências de dados de tamanho variável e podem melhor explorar as relações temporais entre as características de tomadas relacionadas, potencialmente aumentando a eficácia da segmentação em cenas. Há uma carência de métodos de segmentação multimodais que explorem Aprendizagem Profunda. Assim, este trabalho de doutorado propõe um método automático de segmentação de vídeo em cenas que modela o problema de segmentação como um problema de classificação. O método conta com um modelo que combina o potencial de extração de padrões das CNNs com o processamento de sequencias das RNNs. O modelo proposto elimina a dificuldade de modelar representações multimodais das diferentes informações de entrada além de permitir instanciar diferentes abordagens para fusão multimodal (antecipada ou tardia). Tal método foi avaliado na tarefa de segmentação em cenas utilizando uma base de vídeos pública, comparando os resultados obtidos com os resultados de técnicas em estado-da-arte usando diferentes abordagens. Os resultados mostram um avanço significativo na eficácia obtida. / Automatic video scene segmentation is a current and relevant problem given its application in various services related to multimedia. Among the different techniques reported in the literature, the multimodal ones are considered more promising, given the ability to extract information from different media in a potentially complementary way, allowing for more significant segmentations. By processing information of different natures, such techniques faces difficulties on modeling and obtaining a combined representation of information and cost problems when processing each source of information individually. Finding a suitable combination of information that increases the effectiveness of segmentation at a relatively low computational cost becomes a challenge. At the same time, approaches based on Deep Learning have proven effective on a wide range of tasks, including classification of images and video. Techniques based on Deep Learning, such as Convolutional Neural Networks (CNNs), have achieved impressive results in related tasks by being able to extract significant patterns from data, including multimodal data. However, CNNs can not properly learn the relationships between data temporarily distributed among the shots of the same scene. This can lead the network to become unable to properly segment scenes whose characteristics change among shots. On the other hand, Recurrent Neural Networks (RNNs) have been successfully employed in textual processing since they are designed to analyze variable-length data sequences and can be developed to better explore the temporal relationships between low-level characteristics of related shots, potentially increasing the effectiveness of scene segmentation. There is a lack of multimodal segmentation methods exploring Deep Learning. Thus, this thesis proposes an automatic method for video scene segmentation that models the problem of segmentation as a classification problem. The method relies on a model developed to combine the potential for extracting patterns from CNNs with the potential for sequence processing of the RNNs. The proposed model, different from related works, eliminates the difficulty of modeling multimodal representations of the different input information, besides allowing to instantiate different approaches for multimodal (early or late) fusion. This method was evaluated in the scene segmentation task using a public video database, comparing the results obtained with the results of state-of-the-art techniques using different approaches. The results show a significant advance in the efficiency obtained. Aprendizagem profunda Deep learning Fusão multimodal Multimodal fusion Multimodalidade Multimodality Scene segmentation Segmentação em cenas
3	Segmentação de cenas em telejornais: uma abordagem multimodal / Scene segmentation in news programs: a multimodal approach Coimbra, Danilo Barbosa 11 April 2011 (has links) Este trabalho tem como objetivo desenvolver um método de segmentação de cenas em vídeos digitais que trate segmentos semânticamente complexos. Como prova de conceito, é apresentada uma abordagem multimodal que utiliza uma definição mais geral para cenas em telejornais, abrangendo tanto cenas onde âncoras aparecem quanto cenas onde nenhum âncora aparece. Desse modo, os resultados obtidos da técnica multimodal foram signifiativamente melhores quando comparados com os resultados obtidos das técnicas monomodais aplicadas em separado. Os testes foram executados em quatro grupos de telejornais brasileiros obtidos de duas emissoras de TV diferentes, cada qual contendo cinco edições, totalizando vinte telejornais / This work aims to develop a method for scene segmentation in digital video which deals with semantically complex segments. As proof of concept, we present a multimodal approach that uses a more general definition for TV news scenes, covering both: scenes where anchors appear on and scenes where no anchor appears. The results of the multimodal technique were significantly better when compared with the results from monomodal techniques applied separately. The tests were performed in four groups of Brazilian news programs obtained from two different television stations, containing five editions each, totaling twenty newscasts Multimodal scene segmentation Multimodal video segmentation Segmentação de cena multimodal Segmentação de vídeo multimodal Segmentaçãop semântica Semantic segmentation
4	Representação de tomadas como suporte à segmentação em cenas / Shot representation as support to scene segmentation Barbieri, Tamires Tessarolli de Souza 04 December 2014 (has links) A área de Personalização de Conteúdo tem sido foco de pesquisas recentes em Ciências da Computação, sendo a segmentação automática de vídeos digitais em cenas uma linha importante no suporte à composição de serviços de personalização, tais como recomendação ou sumarização de conteúdo. Uma das principais abordagens de segmentação em cenas se baseia no agrupamento de tomadas relacionadas. Logo, para que esse processo seja bem sucedido, é necessário que as tomadas estejam bem representadas. Porém, percebe-se que esse tópico tem sido deixado em segundo plano pelas pesquisas relacionadas à segmentação. Assim, este trabalho tem o objetivo de desenvolver um método baseado nas características visuais dos quadros, que possibilite aprimorar a representação de tomadas de vídeos digitais e, consequentemente, contribuir para a melhoria do desempenho de técnicas de segmentação em cenas. / The Content Personalization area has been the focus of recent researches in Computer Science and the automatic scene segmentation of digital videos is an important field supporting the composition of personalization services, such as content recommendation or summarization. One of the main approaches for scene segmentation is based on the clustering of related shots. Thus, in order to this process to be successful, is necessary to properly represent shots. However, we can see that the works reported on the literature have left this topic in backgroud. Therefore, this work aims to develop a method based on frames visual features, which enables to improve video shots representation and, consequently, the performance of scene segmentation techniques. Digital video Multimedia Multimídia Representação de tomadas Scene segmentation Segmentação em cenas Shot representation Vídeo digital
5	Representação de tomadas como suporte à segmentação em cenas / Shot representation as support to scene segmentation Tamires Tessarolli de Souza Barbieri 04 December 2014 (has links) A área de Personalização de Conteúdo tem sido foco de pesquisas recentes em Ciências da Computação, sendo a segmentação automática de vídeos digitais em cenas uma linha importante no suporte à composição de serviços de personalização, tais como recomendação ou sumarização de conteúdo. Uma das principais abordagens de segmentação em cenas se baseia no agrupamento de tomadas relacionadas. Logo, para que esse processo seja bem sucedido, é necessário que as tomadas estejam bem representadas. Porém, percebe-se que esse tópico tem sido deixado em segundo plano pelas pesquisas relacionadas à segmentação. Assim, este trabalho tem o objetivo de desenvolver um método baseado nas características visuais dos quadros, que possibilite aprimorar a representação de tomadas de vídeos digitais e, consequentemente, contribuir para a melhoria do desempenho de técnicas de segmentação em cenas. / The Content Personalization area has been the focus of recent researches in Computer Science and the automatic scene segmentation of digital videos is an important field supporting the composition of personalization services, such as content recommendation or summarization. One of the main approaches for scene segmentation is based on the clustering of related shots. Thus, in order to this process to be successful, is necessary to properly represent shots. However, we can see that the works reported on the literature have left this topic in backgroud. Therefore, this work aims to develop a method based on frames visual features, which enables to improve video shots representation and, consequently, the performance of scene segmentation techniques. Multimídia Representação de tomadas Segmentação em cenas Vídeo digital Digital video Multimedia Scene segmentation Shot representation
6	Segmentação de cenas em telejornais: uma abordagem multimodal / Scene segmentation in news programs: a multimodal approach Danilo Barbosa Coimbra 11 April 2011 (has links) Este trabalho tem como objetivo desenvolver um método de segmentação de cenas em vídeos digitais que trate segmentos semânticamente complexos. Como prova de conceito, é apresentada uma abordagem multimodal que utiliza uma definição mais geral para cenas em telejornais, abrangendo tanto cenas onde âncoras aparecem quanto cenas onde nenhum âncora aparece. Desse modo, os resultados obtidos da técnica multimodal foram signifiativamente melhores quando comparados com os resultados obtidos das técnicas monomodais aplicadas em separado. Os testes foram executados em quatro grupos de telejornais brasileiros obtidos de duas emissoras de TV diferentes, cada qual contendo cinco edições, totalizando vinte telejornais / This work aims to develop a method for scene segmentation in digital video which deals with semantically complex segments. As proof of concept, we present a multimodal approach that uses a more general definition for TV news scenes, covering both: scenes where anchors appear on and scenes where no anchor appears. The results of the multimodal technique were significantly better when compared with the results from monomodal techniques applied separately. The tests were performed in four groups of Brazilian news programs obtained from two different television stations, containing five editions each, totaling twenty newscasts Segmentação de cena multimodal Segmentação de vídeo multimodal Segmentaçãop semântica Multimodal scene segmentation Multimodal video segmentation Semantic segmentation
7	Visual Perception of Objects and their Parts in Artificial Systems Schoeler, Markus 12 October 2015 (has links) No description available. 510 Object Recognition Object Segmentation Object Partitioning Function Recognition Pose Estimation Scene Segmentation Object Categorization Object Classification Informatik (PPN619939052)
8	AUDIO SCENE SEGEMENTATION USING A MICROPHONE ARRAY AND AUDITORY FEATURES Unnikrishnan, Harikrishnan 01 January 2010 (has links) Auditory stream denotes the abstract effect a source creates in the mind of the listener. An auditory scene consists of many streams, which the listener uses to analyze and understand the environment. Computer analyses that attempt to mimic human analysis of a scene must first perform Audio Scene Segmentation (ASS). ASS find applications in surveillance, automatic speech recognition and human computer interfaces. Microphone arrays can be employed for extracting streams corresponding to spatially separated sources. However, when a source moves to a new location during a period of silence, such a system loses track of the source. This results in multiple spatially localized streams for the same source. This thesis proposes to identify local streams associated with the same source using auditory features extracted from the beamformed signal. ASS using the spatial cues is first performed. Then auditory features are extracted and segments are linked together based on similarity of the feature vector. An experiment was carried out with two simultaneous speakers. A classifier is used to classify the localized streams as belonging to one speaker or the other. The best performance was achieved when pitch appended with Gammatone Frequency Cepstral Coefficeints (GFCC) was used as the feature vector. An accuracy of 96.2% was achieved. Audio Scene Segmentation Sound Source Tracking Computational Auditory Scene Analysis Microphone Arrays Speaker Recognition Electrical and Computer Engineering
9	Segmentação automática de vídeo em cenas baseada em coerência entre tomadas / Automatic scenes video segmentation based on shot coherence Trojahn, Tiago Henrique 24 February 2014 (has links) A popularização de aplicativos e dispositivos capazes de produzir, exibir e editar conteúdos multimídia fez surgir a necessidade de se adaptar, modificar e customizar diferentes tipos de mídia a diferentes necessidades do usuário. Nesse contexto, a área de Personalização e Adaptação de Conteúdo busca desenvolver soluções que atendam a tais necessidades. Sistemas de personalização, em geral, necessitam conhecer os dados presentes na mídia, surgindo, assim, a necessidade de uma indexação do conteúdo presente na mídia. No caso de vídeo digital, os esforços para a indexação automática utilizam como passo inicial a segmentação de vídeos em unidades de informação menores, como tomadas e cenas. A segmentação em cenas, em especial, é um desafio para pesquisadores graças a enorme variedade entre os vídeos e a própria ausência de um consenso na definição de cena. Diversas técnicas diferentes para a segmentação em cenas são reportadas na literatura. Uma técnica, em particular, destaca-se pelo baixo custo computacional: a técnica baseada em coerências visual. Utilizando-se operações de histogramas, a técnica objetiva-se a comparar tomadas adjacentes em busca de similaridades que poderiam indicar a presença de uma cena. Para melhorar os resultados obtidos, autores de trabalhos com tal enfoque utilizam-se de outras características, capazes de medir a \"quantidade de movimento\" das cenas, como os vetores de movimento. Assim, este trabalho apresenta uma técnica de segmentação de vídeo digital em tomadas e em cenas através da coerência visual e do fluxo óptico. Apresenta-se, ainda, uma série de avaliações de eficácia e de desempenho da técnica ao segmentar em tomadas e em cenas uma base de vídeo do domínio filmes / The popularization of applications and devices capable of producing, displaying and editing multimedia content did increase the need to adapt, modify and customize different types of media for different user needs. In this context, the area of Personalization and Content Adaptation seeks to develop solutions that meet these needs. Personalization systems, in general, need to know the data present in the media, thus needing for a media indexing process. In the case of digital video, the efforts for automatic indexing usually involves, as an initial step, to segment videos into smaller information units, such as shots and scenes. The scene segmentation, in particular, is a challenge to researchers due to the huge variety among the videos and the very absence of a consensus on the scene definition. Several scenes segmentation techniques are reported in the literature. One technique in particular stands out for its low computational cost: those techniques based on visual coherence. By using histograms, the technique compares adjacent shots to find similar shots which may indicate the presence of a scene. To improve the results, some related works uses other features to evaluate the motion dynamics of the scenes using features such as motion vectors. In this sense, this work presents a digital video segmentation technique for shots and scenes, using visual coherence and optical flow as its features. It also presents a series of evaluation in terms of effectiveness and performance of the technique when segmenting scenes and shots of a custom video database of the film domain Coerência visual Digital video segmentation Personalization and content adaptation Scene segmentation Segmentação de vídeo digital Segmentação em cenas Visual coherence
10	Segmentação automática de vídeo em cenas baseada em coerência entre tomadas / Automatic scenes video segmentation based on shot coherence Tiago Henrique Trojahn 24 February 2014 (has links) A popularização de aplicativos e dispositivos capazes de produzir, exibir e editar conteúdos multimídia fez surgir a necessidade de se adaptar, modificar e customizar diferentes tipos de mídia a diferentes necessidades do usuário. Nesse contexto, a área de Personalização e Adaptação de Conteúdo busca desenvolver soluções que atendam a tais necessidades. Sistemas de personalização, em geral, necessitam conhecer os dados presentes na mídia, surgindo, assim, a necessidade de uma indexação do conteúdo presente na mídia. No caso de vídeo digital, os esforços para a indexação automática utilizam como passo inicial a segmentação de vídeos em unidades de informação menores, como tomadas e cenas. A segmentação em cenas, em especial, é um desafio para pesquisadores graças a enorme variedade entre os vídeos e a própria ausência de um consenso na definição de cena. Diversas técnicas diferentes para a segmentação em cenas são reportadas na literatura. Uma técnica, em particular, destaca-se pelo baixo custo computacional: a técnica baseada em coerências visual. Utilizando-se operações de histogramas, a técnica objetiva-se a comparar tomadas adjacentes em busca de similaridades que poderiam indicar a presença de uma cena. Para melhorar os resultados obtidos, autores de trabalhos com tal enfoque utilizam-se de outras características, capazes de medir a \"quantidade de movimento\" das cenas, como os vetores de movimento. Assim, este trabalho apresenta uma técnica de segmentação de vídeo digital em tomadas e em cenas através da coerência visual e do fluxo óptico. Apresenta-se, ainda, uma série de avaliações de eficácia e de desempenho da técnica ao segmentar em tomadas e em cenas uma base de vídeo do domínio filmes / The popularization of applications and devices capable of producing, displaying and editing multimedia content did increase the need to adapt, modify and customize different types of media for different user needs. In this context, the area of Personalization and Content Adaptation seeks to develop solutions that meet these needs. Personalization systems, in general, need to know the data present in the media, thus needing for a media indexing process. In the case of digital video, the efforts for automatic indexing usually involves, as an initial step, to segment videos into smaller information units, such as shots and scenes. The scene segmentation, in particular, is a challenge to researchers due to the huge variety among the videos and the very absence of a consensus on the scene definition. Several scenes segmentation techniques are reported in the literature. One technique in particular stands out for its low computational cost: those techniques based on visual coherence. By using histograms, the technique compares adjacent shots to find similar shots which may indicate the presence of a scene. To improve the results, some related works uses other features to evaluate the motion dynamics of the scenes using features such as motion vectors. In this sense, this work presents a digital video segmentation technique for shots and scenes, using visual coherence and optical flow as its features. It also presents a series of evaluation in terms of effectiveness and performance of the technique when segmenting scenes and shots of a custom video database of the film domain Coerência visual Segmentação de vídeo digital Segmentação em cenas Digital video segmentation Personalization and content adaptation Scene segmentation Visual coherence

Search results