• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 18
  • 7
  • 6
  • 4
  • 4
  • 1
  • 1
  • Tagged with
  • 46
  • 17
  • 16
  • 11
  • 9
  • 8
  • 7
  • 7
  • 7
  • 7
  • 7
  • 6
  • 6
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Human pose estimation and action recognition by multi-robot systems / Estimation de pose humaine et reconnaissance d’action par un système multi-robots

Dogan, Emre 07 July 2017 (has links)
L'estimation de la pose humaine et la reconnaissance des activités humaines sont des étapes importantes dans de nombreuses applications comme la robotique, la surveillance et la sécurité, etc. Actuellement abordées dans le domaine, ces tâches ne sont toujours pas résolues dans des environnements non-coopératifs particulièrement. Ces tâches admettent de divers défis comme l'occlusion, les variations des vêtements, etc. Les méthodes qui exploitent des images de profondeur ont l’avantage concernant les défis liés à l'arrière-plan et à l'apparence, pourtant, l’application est limitée pour des raisons matérielles. Dans un premier temps, nous nous sommes concentrés sur la reconnaissance des actions complexes depuis des vidéos. Pour ceci, nous avons introduit une représentation spatio-temporelle indépendante du point de vue. Plus précisément, nous avons capturé le mouvement de la personne en utilisant un capteur de profondeur et l'avons encodé en 3D pour le représenter. Un descripteur 3D a ensuite été utilisé pour la classification des séquences avec la méthodologie bag-of-words. Pour la deuxième partie, notre objectif était l'estimation de pose articulée, qui est souvent une étape intermédiaire pour la reconnaissance de l'activité. Notre motivation était d'incorporer des informations à partir de capteurs multiples et de les fusionner pour surmonter le problème de l'auto-occlusion. Ainsi, nous avons proposé un modèle de flexible mixtures-of-parts multi-vues inspiré par la méthodologie classique de structure pictural. Nous avons démontré que les contraintes géométriques et les paramètres de cohérence d'apparence sont efficaces pour renforcer la cohérence entre les points de vue, aussi que les paramètres classiques. Finalement, nous avons évalué ces nouvelles méthodes sur des datasets publics, qui vérifie que l'utilisation de représentations indépendantes de la vue et l'intégration d'informations à partir de points de vue multiples améliore la performance pour les tâches ciblées dans le cadre de cette manuscrit. / Estimating human pose and recognizing human activities are important steps in many applications, such as human computer interfaces (HCI), health care, smart conferencing, robotics, security surveillance etc. Despite the ongoing effort in the domain, these tasks remained unsolved in unconstrained and non cooperative environments in particular. Pose estimation and activity recognition face many challenges under these conditions such as occlusion or self occlusion, variations in clothing, background clutter, deformable nature of human body and diversity of human behaviors during activities. Using depth imagery has been a popular solution to address appearance and background related challenges, but it has restricted application area due to its hardware limitations and fails to handle remaining problems. Specifically, we considered action recognition scenarios where the position of the recording device is not fixed, and consequently require a method which is not affected by the viewpoint. As a second prob- lem, we tackled the human pose estimation task in particular settings where multiple visual sensors are available and allowed to collaborate. In this thesis, we addressed these two related problems separately. In the first part, we focused on indoor action recognition from videos and we consider complex ac- tivities. To this end, we explored several methodologies and eventually introduced a 3D spatio-temporal representation for a video sequence that is viewpoint independent. More specifically, we captured the movement of the person over time using depth sensor and we encoded it in 3D to represent the performed action with a single structure. A 3D feature descriptor was employed afterwards to build a codebook and classify the actions with the bag-of-words approach. As for the second part, we concentrated on articulated pose estimation, which is often an intermediate step for activity recognition. Our motivation was to incorporate information from multiple sources and views and fuse them early in the pipeline to overcome the problem of self-occlusion, and eventually obtain robust estimations. To achieve this, we proposed a multi-view flexible mixture of parts model inspired by the classical pictorial structures methodology. In addition to the single-view appearance of the human body and its kinematic priors, we demonstrated that geometrical constraints and appearance- consistency parameters are effective for boosting the coherence between the viewpoints in a multi-view setting. Both methods that we proposed was evaluated on public benchmarks and showed that the use of view-independent representations and integrating information from multiple viewpoints improves the performance of action recognition and pose estimation tasks, respectively.
32

Energy-efficient memory hierarchy for motion and disparity estimation in multiview video coding

Sampaio, Felipe Martin January 2013 (has links)
Esta dissertação de mestrado propõe uma hierarquia de memória para a Estimação de Movimento e de Disparidade (ME/DE) centrada nas referências da codificação, estratégia chamada de Reference-Centered Data Reuse (RCDR), com foco em redução de energia em codificadores de vídeo multivistas (MVC - Multiview Video Coding). Nos codificadores MVC, a ME/DE é responsável por praticamente 98% do consumo total de energia. Além disso, até 90% desta energia está relacionada com a memória do codificador: (a) acessos à memória externa para a busca das referências da ME/DE (45%) e (b) memória interna (cache) para manter armazenadas as amostras da área de busca e enviá-las para serem processadas pela ME/DE (45%). O principal objetivo deste trabalho é minimizar de maneira conjunta a energia consumida pelo módulo de ME/DE com relação às memórias externa e interna necessárias para a codificação MVC. A hierarquia de memória é composta por uma memória interna (a qual armazena a área de busca inteira), um controle dinâmico para a estratégia de power-gating da memória interna e um compressor de resultados parciais. Um controle de buscas foi proposto para explorar o comportamento da busca com o objetivo de atingir ainda mais reduções de energia. Além disso, este trabalho também agrega à hierarquia de memória um compressor de quadros de referência de baixa complexidade. A estratégia RCDR provê reduções de até 68% no consumo de energia quando comparada com estratégias estadoda- arte que são centradas no bloco atual da codificação. O compressor de resultados parciais é capaz de reduzir em 52% a comunicação com memória externa necessária para o armazenamento desses elementos. Quando comparada a técnicas de reuso de dados que não acessam toda área de busca, a estratégia RCDR também atinge os melhores resultados em consumo de energia, visto que acessos regulares a memórias externas DDR são energeticamente mais eficientes. O compressor de quadros de referência reduz ainda mais o número de acessos a memória externa (2,6 vezes menos acessos), aliando isso a perdas insignificantes na eficiência da codificação MVC. A memória interna requerida pela estratégia RCDR é até 74% menor do que estratégias centradas no bloco atual, como Level C. Além disso, o controle dinâmico para a técnica de power-gating provê reduções de até 82% na energia estática, o que é o melhor resultado entre os trabalho relacionados. A energia dinâmica é tratada pela técnica de união dos blocos candidatos, atingindo ganhos de mais de 65%. Considerando as reduções de consumo de energia atingidas pelas técnicas propostas neste trabalho, conclui-se que o sistema de hierarquia de memória proposto nesta dissertação atinge seu objetivo de atender às restrições impostas pela codificação MVC, no que se refere ao processamento do módulo de ME/DE. / This Master Thesis proposes a memory hierarchy for the Motion and Disparity Estimation (ME/DE) centered on the encoding references, called Reference-Centered Data Reuse (RCDR), focusing on energy reduction in the Multiview Video Coding (MVC). In the MVC encoders the ME/DE represents more than 98% of the overall energy consumption. Moreover, in the overall ME/DE energy, up to 90% is related to the memory issues, and only 10% is related to effective computation. The two items to be concerned with: (1) off-chip memory communication to fetch the reference samples (45%) and (2) on-chip memory to keep stored the search window samples and to send them to the ME/DE processing core (45%). The main goal of this work is to jointly minimize the on-chip and off-chip energy consumption in order to reduce the overall energy related to the ME/DE on MVC. The memory hierarchy is composed of an onchip video memory (which stores the entire search window), an on-chip memory gating control, and a partial results compressor. A search control unit is also proposed to exploit the search behavior to achieve further energy reduction. This work also aggregates to the memory hierarchy a low-complexity reference frame compressor. The experimental results proved that the proposed system accomplished the goal of the work of jointly minimizing the on-chip and off-chip energies. The RCDR provides off-chip energy savings of up to 68% when compared to state-of-the-art. the traditional MBcentered approach. The partial results compressor is able to reduce by 52% the off-chip memory communication to handle this RCDR penalty. When compared to techniques that do not access the entire search window, the proposed RCDR also achieve the best results in off-chip energy consumption due to the regular access pattern that allows lots of DDR burst reads (30% less off-chip energy consumption). Besides, the reference frame compressor is capable to improve by 2.6x the off-chip memory communication savings, along with negligible losses on MVC encoding performance. The on-chip video memory size required for the RCDR is up to 74% smaller than the MB-centered Level C approaches. On top of that, the power-gating control is capable to save 82% of leakage energy. The dynamic energy is treated due to the candidate merging technique, with savings of more than 65%. Due to the jointly off-chip communication and on-chip storage energy savings, the proposed memory hierarchy system is able to meet the MVC constraints for the ME/DE processing.
33

Variable-aperture Photography

Hasinoff, Samuel William 19 January 2009 (has links)
While modern digital cameras incorporate sophisticated engineering, in terms of their core functionality, cameras have changed remarkably little in more than a hundred years. In particular, from a given viewpoint, conventional photography essentially remains limited to manipulating a basic set of controls: exposure time, focus setting, and aperture setting. In this dissertation we present three new methods in this domain, each based on capturing multiple photos with different camera settings. In each case, we show how defocus can be exploited to achieve different goals, extending what is possible with conventional photography. These methods are closely connected, in that all rely on analyzing changes in aperture. First, we present a 3D reconstruction method especially suited for scenes with high geometric complexity, for which obtaining a detailed model is difficult using previous approaches. We show that by controlling both the focus and aperture setting, it is possible compute depth for each pixel independently. To achieve this, we introduce the "confocal constancy" property, which states that as aperture setting varies, the pixel intensity of an in-focus scene point will vary in a scene-independent way that can be predicted by prior calibration. Second, we describe a method for synthesizing photos with adjusted camera settings in post-capture, to achieve changes in exposure, focus setting, etc. from very few input photos. To do this, we capture photos with varying aperture and other settings fixed, then recover the underlying scene representation best reproducing the input. The key to the approach is our layered formulation, which handles occlusion effects but is tractable to invert. This method works with the built-in "aperture bracketing" mode found on most digital cameras. Finally, we develop a "light-efficient" method for capturing an in-focus photograph in the shortest time, or with the highest quality for a given time budget. While the standard approach involves reducing the aperture until the desired region is in-focus, we show that by "spanning" the region with multiple large-aperture photos,we can reduce the total capture time and generate the in-focus photo synthetically. Beyond more efficient capture, our method provides 3D shape at no additional cost.
34

Variable-aperture Photography

Hasinoff, Samuel William 19 January 2009 (has links)
While modern digital cameras incorporate sophisticated engineering, in terms of their core functionality, cameras have changed remarkably little in more than a hundred years. In particular, from a given viewpoint, conventional photography essentially remains limited to manipulating a basic set of controls: exposure time, focus setting, and aperture setting. In this dissertation we present three new methods in this domain, each based on capturing multiple photos with different camera settings. In each case, we show how defocus can be exploited to achieve different goals, extending what is possible with conventional photography. These methods are closely connected, in that all rely on analyzing changes in aperture. First, we present a 3D reconstruction method especially suited for scenes with high geometric complexity, for which obtaining a detailed model is difficult using previous approaches. We show that by controlling both the focus and aperture setting, it is possible compute depth for each pixel independently. To achieve this, we introduce the "confocal constancy" property, which states that as aperture setting varies, the pixel intensity of an in-focus scene point will vary in a scene-independent way that can be predicted by prior calibration. Second, we describe a method for synthesizing photos with adjusted camera settings in post-capture, to achieve changes in exposure, focus setting, etc. from very few input photos. To do this, we capture photos with varying aperture and other settings fixed, then recover the underlying scene representation best reproducing the input. The key to the approach is our layered formulation, which handles occlusion effects but is tractable to invert. This method works with the built-in "aperture bracketing" mode found on most digital cameras. Finally, we develop a "light-efficient" method for capturing an in-focus photograph in the shortest time, or with the highest quality for a given time budget. While the standard approach involves reducing the aperture until the desired region is in-focus, we show that by "spanning" the region with multiple large-aperture photos,we can reduce the total capture time and generate the in-focus photo synthetically. Beyond more efficient capture, our method provides 3D shape at no additional cost.
35

Algoritmos para o módulo de controle de taxa de codificação de vídeos multivistas do padrão H.264/MVC / Algorithms for encoding rate control module for multiview videos of h.264/mvc standard

Vizzotto, Bruno Boessio January 2012 (has links)
Esta dissertação de mestrado apresenta um novo esquema de controle de taxa hierárquico – HRC – para o padrão MVC – extensão para vídeos de múltiplas vistas do padrão H.264 – com objetivo de melhorar o aproveitamento da largura de banda oferecida por um canal entregando o vídeo comprimido com a melhor qualidade possível. Este esquema de controle de taxa hierárquico foi concebido para controlar de forma conjunta os níveis de quadro e de unidades básicas (BU). O esquema proposto explora a correlação existente entre as distribuições das taxas de bits em quadros vizinhos para predizer de forma eficiente o comportamento dos futuras bitrates através da aplicação de um controle preditivo baseado em modelos – MPC – que define uma ação de controle apropriada sobre as ações de adaptação do parâmetro de quantização (QP). Para prover um ajuste em granularidade fina, o QP é adicionalmente adaptado internamente para cada quadro por um processo de decisão de Markov (MDP) implementado em nível de BU capaz de considerar mapas com Regiões de Interesse (RoI). Um retorno acoplado aos dois níveis supracitados é realizado para garantir a consistência do sistema. Aprendizagem por Reforço é utilizada para atualizar os parâmetros do Controle Preditivo baseado em Modelos e do processo de decisão de Markov. Resultados experimentais mostram a superioridade da utilização do esquema de controle proposto, comparado às soluções estado-da-arte, tanto em termos de precisão na alocação de bits quanto na otimização da razão taxa-distorção, entregando um vídeo de maior qualidade visual nos níveis de quadros e de BUs. / This master thesis presents a novel Hierarchical Rate Control – HRC – for the Multiview Video Coding standard targeting an increased bandwidth usage and high video quality. The HRC is designed to jointly address the rate control at both framelevel and Basic Unit (BU)-level. This scheme is able to exploit the bitrate distribution correlation with neighboring frames to efficiently predict the future bitrate behavior by employing a Model Predictive Control that defines a proper control action through QP (Quantization Parameter) adaptation. To provide a fine-grained tuning, the QP is further adapted within each frame by a Markov Decision Process implemented at BU-level able to take into consideration a map of the Regions of Interest. A coupled frame/BU-level feedback is performed in order to guarantee the system consistency. A Reinforcement Learning method is responsible for updating the Model Predictive Control and the Markov Decision Process parameters. Experimental results show the superiority of the Hierarchical Rate Control compared to state-of-the-art solutions, in terms of bitrate allocation accuracy and rate-distortion, while delivering smooth video quality at both frame and Basic Unit levels.
36

Energy-efficient memory hierarchy for motion and disparity estimation in multiview video coding

Sampaio, Felipe Martin January 2013 (has links)
Esta dissertação de mestrado propõe uma hierarquia de memória para a Estimação de Movimento e de Disparidade (ME/DE) centrada nas referências da codificação, estratégia chamada de Reference-Centered Data Reuse (RCDR), com foco em redução de energia em codificadores de vídeo multivistas (MVC - Multiview Video Coding). Nos codificadores MVC, a ME/DE é responsável por praticamente 98% do consumo total de energia. Além disso, até 90% desta energia está relacionada com a memória do codificador: (a) acessos à memória externa para a busca das referências da ME/DE (45%) e (b) memória interna (cache) para manter armazenadas as amostras da área de busca e enviá-las para serem processadas pela ME/DE (45%). O principal objetivo deste trabalho é minimizar de maneira conjunta a energia consumida pelo módulo de ME/DE com relação às memórias externa e interna necessárias para a codificação MVC. A hierarquia de memória é composta por uma memória interna (a qual armazena a área de busca inteira), um controle dinâmico para a estratégia de power-gating da memória interna e um compressor de resultados parciais. Um controle de buscas foi proposto para explorar o comportamento da busca com o objetivo de atingir ainda mais reduções de energia. Além disso, este trabalho também agrega à hierarquia de memória um compressor de quadros de referência de baixa complexidade. A estratégia RCDR provê reduções de até 68% no consumo de energia quando comparada com estratégias estadoda- arte que são centradas no bloco atual da codificação. O compressor de resultados parciais é capaz de reduzir em 52% a comunicação com memória externa necessária para o armazenamento desses elementos. Quando comparada a técnicas de reuso de dados que não acessam toda área de busca, a estratégia RCDR também atinge os melhores resultados em consumo de energia, visto que acessos regulares a memórias externas DDR são energeticamente mais eficientes. O compressor de quadros de referência reduz ainda mais o número de acessos a memória externa (2,6 vezes menos acessos), aliando isso a perdas insignificantes na eficiência da codificação MVC. A memória interna requerida pela estratégia RCDR é até 74% menor do que estratégias centradas no bloco atual, como Level C. Além disso, o controle dinâmico para a técnica de power-gating provê reduções de até 82% na energia estática, o que é o melhor resultado entre os trabalho relacionados. A energia dinâmica é tratada pela técnica de união dos blocos candidatos, atingindo ganhos de mais de 65%. Considerando as reduções de consumo de energia atingidas pelas técnicas propostas neste trabalho, conclui-se que o sistema de hierarquia de memória proposto nesta dissertação atinge seu objetivo de atender às restrições impostas pela codificação MVC, no que se refere ao processamento do módulo de ME/DE. / This Master Thesis proposes a memory hierarchy for the Motion and Disparity Estimation (ME/DE) centered on the encoding references, called Reference-Centered Data Reuse (RCDR), focusing on energy reduction in the Multiview Video Coding (MVC). In the MVC encoders the ME/DE represents more than 98% of the overall energy consumption. Moreover, in the overall ME/DE energy, up to 90% is related to the memory issues, and only 10% is related to effective computation. The two items to be concerned with: (1) off-chip memory communication to fetch the reference samples (45%) and (2) on-chip memory to keep stored the search window samples and to send them to the ME/DE processing core (45%). The main goal of this work is to jointly minimize the on-chip and off-chip energy consumption in order to reduce the overall energy related to the ME/DE on MVC. The memory hierarchy is composed of an onchip video memory (which stores the entire search window), an on-chip memory gating control, and a partial results compressor. A search control unit is also proposed to exploit the search behavior to achieve further energy reduction. This work also aggregates to the memory hierarchy a low-complexity reference frame compressor. The experimental results proved that the proposed system accomplished the goal of the work of jointly minimizing the on-chip and off-chip energies. The RCDR provides off-chip energy savings of up to 68% when compared to state-of-the-art. the traditional MBcentered approach. The partial results compressor is able to reduce by 52% the off-chip memory communication to handle this RCDR penalty. When compared to techniques that do not access the entire search window, the proposed RCDR also achieve the best results in off-chip energy consumption due to the regular access pattern that allows lots of DDR burst reads (30% less off-chip energy consumption). Besides, the reference frame compressor is capable to improve by 2.6x the off-chip memory communication savings, along with negligible losses on MVC encoding performance. The on-chip video memory size required for the RCDR is up to 74% smaller than the MB-centered Level C approaches. On top of that, the power-gating control is capable to save 82% of leakage energy. The dynamic energy is treated due to the candidate merging technique, with savings of more than 65%. Due to the jointly off-chip communication and on-chip storage energy savings, the proposed memory hierarchy system is able to meet the MVC constraints for the ME/DE processing.
37

Energy-efficient memory hierarchy for motion and disparity estimation in multiview video coding

Sampaio, Felipe Martin January 2013 (has links)
Esta dissertação de mestrado propõe uma hierarquia de memória para a Estimação de Movimento e de Disparidade (ME/DE) centrada nas referências da codificação, estratégia chamada de Reference-Centered Data Reuse (RCDR), com foco em redução de energia em codificadores de vídeo multivistas (MVC - Multiview Video Coding). Nos codificadores MVC, a ME/DE é responsável por praticamente 98% do consumo total de energia. Além disso, até 90% desta energia está relacionada com a memória do codificador: (a) acessos à memória externa para a busca das referências da ME/DE (45%) e (b) memória interna (cache) para manter armazenadas as amostras da área de busca e enviá-las para serem processadas pela ME/DE (45%). O principal objetivo deste trabalho é minimizar de maneira conjunta a energia consumida pelo módulo de ME/DE com relação às memórias externa e interna necessárias para a codificação MVC. A hierarquia de memória é composta por uma memória interna (a qual armazena a área de busca inteira), um controle dinâmico para a estratégia de power-gating da memória interna e um compressor de resultados parciais. Um controle de buscas foi proposto para explorar o comportamento da busca com o objetivo de atingir ainda mais reduções de energia. Além disso, este trabalho também agrega à hierarquia de memória um compressor de quadros de referência de baixa complexidade. A estratégia RCDR provê reduções de até 68% no consumo de energia quando comparada com estratégias estadoda- arte que são centradas no bloco atual da codificação. O compressor de resultados parciais é capaz de reduzir em 52% a comunicação com memória externa necessária para o armazenamento desses elementos. Quando comparada a técnicas de reuso de dados que não acessam toda área de busca, a estratégia RCDR também atinge os melhores resultados em consumo de energia, visto que acessos regulares a memórias externas DDR são energeticamente mais eficientes. O compressor de quadros de referência reduz ainda mais o número de acessos a memória externa (2,6 vezes menos acessos), aliando isso a perdas insignificantes na eficiência da codificação MVC. A memória interna requerida pela estratégia RCDR é até 74% menor do que estratégias centradas no bloco atual, como Level C. Além disso, o controle dinâmico para a técnica de power-gating provê reduções de até 82% na energia estática, o que é o melhor resultado entre os trabalho relacionados. A energia dinâmica é tratada pela técnica de união dos blocos candidatos, atingindo ganhos de mais de 65%. Considerando as reduções de consumo de energia atingidas pelas técnicas propostas neste trabalho, conclui-se que o sistema de hierarquia de memória proposto nesta dissertação atinge seu objetivo de atender às restrições impostas pela codificação MVC, no que se refere ao processamento do módulo de ME/DE. / This Master Thesis proposes a memory hierarchy for the Motion and Disparity Estimation (ME/DE) centered on the encoding references, called Reference-Centered Data Reuse (RCDR), focusing on energy reduction in the Multiview Video Coding (MVC). In the MVC encoders the ME/DE represents more than 98% of the overall energy consumption. Moreover, in the overall ME/DE energy, up to 90% is related to the memory issues, and only 10% is related to effective computation. The two items to be concerned with: (1) off-chip memory communication to fetch the reference samples (45%) and (2) on-chip memory to keep stored the search window samples and to send them to the ME/DE processing core (45%). The main goal of this work is to jointly minimize the on-chip and off-chip energy consumption in order to reduce the overall energy related to the ME/DE on MVC. The memory hierarchy is composed of an onchip video memory (which stores the entire search window), an on-chip memory gating control, and a partial results compressor. A search control unit is also proposed to exploit the search behavior to achieve further energy reduction. This work also aggregates to the memory hierarchy a low-complexity reference frame compressor. The experimental results proved that the proposed system accomplished the goal of the work of jointly minimizing the on-chip and off-chip energies. The RCDR provides off-chip energy savings of up to 68% when compared to state-of-the-art. the traditional MBcentered approach. The partial results compressor is able to reduce by 52% the off-chip memory communication to handle this RCDR penalty. When compared to techniques that do not access the entire search window, the proposed RCDR also achieve the best results in off-chip energy consumption due to the regular access pattern that allows lots of DDR burst reads (30% less off-chip energy consumption). Besides, the reference frame compressor is capable to improve by 2.6x the off-chip memory communication savings, along with negligible losses on MVC encoding performance. The on-chip video memory size required for the RCDR is up to 74% smaller than the MB-centered Level C approaches. On top of that, the power-gating control is capable to save 82% of leakage energy. The dynamic energy is treated due to the candidate merging technique, with savings of more than 65%. Due to the jointly off-chip communication and on-chip storage energy savings, the proposed memory hierarchy system is able to meet the MVC constraints for the ME/DE processing.
38

Algoritmos para o módulo de controle de taxa de codificação de vídeos multivistas do padrão H.264/MVC / Algorithms for encoding rate control module for multiview videos of h.264/mvc standard

Vizzotto, Bruno Boessio January 2012 (has links)
Esta dissertação de mestrado apresenta um novo esquema de controle de taxa hierárquico – HRC – para o padrão MVC – extensão para vídeos de múltiplas vistas do padrão H.264 – com objetivo de melhorar o aproveitamento da largura de banda oferecida por um canal entregando o vídeo comprimido com a melhor qualidade possível. Este esquema de controle de taxa hierárquico foi concebido para controlar de forma conjunta os níveis de quadro e de unidades básicas (BU). O esquema proposto explora a correlação existente entre as distribuições das taxas de bits em quadros vizinhos para predizer de forma eficiente o comportamento dos futuras bitrates através da aplicação de um controle preditivo baseado em modelos – MPC – que define uma ação de controle apropriada sobre as ações de adaptação do parâmetro de quantização (QP). Para prover um ajuste em granularidade fina, o QP é adicionalmente adaptado internamente para cada quadro por um processo de decisão de Markov (MDP) implementado em nível de BU capaz de considerar mapas com Regiões de Interesse (RoI). Um retorno acoplado aos dois níveis supracitados é realizado para garantir a consistência do sistema. Aprendizagem por Reforço é utilizada para atualizar os parâmetros do Controle Preditivo baseado em Modelos e do processo de decisão de Markov. Resultados experimentais mostram a superioridade da utilização do esquema de controle proposto, comparado às soluções estado-da-arte, tanto em termos de precisão na alocação de bits quanto na otimização da razão taxa-distorção, entregando um vídeo de maior qualidade visual nos níveis de quadros e de BUs. / This master thesis presents a novel Hierarchical Rate Control – HRC – for the Multiview Video Coding standard targeting an increased bandwidth usage and high video quality. The HRC is designed to jointly address the rate control at both framelevel and Basic Unit (BU)-level. This scheme is able to exploit the bitrate distribution correlation with neighboring frames to efficiently predict the future bitrate behavior by employing a Model Predictive Control that defines a proper control action through QP (Quantization Parameter) adaptation. To provide a fine-grained tuning, the QP is further adapted within each frame by a Markov Decision Process implemented at BU-level able to take into consideration a map of the Regions of Interest. A coupled frame/BU-level feedback is performed in order to guarantee the system consistency. A Reinforcement Learning method is responsible for updating the Model Predictive Control and the Markov Decision Process parameters. Experimental results show the superiority of the Hierarchical Rate Control compared to state-of-the-art solutions, in terms of bitrate allocation accuracy and rate-distortion, while delivering smooth video quality at both frame and Basic Unit levels.
39

Algoritmos para o módulo de controle de taxa de codificação de vídeos multivistas do padrão H.264/MVC / Algorithms for encoding rate control module for multiview videos of h.264/mvc standard

Vizzotto, Bruno Boessio January 2012 (has links)
Esta dissertação de mestrado apresenta um novo esquema de controle de taxa hierárquico – HRC – para o padrão MVC – extensão para vídeos de múltiplas vistas do padrão H.264 – com objetivo de melhorar o aproveitamento da largura de banda oferecida por um canal entregando o vídeo comprimido com a melhor qualidade possível. Este esquema de controle de taxa hierárquico foi concebido para controlar de forma conjunta os níveis de quadro e de unidades básicas (BU). O esquema proposto explora a correlação existente entre as distribuições das taxas de bits em quadros vizinhos para predizer de forma eficiente o comportamento dos futuras bitrates através da aplicação de um controle preditivo baseado em modelos – MPC – que define uma ação de controle apropriada sobre as ações de adaptação do parâmetro de quantização (QP). Para prover um ajuste em granularidade fina, o QP é adicionalmente adaptado internamente para cada quadro por um processo de decisão de Markov (MDP) implementado em nível de BU capaz de considerar mapas com Regiões de Interesse (RoI). Um retorno acoplado aos dois níveis supracitados é realizado para garantir a consistência do sistema. Aprendizagem por Reforço é utilizada para atualizar os parâmetros do Controle Preditivo baseado em Modelos e do processo de decisão de Markov. Resultados experimentais mostram a superioridade da utilização do esquema de controle proposto, comparado às soluções estado-da-arte, tanto em termos de precisão na alocação de bits quanto na otimização da razão taxa-distorção, entregando um vídeo de maior qualidade visual nos níveis de quadros e de BUs. / This master thesis presents a novel Hierarchical Rate Control – HRC – for the Multiview Video Coding standard targeting an increased bandwidth usage and high video quality. The HRC is designed to jointly address the rate control at both framelevel and Basic Unit (BU)-level. This scheme is able to exploit the bitrate distribution correlation with neighboring frames to efficiently predict the future bitrate behavior by employing a Model Predictive Control that defines a proper control action through QP (Quantization Parameter) adaptation. To provide a fine-grained tuning, the QP is further adapted within each frame by a Markov Decision Process implemented at BU-level able to take into consideration a map of the Regions of Interest. A coupled frame/BU-level feedback is performed in order to guarantee the system consistency. A Reinforcement Learning method is responsible for updating the Model Predictive Control and the Markov Decision Process parameters. Experimental results show the superiority of the Hierarchical Rate Control compared to state-of-the-art solutions, in terms of bitrate allocation accuracy and rate-distortion, while delivering smooth video quality at both frame and Basic Unit levels.
40

A Multiview Extension Of The ICP Algorithm

Pooja, A 01 1900 (has links) (PDF)
The Iterative Closest Point (ICP) algorithm has been an extremely popular method for 3D points or surface registration. Given two point sets, it simultaneously solves for correspondences and estimates the motion between these two point sets. However, by only registering two such views at a time, ICP fails to exploit the redundant information available in multiple views that have overlapping regions. In this thesis, a multiview extension of the ICP algorithm is provided that simultaneously averages the redundant information available in the views with overlapping regions. Variants of this method that carry out such simultaneous registration in a causal manner and that utilize the transitivity property of point correspondences are also provided. The improved accuracy in registration of these motion averaged approaches in comparison with the conventional ICP method is established through extensive experiments. In addition, the motion averaged approaches are compared with the existing multiview techniques of Bergevin et. al. and Benjemaa et. al. The results of the methods applied to the Happy Buddha and the Stanford Bunny datasets of 3D Stanford repository and to the Pooh and the Bunny datasets of the Ohio (MSU/WSU) Range Image database are also presented.

Page generated in 0.0317 seconds