81 |
Desenvolvimento arquitetural para estimação de movimento de blocos de tamanhos variáveis segundo padrão H.264/AVC de compressão de vídeo digital / Architectural design for variable block-size motion estimation of the H.264/AVC digital video compression standardPorto, Roger Endrigo Carvalho January 2008 (has links)
Apesar de as capacidades de transmissão e de armazenamento dos dispositivos continuarem crescendo, a compressão ainda é essencial em aplicações que trabalham com vídeo. Com a compressão reduz-se significativamente a quantidade de bits necessários para se representar uma seqüência de vídeo. Dentre os padrões de compressão de vídeo digital, o mais novo é o H.264/AVC. Este padrão alcança as mais elevadas taxas de compressão se comparado com os padrões anteriores mas, por outro lado, possui uma elevada complexidade computacional. A complexidade computacional elevada dificulta o desenvolvimento em software de aplicações voltadas a definições elevadas de imagem, considerando a tecnologia atual. Assim, tornam-se indispensáveis implementações em hardware. Neste escopo, este trabalho aborda o desenvolvimento de uma arquitetura para estimação de movimento de blocos de tamanhos variáveis segundo o padrão H.264/AVC de compressão de vídeo digital. Esta arquitetura utiliza o algoritmo full search e SAD como critério de similaridade. Além disso, a arquitetura é capaz de gerar os 41 diferentes vetores de movimento referentes a um macrobloco e definidos pelo padrão. A solução arquitetural proposta neste trabalho foi descrita em VHDL e mapeada para FPGAs da Xilinx. Também foi desenvolvida uma versão standard cell da arquitetura. Considerando-se as versões da arquitetura com síntese direcionada para FPGA, os resultados mostraram que a arquitetura pode ser utilizada em aplicações voltadas para alta definição como SDTV ou HDTV. Para a versão standard cells da arquitetura os resultados indicam que ela pode ser utilizada para aplicações SDTV. / The transmission and storage capabilities of the digital communications and processing continue to grow. However, compression is still necessary in video applications. With compression, the amount of bits necessary to represent a video sequence is dramatically reduced. Amongst the video compression standards, the latest one is the H.264/AVC. This standard reaches the highest compression rates when compared to the previous standards. On the other hand, it has a high computational complexity. This high computational complexity makes it difficult the development of applications targeting high definitions when a software implementation running in a current technology is considered. Thus, hardware implementations become essential. Addressing the hardware architectures, this work presents the architectural design for the variable block-size motion estimation defined in the H.264/AVC standard. This architecture is based on full search motion estimation algorithm and SAD calculation. This architecture is able to produce the 41 motion vectors within a macroblock that are specified in the standard. The architecture designed in this work was described in VHDL and it was mapped to Xilinx FPGAs. Extensive simulations of the hardware architecture and comparisons to the software implementation of the same variable-size algorithm were used to validate the architecture. It was also synthesized to standard cells. Considering the synthesis results, the architecture reaches real time for high resolution videos, as HDTV when mapped to FPGAs. The standard cells version of this architecture is able to reach real time for SDTV resolution, considering a physical synthesis to 0.18µm CMOS.
|
82 |
Vídeo digital : imagem, tecnologia e informaçãoSemeler, Alexandre Ribas January 2010 (has links)
Aborda conceitos a respeito de tecnologias da imagem. Delimita o estudo do vídeo enquanto imagem, tecnologia e informação. Justifica-se como um estudo a respeito das tecnologias da imagem, no contexto da Comunicação e Informação. Tem por objetivo geral identificar o vídeo digital enquanto imagem, tecnologia e informação. Os principais autores da fundamentação teórica são: Abraham Moles, Arlindo Machado, Fhilippe Dubois, Lev Manovich, Lucia Santaella, Yves-François Le Coadic, Silvia Martin e Vilém Flusser, os quais abordam temas sobre informação estética, filosofia da imagem técnica, máquinas de imagens (fotografia, cinema, televisão, vídeo e computador), territórios da Comunicação que permeiam as Ciências da Informação e as suas relações com a linguagem do vídeo. Apresenta na metodologia a análise de um método videográfico através da exploração de softwares de edição digital de vídeo para web e desktop. Utiliza-se da pesquisa bibliográfica para garantir os preceitos teóricos do vídeo. Busca subsídios metodológicos para compreensão da produção, edição e montagem de imagens técnicas em suporte digital – um modo de se escrever com imagens e sons – vídeografia. Como resultado técnico da exploração prática com a vídeografia obtevese os vídeos: A Civilização das Imagens; As Imagens Técnicas; e Os Aparelhos de Flusser. Conclui que: as distintas mensagens videográficas constituem-se de elementos semânticos e estéticos, agrupados de maneiras diferentes; no exercício da vídeografia, um receptor de vídeo pode manipular a imagem, editar, para depois recompô-las como suas próprias mensagens; a linguagem do vídeo (enquanto imagem eletrônica ou digital) não é exata ou sistemática e não adota nenhum conceito normativo enquanto expressão; o vídeo digital perde sua especificidade hibridizando-se com o computador e passa a atuar como uma ferramenta do mesmo, influenciado por referências que vêm de múltiplas áreas do conhecimento como as Artes Plásticas, a Literatura, a Música, a Filosofia e a Comunicação. / It approaches concepts related to image technologies. It delimits the study of the video while image, technology and information. It is justified as a study about image technologies, in the context of the Communication and Information. It has for general objective to identify digital video as image, information and technology. The principal authors of the theoretical foundation: Abraham Moles, Arlindo Machado, Fhilippe Dubois, Lev Manovich, Lucia Santaella, Yves-François Le Coadic, Silvia Martin and Vilém Flusser which approach subjects on aesthetic information, philosophy of the image technique, machines of images (photograph, movie, television, video and computer), territories of the Communication that permeate the Information Science and its relations with the language of video. It presents, in the methodology, a study of the method of analysis of the video, through the exploration of softwares of digital edition of video for web and desktop. It is used of the bibliographical research to guarantee the theoretical rules of the video. Search methodological subsidies for understanding of the production, edition and assembly of images techniques in digital support - a way of if writing with images and sounds – videography. As result technician of the practical exploration with the vídeography it was obtain videos: The Civilization of the Images; The Images Techniques; and the Devices of Flusser. It concludes that: the different messages are videographic is semantic and aesthetic elements, grouped in different ways; in the exercise of videography, a video receiver can manipulate the image, to edit for, later, recompose them as its own posts, the language of the video (while electronic or digital image) is not accurate or systematic and it does not adopt no normative concept while expression; the digital video loses its specificity hybridizing with the computer and starts to act as a tool of the same, influenced by references that come of multiple areas of the knowledge as the Plastic Arts, Literature, Music, the Philosophy and the Communication.
|
83 |
Desenvolvimento de um método semiautomático para geração de ground truths de vídeos /Gaspari, Tiago De. January 2015 (has links)
Orientador: Antonio Carlos Sementille / Coorientador: Silvio Ricardo Rodrigues Sanches / Banca: João Paulo Papa / Banca: Valdinei Freire da Silva / Resumo: Vários algoritmos de segmentação de vídeo em duas camadas, para a extração de elementos de interesse em primeiro plano (normalmente pessoas) em ambientes não controlados, vem sendo propostos, para diversas aplicações como sistemas de Realidade Aumentada, video chats, ou para a compressão de vídeos. Para analisar a qualidade dos vídeos gerados pelos algoritmos de segmentação, diversos métodos os comparam com seus respectivos ground truths, que consistem em referências da melhor segmentação possível de um vídeo. Muitas vezes esse ground truth é obtido de forma manual, ou seja, o usuário pode ter que segmentar cada quadro (frame) do vídeo. Naturalmente este processo é trabalhoso, demorado e muitas vezes não é realizado para todos os quadros que constituem o vídeo. Devido a isto, também, muitas vezes o ground truth possui baixa resolução e curta duração. Estes aspectos podem constituir um problema quanto à eficácia da utilização do próprio ground truth no processo de avaliação da qualidade da segmentação. Neste contexto, o presente projeto teve como principal enfoque o desenvolvimento de um método semiautomático para a geração de ground truths de vídeos, utilizando informações de profundidade, visando a minimização da interação do usuário, o processo de implementação deste método na forma de uma ferramenta que combina etapas automáticas e interativas, assim como os resultados obtidos são comparados a outros trabalhos presentes na literatura / Abstract: Several bilayer video segmentation algorithms, for the extraction of elements of interest in the foreground (usually people) in uncontrolled environments, have been proposed for various applications such as Augmented Reality systems, video chats or for video compression. To analyze the quality of the videos generated by the segmentation algorithms, different methods compare them with their ground truths, which consist of references of the best possible segmentation of a video. Usually this ground truth is obtained manually, so the user may have to segment each frame of the video. Of course this process is laborious, time consuming and frequently not performed for all frames of the video. Because of this, the ground truth, usually, has low resolution and short duration. These aspects can be an issue to the effectiveness of using these ground truths in the segmentation quality evaluation process. In this context, this project had as its main focus the development of a semi-automatic method for the generation of ground truths of videos, using depth information, in order to minimize the user interaction, the implementation process of this method as a tool that combines automatic and interactive steps, and the results, that are compared to other studies in literature / Mestre
|
84 |
Videoaulas de escrita/redação científica na internet : um estudo bakhtiniano /Mussio, Simone Cristina. January 2016 (has links)
Acompanha 1 CD-ROM com videoaulas / Orientador: Marina Célia Mendonça / Banca: Renata Coelho Marchezan / Banca: Assunção Aparecida Laia Cristóvão / Banca: Juscelino Pernambuco / Banca: Luzmara Curcino Ferreira / Resumo: Este trabalho pretende observar como se dão as negociações de sentidos presentes em videoaulas de escrita/redação científica na internet. Tendo como corpus videoaulas inseridas no YouTube, especificamente os cursos "Escrita Científica: Produção de Artigos de Alto Impacto" e "Método Lógico para Redação Científica", busca investigar como se constitui este tipo de gênero digital com a ascensão da Web 2.0 e a promoção de diferentes possibilidades de interação em ambiente virtual. Tendo como ancoragem teórico-metodológica a produção epistemológica do Círculo de Bakhtin, objetiva perceber como as videoaulas dialogam, em seus enunciados concretos (verbais e não verbais), com os traços de um fazer instrutivo-educacional, pertencente à esfera didático-pedagógica, bem como com o caráter mercadológico, sobreposto a uma esfera midiático-comercial, dos enunciados materializados nas aulas. No diálogo com as diferentes esferas de atividade, também tenciona verificar como a formalização do fazer científico presente nas aulas passa a nortear até a forma de composição e organização das videoaulas ao se ensinar escrever/redigir cientificamente. Para isso, procurou-se compreender o discurso científico instaurado e difundido no erigir da ciência moderna como modo de situar, dialogicamente, o projeto de dizer dos enunciadores das videoaulas analisadas. Partiu-se do conceito de gêneros discursivos, com o intuito de mostrar como os gêneros sofrem alterações em decorrência do momento histórico no qual estão inseridos. Estudar o gênero videoaula youtubiana como uma atualização do gênero aula, bem como da própria videoaula, foi uma maneira de compreender como o gênero se atualiza em razão das esferas e do mídium (suporte) nos quais ele se engendra. A escolha deste gênero também levou o trabalho a uma discussão sobre os modos de letrar-se cientificamente. Adquirir o conhecimento da escrita, tendo, neste... / Abstract: This research intends to observe how meaning negotiations happen in scientific writing/essay video lessons on the internet. Having as corpus video lessons embedded on YouTube, specifically the courses "Scientific Writing: Production of High Impact Articles" and "Logical Method for Scientific Writing", it endeavours to investigate how this type of digital genre is constituted with the rise of Web 2.0 and the promotion of different possibilities of interaction in a virtual environment. Adopting the epistemological production of the Circle of Bakhtin as theoretical and methodological anchoring, it aims to apprehend how the video lessons dialogue, in their concrete statements (verbal and nonverbal), with the traces of an instructive and educational making, belonging to the didactic and pedagogical field, as well as the marketing character, superimposed on a media-business sphere, of the materialized statements in the classes. In dialogue with the different realms of activity, it also intends to verify how the formalization of the scientific making existent in the classes starts to guide even the form of the composition and organization of video lessons when teaching how to write/compose scientifically. To this end, it was sought to understand the scientific discourse established and widespread in the erection of modern science as a mode of placing, dialogically, the enunciators' saying project of the analyzed video lessons. The starting point was the concept of discursive genres, in order to show how the genders are altered as a result of the historical moment in which they live. Studying the youtubian video lesson gender as an updating of the lesson gender, in addition to the video lesson itself, was a way to understand how gender is updated due to the spheres and medium (support) in which it engenders. The choice of this genre also led the research to a discussion on manners of becoming literate... / Doutor
|
85 |
Avaliação objetiva da qualidade de vídeo baseada na relevância dos objetos nos quadrosPereira, Diogo Augusto Barros 28 September 2011 (has links)
Esta dissertação apresenta o estudo, a melhoria e a implementação de um algoritmo para avaliar a qualidade de vídeo baseado na relevância dos objetos nos quadros. A métrica usada para estimar a relevância tem como pré-requisito a segmentação do vídeo. O trabalho foi dividido em etapas distintas: (1) segmentação, (2) avaliação da segmentação e estimação da relevância, (3) geração de artefatos nos vídeo originais e (4) avaliação de qualidade de vídeo. Experimentos com diferentes artefatos comprovam a eficiência da métrica proposta em termos de correlação com a métrica subjetiva. / This work presents the study, improvement and implementation of an algorithm to evaluate the video quality based on the relevance of objects in the frames. The measurements used to estimate the relevance requires a segmentation of objects. The work was divided into the following sections: (1) segmentation, (2) evaluation of segmentation and estimation of relevance, (3) generation of artifacts in video original and (4) evaluation of video quality. Experiments with different artifacts prove the efficiency of the proposed metric in terms of correlation with subjective measures
|
86 |
Avaliação objetiva da qualidade de vídeo baseada na relevância dos objetos nos quadrosPereira, Diogo Augusto Barros 28 September 2011 (has links)
Esta dissertação apresenta o estudo, a melhoria e a implementação de um algoritmo para avaliar a qualidade de vídeo baseado na relevância dos objetos nos quadros. A métrica usada para estimar a relevância tem como pré-requisito a segmentação do vídeo. O trabalho foi dividido em etapas distintas: (1) segmentação, (2) avaliação da segmentação e estimação da relevância, (3) geração de artefatos nos vídeo originais e (4) avaliação de qualidade de vídeo. Experimentos com diferentes artefatos comprovam a eficiência da métrica proposta em termos de correlação com a métrica subjetiva. / This work presents the study, improvement and implementation of an algorithm to evaluate the video quality based on the relevance of objects in the frames. The measurements used to estimate the relevance requires a segmentation of objects. The work was divided into the following sections: (1) segmentation, (2) evaluation of segmentation and estimation of relevance, (3) generation of artifacts in video original and (4) evaluation of video quality. Experiments with different artifacts prove the efficiency of the proposed metric in terms of correlation with subjective measures
|
87 |
Vídeo digital : análise de sua aplicação como objeto de aprendizagemSouza, Adriano Dias de January 2012 (has links)
O vídeo digital vem se inserindo gradativamente no contexto da educação presencial e a distância. Neste sentido, a presente pesquisa objetiva analisar, dentre as propostas contempladas nos 15 editais propostos pela SEAD/UFRGS, e que cobrem o período de 2001 a 2011, aquelas que tenham este tipo de Objeto de Aprendizagem na sua concepção, bem como seus espaços de armazenamento e disseminação, com vistas a verificar sua funcionalidade. O referencial teórico contextualiza os temas: imagem digital; vídeo e vídeo digital – evolução, armazenamento e disseminação; vídeo educativo; repositórios de vídeo; Objetos de Aprendizagem; além de abordar a SEAD/UFRGS, enquanto órgão responsável pelos editais. O estudo tem caráter exploratório com abordagem quantitativa e qualitativa utilizando questionário para a coleta de dados. Os sujeitos da pesquisa detêm-se em quatro projetos contemplados pelos editais da SEAD/UFRGS. Levanta dados sobre aspectos da produção, da disponibilização e do uso do vídeo criado/desenvolvido. Busca entender como se deu a participação da SEAD no processo de produção, armazenamento e disponibilização. Como resultado estabelece que o uso do vídeo digital ainda não é uma prática constante entre os docentes, quer seja em sala de aula ou em ambientes de Educação a Distância, mas verifica que o professor considera este um recurso importante no ensino; que o docente não tem, ainda, o hábito de fazer trabalhos colaborativos neste meio, mas entende como importante produzir desta forma. Sinaliza que os respondentes não fazem parte de redes ou comunidades virtuais relacionadas ao produto vídeo digital; que consideram importante ter seus vídeos disponíveis em Repositórios Institucionais, mas, no entanto, não tem nenhum canal próprio nos repositórios de vídeo disponíveis. Conclui, pelos dados coletados, que aqueles que já tiveram alguma experiência com o uso do vídeo continuarão a investir neste tipo de material institucional. Relaciona as contribuições que o estudo traz às diferentes áreas no contexto das universidades. Sugere novos estudos, aprofundando as análises, abordando outros temas ligados ao uso do vídeo, em especial voltado à disseminação da produção científica. / Digital video has been gradually introduced in the context of both distance and presence education. Thus this research aims to analyze, among the proposals covered in 15 invitations to bid offered by SEAD/UFRGS, and covering the period 2001 to 2011, those who have this type of learning object in its conceiving, as well as spaces of storage and dissemination, in order to verify its functionality. The theoretical framework contextualizes the themes: digital image, video and digital video – evolution, storage and distribution; educational video; video repositories; learning objects; apart from discussing SEAD/UFRGS as the body responsible for the invitation to bid. The study has an exploratory nature based in quantitative and qualitative approach, by using a questionnaire to collect data. Its subjects are four projects covered by the SEAD/UFRGS’s invitations to bid. It collects data on aspects of production, availability and use of the created or developed videos. It seeks to understand how was the SEAD participation in the production, storage and release process. As a result states that the use of digital video is not yet an established practice among teachers, whether in the classroom or in distance learning environments, but remarks that the teacher considers it an important resource in teaching; also that the he does not has the habit of doing collaborative work in this medium, but understands how important is to produce this way. It indicates that the respondents are not part of networks or virtual communities related to digital video products; as well that they consider important to have their videos available in institutional repositories, although they have no dedicated channel video available in the repositories. It concludes, based on the data collected, that those who have already had some experience with the use of video will continue to invest in this type of institutional material. It lists the contributions that the study brings to the different areas in the academic field. It suggests further studies to deepen the review by addressing other subjects related to the use of video, particularly focused on the dissemination of scientific production.
|
88 |
Técnicas de baixo consumo para módulos de hardware de codificação de vídeo H.264Walter, Fábio Leandro January 2011 (has links)
Este trabalho trata da aplicação de técnicas de minimização de consumo de potência para blocos digitais para o algoritmo de SAD e o decodificador H.264/AVC Intra-Only. Na descrição de hardware são acrescidas as técnicas de paralelismo e pipeline. Na síntese física e lógica, incluem-se as técnicas de inativação do relógio ( clock gating), múltiplas tensões de threshold, diferentes tecnologias e diferentes tensões de alimentação. A síntese é feita nas ferramentas da CadenceTM com exploração arquitetural e apresenta uma menor energia por operação, quando exigido desempenho equivalente (isoperformance ) para SAD, em baixa frequência, alto paralelismo e, principalmente, com um estágio de pipeline. Além disso, tecnologias CMOS mais avançadas diminuem o consumo de potência dinâmica e, em alguns casos, também diminuem a potência estática por gate equivalente, se utilizadas células High-VT e tensão de alimentação a menor possível. Outro fator a ser destacado é o uso do clock gating que no caso das arquiteturas de SAD, em vez de diminuir, aumenta o consumo de potência dinâmica. Neste trabalho foi realizada a síntese do decodificador Intra-Only. O decodificador com clock gating apresenta um menor consumo de potência, mostrando um caso em que esta técnica é benéfica. Além disso, a utilização de uma tecnologia CMOS 65 nm e, consequentemente, tensão de alimentação menor, levou a uma sensível diminuição no consumo de potência em relação a outros trabalhos similares. / This work presents low-power techniques applications to digital blocks in the SAD algorithm and in the Intra-Only H.264/AVC decoder. In the hardware description, we add parallelism and pipeline techniques. In the logical and physical synthesis exploration, includes the clock gating, multiple threshold voltage, different technologies and multiple supply voltage. The synthesis are done in the CadenceTM tools and show a smaller energy per operation in isoperformance for SAD at low frequency, high parallelism and, mainly, with one pipeline stage. In addition to that, more advanced CMOS technologies decrease the dynamic power consumption and, also, decrease the static power for equivalent gates, if using High-VT cells and lowest possible power supply. Another factor is the clock gating use that in the SAD architecture, instead of decreasing, increases the dynamic power consumption. In this work the design of an Intra-Only H.264/AVC Decoder was performed. This design with clock gating presents lower power consumption, showing a case in which this technique is beneficial in terms of dynamic power. Besides that, the 65 nm CMOS technology uses a lower power supply, resulting in lower power consumption in comparison to other related works.
|
89 |
Aumentando a acurácia de predição de avaliação de sistemas de recomendação de vídeo com o uso de pontos de interesse / Enhancing the Predictions accuracy of POI video recommender systemsDias, Alessandro da Silveira January 2013 (has links)
A cada dia aumenta o número de vídeos disponíveis no mundo. Por exemplo, há uma vasta quantidade de sites de vídeos disponíveis na Web e serviços de Vídeo Sob Demanda além de dispositivos que fazem a gravação de vídeos automaticamente, conhecidos como Personal Video Recorders, 24 horas por dia. Isso pode ocasionar um problema ao usuário: a sobrecarga de conteúdo em formato de vídeo. Uma das maneiras de se tratar tal problema consiste no uso de sistemas de recomendação, os quais filtram o conteúdo com o objetivo de entregar o que for mais interessante ao usuário. A abordagem típica utilizada pelos sistemas atuais consiste em um sistema de recomendação híbrido, i.e., que utiliza tanto filtragem baseada em conteúdo quanto filtragem colaborativa, minimizando os problemas que tais abordagens possuem individualmente. Adicionalmente, com o objetivo de melhorar a recomendação ou de criar novas formas de recomendação, têm sido apresentadas novas abordagens, tais como sistemas de recomendação utilizando dados de redes sociais, computação afetiva, tags, entre outros. Este trabalho tem como objetivo apresentar uma abordagem inovadora, a qual utiliza pontos de interesse em vídeo de usuários (ou seja, os segmentos dos vídeos que eles mais gostam ou que mais se interessam) para melhorar a acurácia de predição de sistemas de recomendação de vídeo que utilizam filtragem colaborativa baseados na abordagem usuário-usuário. Na abordagem proposta, os usuários participam de forma mais ativa e mais interativa ao marcarem seus pontos de interesse. Para avaliação de tal abordagem proposta foi realizada uma avaliação experimental em termos de acurácia de predição de avaliação; pela qual constatou-se que houve melhora na predição de avaliação do sistema de recomendação. Tal melhora está diretamente relacionada com o nível de participação das pessoas na marcação de pontos de interesse. / Every day the number of videos available in the world increases. For example, there is a vast amount of video sites available on the Web, Video On Demand services, as well as devices that records videos automatically, known as Personal Video Recorders, 24 hours a day. It may create a problem for the user: the overload of content in video format. One of the ways to treat such problem is the use of recommender systems, which filter the content in order to deliver what is most interesting to the user. The typical approach is to present a hybrid recommender system, i.e., that uses both contentbased filtering and collaborative filtering, minimizing the problems that these approaches have individually. Additionally, in order to improve the recommendation or to create new approaches of recommendation, has been given new approaches such as systems using data from social networks, affective computing, tags, etc. This paper aims to present an innovative approach, which uses points of interest (POI) in video of users (i.e., video segments best liked or most interested by them) to augment the prediction accuracy of video recommender systems with collaborative filtering based in the useruser approach. In the proposed approach, users participate more actively and more interactively to mark their points of interest. To evaluate this proposed approach an experimental evaluation was performed in terms of accuracy of ratings predictions; in which it was verified that there was an improvement in ratings prediction accuracy of the recommendation system. This improvement is directly related to the level of participation of people in marking points of interest.
|
90 |
Machine learning mode decision for complexity reduction and scaling in video applicationsGrellert, Mateus January 2018 (has links)
As recentes inovações em técnicas de Aprendizado de Máquina levaram a uma ampla utilização de modelos inteligentes para resolver problemas complexos que são especialmente difíceis de computar com algoritmos e estruturas de dados convencionais. Em particular, pesquisas recentes em Processamento de Imagens e Vídeo mostram que é possível desenvolver modelos de Aprendizado de Máquina que realizam reconhecimento de objetos e até mesmo de ações com altos graus de confiança. Além disso, os últimos avanços em algoritmos de treinamento para Redes Neurais Profundas (Deep Learning Neural Networks) estabeleceram um importante marco no estudo de Aprendizado de Máquina, levando a descobertas promissoras em Visão Computacional e outras aplicações. Estudos recentes apontam que também é possível desenvolver modelos inteligentes capazes de reduzir drasticamente o espaço de otimização do modo de decisão em codificadores de vídeo com perdas irrelevantes em eficiência de compressão. Todos esses fatos indicam que Aprendizado de Máquina para redução de complexidade em aplicações de vídeo é uma área promissora para pesquisa. O objetivo desta tese é investigar técnicas baseadas em aprendizado para reduzir a complexidade das decisões da codificação HEVC, com foco em aplicações de codificação e transcodificação rápidas. Um perfilamento da complexidade em codificadores é inicialmente apresentado, a fim de identificar as tarefas que requerem prioridade para atingir o objetivo dessa tese. A partir disso, diversas variáveis e métricas são extraídas durante os processos de codificação e decodificação para avaliar a correlação entre essas variáveis e as decisões de codificação associadas a essas tarefas. Em seguida, técnicas de Aprendizado de Máquina são empregadas para construir classificadores que utilizam a informação coletada para prever o resultado dessas decisões, eliminando o custo computacional necessário para computá-las. As soluções de codificação e transcodificação foram desenvolvidas separadamente, pois o tipo de informação é diferente em cada caso, mas a mesma metologia foi aplicada em ambos os casos. Além disso, mecanismos de complexidade escalável foram desenvolvidos para permitir o melhor desempenho taxa-compressão para um dado valor de redução de complexidade. Resultados experimentais apontam que as soluções desenvolvidas para codificação rápida atingiram reduções de complexidade entre 37% e 78% na média, com perdas de qualidade entre 0.04% e 4.8% (medidos em Bjontegaard Delta Bitrate – BD-BR). Já as soluções para trancodificação rápida apresentaram uma redução de 43% até 67% na complexidade, com BD-BR entre 0.34% e 1.7% na média. Comparações com o estado da arte confirmam a eficácia dos métodos desenvolvidos, visto que são capazes de superar os resultados atingidos por soluções similares. / The recent innovations in Machine Learning techniques have led to a large utilization of intelligent models to solve complex problems that are especially hard to compute with traditional data structures and algorithms. In particular, the current research on Image and Video Processing shows that it is possible to design Machine Learning models that perform object recognition and even action recognition with high confidence levels. In addition, the latest progress on training algorithms for Deep Learning Neural Networks was also an important milestone in Machine Learning, leading to prominent discoveries in Computer Vision and other applications. Recent studies have also shown that it is possible to design intelligent models capable of drastically reducing the optimization space of mode decision in video encoders with minor losses in coding efficiency. All these facts indicate that Machine Learning for complexity reduction in visual applications is a very promising field of study. The goal of this thesis is to investigate learning-based techniques to reduce the complexity of the HEVC encoding decisions, focusing on fast video encoding and transcoding applications. A complexity profiling of HEVC is first presented to identify the tasks that must be prioritized to accomplish our objective. Several variables and metrics are then extracted during the encoding and decoding processes to assess their correlation with the encoding decisions associated with these tasks. Next, Machine Learning techniques are employed to construct classifiers that make use of this information to accurately predict the outcome of these decisions, eliminating the timeconsuming operations required to compute them. The fast encoding and transcoding solutions were developed separately, as the source of information is different on each case, but the same methodology was followed in both cases. In addition, mechanisms for complexity scalability were developed to provide the best rate-distortion performance given a target complexity reduction. Experimental results demonstrated that the designed fast encoding solutions achieve time savings of 37% up to 78% on average, with Bjontegaard Delta Bitrate (BD-BR) increments between 0.04% and 4.8%. In the transcoding results, a complexity reduction ranging from 43% to 67% was observed, with average BD-BR increments from 0.34% up to 1.7%. Comparisons with state of the art confirm the efficacy of the designed methods, as they outperform the results achieved by related solutions.
|
Page generated in 0.0454 seconds