Return to search

Using texture measures for visual quality assessment

Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2018-04-19T17:18:07Z
No. of bitstreams: 1
2017_PedroGarciaFreitas.pdf: 42146492 bytes, checksum: 48f490751ac049a6ed8f8255d1da4b66 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-04-19T17:22:15Z (GMT) No. of bitstreams: 1
2017_PedroGarciaFreitas.pdf: 42146492 bytes, checksum: 48f490751ac049a6ed8f8255d1da4b66 (MD5) / Made available in DSpace on 2018-04-19T17:22:16Z (GMT). No. of bitstreams: 1
2017_PedroGarciaFreitas.pdf: 42146492 bytes, checksum: 48f490751ac049a6ed8f8255d1da4b66 (MD5)
Previous issue date: 2018-04-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). / Na última década, diversas aplicações multimídia tem gerado e distribuído conteúdos de imagens e vídeos digitais. Serviços de multimídia que tem ganhado um vasto interesse incluem televisão digital, jogos de vídeo e aplicações em tempo real operando sobre a Internet. De acordo com predições da CiscoTM, a percentagem do tráfego de dados de vídeo sobre a Internet era de 53% em 2014 e superará os 67% em 2018. Devido à esse aumento na demanda de conteúdo de dados visuais, a necessidade de métodos e ferramentas que estimem a qualidade da experiência (QoE) do consumidor é enorme. Entre os aspectos que contribuem para a QoE, a qualidade dos estímulos visuais é uma das maiores propriedades, pois pode ser alterada em diversos estágios da cadeia de comunicação, tal como na captura, na transmissão, ou na reprodução do conteúdo. Considerando que os avaliadores naturais da qualidade visual são seres humanos, a estratégia básica para medir a qualidade visual consiste na realização de experimentos subjetivos. Esses experimentos são geralmente realizados com participantes humanos em laboratórios preparados com um ambiente controlado. Esses participantes avaliam a qualidade de um dado estimulo visual (imagem ou vídeo) e atribuem a eles um valor numérico associado à qualidade. Para avaliar a qualidade, os participantes seguem um conjunto de passos experimentais. Geralmente, esses passos são padronizados para favorecer a reprodutibilidade experimental. Os padrões de experimentos incluem metodologias de avaliação, tais como condições de visualização, escala de avaliação, materiais, etc. Após um conjunto de participantes avaliarem individualmente a qualidade de um dado estímulo, a média dos valores é calculada para gerar o valor médio das opiniões subjetivas (MOS). O MOS é frequentemente utilizado para representar a qualidade geral de um dado estímulo visual. Como a coleta dos MOS é realizada a partir de experimentos com seres humanos, esse processo é demorado, cansativo, caro, e laborioso. Devido ao custo dos experimentos subjetivos, um grande esforço tem sido dedicado ao desenvolvimento de técnicas objetivas para a avaliação de estímulos visuais. Essas técnicas objetivas consistem em predizer o MOS automaticamente por meio de algoritmos computacionais. Tal automação torna possível a implementação de procedimentos computacionais rápidos e baratos para monitorar e controlar a qualidade de estímulos visuais. As técnicas objetivas para a avaliação de estímulos visuais podem ser classificadas em três tipos, dependendo da quantidade de informação necessária pelo método. Se todo o estímulo de referência (original) é requerido para a estimação da qualidade do estímulo testado, então essa técnica é classificada como sendo de referência completa. Quando somente alguma informação parcial da referência é necessária, a técnica é classificada como sendo de referência reduzida. Por outro lado, quando nenhuma informação sobre o estímulo de referência é necessária, a técnica é dita como sendo sem referência. Uma vez que a exigência de uma referência completa ou parcial é um obstáculo no desenvolvimento de diversas aplicações multimídia, as técnicas de sem referência são as mais convenientes na maioria dos casos. Diversas técnicas objetivas para avaliação de qualidade visual têm sido propostas, embora ainda existam algumas questões em aberto no seu desenvolvimento. No caso de técnicas de avaliação de imagens, diversas técnicas de referência completa têm sido produzidas com uma excelente performance. Por outro lado, técnicas que não utilizam referências ainda apresentam limitações quando múltiplas distorções estão presentes. Além disso, as técnicas sem referência para imagens mais eficientes ainda apresentam modelos computacionalmente custosos, o que limita a utilização desses métodos em várias aplicações multimídia. No caso de vídeos, o atual estado da arte ainda possui performance na predição dos MOS pior do que os métodos de imagens. Quando consideramos a acurácia da predição, os métodos objetivos para vídeos possuem uma correlação entre valores preditos e MOS ainda pequena se comparada com a correlação observada em métodos para imagens. Além disso, a complexidade computacional é ainda mais crítica no caso de vídeos, uma vez que a quantidade de informação processada é muito maior do que aquela presente em imagens. O desenvolvimento de uma técnica objetiva de avaliação de qualidade visual requer resolver três grandes problemas. O primeiro problema é determinar um conjunto de características que sejam relevantes na descrição da qualidade visual. Essas características, geralmente, referem-se às medidas de estímulos físicos, tais como quantificação da nitidez de borda, estatísticas de cenas naturais, estatísticas no domínio de curvlets, filtros de Prewitt, etc. Além disso, múltiplos tipos de características podem ser combinados para gerar um vetor de características que descrevem melhor a qualidade de um dado estímulo. O segundo problema é estabelecer uma estratégia de agrupamento das características de forma que os valores numéricos sejam descritivos dentro de um modelo. Esse agrupamento se refere a uma combinação de medidas através de um subespaço de medidas para representar o estímulo analisado. Finalmente, o terceiro problema é a criação de um modelo que mapeie as características agrupadas de forma que se correlacione com os dados preditos com os subjetivos. Neste trabalho, nós apresentamos uma investigação de métodos de avaliação de qualidade visual baseada na medição de texturas. A pressuposição é que degradações visuais alteram as texturas e as estatísticas dessas texturas em imagens e vídeos. Essas medidas são executadas em termos das estatísticas extraídas do operador de padrões binários locais (LBP) e suas extensões. Este operador foi escolhido porque ele unifica outros modelos de análise de texturas mais tradicionais, tais como o espectro de textura, o nível de cinza de comprimento (GLRLM) e as matrizes de co-ocorrência de níveis de cinza (GLCM). O operador LBP, sendo um algoritmo simples e que favorece implementações rápidas, possui propriedades muito úteis para sistemas de processamento em tempo real de imagens e vídeos. Devido às vantagens supracitadas, nós analisamos o operador LBP e algumas das suas extensões no estado da arte com o objetivo de investigar sua adequabilidade para o problema de avaliação de qualidade de imagens. Para isso, neste trabalho nós apresentamos uma extensa revisão do estado da arte dos operadores. Entre os operadores no estado da arte, podemos mencionar os padrões ternários locais (LTP), a quantização de fase local (LPQ), as estatísticas binarizadas de características de imagem (BSIF), os padrões locais binários rotacionados (RLBP), os padrões binários locais completos (CLBP), os padrões de configuração locais (LCP), entre outros. Ademais, nós também propomos novas extensões que melhoram a predição de qualidade. Entre as extensões propostas para a medida de características de qualidade, estão os padrões binários locais de múltipla escala (MLBP), os padrões ternários locais de múltipla escala (MLTP), os padrões de variância local (LVP), os padrões de planos ortogonais de cores (OCPP), os padrões binários locais salientes (SLBP) e os padrões binários locais salientes de múltipla escala (MSLBP). Para testar a adequabilidade dos operadores de texturas supracitados, propomos um arcabouço para utilizar esses operadores na produção de novas métricas de qualidade de imagens. Dessa forma, muitas métricas sem referência podem ser geradas a partir da estratégia proposta. Utilizando as métricas geradas a partir do arcabouço proposto, uma extensa análise comparativa é apresentada neste trabalho. Essa análise foi feita com três das mais populares bases de dados de qualidade imagens disponíveis, sendo elas a LIVE, CSIQ e TID 2013. Os resultados gerados a partir dos testes nessas bases demonstram que os operadores no estado da arte mais adequados para mensurar a qualidade de imagens são o BSIF, o LPQ e o CLBP. Todavia, os resultados também indicaram que os operadores propostos atingiram resultados ainda mais promissores, com as abordagens baseadas em múltiplas escalas apresentando os melhores desempenhos entre todas variações testadas. Inspirado nos resultados experimentais das métricas de imagens geradas, nós escolhemos um operador de textura conveniente para implementar uma métrica de avaliação de qualidade de vídeos. Além de incorporar informações de textura, nós também incorporamos informações de atividade espacial e informação temporal. Os resultados experimentais obtidos indicam que a métrica proposta tem uma performance consideravelmente superior quando testada em diversas bases de dados de vídeo de referência e supera os atuais modelos de qualidade vídeo. / In the last decade, many visual quality models have been proposed. However, there are some open questions involving the assessment of image and video quality. In the case of images, most of the proposed methods are very complex and require a reference content to estimate the quality, limiting their use in several multimedia application. For videos, the current state-of-the-art methods still perform worse than images in terms of prediction accuracy. In this work, we present an investigation of visual quality assessment methods based on texture measurements. The premise is that visual impairments alter image and video textures and their statistics. These measurements are performed regarding the statistics of the local binary pattern (LBP) operator and its extensions. We chosen LBP because it unifies traditional texture analysis models. In addition, LBP is a simple but effective algorithm that performs only fundamental operations, which favors fast and simple implementations, which is very useful for real-time image and video processing systems. Because of the abovementioned advantages, we analyzed the LBP operator and some of its state-of-the-art extensions addressing the problem of assessing image quality. Furthermore, we also propose new quality-aware LBP extensions to improve the prediction of quality. Then, we propose a framework for using these operators in order to produce new image quality metrics. Therefore, many no-reference image quality metrics can be generated from the proposed strategy. Inspired by experimental results of generated no-reference image quality metrics, we chosen a convenient texture operator to implement a full-reference video quality metric. In addition to the texture information, we also incorporate features including spatial activity, and temporal information. Experimental results indicated that our metric presents a superior performance when tested on several benchmark video quality databases, outperforming current state-of-the-art full-reference video quality metrics.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/31686
Date18 October 2017
CreatorsFreitas, Pedro Garcia
ContributorsFarias, Mylene Christine Queiroz de
Source SetsIBICT Brazilian ETDs
LanguageInglês
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
RightsA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data., info:eu-repo/semantics/openAccess

Page generated in 0.0036 seconds