1 |
[en] FAST ESTIMATION ALGORITHMS FOR VIDEO COMPRESSION: ISOLATED ANALYSIS AND IN MPEG ENVIRONMENT / [pt] ALGORITMOS RÁPIDOS DE ESTIMAÇÃO DE MOVIMENTO PARA COMPRESSÃO DE VÍDEO: ANÁLISE ISOLADA E EM AMBIENTE MPEGGERALDO CESAR DE OLIVEIRA 27 August 2009 (has links)
[pt] Este trabalho apresenta uma análise comparativa de algoritmos rápidos de estimação de movimento para codificações de vídeo, os quais visam reduzir a complexidade computacional do algoritmo Força Bruta. Os dois primeiros ( LOGD e 3 PASSOS) reduzem extremamente a complexidade, contudo, apresentam os mais baixos desempenhos. Dois deles Eliminação Sucessiva (ES I) e Adaptativo da Força Bruta (AFB) são técnicas recentes apresentadas na literatura. O dois últimos algoritmos (ES II e ES III) são modificações propostas nesta tese, com base nas técnicas ES I e AFB. Todos os algoritmos implementados neste trabalho são analisados isoladamente e em ambiente MPEG. / [en] This work presents a comparative analysis of fast motion compensation algorithms for vídeo compression, whitch aim at reducing the computacional complexity of the Full Search block matching tchnique. The first two ( LOG 2D and 3 Step) extremely reduce the complexity. However, they present the lowest performace. Two of them - Sucessive Elimination I ( ES I) and Adaptative Block Matching (AFB) - are schemes recently proposed in the literature. The last two algorithms (ES II and ES III) are modifications proposed in this thesis and are based on the ES I and AFB techniques. The algorithms are examined isolatedly an when operating in the MPEG environment.
|
2 |
[en] CLASSIFICATION AND SEGMENTATION OF MPEG AUDIO BASED ON SCALE FACTORS / [pt] CLASSIFICAÇÃO E SEGMENTAÇÃO DE ÁUDIO A PARTIR DE FATORES DE ESCALA MPEGFERNANDO RIMOLA DA CRUZ MANO 06 May 2008 (has links)
[pt] As tarefas de segmentação e classificação automáticas de
áudio vêm se tornando cada vez mais importantes com o
crescimento da produção e armazenamento de mídia digital.
Este trabalho se baseia em características do padrão MPEG,
que é considerado o padrão para acervos digitais, para gerir
algoritmos de grande eficiência para realizar essas arefas.
Ao passo que há muitos estudos trabalhando a partir do
vídeo, o áudio ainda é pouco utilizado de forma eficiente
para auxiliar nessas tarefas. Os algoritmos sugeridos
partem da leitura apenas dos fatores de escala presentes no
Layer 2 do áudio MPEG para ambas as tarefas. Com isso, é
necessária a leitura da menor quantidade possível de
informações, o que diminui significativamente o volume de
dados manipulado durante a análise e torna seu desempenho
excelente em termos de tempo de processamento. O algoritmo
proposto para a classificação divide o áudio em quatro
possíveis tipos: silêncio, fala, música e aplausos. Já o
algoritmo de segmentação encontra as mudanças ignificativas
de áudio, que são indícios de segmentos e mudanças de cena.
Foram realizados testes com diferentes tipos de vídeos, e
ambos os algoritmos mostraram bons resultados. / [en] With the growth of production and storing of digital media,
audio segmentation and classification are becoming
increasingly important. This work is based on
characteristics of the MPEG standard, considered to be the
standard for digital media storage and retrieval, to
propose efficient algorithms to perform
these tasks. While there are many studies based on video
analysis, the audio information is still not widely used in
an efficient way. The suggested algorithms
for both tasks are based only on the scale factors present
on layer 2 MPEG audio. That allows them to read the
smallest amount of information possible, significantly
diminishing the amount of data manipulated during the
analysis and making their performance excellent in terms of
processing time. The algorithm proposed for audio
classification divides audio in four possible types: silent,
speech, music and applause. The segmentation algorithm
finds significant changes on the audio signal that
represent clues of audio segments and scene changes.
Tests were made with a wide range of types of video, and
both algorithms show good results.
|
3 |
[en] FOUNTAIN CODES AND OTHER CHANNEL CODING SCHEMES FOR PROTECTION OF TRANSPORT STREAMS OVER IP NETWORKS WITH PACKET ERASURE / [pt] CÓDIGOS FONTANAIS E OUTROS ESQUEMAS DE CODIFICAÇÃO DE CANAL PARA PROTEÇÃO DE TRANSPORT STREAMS EM REDES IP COM APAGAMENTO DE PACOTESCLAUDIO ALEJANDRO SZABAS 06 July 2011 (has links)
[pt] Há, nos dias atuais, uma crescente demanda pelo transporte de video sobre IP, i.e., para distribuição de conteúdo pela Internet, por serviços de IPTV em definição padrão e em alta definição e, mesmo para uso interno nas redes de emissoras tradicionais de televisão, que transportam contribuições de elevada qualidade para seus programas. Em tais aplicações, o conteúdo dos programas é transportado usando MPEG-2 ou MPEG-4, sob a forma de MPEG-2 Transport Streams, encapsulados com protocolos tais como
RTP, UDP e IP. As redes IP, que são modelizadas como Redes com Apagamento de Pacotes (PEC) não foram, no entanto, concebidas para o transporte de mídias em tempo real, esbarra portanto em problemas comuns como perdas de pacotes e jitter, gerando perturbações que se refletem na recepção do conteúdo. Os métodos tradicionais para superar estas dificuldades, como por exemplo, os que se baseiam em retransmissões usando protocolos ARQ (Automatic Repeat on Request), não são uma solução eficiente
para proteger a transmissão de multimídia em tempo real. A proteção de multimídia transmitida em tempo real via IP recorre, neste caso, aos códigos para canal. Há códigos para canal recomendados em RFC s e Padrões, usados amplamente pelos fabricantes de equipamento. Os modernos Códigos Fontanais, possuem características atraentes para o transporte de conteúdos multimídia em tempo real. Neste trabalho, simulações são realizadas, onde o conteúdo encapsulado em Transport Stream, é protegido com Códigos
Fontanais antes do encapsulamento para o envio através da rede. A título de comparação, o experimento é realizado também usando outros códigos para canal recomendados. Para realizar a comparação são usadas medições padronizadas do Transport Stream, medições objetivas como artefatos de blocagem e finalmente uma análise subjetiva do conteúdo recebido é usada. O trabalho conclui com a proposta de um Codificador de canal adaptável para Transport Stream. / [en] There is a growing demand for the transport of video over IP today, i.e., for content distribution over the Internet, IPTV services in Standard and High Definition, or even inside traditional broadcasters networks, transporting broadcast quality contributions to the main program. In such applications, the source encoded MPEG-2 or -4 content is transported in the form of MPEG-2 Transport Streams, encapsulated over network protocols. However, IP networks, which can be modeled as Packet Erasure Networks (PEC), were not originally designed for the transport of real time media. There are problems, such as packet drops and jitter, which generate severe impairments in the content that is decoded at the reception. Traditional methods for overcoming these problems, as for example retransmissions performed by Automatic Repeat Request (ARQ) protocols, are not suitable for real-time multimedia protection. Channel coding is the
solution of choice for protecting real-time multimedia over IP. There are channel coding schemes specified in open recommendations and Standards, widely adopted by equipment vendors today. Fountain Codes present very attractive characteristics for the transport of real-time multimedia. In the present work, simulations with a Fountain code, protecting Transport Stream contents prior to network encapsulation, are presented. The experiment if repeated with other channel coding techniques commonly employed today. In order to analyze the decoded contents and obtain comparative results, standardized Transport Stream measurements, objective Blocking Artifacts measurements and subjective analysis of the decoded samples are employed. This work is concluded with the proposal of a Transport Stream Adaptive channel encoder, that is explained in Appendix-B.
|
4 |
[en] A SYSTEM FOR GENERATING DYNAMIC FACIAL EXPRESSIONS IN 3D FACIAL ANIMATION WITH SPEECH PROCESSING / [pt] UM SISTEMA DE GERAÇÃO DE EXPRESSÕES FACIAIS DINÂMICAS EM ANIMAÇÕES FACIAIS 3D COM PROCESSAMENTO DE FALAPAULA SALGADO LUCENA RODRIGUES 24 April 2008 (has links)
[pt] Esta tese apresenta um sistema para geração de expressões
faciais dinâmicas sincronizadas com a fala em uma face
realista tridimensional. Entende-se
por expressões faciais dinâmicas aquelas que variam ao
longo do tempo e que semanticamente estão relacionadas às
emoções, à fala e a fenômenos afetivos que podem modificar
o comportamento de uma face em uma animação. A tese define
um modelo de emoção para personagens virtuais falantes, de-
nominado VeeM (Virtual emotion-to-expression Model ),
proposto a partir de uma releitura e uma reestruturação do
modelo do círculo emocional de Plutchik. O VeeM introduz o
conceito de um hipercubo emocional no espaço canônico do R4
para combinar emoções básicas, dando origem a emoções
derivadas. Para validação do VeeM é desenvolvida uma
ferramenta de autoria e apresentação de animações faciais
denominada DynaFeX (Dynamic Facial eXpression), onde um
processamento de fala é realizado para permitir o
sincronismo entre fonemas e visemas. A ferramenta permite a
definição e o refinamento de emoções para cada quadro ou
grupo de quadros de uma animação facial. O subsistema de
autoria permite também, alternativamente, uma manipulação
em alto-nível, através de scripts de animação.
O subsistema de apresentação controla de modo sincronizado
a fala da personagem e os aspectos emocionais editados. A
DynaFeX faz uso de uma malha poligonal tridimensional
baseada no padrão MPEG-4 de animação facial, favorecendo a
interoperabilidade da ferramenta com outros sistemas
de animação facial. / [en] This thesis presents a system for generating dynamic facial
expressions synchronized with speech, rendered using a
tridimensional realistic face. Dynamic facial expressions
are those temporal-based facial expressions semanti-
cally related with emotions, speech and affective inputs
that can modify a facial animation behavior. The thesis
defines an emotion model for speech virtual actors, named
VeeM (Virtual emotion-to-expression Model ), which
is based on a revision of the emotional wheel of Plutchik
model. The VeeM introduces the emotional hypercube concept
in the R4 canonical space to combine pure emotions and
create new derived emotions. In order to validate VeeM, it
has been developed an authoring and player facial animation
tool, named DynaFeX (Dynamic Facial eXpression), where a
speech processing is realized to allow the phoneme and
viseme synchronization. The tool allows either the
definition and refinement of emotions for each frame, or
group of frames, as the facial animation edition using a
high-level approach based on animation scripts. The tool
player controls the animation presentation synchronizing
the speech and emotional features with the virtual
character performance. DynaFeX is built over a
tridimensional polygonal mesh, compliant with MPEG-4 facial
animation standard, what favors tool
interoperability with other facial animation systems.
|
5 |
[en] INTEGRATION AND INTEROPERABILITY OF MPEG-4 AND NCL DOCUMENTS / [pt] INTEGRAÇÃO E INTEROPERABILIDADE DE DOCUMENTOS MPEG-4 E NCLROMUALDO MONTEIRO DE RESENDE COSTA 27 June 2005 (has links)
[pt] A abordagem orientada a objetos do padrão MPEG-4, para a
codificação de
conteúdo audiovisual, é similar às utilizadas em vários
modelos e linguagens de
especificação de documentos multimídia/hipermídia. Entre
essas linguagens, a
NCL (Nested Context Language), utilizada no sistema
HyperProp, introduz uma
série de novos conceitos que podem ser integrados ao
padrão, com vantagens.
Esta dissertação propõe, inicialmente, a conversão de
documentos especificados
em NCL para MPEG-4 (XMT-O) e vice-versa, permitindo que
ferramentas de
autoria e formatação possam ser utilizadas na
especificação e exibição de
documentos de ambas as linguagens. Este trabalho também
propõe a incorporação
de cenas MPEG-4 tanto como objetos de mídia quanto
composições da linguagem
NCL, permitindo o estabelecimento de relacionamentos entre
cenas. Para permitir
a exibição desses novos objetos NCL, é incorporado ao
Formatador HyperProp
um exibidor MPEG-4 capaz de reportar ao controlador a
ocorrência de eventos
que, entre outras coisas, permite o sincronismo entre
cenas MPEG-4 e outros
objetos NCL, incluindo outras cenas MPEG-4. Por fim,
explorando o conceito de
templates introduzido pela linguagem NCL, a capacidade de
autoria no MPEG-4 é
estendida, através da definição de novas semânticas para
as composições da
linguagem XMT-O e da concepção de compiladores para essa
linguagem. / [en] The MPEG-4 standard object-oriented approach, employed to
the encoding
of audiovisual content, is similar to those used on many
models and languages for
multimedia/hypermedia document specification. Among those
languages, the
NCL (Nested Context Language), used in the HyperProp
system, introduces a
series of new concepts that can be integrated to the
standard, with advantages.
Initially, the proposal of this work is to convert NCL to
MPEG-4 (XMT-O)
documents and vice versa, allowing authoring and
formatting tools to be used in
the specification and presentation of documents in both
languages. This work also
proposes both the placing of MPEG-4 scenes as media
objects and NCL language
compositions, allowing the establishment of relationships
among scenes. In order
to allow displaying these new NCL objects, an MPEG-4
player is incorporated to
the HyperProp Formatter. The MPEG-4 player is able to
report to the controller
the occurrence of events that, among other things, allows
the synchronization
between MPEG-4 scenes and othe r NCL objects, including
other MPEG-4 scenes.
Finally, exploring the concept of templates, introduced by
the NCL language, the
authoring in the MPEG-4 is improved, by means of the
definition of new
semantics for XMT-O language compositions and the design
of compilers for this
language.
|
6 |
[en] ELASTIC TIME ALGORITHM FOR VIDEO IN MPEG-2 FLOWS / [pt] ALGORITMO DE AJUSTE ELÁSTICO PARA VÍDEO EM FLUXOS MPEG-2SERGIO ALVES CAVENDISH 09 August 2006 (has links)
[pt] Em apresentações hipermídia, umas das principais tarefas
coordenadas pelo
orquestrador da apresentação é a sincronização entre os
diversos objetos
componentes, que pode ser obtida através do ajuste
elástico do tempo de exibição
dos objetos. Esta técnica pode ser aplicada em tempo de
compilação, de forma a
manter os relacionamentos de sincronização especificados
pelo autor, ou em
tempo de apresentação, para prevenir qualquer descasamento
temporal causado
pelos ambientes de transmissão e de execução. Este
trabalho descreve um
conjunto de mecanismos para executar o ajuste elástico em
fluxos MPEG-2 de
Vídeo e de Sistemas, propondo algoritmos para a realização
da compressão e
expansão do tempo de exibição, do controle da ocupação do
buffer do
decodificador, da sincronização intermídia e da
reconstrução do relógio de
referência. Visando seu emprego em tempo de execução, todo
o processo de
ajuste é realizado diretamente no fluxo MPEG, sem qualquer
transcodificação. / [en] In hypermedia presentations, one of the main tasks
provided by the
orchestrator is the synchronization of all presentation
objects, which may be
achieved by elastic time adjustment of period of
exhibition of the objects, or
simply timescale adaptation. This technique can be applied
at compilation time, in
order to keep track of synchronism relationships specified
by authors, or at
presentation time, to prevent any temporal mismatch caused
by transmission or
execution environments. This work presents a set of
mechanisms to carry out
timescale adaptation in MPEG-2 Systems and Video streams,
proposing
algorithms to perform compression and expansion of
exhibition period, also called
playback dilation, rate control, inter-media
synchronization and clock
reconstruction. In order to be performed at execution
time, timescale operations
are realized directly in compressed MPEG-2 streams,
requiring no
transcodification.
|
Page generated in 0.2224 seconds