Global ETD Search

Return to search

[en] SPEECH CODING AT AVERAGE RATES BELOW 2KB/S / [es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S / [pt] CODIFICAÇÃO DE VOZ A TAXAS MÉDIAS ABAIXO DE 2 KB/S

[pt] Esta dissertação propõe algoritmos para codificações de voz
a taxas médias em torno de 1,2 Kb/s. Um esquema de
quantização vetorial preditiva chaveada com desempenho
superior aos esquemas previamente descritos na literatura é
proposto e avaliado em canal com ou sem ruído. Detectores
eficientes de período fundamental e de sons oclusivos e
fricativos são examinados e adaptados ao codificador
proposto. Técnicas de exitação a baixas taxas de bits são
investigadas a fim de reproduzir uma boa qualidade de voz
decodificada. O modelo de exitação mista em multi-bandas
com três sub-bandas é adotado para codificar os quadros
sonoros. Para os quadros surdos são empregadas técnicas de
modelagem e síntese de sinais fricativos e oclusivos,
capazes de oferecer qualidade de voz satisfatória,
reduzindo a taxa de bits destes quadros para apenas 0,4
Kb/s. Técnicas de pós-filtragem para reduzir o ruído de
codificação e melhorar a qualidade de voz reconstruída são
também examinadas e comparadas em uma mesma plataforma.
Para reduzir o nível de ruído ambiente são ainda analisados
métodos de supressão de ruído. Finalmente, o codificador
proposto é comparado ao padrão norte-americano Mixed
Excitation Linear Prediction (MELP), por meios de teste de
comparação do tipo A/B. Os testes realizados indicam que o
sistema proposto, operando a 1,2 Kb/s, apresenta qualidade
de voz ligeiramente superior ao MELP, operando a 2,4 Kb/s.
Para situações de transcodificação, o codificador proposto
também apresenta desempenho superior ao MELP. / [en] This dissertation presents algorithms to encode at an
avarage bit rate of 1.2 Kb/s. A novel switched-predictive
vector quantiser technique that outperforms previously
reported schemes is proposed and assessed under noise-free
and noisy channels. Efficient detectors for the pitch
period and fricative and stop sounds are examined and
adapted to the proposed coder. Low bit rate excitation
methods are investigated in order to reproduce rather high
quality speech. A mixed multiband excitation approach with
three sub-bands is employed to encode voiced frames. For
unvoiced frames, fricatives and stops modelling and
synthesis techniques are used. This approach has shown to
provide high quality synthesised speech, whilts it reduces
the bit rate to only 0.4 Kb/s for unvoiced frames. To
reduce coding noise and improve decoded speech, post-
filtering techniques are analysed and compared on the same
plataform. To reduce background noise, noise suppression
methods are also examined. Finally, the propose coder is
evaluated against the North American Mixed Prediction
(MELP) coder, through A/B comparison tests. Assessment
results have shown that the proposed system, operating at
1.2 Kb/s, slightly outperformed the MELP coder, operating
at 2.4 Kb/s. For tandem connection situations, the proposed
algorithm has presented a superior performance than the
MELP coder. / [es] Esta disertación propone algoritmos para codificaciones de voz a tasas medias en torno de 1,2 Kb/s.
Se propone un esquema de cuantización vectorial predictiva, con desempeño superior a los
esquemas previamente descritos en la literatura. Este esquema se evalúa en canal con o sin ruido. Se
examinan detectores eficientes de período fundamental y de sueños oclusivos y fricativos se adaptan
al codificador propuesto. Técnicas de exitación a bajas tasas de bits son investigadas a fin de
reproducir una boa calidad de voz decodificada. Se adopta el modelo de exitación mixta en
multi-bandas con tres sub-bandas para codificar los cuadros sonoros. Para los cuadros surdos se
emplean técnicas de modelación y síntesis de señales fricativos y oclusivos, capaces de ofrecer
calidad de voz satisfactoria, reduciendo la tasa de bits de estos cuadros para apenas 0,4 Kb/s.
También se examinan y se comparan las técnicas de pós-filtragen para reducir el ruido de
codificación y mejorar la calidad de voz reconstruída. Para reducir el nível de ruído ambiente se
analizan métodos de supresión de ruido. Finalmente, el codificador propuesto se compara al padrón
norteamericano Mixed Excitation Lineal Prediction (MELP), por medio de pruebas de comparación
del tipo LA/B. Las pruebas realizadas indican que el sistema propuesto, operando a 1,2 Kb/s, presenta
calidad de voz ligeramente superior al MELP, operando a 2,4 Kb/s. Para situaciones de
transcodificación, el codificador propuesto también presenta desempeño superior al MELP.

[pt] CODIFICACAO DE VOZ

[en] SPEECH CODING

[pt] BAIXAS TAXAS DE BITS

[en] LOW BIT RATE

[pt] PARAMETROS LSF

[en] LSF PARAMETERS

[pt] QUANTIZACAO VETORIAL

[en] VECTOR QUANTISATION

[pt] TECNICAS DE EXCITACAO

[en] EXCITATION TECHNIQUES

[pt] AVALIACAO DE QUALIDADE SUBJETIVA

[en] SUBJECTIVE QUALITY EVALUATION

Identifer	oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:1873
Date	21 August 2001
Creators	RODRIGO CAIADO DE LAMARE
Contributors	ABRAHAM ALCAIM
Publisher	MAXWELL
Source Sets	PUC Rio
Language	Portuguese
Detected Language	Portuguese
Type	TEXTO

Page generated in 0.0032 seconds

[en] SPEECH CODING AT AVERAGE RATES BELOW 2KB/S / [es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S / [pt] CODIFICAÇÃO DE VOZ A TAXAS MÉDIAS ABAIXO DE 2 KB/S

Description

Links & Downloads

Tags

Additional Fields