Global ETD Search

Return to search

Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio / Convolutional neural networks applied to the emulation of the psychoacoustic model for MPEG-1, Layer I audio signal encoders

Solicitud de envío manuscrito de artículo científico. / El presente trabajo propone 4 alternativas de codificadores inspirados en el codificador MPEG-1, capa I, descrito en el estándar ISO/IEC 11172-3. El problema que se intenta resolver es el de requerir definir un modelo psicoacústico explícitamente para lograr codificar audio, reemplazándolo por redes neuronales. Todas las alternativas de codificador están basadas en redes neuronales convolucionales multiescala (MCNN) que emulan el modelo psicoacústico 1 del codificador mencionado. Las redes tienen 32 entradas que corresponden a las 32 subbandas del nivel de presión sonora (SPL – sound pressure level), y una única salida que corresponde a una de las 32 subbandas de o bien la relación señal a máscara (SMR) o bien el vector de asignación de bits. Es decir, un codificador está compuesto de un conjunto de 32 redes neuronales. La validación empleó los 10 primeros segundos de 15 canciones elegidas aleatoriamente de 10 géneros musicales distintos. Se comparó la calidad de las señales de audio generadas por cada codificador contra la de MPEG-1, capa I, mediante la métrica de ODG. El codificador cuya entrada es el SPL y cuya salida es la SMR, planteado por Guillermo Kemper, obtuvo los mejores resultados al realizar la comparación para 96 kbps y 192 kbps. El codificador denominado “SBU1” obtuvo los mejores resultados para 128 kbps. / The present work proposes 4 encoder alternatives, inspired in the MPEG-1, layer I encoder described in the ISO/IEC 11172-3 standard. The problem addressed here is the requirement of explicitly defining a psychoacoustic model to code audio, instead replacing it by neural networks. All the proposals are based on multiscale convolutional neural networks (MCNN) that emulate the psychoacoustic model 1 of the referred encoder. The networks have 32 inputs that map the 32 subbands of the sound pressure level (SPL), and a single output that corresponds to each of the 32 subbands of either the signal-to-mask ratio (SMR) or the bit allocation vector. Thus, an encoder is composed of a set of 32 neural networks. The validation process took the first 10 seconds of 15 randomly chosen songs of 10 different musical genres. The audio signal quality of the proposed encoders was compared to that of the MPEG-1, layer I encoder, using the ODG metric. The encoder whose input is the SPL and whose output is the SMR, proposed by Guillermo Kemper, yielded the best results for 96 kbps and 192 kbps. The encoder named “SBU1” had the best results for 128 kbps. / Tesis

Modelo psicoacústico

Redes neuronales

Señales de audio

Nivel de presión sonora

Encoder

Multiscale convolutional neural networks

Audio signal

Sound pressure level

Identifer	oai:union.ndltd.org:PERUUPC/oai:repositorioacademico.upc.edu.pe:10757/652711
Date	26 August 2020
Creators	Sanchez Huapaya, Alonso Sebastián, Serpa Pinillos, Sergio André
Contributors	Kemper Vásquez, Guillermo Leopoldo
Publisher	Universidad Peruana de Ciencias Aplicadas (UPC), PE
Source Sets	Universidad Peruana de Ciencias Aplicadas (UPC)
Language	Spanish
Detected Language	English
Type	info:eu-repo/semantics/bachelorThesis
Format	application/pdf, application/epub, application/msword
Source	Universidad Peruana de Ciencias Aplicadas (UPC), Repositorio Académico - UPC
Rights	info:eu-repo/semantics/embargoedAccess, Attribution-NonCommercial-ShareAlike 4.0 International, http://creativecommons.org/licenses/by-nc-sa/4.0/

Page generated in 0.0025 seconds

Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio / Convolutional neural networks applied to the emulation of the psychoacoustic model for MPEG-1, Layer I audio signal encoders

Description

Links & Downloads

Tags

Additional Fields