1 |
[en] QUALITY ENHANCEMENT OF HIGHLY DEGRADED MUSIC USING DEEP LEARNING-BASED PREDICTION MODELS / [pt] RECONSTRUÇÃO DE MÚSICAS ALTAMENTE DEGRADADAS USANDO MODELOS DE APRENDIZADO PROFUNDOARTHUR COSTA SERRA 21 October 2022 (has links)
[pt] A degradação da qualidade do áudio pode ter muitas causas. Para
aplicações musicais, esta fragmentação pode levar a experiências altamente
desagradáveis. Algoritmos de restauração podem ser empregados para
reconstruir partes do áudio de forma semelhante à reconstrução da imagem,
em uma abordagem chamada Audio Inpainting. Os métodos atuais de
última geração para Audio Inpainting cobrem cenários limitados, com janelas
de intervalo bem definidas e pouca variedade de gêneros musicais. Neste
trabalho, propomos um método baseado em aprendizado profundo para
Audio Inpainting acompanhado por um conjunto de dados com condições de
fragmentação aleatórias que se aproximam de situações reais de deficiência.
O conjunto de dados foi coletado utilizando faixas de diferentes gêneros
musicais, o que proporciona uma boa variabilidade de sinal. Nosso melhor
modelo melhorou a qualidade de todos os gêneros musicais, obtendo uma
média de 13,1 dB de PSNR, embora tenha funcionado melhor para gêneros
musicais nos quais os instrumentos acústicos são predominantes. / [en] Audio quality degradation can have many causes. For musical
applications, this fragmentation may lead to highly unpleasant experiences.
Restoration algorithms may be employed to reconstruct missing parts of
the audio in a similar way as for image reconstruction - in an approach
called audio inpainting. Current state-of-theart methods for audio inpainting
cover limited scenarios, with well-defined gap windows and little variety
of musical genres. In this work, we propose a Deep-Learning-based (DLbased)
method for audio inpainting accompanied by a dataset with random
fragmentation conditions that approximate real impairment situations. The
dataset was collected using tracks from different music genres to provide a
good signal variability. Our best model improved the quality of all musical
genres, obtaining an average of 13.1 dB of PSNR, although it worked better
for musical genres in which acoustic instruments are predominant.
|
2 |
ARMAS: Active Reconstruction of Missing Audio SegmentsPokharel, Sachin, Ali, Muhammad January 2021 (has links)
Background: Audio signal reconstruction using machine/deep learning algorithms has been explored much more in the recent years, and it has many applications in digital signal processing. There are many research works on audio reconstruction with linear interpolation, phase coding, tone insertion techniques combined with AI models. However, there is no research work on reconstructing audio signals with the fusion of Steganoflage (an adaptive approach to image steganography) and AI models. Thus, in our thesis work, we focus on audio reconstruction combining Steganoflage and AI models. Objectives: This thesis aims to explore the possible enhancement of audio reconstruction using machine/deep learning models fusing Steganoflage technique. Furthermore, the suitable models implemented with the fusion of Steganoflage are analyzed and compared based on the performance metrics. Methods: We have conducted a systematic literature review followed by an experiment method to answer our research questions. The models implemented in the thesis are the results from a systematic literature review (SLR). In the experiments, we have fused the RF (Random Forest), SVR (Support Vector Regression), and LSTM (Long Short-Term Memory) models with Steganoflage for possible enhancement of reconstruction of lost audio signals. Then, the models were trained to estimate the possible approximate reconstructed signals. Finally, we observed the performance of the models and compared the reconstructed audio signals with the original signals (ground-truth) with four different performance metrics: Pearson linear correlation, PSNR, WPSNR, and SSIM. Results: The results from the SLR show that for machine learning models, RF and SVR models were mainly used for signals reconstructions and works well with time-series data. For deep learning models, recurrent neural network LSTM was the first choice as the survey of literature demonstrated that the model is suitable for time series forecasting. From the experiments, we found that the performance of LSTM model was better than RF and SVR models. Moreover, the reconstruction of audio signals from dropped short single region was better than that for multiple regions. Conclusions: We conclude that the Steganoflage, when fused with machine/deep learning models, enhances the lost audio signal reconstruction. Moreover, we also conclude that the LSTM model is more accurate than RF and SVR models in reconstructing the lost audio signals for a single drop region on both short and long gaps. However, we also observed that the audio reconstruction for multiple drops needs improvements considering long gaps. Furthermore, improvements can be made by exploring newer AI methods/optimization to enhance the reconstructed audio signals.
|
3 |
Doplňování chybějících vzorků v audio signálu / Inpainting of Missing Audio Signal SamplesMach, Václav January 2016 (has links)
V oblasti zpracování signálů se v současné době čím dál více využívají tzv. řídké reprezentace signálů, tzn. že daný signál je možné vyjádřit přesně či velmi dobře aproximovat lineární kombinací velmi malého počtu vektorů ze zvoleného reprezentačního systému. Tato práce se zabývá využitím řídkých reprezentací pro rekonstrukci poškozených zvukových záznamů, ať už historických nebo nově vzniklých. Především historické zvukové nahrávky trpí zarušením jako praskání nebo šum. Krátkodobé poškození zvukových nahrávek bylo doposud řešeno interpolačními technikami, zejména pomocí autoregresního modelování. V nedávné době byl představen algoritmus s názvem Audio Inpainting, který řeší doplňování chybějících vzorků ve zvukovém signálu pomocí řídkých reprezentací. Zmíněný algoritmus využívá tzv. hladové algoritmy pro řešení optimalizačních úloh. Cílem této práce je porovnání dosavadních interpolačních metod s technikou Audio Inpaintingu. Navíc, k řešení optimalizačních úloh jsou využívány algoritmy založené na l1-relaxaci, a to jak ve formě analyzujícího, tak i syntetizujícího modelu. Především se jedná o proximální algoritmy. Tyto algoritmy pracují jak s jednotlivými koeficienty samostatně, tak s koeficienty v závislosti na jejich okolí, tzv. strukturovaná řídkost. Strukturovaná řídkost je dále využita taky pro odšumování zvukových nahrávek. Jednotlivé algoritmy jsou v praktické části zhodnoceny z hlediska nastavení parametrů pro optimální poměr rekonstrukce vs. výpočetní čas. Všechny algoritmy popsané v práci jsou na praktických příkladech porovnány pomocí objektivních metod odstupu signálu od šumu (SNR) a PEMO-Q. Na závěr je úspěšnost rekonstrukce poškozených zvukových signálů vyhodnocena.
|
4 |
Doplňování chybějících dat ve zvukových signálech / Audio inpainting algorithmsBartlová, Hana January 2015 (has links)
This thesis deals with audio inpainting problem. Firstly, basic concepts are summarized. Then, sparse representation of signals is introduced along with several algorithms. In the main part dedicated to the audio inpainting, the problem is defined and actual methods are presented and compared. The newest approach using the harmonic strucure of sound signals is then introduced, followed by several experiments and evaluation. Lastly, an algorithm ensuring the maximal computational efficiency is derived.
|
5 |
Algoritmy doplňování chybějících dat v audiosignálech / Audio inpainting algorithmsKolbábková, Anežka January 2014 (has links)
Tato práce se zabývá doplňováním chybějících dat do audio signálů a algoritmy řešícími problém založenými na řídké reprezentaci audio signálu. Práce se zaměřuje na některé algoritmy, které řeší doplňování chybějících dat do audio signálů pomocí řídké reprezentace signálů. Součástí práce je také návrh algoritmu, který používá řídkou reprezentaci signálu a také nízkou hodnost signálu ve spektrogramu audio signálu. Dále práce uvádí implementaci tohoto algoritmu v programu Matlab a jeho vyhodnocení.
|
Page generated in 0.0671 seconds