Return to search

Perceptually meaningful time and frequency resolution in applying dialogue enhancement in noisy environments : Dialogue Enhancement research

Dialogue Enhancement (DE) is a process used in audio delivery systems to improve the clarity, intelligibility, and overall quality of the spoken dialogue in audio content. It is primarily used when dialogue is masked by music, surrounding noise, or other audio sources. This thesis project involves experiments to find the optimal time and frequency resolution needed for a DE system. The time resolution focuses on experimenting with various attack/release times for a DE system. The frequency domain analysis investigates whether people prefer a noise spectrum-dependent gain over a conventional full-band gain. The research methodology comprises three main parts. The first part focuses on system setup and choosing content/vectors to be used for the experiments. Next, the experiments are designed for time and frequency resolution. An exponential smoothing model is used to amplify/attenuate the dialogue stream at various times of attack/release. For the frequency counterpart, a banded gain model is designed which uses banded noise levels as input. Subsequently, a modified subjective listening test is designed to evaluate the experiments designed. The responses recorded for various types of content-noise combinations from the listeners are recorded and analyzed. Finally, the main outcome of this research emphasizes the advantages of a DE system. Further, it paves the way for further exploration of DE models and rigorous testing schemes with expert listeners. / Dialogue Enhancement (DE) är en process som används i ljudleveranssystem för att förbättra tydligheten, förståeligheten och den övergripande kvaliteten på den talade dialogen i ljudinnehåll. Det används främst när dialog maskeras av musik, omgivande brus eller andra ljudkällor. Detta examensarbete omfattar experiment för att hitta den optimala tids- och frekvensupplösningen för ett DEsystem. Tidsupplösningsexperimenten fokuserar på olika attack- och releasetider för ett DE-system. Frekvensdomänanalysen undersöker om människor föredrar en brusspektrumberoende förstärkning framför en konventionell fullbandsförstärkning. Forskningsmetodiken består av tre huvuddelar. Den första delen fokuserar på systeminställning och val av innehåll/vektorer som ska användas för experimenten. Därefter designas tids- och frekvensupplösningsexperimenten. En exponentiell tidsenvelopp används för att förstärka/dämpa dialogen vid olika tider för attack/release. För frekvensdomänexperimenten används en bandad förstärkningsmodell som använder bandade brusnivåer som insignal. I den tredje delen utformas ett subjektivt lyssningstest för att utvärdera experimenten. Lyssnarnas svar för olika typer av innehåll-bruskombinationer registreras och analyseras. Det huvudsakliga resultatet av denna forskning betonar fördelarna med ett DEsystem. Vidare banar det väg för utforskning av fler DE-modeller och rigorösa testscheman med expertlyssnare.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-343146
Date January 2023
CreatorsPATIL, SUSHANTH
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:849

Page generated in 0.0014 seconds