Global ETD Search

Return to search

Perceptually meaningful time and frequency resolution in applying dialogue enhancement in noisy environments : Dialogue Enhancement research

Dialogue Enhancement (DE) is a process used in audio delivery systems to improve the clarity, intelligibility, and overall quality of the spoken dialogue in audio content. It is primarily used when dialogue is masked by music, surrounding noise, or other audio sources. This thesis project involves experiments to find the optimal time and frequency resolution needed for a DE system. The time resolution focuses on experimenting with various attack/release times for a DE system. The frequency domain analysis investigates whether people prefer a noise spectrum-dependent gain over a conventional full-band gain. The research methodology comprises three main parts. The first part focuses on system setup and choosing content/vectors to be used for the experiments. Next, the experiments are designed for time and frequency resolution. An exponential smoothing model is used to amplify/attenuate the dialogue stream at various times of attack/release. For the frequency counterpart, a banded gain model is designed which uses banded noise levels as input. Subsequently, a modified subjective listening test is designed to evaluate the experiments designed. The responses recorded for various types of content-noise combinations from the listeners are recorded and analyzed. Finally, the main outcome of this research emphasizes the advantages of a DE system. Further, it paves the way for further exploration of DE models and rigorous testing schemes with expert listeners. / Dialogue Enhancement (DE) är en process som används i ljudleveranssystem för att förbättra tydligheten, förståeligheten och den övergripande kvaliteten på den talade dialogen i ljudinnehåll. Det används främst när dialog maskeras av musik, omgivande brus eller andra ljudkällor. Detta examensarbete omfattar experiment för att hitta den optimala tids- och frekvensupplösningen för ett DEsystem. Tidsupplösningsexperimenten fokuserar på olika attack- och releasetider för ett DE-system. Frekvensdomänanalysen undersöker om människor föredrar en brusspektrumberoende förstärkning framför en konventionell fullbandsförstärkning. Forskningsmetodiken består av tre huvuddelar. Den första delen fokuserar på systeminställning och val av innehåll/vektorer som ska användas för experimenten. Därefter designas tids- och frekvensupplösningsexperimenten. En exponentiell tidsenvelopp används för att förstärka/dämpa dialogen vid olika tider för attack/release. För frekvensdomänexperimenten används en bandad förstärkningsmodell som använder bandade brusnivåer som insignal. I den tredje delen utformas ett subjektivt lyssningstest för att utvärdera experimenten. Lyssnarnas svar för olika typer av innehåll-bruskombinationer registreras och analyseras. Det huvudsakliga resultatet av denna forskning betonar fördelarna med ett DEsystem. Vidare banar det väg för utforskning av fler DE-modeller och rigorösa testscheman med expertlyssnare.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-343146

Dialogue enhancement

audio signal processing

Fourier transform

time constants

environmental noise analysis

noise compensation

subjective listening test

speech intelligibility

quality of experience

subjektivt lyssnande test

taluppfattbarhet

upplevelsekvalitet

lyssnaransträngning

Computer and Information Sciences

Data- och informationsvetenskap

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-343146
Date	January 2023
Creators	PATIL, SUSHANTH
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2023:849

Page generated in 0.0029 seconds

Perceptually meaningful time and frequency resolution in applying dialogue enhancement in noisy environments : Dialogue Enhancement research

Description

Links & Downloads

Tags

Additional Fields