Return to search

Speech Intelligibility in Radio Broadcasts : A Case Study Using Dynamic Range Control and Blind Source Separation

Creating the optimal balance between dialogue level and ambient sound is extremely important in media productions. This process is however inherently difficult due to that people’s requirements and preferences are not uniform. Speech intelligibility is affected by a multitude of factors, such as hearing impairments, audio quality and listening equipment. Recent EU directives on accessibility calls for improved audio clarity features for broadcast content. To accommodate these requirements, the broadcast industry needs to develop functionality for enhanced dialogue clarity and, optimally, put listeners in control of these features. Many speech enhancement techniques exist, this paper uses Sveriges Radio as a case study to evaluate several of these methods. A study on enhancing speech intelligibility through the use of dynamic range control and blind source separation is presented and results show that both methods can have a positive impact. Dynamic range control proves efficient in increasing intelligibility by reducing dynamic variations. It is also well suited to implement in an existing two-channel infrastructure, common in the radio industry, due to being included in novel audio codecs. Blind source separation is found to best be used in moderation due to the risk of audio quality degradation, and is primarily suited for prerecorded material on account of the processing time needed. / Att skapa en optimal balans mellan dialognivå och bakgrundsljud är oerhört viktigt i medieproduktioner. Detta är dock i sig komplicerat på grund av människors olika förutsättningar och preferenser. Taluppfattbarheten påverkas av en mängd faktorer, såsom hörselnedsättningar, ljudkvalitet och lyssningsutrustning. Nya EU-direktiv om tillgänglighet ställer krav på förbättrade funktioner för ljudtydlighet i etermedia. För att tillgodose dessa krav behöver branschen utveckla funktionalitet för ökad dialogtydlighet och företrädesvis också stöd för att lyssnarna själva ska kunna styra dessa funktioner. Det finns många tekniker för att öka taluppfattbarheten, denna artikel använder Sveriges Radio som fallstudie för att utvärdera flera av dessa metoder. En studie om möjligheten till förbättrad taluppfattbarhet genom kontroll av ljudets dynamik (dynamic range control) och blindkallseparation (blind source separation) presenteras, och resultaten visar att båda metoderna kan ha en positiv inverkan. Dynamisk kontroll visar sig vara effektiv för att öka taluppfattbarheten genom att jämna ut dynamiskt innehåll. Tekniken lämpar sig också bra för implementering i en befintlig tvåkanals-infrastruktur, vilket är vanligt inom radioindustrin, på grund av att den inkluderas i nya ljud-kodekar. Blindkallseparation används bäst med måtta på grund av risk for ljudkvalitetsförsämring och är i första hand lämpad för förinspelat material på grund av den processeringstid som behövs.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-311989
Date January 2022
CreatorsLinder Nilsson, Martin
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:78

Page generated in 0.0021 seconds