Return to search

Room Impulse Response Interpolation / Interpolation av impulssvar från rum

In Virtual Reality (VR) systems, the incorporation of acoustics allows for the generation of audio-visual stimuli, facilitating applications in engineering, architecture, and design. The goal of virtual acoustics is to create a realistic sound field in continuous space. Realistic virtual acoustic environments can be produced with wave-based acoustic simulations. However, rendering a sound field with a dense grid of room impulse responses (RIRs) in real-time is slow and memory-intensive. Conventionally, a more sparsely spaced grid of RIRs is used and as a workaround linear interpolation between the nearest RIRs is performed, allowing users to listen at an arbitrary location. However, the linear interpolation method reduces the quality of the sound field as it does not produce natural-sounding RIRs. The aim of this thesis is therefore to answer the question of whether we are able to achieve a better interpolation technique than linear interpolation using a machine learning approach. In this thesis, we present a novel neural network-based method for interpolating between Room Impulse Responses (RIRs). The networks were trained using RIRs from a wave-based simulation of a single 3D room and developed through a series of experiments. The experimental process was performed in three distinct stages. Firstly, we explored various representations of the RIRs: unprocessed RIRs, Short-time Fourier transform (STFT) of RIRs, and encoded STFT of the RIRs using an autoencoder. Secondly, we examined several different neural network architectures: Multi-layer perception, residual neural network, autoencoder, and U-Net. Additionally, we experimented with training the networks in a Generative Adversary Network (GAN) setting. Thirdly, we experimented with different sizes of the best-performing architecture. Results show that using an STFT representation of the RIRs combined with a residual neural network architecture yielded the most optimal results. Furthermore, we were able to outperform the established linear interpolation baseline. / Inom Virtuell Verklighet (VR) möjliggör användningen av akustik skapandet av audiovisuell stimuli, vilket underlättar tillämpningar inom ingenjörsvetenskap, arkitektur och design. Målet med virtuell akustik är att skapa ett verklighetstroget och kontinuerligt ljudfält. Verklighetstrogna virtuella akustiska miljöer kan skapas med hjälp av vågbaserade akustiska simuleringar. Men att återge ett ljudfält med ett tätt rutnät av Room Impulse Responses (RIRs) i realtid är långsamt och minneskrävande. Konventionellt används ett rutnät med glesare avstånd av RIR, och som en lösning utförs linjär interpolation mellan de närmaste RIR:erna, vilket tillåter användare att lyssna på en godtycklig plats. Den linjära interpolationen minskar dock kvaliteten på ljudfältet eftersom den inte producerar naturligt ljudande RIR:er. Syftet med detta examensarbete är därför att besvara frågan om vi kan finna en bättre interpolationsteknik än linjär interpolation med hjälp av en maskininlärningsmetod. I detta examensarbete presenterar vi en ny metod för interpolering mellan Room Impulse Responses (RIR:er) baserad på neurala nätverk. De neurala nätverken tränades med hjälp av RIR:er från en vågbaserad simulering av ett enskilt 3D-rum och utvecklades genom en serie experiment. Experimenten utfördes i tre steg. Först undersöktes olika representationer av RIR:er: obearbetade RIR:er, korttids fouriertransform (STFT) av RIR:er och kodade STFT av RIR:er med hjälp av en autoencoder. Det andra steget innefattade undersökningen av flera olika neurala nätverksarkitekturer: Multi-layer perception, residual neural network, autoencoder och U-Net. Dessutom experimenterade vi med att träna nätverken i en GAN-miljö (Generative Adversary Network). I det tredje steget experimenterade vi med olika storlekar på den mest effektiva arkitekturen. Resultaten visar att användning av en STFT-representation av RIR:er kombinerat med en residual neural nätverksarkitektur resulterade i de mest optimala resultaten. Dessutom kunde vi överträffa den etablerade linjära interpolationsbaslinjen.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-339898
Date January 2023
CreatorsThor Wilcox, Daníel
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:754

Page generated in 0.0025 seconds