Return to search

Model-based synthesis of singing / Modellbaserad syntes av sång

The legacy KTH Music and Singing Synthesis Equipment (MUSSE) system, developed decades ago, is no longer compatible with contemporary computer systems. Nonetheless, the fundamental synthesis model at its core, known as the source-filter model, continues to be a valuable technology in the research field of voice synthesis. In this thesis, the author re-implemented the legacy system with the traditional source-filter model and the modern platform SuperCollider. This re-implementation led to great enhancements in functionality, flexibility and performance. The most noteworthy improvement introduced in the new system is the addition of notch filters, which is able to simulate anti-resonances in the human vocal tract, thereby allowing a broader range of vocal nuances to be reproduced. To demonstrate the significance of notches in vowel synthesis, a subjective auditory experiment was conducted. The results of this experiment clearly show that vowels synthesized with notches sound much more natural and closer to real human voice. The work presented in this thesis, the new MUSSE program with notch filters, will serve as a foundation to support general acoustics research at TMH in the future. / Den äldre KTH Music and Singing Synthesis Equipment (MUSSE) -systemet, som utvecklades för decennier sedan, är inte längre kompatibelt med samtida datorsystem. Trots det fortsätter den grundläggande syntesmodellen vid dess kärna, känd som källa-filtermodellen, att vara en värdefull teknik inom forskningsområdet för röstsyntes. I den här avhandlingen har författaren återimplementerat det äldre systemet med den traditionella källa-filtermodellen och den moderna plattformen SuperCollider. Denna återimplementering ledde till betydande förbättringar i funktionalitet, flexibilitet och prestanda. Den mest anmärkningsvärda förbättringen som infördes i det nya systemet är tillägget av notch-filter, som kan simulera anti-resonanser i den mänskliga röstkanalen och därmed möjliggöra en bredare uppsättning vokala nyanser att återskapas. För att visa betydelsen av notch-filter i vokalsyntes utfördes en subjektiv auditiv undersökning. Resultaten av denna undersökning visar tydligt att vokaler som syntetiseras med notch-filter låter mycket mer naturliga och liknar den verkliga mänskliga rösten. Arbetet som presenteras i denna avhandling, det nya MUSSE-programmet med notch-filter, kommer att fungera som en grund för att stödja allmän akustikforskning vid TMH i framtiden.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-334776
Date January 2023
CreatorsZeng, Xiaofeng
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:436

Page generated in 0.0019 seconds