Return to search

Forbedret naturlighet i HMM-drevet talesyntese / Improving naturalness in HMM based speech synthesis

<p>I denne masteroppgaven har en sett på hvordan en kan forbedre naturligheten i en norsk stemme basert på skjulte Markovmodeller. HMMmodeller har en bra egenskap til å modellere godt de variasjoner som finnes i et talesignal. Det er blitt tatt utgangspunkt i en basisversjon av norsk HMM-basert talesyntese hvor en kan syntetisere norsk tale fra trente HMMer. Det er gitt en teoretisk beskrivelse av et system for HMM-basert talesyntese (HTS-system). I treningsdelen blir spektrum og eksitasjonsparametere trukket ut fra taledatabasen og modellert av kontekstavhengige HMMer. I syntesedelen skjøtes kontekstavhengige HMMer sammen i henhold til den teksten som skal syntetiseres. Taleparametrene inneholdt i HMMmodellene brukes til å styre en signalkilde og et MLSA-filter som syntetiserer tale i henhold til parametersekvensen. Kvaliteten på den norske stemmen generert med basisversjonen av HTS-systemet, har en ”vokodet” klang. En årsak til denne klangen kan være at det brukes en svært enkel signalkilde, som enten genererer stemt lyd eller ustemt lyd når talesignalet genereres. Stemmen i basisversjonen hadde og en unaturlig setningsmelodi som det var ønskelig å forbedre. Norsk er et tonespråk. Det vil si at tonen varieres slik at samme ord får ulik betydning alt ettersom hvilken ordtone (tonem) ordet uttales med. Et eksempel på ordpar med tonemkontraster er: bade - badet. Denne karakteristiske egenskapen er implementert i systemet i den hensikt å forbedre naturligheten i talen. To blandede eksitasjonsmodeller er blitt studert, Harmonic plus Noise Model (HNM) og STRAIGHT, i den hensikt å redusere den ”vokodete” klangen på talen. STRAIGHT er modellen som er implementert i denne masteroppgaven. STRAIGHT ekstraherer kontinuerlige og jevne fundamentalfrekvenskurver fra taledatabasen. Systemet bruker en pitsj-adaptiv metode i spektralanalysen og oppnår et glattet spektrogram uten spor av signalperiodisitet. Disse metodene gjør at STRAIGHT kan resyntetisere svært naturlig og forstålig tale. To norske HTS-stemmer med forbedret naturlighet er blitt konfigurert i det generelle tekst-til-tale systemet Festival. Festival gjør det mulig å syntetisere en hvilken som helst norsk setning. Disse setningene er syntetisert med den gamle signalkilden, men det er blitt lagt til tonelag i begge stemmene, og den ene er trent med f0-kurver ekstrahert fra STRAIGHT. Arbeidet med å lage en HTS-stemme basert på taleparametere fra STRAIGHT-modellen, førte ikke frem da tiden ikke strakk til. Stemmen er blitt trent av HTS-systemet og det er blitt generert parametersekvenser STRAIGHT kan lese inn for syntese. Det som gjenstår er selve syntetiseringen. Evaluering av stemmene med hensyn på naturlighet, viser at HTS-stemmen trent med f0-kurver fra STRAIGHT og tonelag, er den stemmen som oppnådde størst naturlighet. HTS-systemet er et svært fleksibelt system som har lite ”fotavtrykk” og er attraktiv i anvendelser av små enheter som har begrenset med lagringsplass og beregningskraft, som f.eks mobiltelefoner og PDAer.</p>

Identiferoai:union.ndltd.org:UPSALLA/oai:DiVA.org:ntnu-10262
Date January 2006
CreatorsMølmen, Lene
PublisherNorwegian University of Science and Technology, Department of Electronics and Telecommunications, Institutt for elektronikk og telekommunikasjon
Source SetsDiVA Archive at Upsalla University
LanguageNorwegian
Detected LanguageNorwegian
TypeStudent thesis, text

Page generated in 0.0098 seconds