Return to search

Høykvalitets norsk talesyntese / High Quality Norwegian Speech Synthesis

Talesyntese er en teknologi som søker å omdanne skreven tekst til naturlig tale. Arbeidet i denne masteroppgaven har tatt utgangspunkt i resultatene fra FONEMA-prosjektet, et samarbeid mellom NTNU og Telenor. Dette prosjektet har produsert verktøy og metoder for å kunne utføre høykvalitets norsk talesyntese, men det er ønske om å forbedre ytelsen til disse systemene. Denne masteroppgaven har fokusert på to punkter i den forbindelse: effektivisering av syntesedatabase og forbedring av kvalitet for syntetisert stemme. TTS-systemet som har blitt brukt i denne masteroppgaven utfører talesyntese ved hjelp av teknikken skjøtesyntese. Dette krever en stor syntesedatabase bestående av en stor mengde lydklipp med innlest tale. Systemet henter så ut biter av disse lydklippene og setter de sammen for å syntetisere en vilkårlig setning. Syntesedatabasen som har blitt brukt inneholder opprinnelig 5.363 lydklipp, og i en omfattende analyse av ble det avdekket en klar skjevhet i hvor ofte de forskjellige lydklippene faktisk ble benyttet til syntetisering. På bakgrunn av analyseresultatene har det blitt utviklet to nye syntesedatabaser som kun inneholder 90 % av lydklippene fra den opprinnelige syntesedatabasen, mens de 10 % minst brukte ytringene er tatt vekk. Til tross for reduksjonen, viser objektive og subjektive tester at ytelsen er like god for alle de tre syntesedatabasene. Det er ingen markant forskjell på databasenes difondekning eller hvilke setninger som kan syntetiseres, og den produserte talen er i stor grad av samme kvalitet. Det opprinnelige TTS-systemet produserer i stor grad tale av god kvalitet, men håndterer ikke situasjoner hvor en ytring med difoner som ikke eksisterer i syntesedatabasen forsøkes syntetisert. Resultatet er at ingen deler av en slik ytring lar seg syntetisere. Det har derfor blitt utviklet et sett med substitusjons- og omskrivningsregler for å endre om på den fonemiske transkripsjonen til ytringene dette gjelder. Tanken er å bytte ut et difon med et annet som høres tilnærmet likt ut, men som også er representert i syntesedatabasen. Arbeidet har resultert i at alle setninger lot seg syntetisere under testing av systemet. I tillegg er den produserte talen i stor grad av god eller akseptabel kvalitet.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:ntnu-10556
Date January 2009
CreatorsBauck, Rasmus Rane
PublisherNorges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjon, Institutt for elektronikk og telekommunikasjon
Source SetsDiVA Archive at Upsalla University
LanguageNorwegian
Detected LanguageNorwegian
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0014 seconds