Talesyntese er en teknologi som søker å omdanne skreven tekst til naturlig tale. Arbeidet i denne masteroppgaven har tatt utgangspunkt i resultatene fra FONEMA-prosjektet, et samarbeid mellom NTNU og Telenor. Dette prosjektet har produsert verktøy og metoder for å kunne utføre høykvalitets norsk talesyntese, men det er ønske om å forbedre ytelsen til disse systemene. Denne masteroppgaven har fokusert på to punkter i den forbindelse: effektivisering av syntesedatabase og forbedring av kvalitet for syntetisert stemme. TTS-systemet som har blitt brukt i denne masteroppgaven utfører talesyntese ved hjelp av teknikken skjøtesyntese. Dette krever en stor syntesedatabase bestående av en stor mengde lydklipp med innlest tale. Systemet henter så ut biter av disse lydklippene og setter de sammen for å syntetisere en vilkårlig setning. Syntesedatabasen som har blitt brukt inneholder opprinnelig 5.363 lydklipp, og i en omfattende analyse av ble det avdekket en klar skjevhet i hvor ofte de forskjellige lydklippene faktisk ble benyttet til syntetisering. På bakgrunn av analyseresultatene har det blitt utviklet to nye syntesedatabaser som kun inneholder 90 % av lydklippene fra den opprinnelige syntesedatabasen, mens de 10 % minst brukte ytringene er tatt vekk. Til tross for reduksjonen, viser objektive og subjektive tester at ytelsen er like god for alle de tre syntesedatabasene. Det er ingen markant forskjell på databasenes difondekning eller hvilke setninger som kan syntetiseres, og den produserte talen er i stor grad av samme kvalitet. Det opprinnelige TTS-systemet produserer i stor grad tale av god kvalitet, men håndterer ikke situasjoner hvor en ytring med difoner som ikke eksisterer i syntesedatabasen forsøkes syntetisert. Resultatet er at ingen deler av en slik ytring lar seg syntetisere. Det har derfor blitt utviklet et sett med substitusjons- og omskrivningsregler for å endre om på den fonemiske transkripsjonen til ytringene dette gjelder. Tanken er å bytte ut et difon med et annet som høres tilnærmet likt ut, men som også er representert i syntesedatabasen. Arbeidet har resultert i at alle setninger lot seg syntetisere under testing av systemet. I tillegg er den produserte talen i stor grad av god eller akseptabel kvalitet.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:ntnu-10556 |
Date | January 2009 |
Creators | Bauck, Rasmus Rane |
Publisher | Norges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjon, Institutt for elektronikk og telekommunikasjon |
Source Sets | DiVA Archive at Upsalla University |
Language | Norwegian |
Detected Language | Norwegian |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0014 seconds