Text-till-talsynteser (eng. Text-to-speech, TTS), med andra ord digitalt skapade röster, har blivit en naturlig del av våra dagliga liv. Vi hör dem i kollektivtrafiken, när vi interagerar med digitala assistenter och när människor som saknar en egen röst använder dem för att kommunicera. Dessa artificiella röster har, precis som riktiga röster, olika egenskaper som påverkar hur de låter och uppfattas. Det är därför intressant att förstå vilka TTS-synteser som användare föredrar i olika sammanhang. I denna studie undersöktes huruvida det finns en preferens för olika kön hos instruerande TTS-synteser. I studien fick 46 deltagare spela ett spel där målet var att fullfölja ett antal upplästa instruktioner genom olika knapptryck på skärmen. Spelet var uppdelat i två omgångar, där instruktören i ena omgången var en TTS-syntes med en manlig röst och i den andra en kvinnlig. Vilken TTS-syntes som började och ordning av instruktioner slumpades för deltagarna. Efter spelad omgång svarade deltagarna på en enkät om upplevda röstegenskaper hos instruktören. När sista omgången fullföljts besvarades även en avslutande enkät där det bland annat frågades vilken av TTS-synteserna de föredrog, följt av en kvalitativ fråga där de fick motivera sitt svar. Svaren analyserades sedan genom ett statistiskt test och en kvalitativ analys. Studien kunde ej påvisa någon preferens för kön hos instruerande TTS-synteser. Istället visade resultatet att testpersonerna har individuella preferenser och åsikter om rösterna, även om det verkade finnas viss konsensus om somliga upplevda röstegenskaper hos TTS-synteser. / Text-to-speech synthesis (TTS), in other words digitally created voices, has become a natural part of our daily lives. We hear them in public transport, when we interact with digital assistants and when people who do not have their own voice use them to communicate. These artificial voices, just like real voices, have different properties that affect how they sound and are perceived. It is thereby interesting to understand which TTS-synthesis users prefer in different contexts. This study examined whether there is a preference for different genders in instructional TTS-synthesis. In the study, 46 participants played a game where the goal was to complete a number of read out loud instructions through various key presses on the screen. The game was divided into two rounds, where the instructor in one round was a TTS-synthesis with a male voice and female in the other one. Which TTS-synthesis started and the order of instructions was randomized for each participant. Upon completing the round, the participants answered a questionnaire about perceived voice characteristics of the instructor. When the final round was completed, a final questionnaire was also answered in which, among other things, it was asked which of the TTS-syntheses the test subjects preferred, followed by a qualitative question in which they were asked to justify their answer. The answers were then analyzed through a statistical test and a qualitative analysis. The study could not demonstrate any gender preference in instructional TTS-synthesis. Instead, the results showed that the test subjects have individual preferences and opinions about the voices, even though there seemed to be some consensus about some of the perceived voice characteristics of the TTS-syntheses.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-299337 |
Date | January 2021 |
Creators | Meurk, Erik, Sundström, Simon |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:261 |
Page generated in 0.0022 seconds