Spelling suggestions: "subject:"voice kraits"" "subject:"voice fraits""
1 |
Evaluation of how text-to-speech can be adapted for the specific purpose of being an AI psychologistRayat, Pooya, Westergård, Hugo January 2023 (has links)
In this research, our goal was to pinpoint the crucial characteristics that make a voice suitable for an AI psychologist. More importantly, we wanted to explore how Text-To-Speech (TTS) combined with conditional voice controlling, also known as ”prompting”, could be used to incorporate these traits into the voice generation process. This approach allowed us to create synthetic voices that were not just effective, but also tailored to the specific needs of an AI psychologist role. We conducted an exploratory survey to identify key traits such as trustworthiness, safety, sympathy, calmness, and firmness. These traits were then used as prompts in the generation of AI voices using Tortoise, a state-of-the-art text-to-speech system. The generated voices were evaluated through a survey study, resulting in a mean opinion score for different categories corresponding to the prompts. Our findings showed that while the AI-generated voices did not quite match the quality of a real human voice, they were still quite effective in capturing the essence of the prompts and producing the desired voice characteristics. This suggests that prompting within TTS, or the strategic design of prompts, can significantly enhance the effectiveness of AI voices. In addition, we explored the potential impact of AI on the labor market, considering factors such as job displacement and creation, changes in salaries, and the need for reskilling. Our study highlights that AI will have a significant impact on the job market, but the exact nature of this impact remains uncertain. Our findings offer valuable insights into the potential of AI in psychology and highlight the importance of tailoring voice synthesis to specific applications. They lay a solid foundation for future research in this area, fostering continued innovation at the intersection of AI, psychology, and economic viability. / I den här forskningen var vårt mål att lokalisera de avgörande egenskaperna som gör en röst lämplig för en AI-psykolog. Vi ville även utforska hur ”Text-Till-Tal” (TTS) i kombination med villkorlig röststyrning, också kallat prompting, kan användas för att införliva dessa egenskaper i röstgenereringsprocessen. Detta tillvägagångssätt gjorde det möjligt för oss att skapa syntetiska röster som inte bara var effektiva, utan också skräddarsydda för de specifika behoven hos en roll som AI-psykolog. Vi genomförde en utforskande undersökning för att identifiera nyckelegenskaper som pålitlighet, säkerhet, sympati, lugn och fasthet. Dessa egenskaper användes sedan som uppmaningar i genereringen av AI-röster med hjälp av TorToise, ett modern TTS-system. De genererade rösterna utvärderades genom en enkätstudie, vilket resulterade i en genomsnittlig åsiktspoäng för olika kategorier som motsvarar uppmaningarna. Våra resultat visade att även om de AI-genererade rösterna inte riktigt matchade kvaliteten på en riktig mänsklig röst, var de fortfarande ganska effektiva för att fånga kärnan i uppmaningarna och producera de önskade röstegenskaperna. Detta tyder på att TTS kombinerat med prompting, eller den emotionella styrningen av TTS, avsevärt kan förbättra effektiviteten hos AI-röster. Dessutom undersökte vi den potentiella effekten av AI på arbetsmarknaden, med hänsyn till faktorer som förskjutning och skapande av jobb, förändringar i löner och behovet av ny kompetens. Vår studie visar att AI kommer att ha en betydande inverkan på arbetsmarknaden, men den exakta karaktären av denna påverkan är fortfarande osäker. Våra resultat ger värdefulla insikter om potentialen för AI inom psykologi och belyser vikten av att skräddarsy röstsyntes för specifika applikationer. De lägger en solid grund för framtida forskning inom detta område och främjar fortsatt innovation i skärningspunkten mellan AI, psykologi och ekonomisk bärkraft.
|
Page generated in 0.1864 seconds