Return to search

Googles röstgränssnitts lämplighet för användning i en röstbaserad medicinteknisk tjänst / The Suitability of Google Speech API for Use in a Voice-Based Medical Device Service

I detta projekt har Googles röstgränssnitt (eng: Google Cloud Speech API) utvärderats utifrån syftet att skapa ett program som ska identifiera en person baserat på dess röst. Detta projekt gjordes tillsammans med ett företager Call Knut vars mål är att utforma en tjänst som bygger på AI teknik som ska ringa upp till äldre. Eftersom tjänsten riktar sig mot äldre vill företaget Call Knut ha ett program som kan identifiera de äldre baserat på rösten.  Ett program skapades med hjälp av Googles röstgränssnitt för att transkribera och urskilja två röster i en ljudfil. Därefter samlades det in ljudfiler från olika personer i ett brett åldersspann och ljudfilerna kombinerades. De kombinerade ljudfilerna analyserades sedan för att kunna verifiera om Googles röstgränssnitt är optimalt för ändamålet. I 29,2 % av de kombinerade ljudfilerna lyckades Googles röstgränssnitt med att både urskilja och transkribera. Totalt misslyckades Googles röstgränssnitt med 70,8 % av inmatningarna.  Vår slutsats blev att Googles röstgränssnitt inte är lämpligt att använda för att utveckla Call Knuts planerade tjänst där rösturskiljningen måste fungera med hög precision. Vidare utvecklingsarbete rekommenderas att fokusera på att testa andra program eller röstgränssnitt. / In this project, the Google Speech API has been evaluated based on the purpose of creating a program that will identify a person based on their voice. This project is done together with a company called Call Knut whose goal is to design a service based on AI technology that will call the elderly. Since the service is aimed at the elderly, Call Knut wants a program that can identify the elderly based on their voice.  An application was created using the Google Speech API to transcribe and distinguish two voices in an audio file. Then audio files were collected from different people in a wide age range and audio files were combined. The combined audio files were then analyzed to verify whether the Google Cloud interface is optimal for the purpose. In 29.2 % of the combined audio files Google Speech API managed to both distinguish two voices and transcribe what they said. In total, Google Speech API failed with 70.8 % of the entries.  Our conclusion was that Google's voice interface is not suitable to use to develop Call Knut’s planned service where voice recognition must work with high precision. Further development work is recommended to focus on testing other programs or voice interfaces.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-316593
Date January 2022
CreatorsEivinsson, Tova, Saleh, Mariam
PublisherKTH, Medicinteknik och hälsosystem
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-CBH-GRU ; 2022:158

Page generated in 0.0024 seconds