The research area this report relates to is real-time automatic transcription and translation. The purpose of the work done for the report is to reduce the perceived language barriers online and to make a user-friendly application to make use of the latest deep learning technology to transcribe and translate in real-time. This application could be used in a work environment (especially when working from home) and for leisure activities such as watching videos. There is currently most likely no application that uses automatic speech recognition in this way. The most similar applications that were found were mainly similar to Google Translate which are not meant for real-time usage on a computer but rather to wait for an input and then write it out when it is completely done. The application created for this purpose was a desktop application that combines Open-AI's Whisper model for transcription and Argos Translate for translation into one application with a user-friendly GUI created with Java Swing. For creating the application, an iterative and incremental methodology was used both for the GUI design and the software development. In the end, the development was successful resulting in a working desktop application accomplishing the goals of transcribing and translating in real-time with the user of a user-friendly application, which could for example easily be used for digital meetings or videos online. / Det område som denna rapport handlar om är automatisk transkription och översättning i realtid. Syftet med arbetet som gjorts för rapporten är att minska de upplevda digitala språkbarriärerna och att göra en användarvänlig applikation för att använda den senaste djup maskininlärnings teknologin för att transkribera och översätta i realtid. Just nu finns det med största sannolikhet inget program som använder automatisk röstigenkänning på detta sätt. De mest liknande applikationerna som var funna är sådanna som liknar Google Translate, men dessa är inte skapade för anvädning i realtid utan istället för att höra hela indatan och sedan skriva ut hela resultatet. Applikationen som skapades med detta syfte var en datorapplikation som kombinerar Open-AIs Whisper-modell för transkription och Argos Translate för översättning till en applikation med ett användarvänligt grafiskt användargränssnitt skapat med Java Swing. För att skapa applikationen användes en iterativ och inkrementell metodik både för den grafiska användargränssnittsdesignen och mjukvaruutvecklingen. Resultatet var lyckat vilket ledde till en fungerande dator applikation som uppnådde målen att transkribera och översätta i realtid med en användarvänlig applikation.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-329785 |
Date | January 2023 |
Creators | Ringström1, Vincent, Alvarez Funcke, Iley |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:385 |
Page generated in 0.0023 seconds