• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

A Study of Accumulation Times in Translation from Event Streams to Video for the Purpose of Lip Reading / En studie av ackumuleringstid i översättning från eventstreams till video för användning inom läppläsning

Munther, Didrik, Puustinen, David January 2022 (has links)
Visually extracting textual context from lips consists of pattern matching which results in a frequent use of machine learning approaches for the task of classification. Previous research has consisted of mostly audiovisual (multi modal) approaches and conventional cameras. This study isolates the visual medium and uses event-based cameras instead of conventional cameras. Classifying visual features is computationally expensive and the minimisation of excessive data can be of importance for performance which motivates the usage of event cameras. Event cameras are inspired by the biological vision and only capture changes in the scene while offering high temporal resolution (corresponding to frame rate for conventional cameras). This study investigates the importance of temporal resolution for the task of lip reading by modifying the ∆time used for collecting events. No correlation could be observed within the collected data set. The paper is not able to come to any conclusions regarding suitability of the chosen approach for the particular application. There are multiple other variables that could effect the results which makes it hard to dismiss the technology’s potential within the domain. / Visuell bedömning av vilka ord läppar talar består av mönstermatchning vilket resulterar i att maskininlärning ofta används för att klassificera data som text. Tidigare studier har i hög grad varit audiovisuella(multimodala) och konventionella kameror. Visuell analys är beräkningsmässigt dyrt vilket motiverar en minimering av överflödig data för att öka prestandan, vilket motiverar användningen av eventkameror. Eventkameror är inspirerade av biologisk syn och registrerar endast skillnaden i omgivningen, samtidigt som de har en hög tidsupplösning (motsvarande frame rate för konventionella kameror). Studien undersöker relevansen av tidsupplösning för maskinell läppläsning genom att modifiera ∆time som används för att samla events. Ingen korrelation mellan ∆time och träffsäkerheten kunde observeras med det dataset som användes. Studien kan inte avfärda potentialen för tekniken eftersom det finns många fler parametrar som kan påverka träffsäkerheten.

Page generated in 0.0981 seconds