Spelling suggestions: "subject:"naturlig tal""
1 |
Direkttextning av tv-program med taligenkänning / Live television subtitling with speech recognitionEriksson, Mattias, Bjersander, Michael January 2003 (has links)
<p>Taligenkänning som verktyg vid direkttextning av tv-program har börjat användas på försök av några utländska tv-bolag. I examensarbetet undersöks möjligheten att använda svensk taligenkänning för att direkttexta tv-program på Sveriges Television. </p><p>Ett av de största hindren för talbaserad direkttextning är att den kognitiva belastningen ökar vidsamtidigt lyssnande, talande, och skrivande. Dessa tre moment måste kunna utföras samtidigt av textaren. Undersökningar visade att det borde vara fullt möjligt att arbeta på detta sätt. </p><p>Flera av de taligenkänningsprogram som finns på marknaden har testkörts. De svenska rogrammen har inte samma prestanda som de engelska. VoiceXpress utsågs till det program som skulle användas under resten av arbetet vid test av direkttextning. En prototyp utvecklades som kopplade ihop taligenkänningsprogrammet med text-tv-sändaren och som gav textaren möjligheten att snabbt korrigera felaktigt tolkade ord. </p><p>Resultaten man uppnår med det nya sättet att texta är varierande. Tempot i tv-programmet är avgörande eftersom det blir en fördröjning på de utsända textblocken. Vid lågt tempo blir resultatet acceptabelt. Är tempot högt blir resultatet däremot underkänt. Den stora fördelen med taligenkänning i jämförelse med traditionell direkttextningsteknik är att taligenkänning är lättare att lära sig.</p>
|
2 |
Direkttextning av tv-program med taligenkänning / Live television subtitling with speech recognitionEriksson, Mattias, Bjersander, Michael January 2003 (has links)
Taligenkänning som verktyg vid direkttextning av tv-program har börjat användas på försök av några utländska tv-bolag. I examensarbetet undersöks möjligheten att använda svensk taligenkänning för att direkttexta tv-program på Sveriges Television. Ett av de största hindren för talbaserad direkttextning är att den kognitiva belastningen ökar vidsamtidigt lyssnande, talande, och skrivande. Dessa tre moment måste kunna utföras samtidigt av textaren. Undersökningar visade att det borde vara fullt möjligt att arbeta på detta sätt. Flera av de taligenkänningsprogram som finns på marknaden har testkörts. De svenska rogrammen har inte samma prestanda som de engelska. VoiceXpress utsågs till det program som skulle användas under resten av arbetet vid test av direkttextning. En prototyp utvecklades som kopplade ihop taligenkänningsprogrammet med text-tv-sändaren och som gav textaren möjligheten att snabbt korrigera felaktigt tolkade ord. Resultaten man uppnår med det nya sättet att texta är varierande. Tempot i tv-programmet är avgörande eftersom det blir en fördröjning på de utsända textblocken. Vid lågt tempo blir resultatet acceptabelt. Är tempot högt blir resultatet däremot underkänt. Den stora fördelen med taligenkänning i jämförelse med traditionell direkttextningsteknik är att taligenkänning är lättare att lära sig.
|
3 |
LaMOSNet: Latent Mean-Opinion-Score Network for Non-intrusive Speech Quality Assessment : Deep Neural Network for MOS Prediction / LaMOSNet: Latent Mean-Opinion-Score Network för icke-intrusiv ljudkvalitetsbedömning : Djupt neuralt nätverk för MOS prediktionCumlin, Fredrik January 2022 (has links)
Objective non-intrusive speech quality assessment aimed to emulate and correlate with human judgement has received more attention over the years. It is a difficult problem due to three reasons: data scarcity, noisy human judgement, and a potential uneven distribution of bias of mean opinion scores (MOS). In this paper, we introduce the Latent Mean-Opinion-Score Network (LaMOSNet) that leverage on individual judge’s scores to increase the data size, and new ideas to deal with both noisy and biased labels. We introduce a methodology called Optimistic Judge Estimation as a way to reduce bias in MOS in a clear way. We also implement stochastic gradient noise and mean teacher, ideas from noisy image classification, to further deal with noisy and uneven bias distribution of labels. We achieve competitive results on VCC2018 modeling MOS, and state-of-the-art modeling only listener dependent scores. / Objektiv referensfri ljudkvalitétsbedömning ämnad att härma och korrelera med mänsklig bedömning har fått mer uppmärksamhet med åren. Det är ett svårt problem på grund av tre anledningar: brist på data, varians i mänsklig bedömning, och en potentiell ojämn fördelning av bias av medel bedömningsvärde (mean opinion score, MOS). I detta papper introducerar vi Latent Mean-Opinion-Score Network (LaMOSNet) som tar nytta av individuella bedömmares poäng för att öka datastorleken, och nya idéer för att handskas med både varierande och partisk märkning. Jag introducerar en metodologi som kallas Optimistisk bedömmarestimering, ett sätt att minska partiskheten i MOS på ett klart sätt. Jag implementerar också stokastisk gradient variation och medellärare, idéer från opålitlig bild igenkänning, för att ännu mer hantera opålitliga märkningar. Jag får jämförelsebara resultat på VCC2018 när jag modellerar MOS, och state-of-the-art när jag modellerar enbart beömmarnas märkning.
|
Page generated in 0.0823 seconds