Return to search

Different Contributions to Cost-Effective Transcription and Translation of Video Lectures

[EN] In recent years, on-line multimedia repositories have experiencied a strong
growth that have made them consolidated as essential knowledge assets, especially
in the area of education, where large repositories of video lectures have been
built in order to complement or even replace traditional teaching methods.
However, most of these video lectures are neither transcribed nor translated
due to a lack of cost-effective solutions to do so in a way that gives accurate
enough results. Solutions of this kind are clearly necessary in order to make
these lectures accessible to speakers of different languages and to people with
hearing disabilities. They would also facilitate lecture searchability and
analysis functions, such as classification, recommendation or plagiarism
detection, as well as the development of advanced educational functionalities
like content summarisation to assist student note-taking.

For this reason, the main aim of this thesis is to develop a cost-effective
solution capable of transcribing and translating video lectures to a reasonable
degree of accuracy. More specifically, we address the integration of
state-of-the-art techniques in Automatic Speech Recognition and Machine
Translation into large video lecture repositories to generate high-quality
multilingual video subtitles without human intervention and at a reduced
computational cost. Also, we explore the potential benefits of the exploitation
of the information that we know a priori about these repositories, that is,
lecture-specific knowledge such as speaker, topic or slides, to create
specialised, in-domain transcription and translation systems by means of
massive adaptation techniques.

The proposed solutions have been tested in real-life scenarios by carrying out
several objective and subjective evaluations, obtaining very positive results.
The main outcome derived from this thesis, The transLectures-UPV
Platform, has been publicly released as an open-source software, and, at the
time of writing, it is serving automatic transcriptions and translations for
several thousands of video lectures in many Spanish and European
universities and institutions. / [ES] Durante estos últimos años, los repositorios multimedia on-line han experimentado un gran
crecimiento que les ha hecho establecerse como fuentes fundamentales de conocimiento,
especialmente en el área de la educación, donde se han creado grandes repositorios de vídeo
charlas educativas para complementar e incluso reemplazar los métodos de enseñanza tradicionales.
No obstante, la mayoría de estas charlas no están transcritas ni traducidas debido a
la ausencia de soluciones de bajo coste que sean capaces de hacerlo garantizando una calidad
mínima aceptable. Soluciones de este tipo son claramente necesarias para hacer que las vídeo
charlas sean más accesibles para hablantes de otras lenguas o para personas con discapacidades auditivas.
Además, dichas soluciones podrían facilitar la aplicación de funciones de
búsqueda y de análisis tales como clasificación, recomendación o detección de plagios, así
como el desarrollo de funcionalidades educativas avanzadas, como por ejemplo la generación
de resúmenes automáticos de contenidos para ayudar al estudiante a tomar apuntes.

Por este motivo, el principal objetivo de esta tesis es desarrollar una solución de bajo
coste capaz de transcribir y traducir vídeo charlas con un nivel de calidad razonable. Más
específicamente, abordamos la integración de técnicas estado del arte de Reconocimiento del
Habla Automático y Traducción Automática en grandes repositorios de vídeo charlas educativas
para la generación de subtítulos multilingües de alta calidad sin requerir intervención
humana y con un reducido coste computacional. Además, también exploramos los beneficios
potenciales que conllevaría la explotación de la información de la que disponemos a priori
sobre estos repositorios, es decir, conocimientos específicos sobre las charlas tales como el
locutor, la temática o las transparencias, para crear sistemas de transcripción y traducción
especializados mediante técnicas de adaptación masiva.

Las soluciones propuestas en esta tesis han sido testeadas en escenarios reales llevando
a cabo nombrosas evaluaciones objetivas y subjetivas, obteniendo muy buenos resultados.
El principal legado de esta tesis, The transLectures-UPV Platform, ha sido liberado públicamente
como software de código abierto, y, en el momento de escribir estas líneas, está
sirviendo transcripciones y traducciones automáticas para diversos miles de vídeo charlas
educativas en nombrosas universidades e instituciones Españolas y Europeas. / [CA] Durant aquests darrers anys, els repositoris multimèdia on-line han experimentat un gran
creixement que els ha fet consolidar-se com a fonts fonamentals de coneixement, especialment
a l'àrea de l'educació, on s'han creat grans repositoris de vídeo xarrades educatives per
tal de complementar o inclús reemplaçar els mètodes d'ensenyament tradicionals. No obstant
això, la majoria d'aquestes xarrades no estan transcrites ni traduïdes degut a l'absència de
solucions de baix cost capaces de fer-ho garantint una qualitat mínima acceptable. Solucions
d'aquest tipus són clarament necessàries per a fer que les vídeo xarres siguen més accessibles
per a parlants d'altres llengües o per a persones amb discapacitats auditives. A més, aquestes
solucions podrien facilitar l'aplicació de funcions de cerca i d'anàlisi tals com classificació,
recomanació o detecció de plagis, així com el desenvolupament de funcionalitats educatives
avançades, com per exemple la generació de resums automàtics de continguts per ajudar a
l'estudiant a prendre anotacions.

Per aquest motiu, el principal objectiu d'aquesta tesi és desenvolupar una solució de baix
cost capaç de transcriure i traduir vídeo xarrades amb un nivell de qualitat raonable. Més
específicament, abordem la integració de tècniques estat de l'art de Reconeixement de la
Parla Automàtic i Traducció Automàtica en grans repositoris de vídeo xarrades educatives
per a la generació de subtítols multilingües d'alta qualitat sense requerir intervenció humana
i amb un reduït cost computacional. A més, també explorem els beneficis potencials que
comportaria l'explotació de la informació de la que disposem a priori sobre aquests repositoris,
és a dir, coneixements específics sobre les xarrades tals com el locutor, la temàtica o
les transparències, per a crear sistemes de transcripció i traducció especialitzats mitjançant
tècniques d'adaptació massiva.

Les solucions proposades en aquesta tesi han estat testejades en escenaris reals duent a
terme nombroses avaluacions objectives i subjectives, obtenint molt bons resultats. El principal
llegat d'aquesta tesi, The transLectures-UPV Platform, ha sigut alliberat públicament
com a programari de codi obert, i, en el moment d'escriure aquestes línies, està servint transcripcions
i traduccions automàtiques per a diversos milers de vídeo xarrades educatives en
nombroses universitats i institucions Espanyoles i Europees. / Silvestre Cerdà, JA. (2016). Different Contributions to Cost-Effective Transcription and Translation of Video Lectures [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/62194

Identiferoai:union.ndltd.org:upv.es/oai:riunet.upv.es:10251/62194
Date05 April 2016
CreatorsSilvestre Cerdà, Joan Albert
ContributorsCivera Saiz, Jorge, Juan Císcar, Alfonso, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació
PublisherUniversitat Politècnica de València
Source SetsUniversitat Politècnica de València
LanguageEnglish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/acceptedVersion
Rightshttp://rightsstatements.org/vocab/InC/1.0/, info:eu-repo/semantics/openAccess

Page generated in 0.0037 seconds