• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Solución Informática “Lee Fácil”

Gomero Guzmán, Jorge, Delgado Alejo, Liliana 20 July 2019 (has links)
Cada vez es más creciente la preocupación de las personas por hacer un uso óptimo de su tiempo. Se dice que “el tiempo no se puede controlar, pero su uso sí” (Fernández, 2018). Dentro del campo administrativo, Peter Drucker analizó el tiempo como otro de los recursos de la empresa y la administración de este, como un talento especial que debe poseer cualquier ejecutivo, con la finalidad de desarrollar efectivamente su labor. En la gente, el uso del tiempo se ve afectado por la personalidad del individuo y esto se manifiesta en diferentes aspectos y situaciones organizacionales. Es así, que identificamos una necesidad específica de las personas para optimizar el uso del tiempo. Otra necesidad, es la de leer documentos o libros, en formato impreso o digital, debido a diferentes motivaciones: el gusto por la lectura, leer documentos con el objeto de desarrollar temas laborales, educativos, de investigación, entre otros. Esta necesidad, genera preocupación entre las personas, a veces manifestado en estrés, al no disponer del tiempo necesario para estas actividades, generándoles frustraciones personales. En ese sentido, desarrollamos un modelo de negocio mediante el cual ponemos a disposición de los usuarios, que necesitan acceder a lecturas, una herramienta informática que les permite “escuchar”, en formato de voz digital, cualquier texto escrito. Esta herramienta es un aplicativo que se puede instalar en cualquier dispositivo smartphone y que brinda funcionalidades de escaneo de textos impresos y convertirlos a formato de texto y voz digital. Esta posibilidad de “escuchar” sus libros, parte de ellos, documentos personales o laborales en forma fácil y disponible en todo momento, les permite optimizar el uso de su tiempo y atender sus necesidades de ampliación de conocimiento. / The worries of the people to have an optimized use of their time have been growing up. It’s said that “time can’t be controlled but it use does” (Fernández, 2018). Inside the administrative enviroment, Peter Drucker analyzed the time as another resources of the company and it’s administration, as an special talent that any executive should have, in order to develop their work effectively. In people, the use of the time is affected by the individual personality and that manifest in different aspects and organizational situacions. Thus, we identify a specific need of people to optimize their time usage. Another need is to read documents or books, in a printed or digital format, due to different motivations: the taste for reading, reading document with the aim of developing labor, educational, research topics, among others. This need, generates concern among people, sometimes manifested in stress, by not having the necessary time for these activities, generating personal frustrations. In this sense, we developed a business model through which we make available to users, who need access to readings, a computer tool that allows them to “listen”, in digital voice format, to any written text. This tool is an application that can be installed at any smartphone device and provides scanning functions of printed texts and converts them to both text and digital voice format. This ability to “listen”to their books, some of them, personal or work documents easily and available anytime, allows them to optimize their time usage and manage their needs for knowledge expansion. / Trabajo de investigación
2

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Pérez González de Martos, Alejandro Manuel 12 July 2022 (has links)
[ES] En los últimos años, el aprendizaje profundo ha cambiado significativamente el panorama en diversas áreas del campo de la inteligencia artificial, entre las que se incluyen la visión por computador, el procesamiento del lenguaje natural, robótica o teoría de juegos. En particular, el sorprendente éxito del aprendizaje profundo en múltiples aplicaciones del campo del procesamiento del lenguaje natural tales como el reconocimiento automático del habla (ASR), la traducción automática (MT) o la síntesis de voz (TTS), ha supuesto una mejora drástica en la precisión de estos sistemas, extendiendo así su implantación a un mayor rango de aplicaciones en la vida real. En este momento, es evidente que las tecnologías de reconocimiento automático del habla y traducción automática pueden ser empleadas para producir, de forma efectiva, subtítulos multilingües de alta calidad de contenidos audiovisuales. Esto es particularmente cierto en el contexto de los vídeos educativos, donde las condiciones acústicas son normalmente favorables para los sistemas de ASR y el discurso está gramaticalmente bien formado. Sin embargo, en el caso de TTS, aunque los sistemas basados en redes neuronales han demostrado ser capaces de sintetizar voz de un realismo y calidad sin precedentes, todavía debe comprobarse si esta tecnología está lo suficientemente madura como para mejorar la accesibilidad y la participación en el aprendizaje en línea. Además, existen diversas tareas en el campo de la síntesis de voz que todavía suponen un reto, como la clonación de voz inter-lingüe, la síntesis incremental o la adaptación zero-shot a nuevos locutores. Esta tesis aborda la mejora de las prestaciones de los sistemas actuales de síntesis de voz basados en redes neuronales, así como la extensión de su aplicación en diversos escenarios, en el contexto de mejorar la accesibilidad en el aprendizaje en línea. En este sentido, este trabajo presta especial atención a la adaptación a nuevos locutores y a la clonación de voz inter-lingüe, ya que los textos a sintetizar se corresponden, en este caso, a traducciones de intervenciones originalmente en otro idioma. / [CA] Durant aquests darrers anys, l'aprenentatge profund ha canviat significativament el panorama en diverses àrees del camp de la intel·ligència artificial, entre les quals s'inclouen la visió per computador, el processament del llenguatge natural, robòtica o la teoria de jocs. En particular, el sorprenent èxit de l'aprenentatge profund en múltiples aplicacions del camp del processament del llenguatge natural, com ara el reconeixement automàtic de la parla (ASR), la traducció automàtica (MT) o la síntesi de veu (TTS), ha suposat una millora dràstica en la precisió i qualitat d'aquests sistemes, estenent així la seva implantació a un ventall més ampli a la vida real. En aquest moment, és evident que les tecnologies de reconeixement automàtic de la parla i traducció automàtica poden ser emprades per a produir, de forma efectiva, subtítols multilingües d'alta qualitat de continguts audiovisuals. Això és particularment cert en el context dels vídeos educatius, on les condicions acústiques són normalment favorables per als sistemes d'ASR i el discurs està gramaticalment ben format. No obstant això, al cas de TTS, encara que els sistemes basats en xarxes neuronals han demostrat ser capaços de sintetitzar veu d'un realisme i qualitat sense precedents, encara s'ha de comprovar si aquesta tecnologia és ja prou madura com per millorar l'accessibilitat i la participació en l'aprenentatge en línia. A més, hi ha diverses tasques al camp de la síntesi de veu que encara suposen un repte, com ara la clonació de veu inter-lingüe, la síntesi incremental o l'adaptació zero-shot a nous locutors. Aquesta tesi aborda la millora de les prestacions dels sistemes actuals de síntesi de veu basats en xarxes neuronals, així com l'extensió de la seva aplicació en diversos escenaris, en el context de millorar l'accessibilitat en l'aprenentatge en línia. En aquest sentit, aquest treball presta especial atenció a l'adaptació a nous locutors i a la clonació de veu interlingüe, ja que els textos a sintetitzar es corresponen, en aquest cas, a traduccions d'intervencions originalment en un altre idioma. / [EN] In recent years, deep learning has fundamentally changed the landscapes of a number of areas in artificial intelligence, including computer vision, natural language processing, robotics, and game theory. In particular, the striking success of deep learning in a large variety of natural language processing (NLP) applications, including automatic speech recognition (ASR), machine translation (MT), and text-to-speech (TTS), has resulted in major accuracy improvements, thus widening the applicability of these technologies in real-life settings. At this point, it is clear that ASR and MT technologies can be utilized to produce cost-effective, high-quality multilingual subtitles of video contents of different kinds. This is particularly true in the case of transcription and translation of video lectures and other kinds of educational materials, in which the audio recording conditions are usually favorable for the ASR task, and there is a grammatically well-formed speech. However, although state-of-the-art neural approaches to TTS have shown to drastically improve the naturalness and quality of synthetic speech over conventional concatenative and parametric systems, it is still unclear whether this technology is already mature enough to improve accessibility and engagement in online learning, and particularly in the context of higher education. Furthermore, advanced topics in TTS such as cross-lingual voice cloning, incremental TTS or zero-shot speaker adaptation remain an open challenge in the field. This thesis is about enhancing the performance and widening the applicability of modern neural TTS technologies in real-life settings, both in offline and streaming conditions, in the context of improving accessibility and engagement in online learning. Thus, particular emphasis is placed on speaker adaptation and cross-lingual voice cloning, as the input text corresponds to a translated utterance in this context. / Pérez González De Martos, AM. (2022). Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184019 / Premios Extraordinarios de tesis doctorales

Page generated in 0.0331 seconds