Global ETD Search

101	Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources Pérez González de Martos, Alejandro Manuel 12 July 2022 (has links) [ES] En los últimos años, el aprendizaje profundo ha cambiado significativamente el panorama en diversas áreas del campo de la inteligencia artificial, entre las que se incluyen la visión por computador, el procesamiento del lenguaje natural, robótica o teoría de juegos. En particular, el sorprendente éxito del aprendizaje profundo en múltiples aplicaciones del campo del procesamiento del lenguaje natural tales como el reconocimiento automático del habla (ASR), la traducción automática (MT) o la síntesis de voz (TTS), ha supuesto una mejora drástica en la precisión de estos sistemas, extendiendo así su implantación a un mayor rango de aplicaciones en la vida real. En este momento, es evidente que las tecnologías de reconocimiento automático del habla y traducción automática pueden ser empleadas para producir, de forma efectiva, subtítulos multilingües de alta calidad de contenidos audiovisuales. Esto es particularmente cierto en el contexto de los vídeos educativos, donde las condiciones acústicas son normalmente favorables para los sistemas de ASR y el discurso está gramaticalmente bien formado. Sin embargo, en el caso de TTS, aunque los sistemas basados en redes neuronales han demostrado ser capaces de sintetizar voz de un realismo y calidad sin precedentes, todavía debe comprobarse si esta tecnología está lo suficientemente madura como para mejorar la accesibilidad y la participación en el aprendizaje en línea. Además, existen diversas tareas en el campo de la síntesis de voz que todavía suponen un reto, como la clonación de voz inter-lingüe, la síntesis incremental o la adaptación zero-shot a nuevos locutores. Esta tesis aborda la mejora de las prestaciones de los sistemas actuales de síntesis de voz basados en redes neuronales, así como la extensión de su aplicación en diversos escenarios, en el contexto de mejorar la accesibilidad en el aprendizaje en línea. En este sentido, este trabajo presta especial atención a la adaptación a nuevos locutores y a la clonación de voz inter-lingüe, ya que los textos a sintetizar se corresponden, en este caso, a traducciones de intervenciones originalmente en otro idioma. / [CA] Durant aquests darrers anys, l'aprenentatge profund ha canviat significativament el panorama en diverses àrees del camp de la intel·ligència artificial, entre les quals s'inclouen la visió per computador, el processament del llenguatge natural, robòtica o la teoria de jocs. En particular, el sorprenent èxit de l'aprenentatge profund en múltiples aplicacions del camp del processament del llenguatge natural, com ara el reconeixement automàtic de la parla (ASR), la traducció automàtica (MT) o la síntesi de veu (TTS), ha suposat una millora dràstica en la precisió i qualitat d'aquests sistemes, estenent així la seva implantació a un ventall més ampli a la vida real. En aquest moment, és evident que les tecnologies de reconeixement automàtic de la parla i traducció automàtica poden ser emprades per a produir, de forma efectiva, subtítols multilingües d'alta qualitat de continguts audiovisuals. Això és particularment cert en el context dels vídeos educatius, on les condicions acústiques són normalment favorables per als sistemes d'ASR i el discurs està gramaticalment ben format. No obstant això, al cas de TTS, encara que els sistemes basats en xarxes neuronals han demostrat ser capaços de sintetitzar veu d'un realisme i qualitat sense precedents, encara s'ha de comprovar si aquesta tecnologia és ja prou madura com per millorar l'accessibilitat i la participació en l'aprenentatge en línia. A més, hi ha diverses tasques al camp de la síntesi de veu que encara suposen un repte, com ara la clonació de veu inter-lingüe, la síntesi incremental o l'adaptació zero-shot a nous locutors. Aquesta tesi aborda la millora de les prestacions dels sistemes actuals de síntesi de veu basats en xarxes neuronals, així com l'extensió de la seva aplicació en diversos escenaris, en el context de millorar l'accessibilitat en l'aprenentatge en línia. En aquest sentit, aquest treball presta especial atenció a l'adaptació a nous locutors i a la clonació de veu interlingüe, ja que els textos a sintetitzar es corresponen, en aquest cas, a traduccions d'intervencions originalment en un altre idioma. / [EN] In recent years, deep learning has fundamentally changed the landscapes of a number of areas in artificial intelligence, including computer vision, natural language processing, robotics, and game theory. In particular, the striking success of deep learning in a large variety of natural language processing (NLP) applications, including automatic speech recognition (ASR), machine translation (MT), and text-to-speech (TTS), has resulted in major accuracy improvements, thus widening the applicability of these technologies in real-life settings. At this point, it is clear that ASR and MT technologies can be utilized to produce cost-effective, high-quality multilingual subtitles of video contents of different kinds. This is particularly true in the case of transcription and translation of video lectures and other kinds of educational materials, in which the audio recording conditions are usually favorable for the ASR task, and there is a grammatically well-formed speech. However, although state-of-the-art neural approaches to TTS have shown to drastically improve the naturalness and quality of synthetic speech over conventional concatenative and parametric systems, it is still unclear whether this technology is already mature enough to improve accessibility and engagement in online learning, and particularly in the context of higher education. Furthermore, advanced topics in TTS such as cross-lingual voice cloning, incremental TTS or zero-shot speaker adaptation remain an open challenge in the field. This thesis is about enhancing the performance and widening the applicability of modern neural TTS technologies in real-life settings, both in offline and streaming conditions, in the context of improving accessibility and engagement in online learning. Thus, particular emphasis is placed on speaker adaptation and cross-lingual voice cloning, as the input text corresponds to a translated utterance in this context. / Pérez González De Martos, AM. (2022). Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184019 / TESIS / Premios Extraordinarios de tesis doctorales Traducción automática (MT) Síntesis de voz (TTS) Texto a voz Traducción de voz a voz Aprendizaje profundo Aprendizaje automático Inteligencia artificial Procesamiento del lenguaje natural Videoconferencias Accesibilidad Speech synthesis Text-to-speech Speech-to-speech translation Deep learning Machine learning Artificial intelligence Natural language processing Technology enhanced learning Video lectures Accessibility LENGUAJES Y SISTEMAS INFORMATICOS
102	Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models Jorge Cano, Javier 30 December 2022 (has links) Tesis por compendio / [ES] Durante la última década, los medios de comunicación han experimentado una revolución, alejándose de la televisión convencional hacia las plataformas de contenido bajo demanda. Además, esta revolución no ha cambiado solamente la manera en la que nos entretenemos, si no también la manera en la que aprendemos. En este sentido, las plataformas de contenido educativo bajo demanda también han proliferado para proporcionar recursos educativos de diversos tipos. Estas nuevas vías de distribución de contenido han llegado con nuevos requisitos para mejorar la accesibilidad, en particular las relacionadas con las dificultades de audición y las barreras lingüísticas. Aquí radica la oportunidad para el reconocimiento automático del habla (RAH) para cumplir estos requisitos, proporcionando subtitulado automático de alta calidad. Este subtitulado proporciona una base sólida para reducir esta brecha de accesibilidad, especialmente para contenido en directo o streaming. Estos sistemas de streaming deben trabajar bajo estrictas condiciones de tiempo real, proporcionando la subtitulación tan rápido como sea posible, trabajando con un contexto limitado. Sin embargo, esta limitación puede conllevar una degradación de la calidad cuando se compara con los sistemas para contenido en diferido u offline. Esta tesis propone un sistema de RAH en streaming con baja latencia, con una calidad similar a un sistema offline. Concretamente, este trabajo describe el camino seguido desde el sistema offline híbrido inicial hasta el eficiente sistema final de reconocimiento en streaming. El primer paso es la adaptación del sistema para efectuar una sola iteración de reconocimiento haciendo uso de modelos de lenguaje estado del arte basados en redes neuronales. En los sistemas basados en múltiples iteraciones estos modelos son relegados a una segunda (o posterior) iteración por su gran coste computacional. Tras adaptar el modelo de lenguaje, el modelo acústico basado en redes neuronales también tiene que adaptarse para trabajar con un contexto limitado. La integración y la adaptación de estos modelos es ampliamente descrita en esta tesis, evaluando el sistema RAH resultante, completamente adaptado para streaming, en conjuntos de datos académicos extensamente utilizados y desafiantes tareas basadas en contenidos audiovisuales reales. Como resultado, el sistema proporciona bajas tasas de error con un reducido tiempo de respuesta, comparables al sistema offline. / [CA] Durant l'última dècada, els mitjans de comunicació han experimentat una revolució, allunyant-se de la televisió convencional cap a les plataformes de contingut sota demanda. A més a més, aquesta revolució no ha canviat només la manera en la que ens entretenim, si no també la manera en la que aprenem. En aquest sentit, les plataformes de contingut educatiu sota demanda també han proliferat pera proporcionar recursos educatius de diversos tipus. Aquestes noves vies de distribució de contingut han arribat amb nous requisits per a millorar l'accessibilitat, en particular les relacionades amb les dificultats d'audició i les barreres lingüístiques. Aquí radica l'oportunitat per al reconeixement automàtic de la parla (RAH) per a complir aquests requisits, proporcionant subtitulat automàtic d'alta qualitat. Aquest subtitulat proporciona una base sòlida per a reduir aquesta bretxa d'accessibilitat, especialment per a contingut en directe o streaming. Aquests sistemes han de treballar sota estrictes condicions de temps real, proporcionant la subtitulació tan ràpid com sigui possible, treballant en un context limitat. Aquesta limitació, però, pot comportar una degradació de la qualitat quan es compara amb els sistemes per a contingut en diferit o offline. Aquesta tesi proposa un sistema de RAH en streaming amb baixa latència, amb una qualitat similar a un sistema offline. Concretament, aquest treball descriu el camí seguit des del sistema offline híbrid inicial fins l'eficient sistema final de reconeixement en streaming. El primer pas és l'adaptació del sistema per a efectuar una sola iteració de reconeixement fent servir els models de llenguatge de l'estat de l'art basat en xarxes neuronals. En els sistemes basats en múltiples iteracions aquests models son relegades a una segona (o posterior) iteració pel seu gran cost computacional. Un cop el model de llenguatge s'ha adaptat, el model acústic basat en xarxes neuronals també s'ha d'adaptar per a treballar amb un context limitat. La integració i l'adaptació d'aquests models és àmpliament descrita en aquesta tesi, avaluant el sistema RAH resultant, completament adaptat per streaming, en conjunts de dades acadèmiques àmpliament utilitzades i desafiants tasques basades en continguts audiovisuals reals. Com a resultat, el sistema proporciona baixes taxes d'error amb un reduït temps de resposta, comparables al sistema offline. / [EN] Over the last decade, the media have experienced a revolution, turning away from the conventional TV in favor of on-demand platforms. In addition, this media revolution not only changed the way entertainment is conceived but also how learning is conducted. Indeed, on-demand educational platforms have also proliferated and are now providing educational resources on diverse topics. These new ways to distribute content have come along with requirements to improve accessibility, particularly related to hearing difficulties and language barriers. Here is the opportunity for automatic speech recognition (ASR) to comply with these requirements by providing high-quality automatic captioning. Automatic captioning provides a sound basis for diminishing the accessibility gap, especially for live or streaming content. To this end, streaming ASR must work under strict real-time conditions, providing captions as fast as possible, and working with limited context. However, this limited context usually leads to a quality degradation as compared to the pre-recorded or offline content. This thesis is aimed at developing low-latency streaming ASR with a quality similar to offline ASR. More precisely, it describes the path followed from an initial hybrid offline system to an efficient streaming-adapted system. The first step is to perform a single recognition pass using a state-of-the-art neural network-based language model. In conventional multi-pass systems, this model is often deferred to the second or later pass due to its computational complexity. As with the language model, the neural-based acoustic model is also properly adapted to work with limited context. The adaptation and integration of these models is thoroughly described and assessed using fully-fledged streaming systems on well-known academic and challenging real-world benchmarks. In brief, it is shown that the proposed adaptation of the language and acoustic models allows the streaming-adapted system to reach the accuracy of the initial offline system with low latency. / Jorge Cano, J. (2022). Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/191001 / Compendio Reconocimiento automático del habla Aprendizaje profundo Aprendizaje automático Inteligencia artificial Procesamiento del lenguaje natural Videoconferencias Accesibilidad Deep learning Machine learning Artificial intelligence Natural language processing Technology enhanced learning Video lectures Accessibility Automatic speech recognition Streaming automatic speech recognition LENGUAJES Y SISTEMAS INFORMATICOS
103	Three Essays on Applied Microeconomics Czinkán, Norbert 25 July 2017 (has links) Es bien subido en la geografía económica que la distribución espacial de la población y las empresas está lejos de ser aleatoria, incluso después de controlar por características geográficas, como la existencia de recursos naturales, ríos, atraque marítimo o número de horas de sol en un año. Dentro de los países, observamos áreas muy densas con numerosas empresas locales activas con gran potencial de mercado y también lugares escasamente poblados. La aglomeración afecta a una amplia gama de fenómenos económicos que influyen en la vida cotidiana de los agentes económicos. Por ejemplo, la aglomeración puede causar mayores niveles de productividad para las empresas o mayores salarios para los trabajadores. Por otro lado, las áreas más densas también pueden sufrir los efectos de la congestión, que pueden dar lugar a elevados precios de alquiler y compra de vivienda, así como de otros bienes de consumo. La motivación subyacente de mi tesis es entender las relativamente menos estudiadas o nuevas consecuencias de las fuerzas de aglomeración. El principal objetivo de esta tesis es estimar el impacto de la aglomeración en los precios de los bienes raíces e investigar empíricamente el efecto de la densidad económica en la estabilidad del crecimiento de las empresas. La tesis también evalúa el impacto de esas fluctuaciones en la volatilidad del crecimiento agregado. La tesis contribuye al campo de la Microeconomía desde una perspectiva empírica, y se divide en tres capítulos separados. El objetivo del primer capítulo de la tesis es contrastar las implicaciones derivadas de una versión simplificada del modelo de renta ricardiana utilizando datos para Hungría. Según los principales resultados que obtenemos en este trabajo, un aumento de 10 puntos porcentuales en el crecimiento esperado de la población eleva los precios de la vivienda entre un 2 y un 8% según las diferentes especificaciones regionales. La magnitud de la población también influye significativamente: la elasticidad de los precios de la vivienda con respecto al tamaño de la ciudad varía de 0,065 a 0,21. La ubicación relativa es también un factor clave para determinar los precios de la vivienda: vivir un minuto más lejos del centro micro-regional disminuye un 2% el precio de la vivienda. El segundo capítulo investiga empíricamente el papel de la densidad económica en las fluctuaciones de las empresas. Según de los principales resultados de este segundo capítulo, la densidad de la actividad económica influye en la volatilidad de las empresas. La aglomeración, medida por la población local, el número de empresas o el número de trabajadores, afecta negativamente a la volatilidad del crecimiento de las ventas y el empleo de las empresas manufactureras húngaras durante los años 2000 y 2008. Estimamos una elasticidad negativa de la volatilidad de las empresas con respecto a la densidad, que implica que duplicar la densidad en un municipio o en una microrregión, mitiga las fluctuaciones de la empresa en torno a 2-11% dependiendo de las diferentes definiciones de aglomeración y técnicas econométricas. Para hacer controlar por la potencial endogeneidad de la aglomeración, debida a características de localización no observadas que simultáneamente atraen a las empresas y los trabajadores y alteran las fluctuaciones de las empresas, utilizamos un análisis de variables instrumentales análogo al de de Ciccone y Hall (1996) que utiliza valores históricos de la población local como instrumento para la densidad. Para aprovechar la estructura del panel de los datos, también utilizamos efectos fijos de empresa para controlar por las características inobservables que no varían en el tiempo. Ambos métodos llevan a la misma conclusión: niveles más altos de densidad económica local mitigan las fluctuaciones de las empresas. En el tercer capítulo se muestra que las fluctuaciones en las tasas de crecimiento de las empresas también tienen consecuencias a nivel agregado. Según los resultados, a nivel de la empresa, la gran mayoría de los shocks que afectan a las empresas son idiosincráticos, mientras que el componente macro-sectorial desempeña un papel relativamente menos importante para explicar el crecimiento de las ventas de la empresa. Curiosamente y lo más importante, esos shocks idiosincráticos no desaparecen a nivel de país. Además, la desviación estándar relativa del componente específico de la empresa es sorprendentemente alta: el 55,5% de las fluctuaciones agregadas puede explicarse por shocks idiosincráticos para toda la economía y 56,4% para el sector manufacturero. Estos resultados son robustos para diferentes definiciones de crecimiento y recorte y también a incorporar reacciones heterogéneas a los shocks. La contribución de la tesis al campo de la Microeconomía Aplicada es triple. En primer lugar, la comprensión de las consecuencias de la población (cambiante) sobre los precios de la vivienda es crucial, ya que la vivienda constituye la mayor parte de la riqueza de la mayoría de las familias. Los hallazgos, según los cuales una disminución de 10 puntos porcentuales del crecimiento esperado de la población disminuye los precios de la vivienda en un 2-10%, implica serias consecuencias para los mercados locales de vivienda a medio plazo, teniendo en cuenta que en muchos países se espera que ocurran cambios considerables a la estructura de edad con una distribución espacial desigual. Los asentamientos con menor población futura esperada, como las pequeñas aldeas en las zonas transdanúbianas del sur o en las regiones noreste de Hungría, tienden a tener precios de vivienda más bajos ya. Mientras tanto, los mercados inmobiliarios de los cinturones suburbanos en crecimiento disfrutan de un mayor nivel de precios debido a la creciente población esperada. No sólo el cambio, sino la magnitud de la población es crucial en la determinación de los precios de la vivienda, un factor mayormente y equivocadamente ignorado de los enfoques hedónicos. La elasticidad de la población en los precios de la vivienda está entre 0.065 y 0.21. Como predice la teoría ricardiana de la renta, la localización es también un factor clave para determinar los precios de la vivienda: vivir un minuto más lejos del centro micro-regional da como resultado un alojamiento más barato del 2%, sin embargo, la ubicación relativa a otros centros agregados, como a un condado o a una región, no tiene impacto en los precios de la vivienda. Las fuerzas de aglomeración también podrían tener un impacto positivo en los agentes económicos. La tesis da una nueva perspectiva de tales ventajas al proporcionar evidencia empírica sobre el efecto de la densidad económica sobre la estabilidad del crecimiento de las empresas. Los resultados indican que duplicar la población local, o el número de empresas o trabajadores en un municipio o micro-región mitiga las fluctuaciones de las ventas y el empleo de un 2-11% dependiendo de las medidas de estratificación y densidad regionales usadas. Nuestros hallazgos principales sugieren que la proximidad a otras empresas, especialmente a los proveedores de inputs potenciales, y los mercados de trabajo más grandes, se asocian con una trayectoria de crecimiento más estable. Por otro lado, en los municipios y micro-regiones menos aglomerados, las personas se enfrentan a un mayor riesgo de ser despedidas, lo que exige la necesidad de tener en cuenta esos riesgos no sólo para los trabajadores, sino también para los responsables de la política laboral. Nuestros hallazgos también podrían aportar nuevas ideas para los debates de política regional. Aunque a nivel individual, la mayoría de los shocks idiosincráticos golpean a las empresas, los shocks a nivel de empresa también son capaces de dar forma al ciclo económico, además tienen una contribución sorprendentemente alta en la volatilidad agregada del crecimiento de las ventas - a diferencia del saber común de décadas de antigüedad según la cual los shocks idiosincráticos se promedian a nivel macro. A pesar de que Hungría es una de las economías más abiertas del mundo, expuesta a shocks externos y sectoriales, casi el 50% de la volatilidad agregada de las ventas se debe a las fluctuaciones de la empresa. La evidencia sugiere que la alta contribución de los factores específicos de la empresa a las fluctuaciones agregadas es impulsada por vínculos entre empresas: los shocks de una sola empresa pueden propagarse y amplificarse a través de las redes de producción. Aunque las ventas húngaras están bastante concentradas, los resultados también implican que el rendimiento de las grandes empresas tiene un impacto moderado en la volatilidad agregada. La sorprendentemente alta importancia de los shocks a nivel de la empresa en la generación de ciclos económicos exige la necesidad de futuras investigaciones sobre la comprensión de los determinantes de las perturbaciones a nivel de la empresa. Para resumir las contribuciones de esta tesis doctoral al campo de la Economía Urbana e Inmobiliaria y la investigación de la fluctuaciones de las empresas, podemos resaltar que el Capítulo 1 es el primero en cuantificar el impacto de la población cambiante en los precios de la vivienda en Hungría, mientras que la novedad del capítulo 3 radica en el cálculo de la distribución estándar relativa de los shocks idiosincráticos a la volatilidad agregada de las ventas utilizando también datos de empresas húngaras. El capítulo 2 prueba y valida una nueva idea, según la cual la densidad económica tiene un efecto positivo sobre la estabilidad del crecimiento de las empresas. Urban structure Bid-rent curves Accessibility Elasticity of population Firm-level fluctuations Agglomeration Local labor market Local firm linkages Aggregate fluctuations Firm-level shocks Macro-sectoral shocks Firm-to-firm linkages Estructura urbana Las curvas de oferta-renta Accesibilidad Elasticidad de la población Fluctuaciones a nivel de empresa Aglomeración Mercado de trabajo local Vínculos de empresas locales Fluctuaciones agregadas Shocks a nivel de empresa Shocks a nivel macro-sectoral Vínculos entre empresas Fundamentos del Análisis Económico

Page generated in 0.3951 seconds