Global ETD Search

1	Diseño e implementación de un sistema interactivo de respuesta de voz (IVR) piloto para la reserva de boletos del ferrocarril Cuzco-Machu Pichu Ortega Gallegos, David Alfonso 09 May 2011 (has links) El proyecto de tesis consiste en el estudio, diseño e implementación de un sistema IVR IP de interfaz telefónica bilingüe (español inglés) para la reserva de boletos del ferrocarril de Cuzco para el viaje desde la estación de San Pedro hasta la ciudadela Machu Picchu (Aguas Calientes). Este sistema consistirá en una arquitectura conformada por tres servidores: El primero será una PBX IP implementada en software libre, el segundo un servidor de requerimientos que tramitará pedidos y almacenará la lógica del sistema, y el tercero un servidor de Base de datos que sigue el modelamiento desarrollado en este trabajo. / Tesis Programas de código abierto Reconocimiento del habla Sistemas de procesamiento de voz Telecomunicaciones
2	Modelo de entonación para un sintetizador de voz con aplicación a un sistema de información vía telefónica en cines Flores Álvarez, Crisaida Marlit 10 February 2010 (has links) Los sistemas de diálogo vía telefónica son desarrollos en los cuales la computadora emula el comportamiento humano para dar respuesta a la consulta del usuario. En este contexto, la entonación con la cual la computadora emita la respuesta, tiene un papel importante, pues es el factor que dotará de naturalidad al sistema. En tanto esté bien modelada, la entonación permitirá que para el usuario sea casi imperceptible la diferencia entre una voz de persona y una voz sintética. / Tesis Procesamiento de señales digitales Reconocimiento de voz Reconocimiento del habla Sistemas de procesamiento de voz Telefonía
3	Módulo de reconocimiento de voz a texto independiente de locutor para sistemas de diálogo García García, Ursula del Milagro 09 May 2011 (has links) En la actualidad, gracias al avance de la tecnología y del desarrollo matemático, los sistemas que interactúan con el usuario utilizando el habla son una realidad en varias partes del mundo, principalmente dando información sobre diversos dominios, ya sean viajes en avión y en tren, búsquedas medicas, etc. Sin embargo, construir uno implica una investigación multidisciplinaria, donde se mezclan la lingüística, el procesamiento digital de señales y la inteligencia artificial. / Tesis Procesamiento de señales Reconocimiento del habla Sistemas de procesamiento de voz
4	Diseño de silla de ruedas motorizada controlada por voz Castillo Nieto, Gustavo, Huachupoma Quiroz, Samuel 2013 March 1919 (has links) En esta tesis se llega a implementar una silla de rueda motorizada, donde el usuario puede comandar el vehículo escogiendo entre dos modos de operación. El primer modo, a través del uso de un mando manual y el segundo, a través del uso de palabras de control ( señales de voz ). El contenido de este trabajo se divide en seis capítulos. En el primer capítulo se explica en forma genérica el funcionamiento de la silla de ruedas, y se describe cada una de sus partes. En el segundo capítulo se explica el funcionamiento del sistema de control de la silla y cómo este hace posible controlar la velocidad, la dirección y los modos de operación. En el tercero, se explica el sistema de reconocimiento de palabras, indicando los tipos de señales de control que genera y como estás se utilizan para poner en movimiento la silla. En el cuarto capítulo se muestran y explican las características del sistema de potencia de la silla de ruedas. En el quinto capítulo se explica porque se hace necesaria la adaptación mecánica de la silla. Finalmente, en el sexto capítulo se describen las pruebas y resultados obtenidos al hacer uso del prototipo desarrollado. / Tesis Ingeniería Electrónica Procesamiento del habla Reconocimiento del habla Sillas de ruedas Circuitos electrónicos Microcontroladores Tesis
5	Diseño e implementación de un sistema interactivo de respuesta de voz (IVR) piloto para la reserva de boletos del ferrocarril Cuzco-Machu Pichu Ortega Gallegos, David Alfonso 09 May 2011 (has links) El proyecto de tesis consiste en el estudio, diseño e implementación de un sistema IVR IP de interfaz telefónica bilingüe (español inglés) para la reserva de boletos del ferrocarril de Cuzco para el viaje desde la estación de San Pedro hasta la ciudadela Machu Picchu (Aguas Calientes). Este sistema consistirá en una arquitectura conformada por tres servidores: El primero será una PBX IP implementada en software libre, el segundo un servidor de requerimientos que tramitará pedidos y almacenará la lógica del sistema, y el tercero un servidor de Base de datos que sigue el modelamiento desarrollado en este trabajo. Programas de código abierto Reconocimiento del habla Sistemas de procesamiento de voz Telecomunicaciones
6	Modelo de entonación para un sintetizador de voz con aplicación a un sistema de información vía telefónica en cines Flores Álvarez, Crisaida Marlit 10 February 2010 (has links) Los sistemas de diálogo vía telefónica son desarrollos en los cuales la computadora emula el comportamiento humano para dar respuesta a la consulta del usuario. En este contexto, la entonación con la cual la computadora emita la respuesta, tiene un papel importante, pues es el factor que dotará de naturalidad al sistema. En tanto esté bien modelada, la entonación permitirá que para el usuario sea casi imperceptible la diferencia entre una voz de persona y una voz sintética. Procesamiento de señales digitales Reconocimiento de voz Reconocimiento del habla Sistemas de procesamiento de voz Telefonía
7	Módulo de reconocimiento de voz a texto independiente de locutor para sistemas de diálogo García García, Ursula del Milagro 09 May 2011 (has links) En la actualidad, gracias al avance de la tecnología y del desarrollo matemático, los sistemas que interactúan con el usuario utilizando el habla son una realidad en varias partes del mundo, principalmente dando información sobre diversos dominios, ya sean viajes en avión y en tren, búsquedas medicas, etc. Sin embargo, construir uno implica una investigación multidisciplinaria, donde se mezclan la lingüística, el procesamiento digital de señales y la inteligencia artificial. Procesamiento de señales Reconocimiento del habla Sistemas de procesamiento de voz
8	CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURES Agua Teba, Miguel Ángel del 04 November 2019 (has links) Tesis por compendio / [ES] Durante los últimos años, los repositorios multimedia en línea se han convertido en fuentes clave de conocimiento gracias al auge de Internet, especialmente en el área de la educación. Instituciones educativas de todo el mundo han dedicado muchos recursos en la búsqueda de nuevos métodos de enseñanza, tanto para mejorar la asimilación de nuevos conocimientos, como para poder llegar a una audiencia más amplia. Como resultado, hoy en día disponemos de diferentes repositorios con clases grabadas que siven como herramientas complementarias en la enseñanza, o incluso pueden asentar una nueva base en la enseñanza a distancia. Sin embargo, deben cumplir con una serie de requisitos para que la experiencia sea totalmente satisfactoria y es aquí donde la transcripción de los materiales juega un papel fundamental. La transcripción posibilita una búsqueda precisa de los materiales en los que el alumno está interesado, se abre la puerta a la traducción automática, a funciones de recomendación, a la generación de resumenes de las charlas y además, el poder hacer llegar el contenido a personas con discapacidades auditivas. No obstante, la generación de estas transcripciones puede resultar muy costosa. Con todo esto en mente, la presente tesis tiene como objetivo proporcionar nuevas herramientas y técnicas que faciliten la transcripción de estos repositorios. En particular, abordamos el desarrollo de un conjunto de herramientas de reconocimiento de automático del habla, con énfasis en las técnicas de aprendizaje profundo que contribuyen a proporcionar transcripciones precisas en casos de estudio reales. Además, se presentan diferentes participaciones en competiciones internacionales donde se demuestra la competitividad del software comparada con otras soluciones. Por otra parte, en aras de mejorar los sistemas de reconocimiento, se propone una nueva técnica de adaptación de estos sistemas al interlocutor basada en el uso Medidas de Confianza. Esto además motivó el desarrollo de técnicas para la mejora en la estimación de este tipo de medidas por medio de Redes Neuronales Recurrentes. Todas las contribuciones presentadas se han probado en diferentes repositorios educativos. De hecho, el toolkit transLectures-UPV es parte de un conjunto de herramientas que sirve para generar transcripciones de clases en diferentes universidades e instituciones españolas y europeas. / [CA] Durant els últims anys, els repositoris multimèdia en línia s'han convertit en fonts clau de coneixement gràcies a l'expansió d'Internet, especialment en l'àrea de l'educació. Institucions educatives de tot el món han dedicat molts recursos en la recerca de nous mètodes d'ensenyament, tant per millorar l'assimilació de nous coneixements, com per poder arribar a una audiència més àmplia. Com a resultat, avui dia disposem de diferents repositoris amb classes gravades que serveixen com a eines complementàries en l'ensenyament, o fins i tot poden assentar una nova base a l'ensenyament a distància. No obstant això, han de complir amb una sèrie de requisits perquè la experiència siga totalment satisfactòria i és ací on la transcripció dels materials juga un paper fonamental. La transcripció possibilita una recerca precisa dels materials en els quals l'alumne està interessat, s'obri la porta a la traducció automàtica, a funcions de recomanació, a la generació de resums de les xerrades i el poder fer arribar el contingut a persones amb discapacitats auditives. No obstant, la generació d'aquestes transcripcions pot resultar molt costosa. Amb això en ment, la present tesi té com a objectiu proporcionar noves eines i tècniques que faciliten la transcripció d'aquests repositoris. En particular, abordem el desenvolupament d'un conjunt d'eines de reconeixement automàtic de la parla, amb èmfasi en les tècniques d'aprenentatge profund que contribueixen a proporcionar transcripcions precises en casos d'estudi reals. A més, es presenten diferents participacions en competicions internacionals on es demostra la competitivitat del programari comparada amb altres solucions. D'altra banda, per tal de millorar els sistemes de reconeixement, es proposa una nova tècnica d'adaptació d'aquests sistemes a l'interlocutor basada en l'ús de Mesures de Confiança. A més, això va motivar el desenvolupament de tècniques per a la millora en l'estimació d'aquest tipus de mesures per mitjà de Xarxes Neuronals Recurrents. Totes les contribucions presentades s'han provat en diferents repositoris educatius. De fet, el toolkit transLectures-UPV és part d'un conjunt d'eines que serveix per generar transcripcions de classes en diferents universitats i institucions espanyoles i europees. / [EN] During the last years, on-line multimedia repositories have become key knowledge assets thanks to the rise of Internet and especially in the area of education. Educational institutions around the world have devoted big efforts to explore different teaching methods, to improve the transmission of knowledge and to reach a wider audience. As a result, online video lecture repositories are now available and serve as complementary tools that can boost the learning experience to better assimilate new concepts. In order to guarantee the success of these repositories the transcription of each lecture plays a very important role because it constitutes the first step towards the availability of many other features. This transcription allows the searchability of learning materials, enables the translation into another languages, provides recommendation functions, gives the possibility to provide content summaries, guarantees the access to people with hearing disabilities, etc. However, the transcription of these videos is expensive in terms of time and human cost. To this purpose, this thesis aims at providing new tools and techniques that ease the transcription of these repositories. In particular, we address the development of a complete Automatic Speech Recognition Toolkit with an special focus on the Deep Learning techniques that contribute to provide accurate transcriptions in real-world scenarios. This toolkit is tested against many other in different international competitions showing comparable transcription quality. Moreover, a new technique to improve the recognition accuracy has been proposed which makes use of Confidence Measures, and constitutes the spark that motivated the proposal of new Confidence Measures techniques that helped to further improve the transcription quality. To this end, a new speaker-adapted confidence measure approach was proposed for models based on Recurrent Neural Networks. The contributions proposed herein have been tested in real-life scenarios in different educational repositories. In fact, the transLectures-UPV toolkit is part of a set of tools for providing video lecture transcriptions in many different Spanish and European universities and institutions. / Agua Teba, MÁD. (2019). CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURES [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/130198 / Compendio PoliMedia Machine Learning Deep Learning Deep Neural Networks Recurrent Neural Networks Reconocimiento del Habla Automatic Speech Recognition Medidas de Confianza Confidence Measures Redes Neuronales MOOCs LENGUAJES Y SISTEMAS INFORMATICOS
9	Transformer Models for Machine Translation and Streaming Automatic Speech Recognition Baquero Arnal, Pau 29 May 2023 (has links) [ES] El procesamiento del lenguaje natural (NLP) es un conjunto de problemas computacionales con aplicaciones de máxima relevancia, que junto con otras tecnologías informáticas se ha beneficiado de la revolución que ha significado el aprendizaje profundo. Esta tesis se centra en dos problemas fundamentales para el NLP: la traducción automática (MT) y el reconocimiento automático del habla o transcripción automática (ASR); así como en una arquitectura neuronal profunda, el Transformer, que pondremos en práctica para mejorar las soluciones de MT y ASR en algunas de sus aplicaciones. El ASR y MT pueden servir para obtener textos multilingües de alta calidad a un coste razonable para una diversidad de contenidos audiovisuales. Concre- tamente, esta tesis aborda problemas como el de traducción de noticias o el de subtitulación automática de televisión. El ASR y MT también se pueden com- binar entre sí, generando automáticamente subtítulos traducidos, o con otras soluciones de NLP: resumen de textos para producir resúmenes de discursos, o síntesis del habla para crear doblajes automáticos. Estas aplicaciones quedan fuera del alcance de esta tesis pero pueden aprovechar las contribuciones que contiene, en la meduda que ayudan a mejorar el rendimiento de los sistemas automáticos de los que dependen. Esta tesis contiene una aplicación de la arquitectura Transformer al MT tal y como fue concebida, mediante la que obtenemos resultados de primer nivel en traducción de lenguas semejantes. En capítulos subsecuentes, esta tesis aborda la adaptación del Transformer como modelo de lenguaje para sistemas híbri- dos de ASR en vivo. Posteriormente, describe la aplicación de este tipus de sistemas al caso de uso de subtitulación de televisión, participando en una com- petición pública de RTVE donde obtenemos la primera posición con un marge importante. También demostramos que la mejora se debe principalmenta a la tecnología desarrollada y no tanto a la parte de los datos. / [CA] El processament del llenguage natural (NLP) és un conjunt de problemes com- putacionals amb aplicacions de màxima rellevància, que juntament amb al- tres tecnologies informàtiques s'ha beneficiat de la revolució que ha significat l'impacte de l'aprenentatge profund. Aquesta tesi se centra en dos problemes fonamentals per al NLP: la traducció automàtica (MT) i el reconeixement automàtic de la parla o transcripció automàtica (ASR); així com en una ar- quitectura neuronal profunda, el Transformer, que posarem en pràctica per a millorar les solucions de MT i ASR en algunes de les seues aplicacions. l'ASR i MT poden servir per obtindre textos multilingües d'alta qualitat a un cost raonable per a un gran ventall de continguts audiovisuals. Concretament, aquesta tesi aborda problemes com el de traducció de notícies o el de subtitu- lació automàtica de televisió. l'ASR i MT també es poden combinar entre ells, generant automàticament subtítols traduïts, o amb altres solucions de NLP: amb resum de textos per produir resums de discursos, o amb síntesi de la parla per crear doblatges automàtics. Aquestes altres aplicacions es troben fora de l'abast d'aquesta tesi però poden aprofitar les contribucions que conté, en la mesura que ajuden a millorar els resultats dels sistemes automàtics dels quals depenen. Aquesta tesi conté una aplicació de l'arquitectura Transformer al MT tal com va ser concebuda, mitjançant la qual obtenim resultats de primer nivell en traducció de llengües semblants. En capítols subseqüents, aquesta tesi aborda l'adaptació del Transformer com a model de llenguatge per a sistemes híbrids d'ASR en viu. Posteriorment, descriu l'aplicació d'aquest tipus de sistemes al cas d'ús de subtitulació de continguts televisius, participant en una competició pública de RTVE on obtenim la primera posició amb un marge significant. També demostrem que la millora es deu principalment a la tecnologia desen- volupada i no tant a la part de les dades / [EN] Natural language processing (NLP) is a set of fundamental computing prob- lems with immense applicability, as language is the natural communication vehicle for people. NLP, along with many other computer technologies, has been revolutionized in recent years by the impact of deep learning. This thesis is centered around two keystone problems for NLP: machine translation (MT) and automatic speech recognition (ASR); and a common deep neural architec- ture, the Transformer, that is leveraged to improve the technical solutions for some MT and ASR applications. ASR and MT can be utilized to produce cost-effective, high-quality multilin- gual texts for a wide array of media. Particular applications pursued in this thesis are that of news translation or that of automatic live captioning of tele- vision broadcasts. ASR and MT can also be combined with each other, for instance generating automatic translated subtitles from audio, or augmented with other NLP solutions: text summarization to produce a summary of a speech, or speech synthesis to create an automatic translated dubbing, for in- stance. These other applications fall out of the scope of this thesis, but can profit from the contributions that it contains, as they help to improve the performance of the automatic systems on which they depend. This thesis contains an application of the Transformer architecture to MT as it was originally conceived, achieving state-of-the-art results in similar language translation. In successive chapters, this thesis covers the adaptation of the Transformer as a language model for streaming hybrid ASR systems. After- wards, it describes how we applied the developed technology for a specific use case in television captioning by participating in a competitive challenge and achieving the first position by a large margin. We also show that the gains came mostly from the improvement in technology capabilities over two years including that of the Transformer language model adapted for streaming, and the data component was minor. / Baquero Arnal, P. (2023). Transformer Models for Machine Translation and Streaming Automatic Speech Recognition [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/193680 Machine translation (MT) Automatic speech recognition (ASR) Machine translation Speech recognition Pattern recognition Traducción automática Aprendizaje automático Reconocimiento del habla Reconocimiento de patrones Reconeixement de la parla Aprenentatge automatic Machine Learning Tradució Automàtica Reconeixement de patrons LENGUAJES Y SISTEMAS INFORMATICOS

Search results