• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • 13
  • Tagged with
  • 34
  • 34
  • 20
  • 20
  • 15
  • 14
  • 13
  • 12
  • 12
  • 10
  • 10
  • 10
  • 9
  • 9
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Anomalous Diffusion Characterization using Machine Learning Methods

Garibo Orts, Óscar 18 April 2023 (has links)
Tesis por compendio / [ES] Durante las últimas décadas el uso del aprendizaje automático (machine learning) y de la inteligencia artificial ha mostrado un crecimiento exponencial en muchas áreas de la ciencia. El hecho de que los ordenadores hayan aumentado sus restaciones a la vez que han reducido su precio, junto con la disponibilidad de entornos de desarrollo de código abierto han permitido el acceso a la inteligencia artificial a un gran rango de investigadores, democratizando de esta forma el acceso a métodos de inteligencia artificial a la comunidad investigadora. Es nuestra creencia que la multidisciplinaridad es clave para nuevos logros, con equipos compuestos de investigadores con diferentes preparaciones y de diferentes campos de especialización. Con este ánimo, hemos orientado esta tesis en el uso de machine learning inteligencia artificial, aprendizaje profundo o deep learning, entendiendo todas las anteriores como parte de un concepto global que concretamos en el término inteligencia artificial, a intentar arrojar luz a algunos problemas de los campos de las matemáticas y la física. Desarrollamos una arquitectura deep learning y la medimos con éxito en la caracterización de procesos de difusión anómala. Mientras que previamente se habían utilizado métodos estadísticos clásicos con este objetivo, los métodos de deep learning han demostrado mejorar las prestaciones de dichos métodos clásicos. Nuestra architectura demostró que puede inferir con precisión el exponente de difusión anómala y clasificar trayectorias entre un conjunto dado de modelos subyacentes de difusión . Mientras que las redes neuronales recurrentes irrumpieron recientemente, los modelos basados en redes convolucionales han sido ámpliamente testados en el campo del procesamiento de imagen durante más de 15 años. Existen muchos modelos y arquitecturas, pre-entrenados y listos para ser usados por la comunidad. No es necesario realizar investigación ya que dichos modelos han probado su valía durante años y están bien documentados en la literatura. Nuestro objetivo era ser capaces de usar esos modelos bien conocidos y fiables, con trayectorias de difusión anómala. Solo necesitábamos convertir una serie temporal en una imagen, cosa que hicimos aplicando gramian angular fields a las trayectorias, poniendo el foco en las trayectorias cortas. Hasta donde sabemos, ésta es la primera vez que dichas técnicas son usadas en este campo. Mostramos cómo esta aproximación mejora las prestaciones de cualquier otra propuesta en la clasificación del modelo subyacente de difusión anómala para trayectorias cortas. Más allá de la física están las matemáticas. Utilizamos nuestra arquitectura basada en redes recurrentes neuronales para inferir los parámetros que definen las trayectorias de Wu Baleanu. Mostramos que nuestra propuesta puede inferir con azonable precisión los parámetros mu y nu. Siendo la primera vez, de nuevo hasta donde llega nuestro conocimiento, que tales técnicas se aplican en este escenario. Extendemos este trabajo a las ecuaciones fraccionales discretas con retardo, obteniendo resultados similares en términos de precisión. Adicionalmente, mostramos que la misma arquitectura se puede usar para discriminar entre trayectorias con y sin retardo con gran confianza. Finalmente, también investigamos modelos fraccionales discretos. Hemos analizado esquemas de paso temporal con la cuadratura de Lubich en lugar del clásico esquema de orden 1 de Euler. En el primer estudio de este nuevo paradigma hemos comparado los diagramas de bifurcación de los mapas logístico y del seno, obtenidos de la discretización de Euler de orden 1, 2 y 1/2. / [CAT] Durant les darreres dècades l'ús de l'aprenentatge automàtic (machine learning) i de la intel.ligència artificial ha mostrat un creixement exponencial en moltes àrees de la ciència. El fet que els ordinadors hagen augmentat les seues prestacions a la vegada que han reduït el seu preu, junt amb la disponibilitat d'entorns de desenvolupament de codi obert han permès l'accés a la intel.ligència artificial a un gran rang d'investigadors, democratitzant així l'accés a mètodes d'intel.ligència artificial a la comunitat investigadora. És la nostra creença que la multidisciplinaritat és clau per a nous èxits, amb equips compostos d'investigadors amb diferents preparacions i diferents camps d'especialització. Amb aquest ànim, hem orientat aquesta tesi en l'ús d'intel.ligència artificial machine learning, aprenentatge profund o deep learning, entenent totes les anteriors com a part d'un concepte global que concretem en el terme intel.ligència, a intentar donar llum a alguns problemes dels camps de les matemàtiques i la física. Desenvolupem una arquitectura deep learning i la mesurem amb èxit en la caracterització de processos de difusió anòmala. Mentre que prèviament s'havien utilitzat mètodes estadístics clàssics amb aquest objectiu, els mètodes de deep learning han demostrat millorar les prestacions d'aquests mètodes clàssics. La nostra architectura va demostrar que pot inferir amb precisió l'exponent de difusió anòmala i classificar trajectòries entre un conjunt donat de models subjacents de difusió. Mentre que les xarxes neuronals recurrents van irrompre recentment, els models basats en xarxes convolucionals han estat àmpliament testats al camp del processament d'imatge durant més de 15 anys. Hi ha molts models i arquitectures, pre-entrenats i llestos per ser usats per la comunitat. No cal fer recerca ja que aquests models han provat la seva vàlua durant anys i estan ben documentats a la literatura. El nostre objectiu era ser capaços de fer servir aquests models ben coneguts i fiables, amb trajectòries de difusió anòmala. Només necessitàvem convertir una sèrie temporal en una imatge, cosa que vam fer aplicant gramian angular fields a les trajectòries, posant el focus a les trajectòries curtes. Fins on sabem, aquesta és la primera vegada que aquestes tècniques són usades en aquest camp. Mostrem com aquesta aproximació millora les prestacions de qualsevol altra proposta a la classificació del model subjacent de difusió anòmala per a trajectòries curtes. Més enllà de la física hi ha les matemàtiques. Utilitzem la nostra arquitectura basada en xarxes recurrents neuronals per inferir els paràmetres que defineixen les trajectòries de Wu Baleanu. Mostrem que la nostra proposta pot inferir amb raonable precisió els paràmetres mu i nu. Sent la primera vegada, novament fins on arriba el nostre coneixement, que aquestes tècniques s'apliquen en aquest escenari. Estenem aquest treball a les equacions fraccionals discretes amb retard, obtenint resultats similars en termes de precisió. Addicionalment, mostrem que la mateixa arquitectura es pot fer servir per discriminar entre trajectòries amb i sense retard amb gran confiança. Finalment, també investiguem models fraccionals discrets. Hem analitzat esquemes de pas temporal amb la quadratura de Lubich en lloc del clàssic esquema d'ordre 1 d'Euler. Al primer estudi d'aquest nou paradigma hem comparat els diagrames de bifurcació dels mapes logístic i del sinus, obtinguts de la discretització d'Euler d'ordre 1, 2 i 1/2. / [EN] During the last decades the use of machine learning and artificial intelligence have showed an exponential growth in many areas of science. The fact that computer's hardware has increased its performance while lowering the price and the availability of open source frameworks have enabled the access to artificial intelligence to a broad range of researchers, hence democratizing the access to artificial intelligence methods to the research community. It is our belief that multi-disciplinarity is the key to new achievements, with teams composed of researchers with different backgrounds and fields of specialization. With this aim, we focused this thesis in using machine learning, artificial intelligence, deep learing, all of them being understood as part of a whole concept we concrete in artificial intelligence, to try to shed light to some problems from the fields of mathematics and physics. A deep learning architecture was developed and successfully benchmarked with the characterization of anomalous diffusion processes. Whereas traditional statistical methods had previously been used with this aim, deep learing methods, mainly based on recurrent neural networks have proved to outperform these clasical methods. Our architecture showed it can precisely infer the anomalous diffusion exponent and accurately classify trajectories among a given set of underlaying diffusion models. While recurrent neural networks irrupted in the recent years, convolutional network based models had been extensively tested in the field of image processing for more than 15 years. There exist many models and architectures, pre-trained and set to be used by the community. No further investigation needs to be done since the architecture have proved their value for years and are very well documented in the literature. Our goal was being able to used this well-known and reliable models with anomalous diffusion trajectories. We only needed to be able to convert a time series into an image, which we successfully did by applying gramian angular fields to the trajectories, focusing on short ones. To our knowledge this is the first time these techniques were used in this field. We show how this approach outperforms any other proposal in the underlaying diffusion model classification for short trajectories. Besides physics it is maths. We used our recurrent neural networks architecture to infer the parameters that define the Wu Baleanu trajectories. We show that our proposal can precisely infer both the mu and nu parameters with a reasonable confidence. Being the first time, to the best of our knowledge, that such techniques were applied to this scenario. We extend this work to the discrete delayed fractional equations, obtaining similar results in terms of precision. Additionally, we showed that the same architecture can be used to discriminate delayed from non-delayed trajectories with a high confidence. Finally, we also searched fractional discrete models. We have considered Lubich's quadrature time-stepping schemes instead of the classical Euler scheme of order 1. As the first study with this new paradigm, we compare the bifurcation diagrams for the logistic and sine maps obtained from Euler discretizations of orders 1, 2, and 1/2. / J.A.C. acknowledges support from ALBATROSS project (National Plan for Scientific and Technical Research and Innovation 2017-2020, No. PID2019-104978RB-I00). M.A.G.M. acknowledges funding from the Spanish Ministry of Education and Vocational Training (MEFP) through the Beatriz Galindo program 2018 (BEAGAL18/00203) and Spanish Ministry MINECO (FIDEUA PID2019- 106901GBI00/10.13039/501100011033). We thank M.A. Garc ́ıa-March for helpful comments and discussions on the topic. NF is sup- ported by the National University of Singapore through the Singapore International Graduate Student Award (SINGA) program. OGO and LS acknowledge funding from MINECO project, grant TIN2017-88476-C2-1-R. JAC acknowledges funding from grant PID2021-124618NB-C21 funded by MCIN/AEI/ 10.13039/501100011033 and by “ERDF A way of making Europe”, by the “European Union”. We also thank funding for the open access charges from CRUE-Universitat Politècnica de València. / Garibo Orts, Ó. (2023). Anomalous Diffusion Characterization using Machine Learning Methods [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/192831 / Compendio
22

Computational Argumentation for the Automatic Analysis of Argumentative Discourse and Human Persuasion

Ruiz Dolz, Ramon 10 July 2023 (has links)
Tesis por compendio / [ES] La argumentación computacional es el área de investigación que estudia y analiza el uso de distintas técnicas y algoritmos que aproximan el razonamiento argumentativo humano desde un punto de vista computacional. En esta tesis doctoral se estudia el uso de distintas técnicas propuestas bajo el marco de la argumentación computacional para realizar un análisis automático del discurso argumentativo, y para desarrollar técnicas de persuasión computacional basadas en argumentos. Con estos objetivos, en primer lugar se presenta una completa revisión del estado del arte y se propone una clasificación de los trabajos existentes en el área de la argumentación computacional. Esta revisión nos permite contextualizar y entender la investigación previa de forma más clara desde la perspectiva humana del razonamiento argumentativo, así como identificar las principales limitaciones y futuras tendencias de la investigación realizada en argumentación computacional. En segundo lugar, con el objetivo de solucionar algunas de estas limitaciones, se ha creado y descrito un nuevo conjunto de datos que permite abordar nuevos retos y investigar problemas previamente inabordables (e.g., evaluación automática de debates orales). Conjuntamente con estos datos, se propone un nuevo sistema para la extracción automática de argumentos y se realiza el análisis comparativo de distintas técnicas para esta misma tarea. Además, se propone un nuevo algoritmo para la evaluación automática de debates argumentativos y se prueba con debates humanos reales. Finalmente, en tercer lugar se presentan una serie de estudios y propuestas para mejorar la capacidad persuasiva de sistemas de argumentación computacionales en la interacción con usuarios humanos. De esta forma, en esta tesis se presentan avances en cada una de las partes principales del proceso de argumentación computacional (i.e., extracción automática de argumentos, representación del conocimiento y razonamiento basados en argumentos, e interacción humano-computador basada en argumentos), así como se proponen algunos de los cimientos esenciales para el análisis automático completo de discursos argumentativos en lenguaje natural. / [CA] L'argumentació computacional és l'àrea de recerca que estudia i analitza l'ús de distintes tècniques i algoritmes que aproximen el raonament argumentatiu humà des d'un punt de vista computacional. En aquesta tesi doctoral s'estudia l'ús de distintes tècniques proposades sota el marc de l'argumentació computacional per a realitzar una anàlisi automàtic del discurs argumentatiu, i per a desenvolupar tècniques de persuasió computacional basades en arguments. Amb aquestos objectius, en primer lloc es presenta una completa revisió de l'estat de l'art i es proposa una classificació dels treballs existents en l'àrea de l'argumentació computacional. Aquesta revisió permet contextualitzar i entendre la investigació previa de forma més clara des de la perspectiva humana del raonament argumentatiu, així com identificar les principals limitacions i futures tendències de la investigació realitzada en argumentació computacional. En segon lloc, amb l'objectiu de sol$\cdot$lucionar algunes d'aquestes limitacions, hem creat i descrit un nou conjunt de dades que ens permet abordar nous reptes i investigar problemes prèviament inabordables (e.g., avaluació automàtica de debats orals). Conjuntament amb aquestes dades, es proposa un nou sistema per a l'extracció d'arguments i es realitza l'anàlisi comparativa de distintes tècniques per a aquesta mateixa tasca. A més a més, es proposa un nou algoritme per a l'avaluació automàtica de debats argumentatius i es prova amb debats humans reals. Finalment, en tercer lloc es presenten una sèrie d'estudis i propostes per a millorar la capacitat persuasiva de sistemes d'argumentació computacionals en la interacció amb usuaris humans. D'aquesta forma, en aquesta tesi es presenten avanços en cada una de les parts principals del procés d'argumentació computacional (i.e., l'extracció automàtica d'arguments, la representació del coneixement i raonament basats en arguments, i la interacció humà-computador basada en arguments), així com es proposen alguns dels fonaments essencials per a l'anàlisi automàtica completa de discursos argumentatius en llenguatge natural. / [EN] Computational argumentation is the area of research that studies and analyses the use of different techniques and algorithms that approximate human argumentative reasoning from a computational viewpoint. In this doctoral thesis we study the use of different techniques proposed under the framework of computational argumentation to perform an automatic analysis of argumentative discourse, and to develop argument-based computational persuasion techniques. With these objectives in mind, we first present a complete review of the state of the art and propose a classification of existing works in the area of computational argumentation. This review allows us to contextualise and understand the previous research more clearly from the human perspective of argumentative reasoning, and to identify the main limitations and future trends of the research done in computational argumentation. Secondly, to overcome some of these limitations, we create and describe a new corpus that allows us to address new challenges and investigate on previously unexplored problems (e.g., automatic evaluation of spoken debates). In conjunction with this data, a new system for argument mining is proposed and a comparative analysis of different techniques for this same task is carried out. In addition, we propose a new algorithm for the automatic evaluation of argumentative debates and we evaluate it with real human debates. Thirdly, a series of studies and proposals are presented to improve the persuasiveness of computational argumentation systems in the interaction with human users. In this way, this thesis presents advances in each of the main parts of the computational argumentation process (i.e., argument mining, argument-based knowledge representation and reasoning, and argument-based human-computer interaction), and proposes some of the essential foundations for the complete automatic analysis of natural language argumentative discourses. / This thesis has been partially supported by the Generalitat Valenciana project PROMETEO/2018/002 and by the Spanish Government projects TIN2017-89156-R and PID2020-113416RB-I00 / Ruiz Dolz, R. (2023). Computational Argumentation for the Automatic Analysis of Argumentative Discourse and Human Persuasion [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/194806 / Compendio
23

Adoption Factors of Artificial intelligence in Human Resource Management

Tuffaha, Mohand 06 September 2022 (has links)
Tesis por compendio / [ES] El mundo es testigo de nuevos avances tecnológicos que afectan significativamente a las organizaciones en diferentes departamentos. La inteligencia artificial (IA) es uno de estos avances, visto como una tecnología revolucionaria en la gestión de recursos humanos (RRHH). Profesionales y académicos han discutido el brillante papel de la IA en RRHH. Sin embargo, el análisis profundo de esta tecnología en el proceso de RRHH es aún escaso. Con todo ello, el objetivo principal de esta tesis es investigar el estado de la IA en RRHH y así identificar factores clave de implementación concretos. Primero, construyendo un marco académico para la IA en RRHH; segundo, analizar las aplicaciones de IA más utilizada en los procesos de RRHH; tercero, identificar las formas óptimas de transferir el conocimiento en los procesos de implementación de IA. La metodología utilizada para la investigación combina la revisión sistemática de la literatura y técnicas de investigación cualitativa. Como base y medida preparatoria para abordar las preguntas de investigación, se llevó a cabo un extenso análisis de la literatura en el campo AI-RRHH, con un enfoque particular en las publicaciones de algoritmos de IA en HRM, análisis de HR-Big data, aplicaciones/soluciones de IA en HRM e implementación de IA. En la misma línea, el autor publicó artículos en varias conferencias que contribuyeron a mejorar la madurez de las preguntas de investigación. Con base en este conocimiento, los estudios publicados ilustraron la brecha entre la promesa y la realidad de la IA en RRHH, teniendo en cuenta los requisitos técnicos de la implementación de la IA, así como las aplicaciones y limitaciones. Posteriormente, se entrevistó a expertos en recursos humanos y consultores de IA que ya habían adquirido experiencia de primera mano con los procesos de recursos humanos en un entorno de IA para descubrir la verdad de la aplicación de la IA dominante en el proceso de RRHH. Los principales hallazgos de esta tesis incluyen la derivación de una definición completa de IA en RRHH, así como el estado de las estrategias de adopción de aplicaciones de IA en RRHH. Como resultado adicional, se explora la utilidad y las limitaciones de los chatbots en el proceso de contratación en la India. Además, factores clave para transferir el conocimiento del proceso de implementación de IA a los gerentes y empleados de recursos humanos. Finalmente, se concluye identificando desafíos asociados con la implementación de IA en el proceso de recursos humanos y el impacto de COVID-19 en la implementación de IA. / [CA] El món és testimoni de nous avanços tecnològics, que afecten significativament les organitzacions en diferents departaments. La intel·ligència artificial (IA) és un d'aquests avanços que s'anuncia àmpliament com una tecnologia revolucionària en la gestió de recursos humans (HRM). Professionals i acadèmics han discutit el brillant paper de la IA en HRM. No obstant això, encara és escàs l'anàlisi profund d'aquesta tecnologia en el procés de HRM. Per tant, l'objectiu principal d'aquesta tesi és investigar l'estat de la IA en HRM i derivar factors clau d'implementació concrets. Primer, construint un marc acadèmic per a la IA en HRM; segon, analitzar l'aplicació de IA més utilitzada en el procés de recursos humans; tercer, identificar les formes òptimes de transferir el coneixement dels processos d'implementació de IA. La metodologia utilitzada per a la investigació es combina entre una revisió sistemàtica de la literatura i una tècnica d'investigació qualitativa. Com a base i mesura preparatòria per a abordar les preguntes d'investigació, es va dur a terme una extensa anàlisi de la literatura en el camp IA-HRM, amb un enfocament particular en les publicacions d'algorismes de IA en HRM, anàlisis de HR-Big data, aplicacions/soluciones de IA en HRM i implementació de IA. En la mateixa línia, l'autor va publicar articles en diverses conferències que van procedir a millorar la maduresa de les preguntes d'investigació. Amb base en aquest coneixement, els estudis publicats van illustrar la bretxa entre la promesa i la realitat de la IA en HRM, tenint en compte els requisits tècnics de la implementació de la IA, així com les aplicacions i limitacions. Posteriorment, es va entrevistar experts en recursos humans i consultors de IA que ja havien adquirit experiència de primera mà amb els processos de recursos humans en un entorn de IA per a descobrir la veritat de l'aplicació de la IA dominant en el procés de recursos humans. Les principals troballes d'aquesta tesi són la derivació d'una definició completa de IA en HRM, així com l'estat de les estratègies d'adopció d'aplicacions de IA en HRM. Com a resultat addicional, explore la utilitat i les limitacions dels chatbots en el procés de contractació a l'Índia. A més, factors clau per a transferir el coneixement del procés d'implementació de IA als gerents i empleats de recursos humans. També es van concloure els desafiaments associats amb la implementació de IA en el procés de recursos humans i l'impacte de COVID-19 en la implementació de IA. / [EN] The world is witnessing new technological advancements, which significantly impacts organizations across different departments. Artificial intelligence (AI) is one of these advancements that is widely heralded as a revolutionary technology in Human Resource Management (HRM). Professionals and scholars have discussed the bright role of AI in HRM. However, deep analysis of this technology in the HR process is still scarce. Therefore, the main goal of this thesis is to investigate the status of AI in HRM and derive concrete implementation key factors. Through, first, building an academic framework for AI in HRM; second, analyzing the most commonly used AI applications in HR process; third, identifying the optimal ways to transfer the knowledge of AI implementation processes. The methodology used for the investigation combines a systematic literature review and a qualitative research technique. As a basis and preparatory measure to address the research questions, an extensive literature analysis in the AI-HRM field was carried out, with a particular focus on publications of AI in HRM, HR-Big data analysis, AI applications/solutions in HRM and AI implementation. Along similar lines, the author published papers in several conference proceedings to improve the maturity of research questions. Based on this work, the published studies illustrate the gap between the promise and reality of AI in HRM, taking into account the requirements of AI implementation as well as the applications and limitations. Subsequently, HR experts and AI consultants, who had already gained first-hand experience with HR processes in an AI environment, were interviewed to find out the truth of the dominant AI's application in HR process. The main findings of this thesis are the derivation of a complete definition of AI in HRM as well as the status of the adoption strategies of AI applications in HRM. As a further result, it explores the usefulness and limitations of chatbots in the recruitment processes in India. In addition, derived the key factors to transfer the knowledge of AI implementation process to HR managers and employees. Challenges associated with AI implementation in the HR process and the impact of COVID-19 on AI implementation were also concluded. / Tuffaha, M. (2022). Adoption Factors of Artificial intelligence in Human Resource Management [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/185909 / TESIS / Compendio
24

Layout Analysis for Handwritten Documents. A Probabilistic Machine Learning Approach

Quirós Díaz, Lorenzo 21 March 2022 (has links)
[ES] El Análisis de la Estructura de Documentos (Document Layout Analysis), aplicado a documentos manuscritos, tiene como objetivo obtener automáticamente la estructura intrínseca de dichos documentos. Su desarrollo como campo de investigación se extiende desde los sistemas de segmentación de caracteres desarrollados a principios de la década de 1960 hasta los sistemas complejos desarrollados en la actualidad, donde el objetivo es analizar estructuras de alto nivel (líneas de texto, párrafos, tablas, etc.) y la relación que existe entre ellas. Esta tesis, en primer lugar, define el objetivo del Análisis de la Estructura de Documentos desde una perspectiva probabilística. A continuación, la complejidad del problema se reduce a un conjunto de subproblemas complementarios bien conocidos, de manera que pueda ser gestionado por medio de recursos informáticos modernos. Concretamente se abordan tres de los principales problemas del Análisis de la Estructura de Documentos siguiendo una formulación probabilística. Específicamente se aborda la Detección de Línea Base (Baseline Detection), la Segmentación de Regiones (Region Segmentation) y la Determinación del Orden de Lectura (Reading Order Determination). Uno de los principales aportes de esta tesis es la formalización de los problemas de Detección de Línea Base y Segmentación de Regiones bajo un marco probabilístico, donde ambos problemas pueden ser abordados por separado o de forma integrada por los modelos propuestos. Este último enfoque ha demostrado ser muy útil para procesar grandes colecciones de documentos con recursos informáticos limitados. Posteriormente se aborda el subproblema de la Determinación del Orden de Lectura, que es uno de los subproblemas más importantes, aunque subestimados, del Análisis de la Extructura de Documentos, ya que es el nexo que permite convertir los datos extraídos de los sistemas de Reconocimiento Automático de Texto (Automatic Text Recognition Systems) en información útil. Por lo tanto, en esta tesis abordamos y formalizamos la Determinación del Orden de Lectura como un problema de clasificación probabilística por pares. Además, se proponen dos diferentes algoritmos de decodificación que reducen la complejidad computacional del problema. Por otra parte, se utilizan diferentes modelos estadísticos para representar la distribución de probabilidad sobre la estructura de los documentos. Estos modelos, basados en Redes Neuronales Artificiales (desde un simple Perceptrón Multicapa hasta complejas Redes Convolucionales y Redes de Propuesta de Regiones), se estiman a partir de datos de entrenamiento utilizando algoritmos de aprendizaje automático supervisados. Finalmente, todas las contribuciones se evalúan experimentalmente, no solo en referencias académicas estándar, sino también en colecciones de miles de imágenes. Se han considerado documentos de texto manuascritos y documentos musicales manuscritos, ya que en conjunto representan la mayoría de los documentos presentes en bibliotecas y archivos. Los resultados muestran que los métodos propuestos son muy precisos y versátiles en una amplia gama de documentos manuscritos. / [CA] L'Anàlisi de l'Estructura de Documents (Document Layout Analysis), aplicada a documents manuscrits, pretén automatitzar l'obtenció de l'estructura intrínseca d'un document. El seu desenvolupament com a camp d'investigació comprén des dels sistemes de segmentació de caràcters creats al principi dels anys 60 fins als complexos sistemes de hui dia que busquen analitzar estructures d'alt nivell (línies de text, paràgrafs, taules, etc) i les relacions entre elles. Aquesta tesi busca, primer de tot, definir el propòsit de l'anàlisi de l'estructura de documents des d'una perspectiva probabilística. Llavors, una vegada reduïda la complexitat del problema, es processa utilitzant recursos computacionals moderns, per a dividir-ho en un conjunt de subproblemes complementaris més coneguts. Concretament, tres dels principals subproblemes de l'Anàlisi de l'Estructura de Documents s'adrecen seguint una formulació probabilística: Detecció de la Línia Base Baseline Detection), Segmentació de Regions (Region Segmentation) i Determinació de l'Ordre de Lectura (Reading Order Determination). Una de les principals contribucions d'aquesta tesi és la formalització dels problemes de la Detecció de les Línies Base i dels de Segmentació de Regions en un entorn probabilístic, sent els dos problemes tractats per separat o integrats en conjunt pels models proposats. Aquesta última aproximació ha demostrat ser de molta utilitat per a la gestió de grans col·leccions de documents amb uns recursos computacionals limitats. Posteriorment s'ha adreçat el subproblema de la Determinació de l'Ordre de Lectura, sent un dels subproblemes més importants de l'Anàlisi d'Estructures de Documents, encara així subestimat, perquè és el nexe que permet transformar en informació d'utilitat l'extracció de dades dels sistemes de reconeixement automàtic de text. És per això que el fet de determinar l'ordre de lectura s'adreça i formalitza com un problema d'ordenació probabilística per parells. A més, es proposen dos algoritmes descodificadors diferents que reducix la complexitat computacional del problema. Per altra banda s'utilitzen diferents models estadístics per representar la distribució probabilística sobre l'estructura dels documents. Aquests models, basats en xarxes neuronals artificials (des d'un simple perceptron multicapa fins a complexes xarxes convolucionals i de propostes de regió), s'estimen a partir de dades d'entrenament mitjançant algoritmes d'aprenentatge automàtic supervisats. Finalment, totes les contribucions s'avaluen experimentalment, no només en referents acadèmics estàndard, sinó també en col·leccions de milers d'imatges. S'han considerat documents de text manuscrit i documents musicals manuscrits, ja que representen la majoria de documents presents a biblioteques i arxius. Els resultats mostren que els mètodes proposats són molt precisos i versàtils en una àmplia gamma de documents manuscrits. / [EN] Document Layout Analysis, applied to handwritten documents, aims to automatically obtain the intrinsic structure of a document. Its development as a research field spans from the character segmentation systems developed in the early 1960s to the complex systems designed nowadays, where the goal is to analyze high-level structures (lines of text, paragraphs, tables, etc) and the relationship between them. This thesis first defines the goal of Document Layout Analysis from a probabilistic perspective. Then, the complexity of the problem is reduced, to be handled by modern computing resources, into a set of well-known complementary subproblems. More precisely, three of the main subproblems of Document Layout Analysis are addressed following a probabilistic formulation, namely Baseline Detection, Region Segmentation and Reading Order Determination. One of the main contributions of this thesis is the formalization of Baseline Detection and Region Segmentation problems under a probabilistic framework, where both problems can be handled separately or in an integrated way by the proposed models. The latter approach is proven to be very useful to handle large document collections under restricted computing resources. Later, the Reading Order Determination subproblem is addressed. It is one of the most important, yet underestimated, subproblem of Document Layout Analysis, since it is the bridge that allows us to convert the data extracted from Automatic Text Recognition systems into useful information. Therefore, Reading Order Determination is addressed and formalized as a pairwise probabilistic sorting problem. Moreover, we propose two different decoding algorithms that reduce the computational complexity of the problem. Furthermore, different statistical models are used to represent the probability distribution over the structure of the documents. These models, based on Artificial Neural Networks (from a simple Multilayer Perceptron to complex Convolutional and Region Proposal Networks), are estimated from training data using supervised Machine Learning algorithms. Finally, all the contributions are experimentally evaluated, not only on standard academic benchmarks but also in collections of thousands of images. We consider handwritten text documents and handwritten musical documents as they represent the majority of documents in libraries and archives. The results show that the proposed methods are very accurate and versatile in a very wide range of handwritten documents. / Quirós Díaz, L. (2022). Layout Analysis for Handwritten Documents. A Probabilistic Machine Learning Approach [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181483 / TESIS
25

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Pérez González de Martos, Alejandro Manuel 12 July 2022 (has links)
[ES] En los últimos años, el aprendizaje profundo ha cambiado significativamente el panorama en diversas áreas del campo de la inteligencia artificial, entre las que se incluyen la visión por computador, el procesamiento del lenguaje natural, robótica o teoría de juegos. En particular, el sorprendente éxito del aprendizaje profundo en múltiples aplicaciones del campo del procesamiento del lenguaje natural tales como el reconocimiento automático del habla (ASR), la traducción automática (MT) o la síntesis de voz (TTS), ha supuesto una mejora drástica en la precisión de estos sistemas, extendiendo así su implantación a un mayor rango de aplicaciones en la vida real. En este momento, es evidente que las tecnologías de reconocimiento automático del habla y traducción automática pueden ser empleadas para producir, de forma efectiva, subtítulos multilingües de alta calidad de contenidos audiovisuales. Esto es particularmente cierto en el contexto de los vídeos educativos, donde las condiciones acústicas son normalmente favorables para los sistemas de ASR y el discurso está gramaticalmente bien formado. Sin embargo, en el caso de TTS, aunque los sistemas basados en redes neuronales han demostrado ser capaces de sintetizar voz de un realismo y calidad sin precedentes, todavía debe comprobarse si esta tecnología está lo suficientemente madura como para mejorar la accesibilidad y la participación en el aprendizaje en línea. Además, existen diversas tareas en el campo de la síntesis de voz que todavía suponen un reto, como la clonación de voz inter-lingüe, la síntesis incremental o la adaptación zero-shot a nuevos locutores. Esta tesis aborda la mejora de las prestaciones de los sistemas actuales de síntesis de voz basados en redes neuronales, así como la extensión de su aplicación en diversos escenarios, en el contexto de mejorar la accesibilidad en el aprendizaje en línea. En este sentido, este trabajo presta especial atención a la adaptación a nuevos locutores y a la clonación de voz inter-lingüe, ya que los textos a sintetizar se corresponden, en este caso, a traducciones de intervenciones originalmente en otro idioma. / [CA] Durant aquests darrers anys, l'aprenentatge profund ha canviat significativament el panorama en diverses àrees del camp de la intel·ligència artificial, entre les quals s'inclouen la visió per computador, el processament del llenguatge natural, robòtica o la teoria de jocs. En particular, el sorprenent èxit de l'aprenentatge profund en múltiples aplicacions del camp del processament del llenguatge natural, com ara el reconeixement automàtic de la parla (ASR), la traducció automàtica (MT) o la síntesi de veu (TTS), ha suposat una millora dràstica en la precisió i qualitat d'aquests sistemes, estenent així la seva implantació a un ventall més ampli a la vida real. En aquest moment, és evident que les tecnologies de reconeixement automàtic de la parla i traducció automàtica poden ser emprades per a produir, de forma efectiva, subtítols multilingües d'alta qualitat de continguts audiovisuals. Això és particularment cert en el context dels vídeos educatius, on les condicions acústiques són normalment favorables per als sistemes d'ASR i el discurs està gramaticalment ben format. No obstant això, al cas de TTS, encara que els sistemes basats en xarxes neuronals han demostrat ser capaços de sintetitzar veu d'un realisme i qualitat sense precedents, encara s'ha de comprovar si aquesta tecnologia és ja prou madura com per millorar l'accessibilitat i la participació en l'aprenentatge en línia. A més, hi ha diverses tasques al camp de la síntesi de veu que encara suposen un repte, com ara la clonació de veu inter-lingüe, la síntesi incremental o l'adaptació zero-shot a nous locutors. Aquesta tesi aborda la millora de les prestacions dels sistemes actuals de síntesi de veu basats en xarxes neuronals, així com l'extensió de la seva aplicació en diversos escenaris, en el context de millorar l'accessibilitat en l'aprenentatge en línia. En aquest sentit, aquest treball presta especial atenció a l'adaptació a nous locutors i a la clonació de veu interlingüe, ja que els textos a sintetitzar es corresponen, en aquest cas, a traduccions d'intervencions originalment en un altre idioma. / [EN] In recent years, deep learning has fundamentally changed the landscapes of a number of areas in artificial intelligence, including computer vision, natural language processing, robotics, and game theory. In particular, the striking success of deep learning in a large variety of natural language processing (NLP) applications, including automatic speech recognition (ASR), machine translation (MT), and text-to-speech (TTS), has resulted in major accuracy improvements, thus widening the applicability of these technologies in real-life settings. At this point, it is clear that ASR and MT technologies can be utilized to produce cost-effective, high-quality multilingual subtitles of video contents of different kinds. This is particularly true in the case of transcription and translation of video lectures and other kinds of educational materials, in which the audio recording conditions are usually favorable for the ASR task, and there is a grammatically well-formed speech. However, although state-of-the-art neural approaches to TTS have shown to drastically improve the naturalness and quality of synthetic speech over conventional concatenative and parametric systems, it is still unclear whether this technology is already mature enough to improve accessibility and engagement in online learning, and particularly in the context of higher education. Furthermore, advanced topics in TTS such as cross-lingual voice cloning, incremental TTS or zero-shot speaker adaptation remain an open challenge in the field. This thesis is about enhancing the performance and widening the applicability of modern neural TTS technologies in real-life settings, both in offline and streaming conditions, in the context of improving accessibility and engagement in online learning. Thus, particular emphasis is placed on speaker adaptation and cross-lingual voice cloning, as the input text corresponds to a translated utterance in this context. / Pérez González De Martos, AM. (2022). Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184019 / TESIS / Premios Extraordinarios de tesis doctorales
26

Clinical Decision Support Systems for Palliative Care Referral: Design and Evaluation of Frailty and Mortality Predictive Models

Blanes Selva, Vicent 30 December 2022 (has links)
[ES] Los Cuidados Paliativos (PC) son cuidados médicos especializados cuyo objetivo esmejorar la calidad de vida de los pacientes con enfermedades graves. Históricamente,se han aplicado a los pacientes en fase terminal, especialmente a los que tienen undiagnóstico oncológico. Sin embargo, los resultados de las investigaciones actualessugieren que la PC afecta positivamente a la calidad de vida de los pacientes condiferentes enfermedades. La tendencia actual sobre la PC es incluir a pacientes nooncológicos con afecciones como la EPOC, la insuficiencia de funciones orgánicas ola demencia. Sin embargo, la identificación de los pacientes con esas necesidades escompleja, por lo que se requieren herramientas alternativas basadas en datos clínicos. La creciente demanda de PC puede beneficiarse de una herramienta de cribadopara identificar a los pacientes con necesidades de PC durante el ingreso hospitalario.Se han propuesto varias herramientas, como la Pregunta Sorpresa (SQ) o la creaciónde diferentes índices y puntuaciones, con distintos grados de éxito. Recientemente,el uso de algoritmos de inteligencia artificial, en concreto de Machine Learning (ML), ha surgido como una solución potencial dada su capacidad de aprendizaje a partirde las Historias Clínicas Electrónicas (EHR) y con la expectativa de proporcionarpredicciones precisas para el ingreso en programas de PC. Esta tesis se centra en la creación de herramientas digitales basadas en ML para la identificación de pacientes con necesidades de cuidados paliativos en el momento del ingreso hospitalario. Hemos utilizado la mortalidad y la fragilidad como los dos criterios clínicos para la toma de decisiones, siendo la corta supervivencia y el aumento de la fragilidad, nuestros objetivos para hacer predicciones. También nos hemos centrado en la implementación de estas herramientas en entornos clínicos y en el estudio de su usabilidad y aceptación en los flujos de trabajo clínicos. Para lograr estos objetivos, en primer lugar, estudiamos y comparamos algoritmos de ML para la supervivencia a un año en pacientes adultos durante el ingreso hospitalario. Para ello, definimos una variable binaria a predecir, equivalente a la SQ y definimos el conjunto de variables predictivas basadas en la literatura. Comparamos modelos basados en Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) y Multilayer Perceptron (MLP), atendiendo a su rendimiento, especialmente al Área bajo la curva ROC (AUC ROC). Además, obtuvimos información sobre la importancia de las variables para los modelos basados en árboles utilizando el criterio GINI. En segundo lugar, estudiamos la medición de la fragilidad de la calidad de vida(QoL) en los candidatos a la intervención en PC. Para este segundo estudio, redujimosla franja de edad de la población a pacientes ancianos (≥ 65 años) como grupo objetivo. A continuación, creamos tres modelos diferentes: 1) la adaptación del modelo demortalidad a un año para pacientes ancianos, 2) un modelo de regresión para estimarel número de días desde el ingreso hasta la muerte para complementar los resultadosdel primer modelo, y finalmente, 3) un modelo predictivo del estado de fragilidad aun año. Estos modelos se compartieron con la comunidad académica a través de unaaplicación web b que permite la entrada de datos y muestra la predicción de los tresmodelos y unos gráficos con la importancia de las variables. En tercer lugar, propusimos una versión del modelo de mortalidad a un año enforma de calculadora online. Esta versión se diseñó para maximizar el acceso de losprofesionales minimizando los requisitos de datos y haciendo que el software respondiera a las plataformas tecnológicas actuales. Así pues, se eliminaron las variablesadministrativas específicas de la fuente de datos y se trabajó en un proceso para minimizar las variables de entrada requeridas, manteniendo al mismo tiempo un ROCAUC elevado del modelo. Como resultado, e / [CA] Les Cures Pal·liatives (PC) són cures mèdiques especialitzades l'objectiu de les qualsés millorar la qualitat de vida dels pacients amb malalties greus. Històricament, s'hanaplicat als pacients en fase terminal, especialment als quals tenen un diagnòstic oncològic. No obstant això, els resultats de les investigacions actuals suggereixen que lesPC afecten positivament a la qualitat de vida dels pacients amb diferents malalties. Latendència actual sobre les PC és incloure a pacients no oncològics amb afeccions comla malaltia pulmonar obstructiva crònica, la insuficiència de funcions orgàniques o lademència. No obstant això, la identificació dels pacients amb aqueixes necessitats éscomplexa, per la qual cosa es requereixen eines alternatives basades en dades clíniques. La creixent demanda de PC pot beneficiar-se d'una eina de garbellat per a identificar als pacients amb necessitats de PC durant l'ingrés hospitalari. S'han proposatdiverses eines, com la Pregunta Sorpresa (SQ) o la creació de diferents índexs i puntuacions, amb diferents graus d'èxit. Recentment, l'ús d'algorismes d'intel·ligènciaartificial, en concret de Machine Learning (ML), ha sorgit com una potencial soluciódonada la seua capacitat d'aprenentatge a partir de les Històries Clíniques Electròniques (EHR) i amb l'expectativa de proporcionar prediccions precises per a l'ingrés enprogrames de PC. Aquesta tesi se centra en la creació d'eines digitals basades en MLper a la identificació de pacients amb necessitats de cures pal·liatives durant l'ingréshospitalari. Hem utilitzat mortalitat i fragilitat com els dos criteris clínics per a lapresa de decisions, sent la curta supervivència i la major fragilitat els nostres objectiusa predir. Després, ens hem centrat en la seua implementació en entorns clínics i hemestudiat la seua usabilitat i acceptació en els fluxos de treball clínics.Aquesta tesi se centra en la creació d'eines digitals basades en ML per a la identificació de pacients amb necessitats de cures pal·liatives en el moment de l'ingrés hospitalari. Hem utilitzat la mortalitat i la fragilitat com els dos criteris clínics per ala presa de decisions, sent la curta supervivència i l'augment de la fragilitat, els nostresobjectius per a fer prediccions. També ens hem centrat en la implementació d'aquesteseines en entorns clínics i en l'estudi de la seua usabilitat i acceptació en els fluxos detreball clínics. Per a aconseguir aquests objectius, en primer lloc, estudiem i comparem algorismesde ML per a la supervivència a un any en pacients adults durant l'ingrés hospitalari.Per a això, definim una variable binària a predir, equivalent a la SQ i definim el conjuntde variables predictives basades en la literatura. Comparem models basats en Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) i Multilayer Perceptron (MLP), atenent el seu rendiment,especialment a l'Àrea sota la corba ROC (AUC ROC). A més, vam obtindre informaciósobre la importància de les variables per als models basats en arbres utilitzant el criteri GINI. En segon lloc, estudiem el mesurament de la fragilitat de la qualitat de vida (QoL)en els candidats a la intervenció en PC. Per a aquest segon estudi, vam reduir lafranja d'edat de la població a pacients ancians (≥ 65 anys) com a grup objectiu. Acontinuació, creem tres models diferents: 1) l'adaptació del model de mortalitat a unany per a pacients ancians, 2) un model de regressió per a estimar el nombre de dies desde l'ingrés fins a la mort per a complementar els resultats del primer model, i finalment,3) un model predictiu de l'estat de fragilitat a un any. Aquests models es van compartiramb la comunitat acadèmica a través d'una aplicació web c que permet l'entrada dedades i mostra la predicció dels tres models i uns gràfics amb la importància de lesvariables. En tercer lloc, vam proposar una versió del model de mortalitat a un any en formade calculadora en línia. Aquesta versió es va di / [EN] Palliative Care (PC) is specialized medical care that aims to improve patients' quality of life with serious illnesses. Historically, it has been applied to terminally ill patients, especially those with oncologic diagnoses. However, current research results suggest that PC positively affects the quality of life of patients with different conditions. The current trend on PC is to include non-oncological patients with conditions such as Chronic Obstructive Pulmonary Disease (COPD), organ function failure or dementia. However, the identification of patients with those needs is complex, and therefore alternative tools based on clinical data are required. The growing demand for PC may benefit from a screening tool to identify patients with PC needs during hospital admission. Several tools, such as the Surprise Question (SQ) or the creation of different indexes and scores, have been proposed with varying degrees of success. Recently, the use of artificial intelligence algorithms, specifically Machine Learning (ML), has arisen as a potential solution given their capacity to learn from the Electronic Health Records (EHRs) and with the expectation to provide accurate predictions for admission to PC programs. This thesis focuses on creating ML-based digital tools for identifying patients with palliative care needs at hospital admission. We have used mortality and frailty as the two clinical criteria for decision-making, being short survival and increased frailty, as our targets to make predictions. We also have focused on implementing these tools in clinical settings and studying their usability and acceptance in clinical workflows. To accomplish these objectives, first, we studied and compared ML algorithms for one-year survival in adult patients during hospital admission. To do so, we defined a binary variable to predict, equivalent to the SQ and defined the set of predictive variables based on literature. We compared models based on Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) and Multilayer Perceptron (MLP), attending to their performance, especially to the Area under the ROC curve (AUC ROC). Additionally, we obtained information on the importance of variables for tree-based models using the GINI criterion. Second, we studied frailty measurement of Quality of Life (QoL) in candidates for PC intervention. For this second study, we narrowed the age of the population to elderly patients (≥ 65 years) as the target group. Then we created three different models: 1) for the adaptation of the one-year mortality model for elderly patients, 2) a regression model to estimate the number of days from admission to death to complement the results of the first model, and finally, 3) a predictive model for frailty status at one year. These models were shared with the academic community through a web application a that allows data input and shows the prediction from the three models and some graphs with the importance of the variables. Third, we proposed a version of the 1-year mortality model in the form of an online calculator. This version was designed to maximize access from professionals by minimizing data requirements and making the software responsive to the current technological platforms. So we eliminated the administrative variables specific to the dataset source and worked on a process to minimize the required input variables while maintaining high the model's AUC ROC. As a result, this model retained most of the predictive power and required only seven bed-side inputs. Finally, we evaluated the Clinical Decision Support System (CDSS) web tool on PC with an actual set of users. This evaluation comprised three domains: evaluation of participant's predictions against the ML baseline, the usability of the graphical interface, and user experience measurement. A first evaluation was performed, followed by a period of implementation of improvements and corrections to the pla / Blanes Selva, V. (2022). Clinical Decision Support Systems for Palliative Care Referral: Design and Evaluation of Frailty and Mortality Predictive Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/190993
27

Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models

Jorge Cano, Javier 30 December 2022 (has links)
Tesis por compendio / [ES] Durante la última década, los medios de comunicación han experimentado una revolución, alejándose de la televisión convencional hacia las plataformas de contenido bajo demanda. Además, esta revolución no ha cambiado solamente la manera en la que nos entretenemos, si no también la manera en la que aprendemos. En este sentido, las plataformas de contenido educativo bajo demanda también han proliferado para proporcionar recursos educativos de diversos tipos. Estas nuevas vías de distribución de contenido han llegado con nuevos requisitos para mejorar la accesibilidad, en particular las relacionadas con las dificultades de audición y las barreras lingüísticas. Aquí radica la oportunidad para el reconocimiento automático del habla (RAH) para cumplir estos requisitos, proporcionando subtitulado automático de alta calidad. Este subtitulado proporciona una base sólida para reducir esta brecha de accesibilidad, especialmente para contenido en directo o streaming. Estos sistemas de streaming deben trabajar bajo estrictas condiciones de tiempo real, proporcionando la subtitulación tan rápido como sea posible, trabajando con un contexto limitado. Sin embargo, esta limitación puede conllevar una degradación de la calidad cuando se compara con los sistemas para contenido en diferido u offline. Esta tesis propone un sistema de RAH en streaming con baja latencia, con una calidad similar a un sistema offline. Concretamente, este trabajo describe el camino seguido desde el sistema offline híbrido inicial hasta el eficiente sistema final de reconocimiento en streaming. El primer paso es la adaptación del sistema para efectuar una sola iteración de reconocimiento haciendo uso de modelos de lenguaje estado del arte basados en redes neuronales. En los sistemas basados en múltiples iteraciones estos modelos son relegados a una segunda (o posterior) iteración por su gran coste computacional. Tras adaptar el modelo de lenguaje, el modelo acústico basado en redes neuronales también tiene que adaptarse para trabajar con un contexto limitado. La integración y la adaptación de estos modelos es ampliamente descrita en esta tesis, evaluando el sistema RAH resultante, completamente adaptado para streaming, en conjuntos de datos académicos extensamente utilizados y desafiantes tareas basadas en contenidos audiovisuales reales. Como resultado, el sistema proporciona bajas tasas de error con un reducido tiempo de respuesta, comparables al sistema offline. / [CA] Durant l'última dècada, els mitjans de comunicació han experimentat una revolució, allunyant-se de la televisió convencional cap a les plataformes de contingut sota demanda. A més a més, aquesta revolució no ha canviat només la manera en la que ens entretenim, si no també la manera en la que aprenem. En aquest sentit, les plataformes de contingut educatiu sota demanda també han proliferat pera proporcionar recursos educatius de diversos tipus. Aquestes noves vies de distribució de contingut han arribat amb nous requisits per a millorar l'accessibilitat, en particular les relacionades amb les dificultats d'audició i les barreres lingüístiques. Aquí radica l'oportunitat per al reconeixement automàtic de la parla (RAH) per a complir aquests requisits, proporcionant subtitulat automàtic d'alta qualitat. Aquest subtitulat proporciona una base sòlida per a reduir aquesta bretxa d'accessibilitat, especialment per a contingut en directe o streaming. Aquests sistemes han de treballar sota estrictes condicions de temps real, proporcionant la subtitulació tan ràpid com sigui possible, treballant en un context limitat. Aquesta limitació, però, pot comportar una degradació de la qualitat quan es compara amb els sistemes per a contingut en diferit o offline. Aquesta tesi proposa un sistema de RAH en streaming amb baixa latència, amb una qualitat similar a un sistema offline. Concretament, aquest treball descriu el camí seguit des del sistema offline híbrid inicial fins l'eficient sistema final de reconeixement en streaming. El primer pas és l'adaptació del sistema per a efectuar una sola iteració de reconeixement fent servir els models de llenguatge de l'estat de l'art basat en xarxes neuronals. En els sistemes basats en múltiples iteracions aquests models son relegades a una segona (o posterior) iteració pel seu gran cost computacional. Un cop el model de llenguatge s'ha adaptat, el model acústic basat en xarxes neuronals també s'ha d'adaptar per a treballar amb un context limitat. La integració i l'adaptació d'aquests models és àmpliament descrita en aquesta tesi, avaluant el sistema RAH resultant, completament adaptat per streaming, en conjunts de dades acadèmiques àmpliament utilitzades i desafiants tasques basades en continguts audiovisuals reals. Com a resultat, el sistema proporciona baixes taxes d'error amb un reduït temps de resposta, comparables al sistema offline. / [EN] Over the last decade, the media have experienced a revolution, turning away from the conventional TV in favor of on-demand platforms. In addition, this media revolution not only changed the way entertainment is conceived but also how learning is conducted. Indeed, on-demand educational platforms have also proliferated and are now providing educational resources on diverse topics. These new ways to distribute content have come along with requirements to improve accessibility, particularly related to hearing difficulties and language barriers. Here is the opportunity for automatic speech recognition (ASR) to comply with these requirements by providing high-quality automatic captioning. Automatic captioning provides a sound basis for diminishing the accessibility gap, especially for live or streaming content. To this end, streaming ASR must work under strict real-time conditions, providing captions as fast as possible, and working with limited context. However, this limited context usually leads to a quality degradation as compared to the pre-recorded or offline content. This thesis is aimed at developing low-latency streaming ASR with a quality similar to offline ASR. More precisely, it describes the path followed from an initial hybrid offline system to an efficient streaming-adapted system. The first step is to perform a single recognition pass using a state-of-the-art neural network-based language model. In conventional multi-pass systems, this model is often deferred to the second or later pass due to its computational complexity. As with the language model, the neural-based acoustic model is also properly adapted to work with limited context. The adaptation and integration of these models is thoroughly described and assessed using fully-fledged streaming systems on well-known academic and challenging real-world benchmarks. In brief, it is shown that the proposed adaptation of the language and acoustic models allows the streaming-adapted system to reach the accuracy of the initial offline system with low latency. / Jorge Cano, J. (2022). Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/191001 / Compendio
28

Applications of Deep Leaning on Cardiac MRI: Design Approaches for a Computer Aided Diagnosis

Pérez Pelegrí, Manuel 27 April 2023 (has links)
[ES] Las enfermedades cardiovasculares son una de las causas más predominantes de muerte y comorbilidad en los países desarrollados, por ello se han realizado grandes inversiones en las últimas décadas para producir herramientas de diagnóstico y aplicaciones de tratamiento de enfermedades cardíacas de alta calidad. Una de las mejores herramientas de diagnóstico para caracterizar el corazón ha sido la imagen por resonancia magnética (IRM) gracias a sus capacidades de alta resolución tanto en la dimensión espacial como temporal, lo que permite generar imágenes dinámicas del corazón para un diagnóstico preciso. Las dimensiones del ventrículo izquierdo y la fracción de eyección derivada de ellos son los predictores más potentes de morbilidad y mortalidad cardiaca y su cuantificación tiene connotaciones importantes para el manejo y tratamiento de los pacientes. De esta forma, la IRM cardiaca es la técnica de imagen más exacta para la valoración del ventrículo izquierdo. Para obtener un diagnóstico preciso y rápido, se necesita un cálculo fiable de biomarcadores basados en imágenes a través de software de procesamiento de imágenes. Hoy en día la mayoría de las herramientas empleadas se basan en sistemas semiautomáticos de Diagnóstico Asistido por Computador (CAD) que requieren que el experto clínico interactúe con él, consumiendo un tiempo valioso de los profesionales cuyo objetivo debería ser únicamente interpretar los resultados. Un cambio de paradigma está comenzando a entrar en el sector médico donde los sistemas CAD completamente automáticos no requieren ningún tipo de interacción con el usuario. Estos sistemas están diseñados para calcular los biomarcadores necesarios para un diagnóstico correcto sin afectar el flujo de trabajo natural del médico y pueden iniciar sus cálculos en el momento en que se guarda una imagen en el sistema de archivo informático del hospital. Los sistemas CAD automáticos, aunque se consideran uno de los grandes avances en el mundo de la radiología, son extremadamente difíciles de desarrollar y dependen de tecnologías basadas en inteligencia artificial (IA) para alcanzar estándares médicos. En este contexto, el aprendizaje profundo (DL) ha surgido en la última década como la tecnología más exitosa para abordar este problema. Más específicamente, las redes neuronales convolucionales (CNN) han sido una de las técnicas más exitosas y estudiadas para el análisis de imágenes, incluidas las imágenes médicas. En este trabajo describimos las principales aplicaciones de CNN para sistemas CAD completamente automáticos para ayudar en la rutina de diagnóstico clínico mediante resonancia magnética cardíaca. El trabajo cubre los puntos principales a tener en cuenta para desarrollar tales sistemas y presenta diferentes resultados de alto impacto dentro del uso de CNN para resonancia magnética cardíaca, separados en tres proyectos diferentes que cubren su aplicación en la rutina clínica de diagnóstico, cubriendo los problemas de la segmentación, estimación automática de biomarcadores con explicabilidad y la detección de eventos. El trabajo completo presentado describe enfoques novedosos y de alto impacto para aplicar CNN al análisis de resonancia magnética cardíaca. El trabajo proporciona varios hallazgos clave, permitiendo varias formas de integración de esta reciente y creciente tecnología en sistemas CAD completamente automáticos que pueden producir resultados altamente precisos, rápidos y confiables. Los resultados descritos mejorarán e impactarán positivamente el flujo de trabajo de los expertos clínicos en un futuro próximo. / [CA] Les malalties cardiovasculars són una de les causes de mort i comorbiditat més predominants als països desenvolupats, s'han fet grans inversions en les últimes dècades per tal de produir eines de diagnòstic d'alta qualitat i aplicacions de tractament de malalties cardíaques. Una de les tècniques millor provades per caracteritzar el cor ha estat la imatge per ressonància magnètica (IRM), gràcies a les seves capacitats d'alta resolució tant en dimensions espacials com temporals, que permeten generar imatges dinàmiques del cor per a un diagnòstic precís. Les dimensions del ventricle esquerre i la fracció d'ejecció que se'n deriva són els predictors més potents de morbiditat i mortalitat cardíaca i la seva quantificació té connotacions importants per al maneig i tractament dels pacients. D'aquesta manera, la IRM cardíaca és la tècnica d'imatge més exacta per a la valoració del ventricle esquerre. Per obtenir un diagnòstic precís i ràpid, es necessita un càlcul fiable de biomarcadors basat en imatges mitjançant un programa de processament d'imatges. Actualment, la majoria de les ferramentes emprades es basen en sistemes semiautomàtics de Diagnòstic Assistit per ordinador (CAD) que requereixen que l'expert clínic interaccioni amb ell, consumint un temps valuós dels professionals, l'objectiu dels quals només hauria de ser la interpretació dels resultats. S'està començant a introduir un canvi de paradigma al sector mèdic on els sistemes CAD totalment automàtics no requereixen cap tipus d'interacció amb l'usuari. Aquests sistemes estan dissenyats per calcular els biomarcadors necessaris per a un diagnòstic correcte sense afectar el flux de treball natural del metge i poden iniciar els seus càlculs en el moment en què es deixa la imatge dins del sistema d'arxius hospitalari. Els sistemes CAD automàtics, tot i ser molt considerats com un dels propers grans avanços en el món de la radiologia, són extremadament difícils de desenvolupar i depenen de les tecnologies d'Intel·ligència Artificial (IA) per assolir els estàndards mèdics. En aquest context, l'aprenentatge profund (DL) ha sorgit durant l'última dècada com la tecnologia amb més èxit per abordar aquest problema. Més concretament, les xarxes neuronals convolucionals (CNN) han estat una de les tècniques més utilitzades i estudiades per a l'anàlisi d'imatges, inclosa la imatge mèdica. En aquest treball es descriuen les principals aplicacions de CNN per a sistemes CAD totalment automàtics per ajudar en la rutina de diagnòstic clínic mitjançant ressonància magnètica cardíaca. El treball recull els principals punts a tenir en compte per desenvolupar aquest tipus de sistemes i presenta diferents resultats d'impacte en l'ús de CNN a la ressonància magnètica cardíaca, tots separats en tres projectes principals diferents, cobrint els problemes de la segmentació, estimació automàtica de *biomarcadores amb *explicabilidad i la detecció d'esdeveniments. El treball complet presentat descriu enfocaments nous i potents per aplicar CNN a l'anàlisi de ressonància magnètica cardíaca. El treball proporciona diversos descobriments clau, que permeten la integració de diverses maneres d'aquesta tecnologia nova però en constant creixement en sistemes CAD totalment automàtics que podrien produir resultats altament precisos, ràpids i fiables. Els resultats descrits milloraran i afectaran considerablement el flux de treball dels experts clínics en un futur proper. / [EN] Cardiovascular diseases are one of the most predominant causes of death and comorbidity in developed countries, as such heavy investments have been done in recent decades in order to produce high quality diagnosis tools and treatment applications for cardiac diseases. One of the best proven tools to characterize the heart has been magnetic resonance imaging (MRI), thanks to its high-resolution capabilities in both spatial and temporal dimensions, allowing to generate dynamic imaging of the heart that enable accurate diagnosis. The dimensions of the left ventricle and the ejection fraction derived from them are the most powerful predictors of cardiac morbidity and mortality, and their quantification has important connotations for the management and treatment of patients. Thus, cardiac MRI is the most accurate imaging technique for left ventricular assessment. In order to get an accurate and fast diagnosis, reliable image-based biomarker computation through image processing software is needed. Nowadays most of the employed tools rely in semi-automatic Computer-Aided Diagnosis (CAD) systems that require the clinical expert to interact with it, consuming valuable time from the professionals whose aim should only be at interpreting results. A paradigm shift is starting to get into the medical sector where fully automatic CAD systems do not require any kind of user interaction. These systems are designed to compute any required biomarkers for a correct diagnosis without impacting the physician natural workflow and can start their computations the moment an image is saved within a hospital archive system. Automatic CAD systems, although being highly regarded as one of next big advances in the radiology world, are extremely difficult to develop and rely on Artificial Intelligence (AI) technologies in order to reach medical standards. In this context, Deep learning (DL) has emerged in the past decade as the most successful technology to address this problem. More specifically, convolutional neural networks (CNN) have been one of the most successful and studied techniques for image analysis, including medical imaging. In this work we describe the main applications of CNN for fully automatic CAD systems to help in the clinical diagnostics routine by means of cardiac MRI. The work covers the main points to take into account in order to develop such systems and presents different impactful results within the use of CNN to cardiac MRI, all separated in three different main projects covering the segmentation, automatic biomarker estimation with explainability and event detection problems. The full work presented describes novel and powerful approaches to apply CNN to cardiac MRI analysis. The work provides several key findings, enabling the integration in several ways of this novel but non-stop growing technology into fully automatic CAD systems that could produce highly accurate, fast and reliable results. The results described will greatly improve and impact the workflow of the clinical experts in the near future. / Pérez Pelegrí, M. (2023). Applications of Deep Leaning on Cardiac MRI: Design Approaches for a Computer Aided Diagnosis [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/192988
29

Clearing the Way in Capsule Endoscopy with Deep Learning and Computer Vision.

Noorda, Reinier Alexander 01 July 2022 (has links)
[ES] La endoscopia capsular (CE) es una ampliamente utilizada alternativa mínimamente invasiva a la endoscopia tradicional, que permite la visualización de todo el intestino delgado, mientras no es posible hacerlo fácilmente con los procedimientos más invasivos. Sin embargo, esos métodos tradicionales aún suelen ser la primera opción de tratamiento, ya que todavía existen desafíos importantes en el campo de la CE, incluyendo el tiempo necesario para el diagnóstico por vídeo después del procedimiento, el hecho de que la cápsula no se puede controlar activamente, la falta de consenso sobre una buena preparación del paciente y el coste alto. En esta tesis doctoral, nuestro objetivo es extraer más información de los procedimientos de endoscopía por cápsula para ayudar a aliviar estos problemas desde una perspectiva que parece estar subrepresentada en la investigación actual. Primero, como el objetivo principal en esta tesis, pretendemos desarrollar un método de evaluación de la limpieza en procedimientos de CE automático y objetivo para asistir la investigación médica en métodos de preparación de los pacientes. Específicamente, a pesar de que una preparación adecuada del paciente pueda ayudar a obtener una mejor visibilidad, los estudios sobre el método más efectivo son contradictorios debido a la ausencia de tal método. Por lo tanto, pretendemos proporcionar un método de ese tipo, capaz de presentar la limpieza en una escala intuitiva, con una novedosa arquitectura relativamente ligera de una red neuronal convolucional en su núcleo. Entrenamos este modelo en un conjunto de datos extensivo de más de 50,000 parches de imágenes, obtenidos de 35 procedimientos CE diferentes, y lo comparamos con métodos de clasificación del estado del arte. A partir de la clasificación, desarrollamos un método para automáticamente estimar las probabilidades a nivel de píxel y deducir los puntos en la escala de la evaluación de la limpieza a través de umbrales aprendidos. Después, validamos nuestro método en un entorno clínico en 30 videos de CE obtenidos nuevamente, comparando las puntuaciones resultantes con las asignadas de forma independiente por especialistas humanos. Obtuvimos la mayor precisión de clasificación para el método propuesto (95,23%), con tiempos de predicción promedios significativamente más bajos que para el segundo mejor método. En la validación, encontramos un acuerdo aceptable con dos especialistas humanos en comparación con el acuerdo interhumano, mostrando su validez como método de evaluación objetivo. Adicionalmente, otro objetivo de este trabajo es detectar automáticamente el túnel y ubicar el túnel en cada fotograma. Para este objetivo, entrenamos un modelo basado en R-CNN, concretamente el detector ligero YOLOv3, en un total de 1385 fotogramas, extraídos de procedimientos de CE de 10 pacientes diferentes. De tal manera, alcanzamos una precisión del 86,55% y una recuperación del 88,79% en nuestro conjunto de datos de test. Ampliando este objetivo, también pretendemos visualizar la motilidad intestinal de una manera análoga a una manometría intestinal tradicional, basada únicamente en la técnica mínimamente invasiva de CE. Para esto, alineamos los fotogramas con similar orientación y derivamos los parámetros adecuados para nuestro método de segmentación de las propiedades del rectángulo delimitador del túnel. Finalmente, calculamos el tamaño relativo del túnel para construir un equivalente de una manometría intestinal a partir de información visual. Desde que concluimos nuestro trabajo, nuestro método para la evaluación automática de la limpieza se ha utilizado en un estudio a gran escala aún en curso, en el que participamos activamente. Mientras gran parte de la investigación se centra en la detección automática de patologías, como tumores, pólipos y hemorragias, esperamos que nuestro trabajo pueda hacer una contribución significativa para extraer más información de la CE también en otras áreas frecuentemente subestimadas. / [CA] L'endoscòpia capsular (CE) és una àmpliament utilitzada alternativa mínimament invasiva a l'endoscòpia tradicional, que permet la visualització de tot l'intestí prim, mentre no és possible fer-lo fàcilment amb els procediments més invasius. No obstant això, aqueixos mètodes tradicionals encara solen ser la primera opció de tractament, ja que encara existeixen desafiaments importants en el camp de la CE, incloent el temps necessari per al diagnòstic per vídeo després del procediment, el fet que la càpsula no es pot controlar activament, la falta de consens sobre una bona preparació del pacient i el cost alt. En aquesta tesi doctoral, el nostre objectiu és extraure més informació dels procediments de endoscopía per càpsula per a ajudar a alleujar aquests problemes des d'una perspectiva que sembla estar subrepresentada en la investigació actual. Primer, com l'objectiu principal en aquesta tesi, pretenem desenvolupar un mètode d'avaluació de la neteja en procediments de CE automàtic i objectiu per a assistir la investigació mèdica en mètodes de preparació dels pacients. Específicament, a pesar que una preparació adequada del pacient puga ajudar a obtindre una millor visibilitat, els estudis sobre el mètode més efectiu són contradictoris a causa de l'absència de tal mètode. Per tant, pretenem proporcionar un mètode d'aqueix tipus, capaç de presentar la neteja en una escala intuïtiva, amb una nova arquitectura relativament lleugera d'una xarxa neuronal convolucional en el seu nucli. Entrenem aquest model en un conjunt de dades extensiu de més de 50,000 pegats d'imatges, obtinguts de 35 procediments CE diferents, i el comparem amb mètodes de classificació de l'estat de l'art. A partir de la classificació, desenvolupem un mètode per a automàticament estimar les probabilitats a nivell de píxel i deduir els punts en l'escala de l'avaluació de la neteja a través de llindars apresos. Després, validem el nostre mètode en un entorn clínic en 30 vídeos de CE obtinguts novament, comparant les puntuacions resultants amb les assignades de manera independent per especialistes humans. Vam obtindre la major precisió de classificació per al mètode proposat (95,23%), amb temps de predicció mitjanes significativament més baixos que per al segon millor mètode. En la validació, trobem un acord acceptable amb dos especialistes humans en comparació amb l'acord interhumà, mostrant la seua validesa com a mètode d'avaluació objectiu. Addicionalment, un altre objectiu d'aquest treball és detectar automàticament el túnel i situar el túnel en cada fotograma. Per a aquest objectiu, entrenem un model basat en R-CNN, concretament el detector lleuger YOLOv3, en un total de 1385 fotogrames, extrets de procediments de CE de 10 pacients diferents. De tal manera, aconseguim una precisió del 86,55% i una recuperació del 88,79% en el nostre conjunt de dades de test. Ampliant aquest objectiu, també pretenem visualitzar la motilitat intestinal d'una manera anàloga a una manometría intestinal tradicional, basada únicament en la tècnica mínimament invasiva de CE. Per a això, alineem els fotogrames amb similar orientació i derivem els paràmetres adequats per al nostre mètode de segmentació de les propietats del rectangle delimitador del túnel. Finalment, calculem la grandària relativa del túnel per a construir un equivalent d'una manometría intestinal a partir d'informació visual. Des que concloem el nostre treball, el nostre mètode per a l'avaluació automàtica de la neteja s'ha utilitzat en un estudi a gran escala encara en curs, en el qual participem activament. Mentre gran part de la investigació se centra en la detecció automàtica de patologies, com a tumors, pòlips i hemorràgies, esperem que el nostre treball puga fer una contribució significativa per a extraure més informació de la CE també en altres àrees sovint subestimades. / [EN] Capsule endoscopy (CE) is a widely used, minimally invasive alternative to traditional endoscopy that allows visualisation of the entire small intestine, whereas more invasive procedures cannot easily do this. However, those traditional methods are still commonly the first choice of treatment for gastroenterologists as there are still important challenges surrounding the field of CE. Among others, these include the time consuming video diagnosis following the procedure, the fact that the capsule cannot be actively controlled, lack of consensus on good patient preparation and the high cost. In this doctoral thesis, we aim to extract more information from capsule endoscopy procedures to aid in alleviating these issues from a perspective that appears to be under-represented in current research. First, and as the main objective in this thesis, we aim to develop an objective, automatic cleanliness evaluation method in CE procedures to aid medical research in patient preparation methods. Namely, even though adequate patient preparation can help to obtain a cleaner intestine and thus better visibility in the resulting videos, studies on the most effective preparation method are conflicting due to the absence of such a method. Therefore, we aim to provide such a method, capable of presenting results on an intuitive scale, with a relatively light-weight novel convolutional neural network architecture at its core. We trained this model on an extensive data set of over 50,000 image patches, collected from 35 different CE procedures, and compared it with state-of-the-art classification methods. From the patch classification results, we developed a method to automatically estimate pixel-level probabilities and deduce cleanliness evaluation scores through automatically learnt thresholds. We then validated our method in a clinical setting on 30 newly collected CE videos, comparing the resulting scores to those independently assigned by human specialists. We obtained the highest classification accuracy for the proposed method (95.23%), with significantly lower average prediction times than for the second-best method. In the validation of our method, we found acceptable agreement with two human specialists compared to interhuman agreement, showing its validity as an objective evaluation method. Additionally, we aim to automatically detect and localise the tunnel in each frame, in order to help determine the capsule orientation at any given time. For this purpose, we trained an R-CNN based model, namely the light-weight YOLOv3 detector, on a total of 1385 frames, extracted from CE procedures of 10 different patients, achieving a precision of 86.55% combined with a recall of 88.79% on our test set. Extending on this, we additionally aim to visualise intestinal motility in a manner analogous to a traditional intestinal manometry, solely based on the minimally invasive technique of CE, through aligning the frames with similar orientation and using the bounding box parameters to derive adequate parameters for our tunnel segmentation method. Finally, we calculate the relative tunnel size to construct an equivalent of an intestinal manometry from visual information. Since we concluded our work, our method for automatic cleanliness evaluation has been used in a still on-going, large-scale study, with in which we actively participate. While much research focuses on automatic detection of pathologies, such as tumors, polyps and bleedings, we hope our work can make a significant contribution to extract more information from CE also in other areas that are often overlooked. / Noorda, RA. (2022). Clearing the Way in Capsule Endoscopy with Deep Learning and Computer Vision [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/183752 / TESIS
30

Streaming Neural Speech Translation

Iranzo Sánchez, Javier 03 November 2023 (has links)
Tesis por compendio / [ES] Gracias a avances significativos en aprendizaje profundo, la traducción del habla (ST) se ha convertido en un campo consolidado, lo que permite la utilización de la tecnología ST en soluciones para entornos de producción. Como consecuencia del aumento constante del número de horas de contenido audiovisual generado cada año, así como una mayor sensibilización sobre la importancia de la accesibilidad, la ST está preparada para convertirse en un elemento clave para la producción de contenidos audiovisuales, tanto de ocio como educativos. A pesar de que se ha progresado significativamente en ST, la mayor parte de la investigación se ha centrado en el escenario en diferido (offline), en el cual todo el audio de entrada está disponible. En cambio, la ST en directo (online) es una temática en la que falta mucho por investigar. En concreto, existe un caso de traducción en directo, la traducción continua (streaming), que traduce un flujo continuo de palabras en tiempo real y bajo unas estrictas condiciones de latencia. Este es un problema mucho más realista, que es necesario resolver para que sea posible aplicar la ST a una variedad de tareas de la vida real. Esta tesis está centrada en investigar y desarrollar las técnicas claves que son necesarias para una solución de ST continua. En primer lugar, de cara a permitir el desarrollo y la evaluación de sistemas de ST, se ha recopilado un nuevo conjunto de datos para ST multilingüe, que expande significativamente el número de horas disponibles para ST. A continuación se ha desarrollado un segmentador preparado para la condición continua, que se utiliza para segmentar las transcripciones intermedias de nuestra solución por etapas, que consiste en un sistema de reconocimiento automático del habla (ASR), seguido de un sistema de traducción automática (MT) encargado de traducir las transcripciones intermedias al idioma de destino elegido. Diversas investigaciones han concluido que la calidad de la segmentación es un factor muy influyente es la calidad del sistema MT, por lo que el desarrollo de un segmentador efectivo es un paso fundamental en el proceso de ST continua. Este segmentador se ha integrado en la solución por etapas, y estas se optimizan de manera conjunta para alcanzar el equilibrio óptimo entre calidad y latencia. La ST continua tiene unas restricciones de latencia mucho más estrictas que la ST en directo, ya que el nivel deseado de latencia tiene que mantenerse durante todo el proceso de traducción. Por tanto, es crucial ser capaz de medir de manera precisa esta latencia, pero las métricas estándar de ST en directo no se adaptan bien a esta tarea. Como consecuencia de esto, se proponen nuevos métodos para la evaluación de ST continua, que garantizan unos resultados precisos a la vez que interpretables. Por último, se presenta un nuevo método para mejorar la calidad de la traducción continua mediante el uso de información contextual. Mientras que los sistemas tradicionales de ST en directo traducen audios de manera aislada, existe abundante información contextual que está disponible para mejorar los sistemas de ST continua. Nuestra propuesta introduce el concepto de historia continua, que consiste en el almacenamiento de la información más reciente del proceso de traducción, que se utiliza más adelante por el modelo para mejorar la calidad de la traducción. / [CA] Gràcies a avanços significatius en aprenentatge profund, la traducció de la parla (ST) s'ha convertit en un camp consolidat, la qual cosa permet la utilització de la tecnologia ST en solucions per a entorns de producció. A conseqüència de l'augment constant del nombre d'hores de contingut audiovisual generat cada any, així com una major sensibilització sobre la importància de l'accessibilitat, la ST està preparada per a convertir-se en un element clau per a la producció de continguts audiovisuals, tant d'oci com educatius. A pesar que s'ha progressat significativament en ST, la major part de la recerca s'ha centrat en l'escenari en diferit, en el qual tot l'àudio d'entrada està disponible. En canvi, la ST en directe és una temàtica en la qual falta molt per investigar. En concret, existeix un cas de traducció en directe, la traducció contínua, que tradueix un flux continu de paraules en temps real i sota unes estrictes condicions de latència. Aquest és un problema molt més realista, que és necessari resoldre perquè sigui possible aplicar la ST a una varietat de tasques de la vida real. Aquesta tesi està centrada en investigar i desenvolupar les tècniques claus que són necessàries per a una solució de ST contínua. En primer lloc, de cara a permetre el desenvolupament i l'avaluació de sistemes de ST, s'ha recopilat un nou conjunt de dades per a ST multilingüe, que expandeix significativament la quantitat de dades disponibles per a ST. A continuació s'ha desenvolupat un segmentador preparat per a la condició contínua, que s'utilitza per a segmentar les transcripcions intermèdies de la nostra solució per etapes, que consisteix en un sistema de reconeixement automàtic de la parla (ASR), seguit d'un sistema de traducció automàtica (MT) encarregat de traduir les transcripcions intermèdies a l'idioma de destí triat. Diveros treballs de recerca han conclòs que la qualitat de la segmentació és un factor molt important en la qualitat del sistema MT, per la qual cosa el desenvolupament d'un segmentador efectiu és un pas fonamental en el procés de ST contínua. Aquest segmentador s'ha integrat en la solució per etapes, i aquestes s'optimitzen de manera conjunta per a aconseguir l'equilibri òptim entre qualitat i latència. La ST contínua té unes restriccions de latència molt més estrictes que la ST en directe, ja que el nivell desitjat de latència ha de mantindre's durant tot el procés de traducció. Per tant, és crucial ser capaç de mesurar de manera precisa aquesta latència, però les mètriques estàndard de ST en directe no s'adapten bé a aquesta tasca. A conseqüència d'això, es proposen nous mètodes per a l'avaluació de ST contínua, que garanteixen uns resultats precisos alhora que interpretables. Finalment, es presenta un nou mètode per a millorar la qualitat de la traducció contínua mitjançant l'ús d'informació contextual. Mentre que els sistemes tradicionals de ST en directe tradueixen àudios de manera aïllada, existeix abundant informació contextual que està disponible per a millorar els sistemes de ST contínua. La nostra proposta introdueix el concepte d'història contínua, que consisteix en l'emmagatzematge de la informació més recent del procés de traducció, que s'utilitza més endavant pel model per a millorar la qualitat de la traducció. / [EN] Thanks to significant advances in Deep Learning, Speech Translation (ST) has become a mature field that enables the use of ST technology in production-ready solutions. Due to the ever-increasing hours of audio-visual content produced each year, as well as higher awareness of the importance of media accessibility, ST is poised to become a key element for the production of entertainment and educational media. Although significant advances have been made in ST, most research has focused on the offline scenario, where the entire input audio is available. In contrast, online ST remains an under-researched topic. A special case of online ST, streaming ST, translates an unbounded input stream in a real-time fashion under strict latency constraints. This is a much more realistic problem that needs to be solved in order to apply ST to a variety of real-life tasks. The focus of this thesis is on researching and developing key techniques necessary for a successful streaming ST solution. First, in order to enable ST system development and evaluation, a new multilingual ST dataset is collected, which significantly expands the amount of hours available for ST. Then, a streaming-ready segmenter component is developed to segment the intermediate transcriptions of our proposed cascade solution, which consists in an Automatic Speech Recognition (ASR) system that transcribes the audio, followed by a Machine Translation (MT) system that translates the intermediate transcriptions into the desired language. Research has shown that segmentation quality plays a significant role in downstream MT performance, so the development of an effective streaming segmenter is a critical step in the streaming ST process. This segmenter is then integrated and the components of the cascade are jointly optimized to achieve an appropriate quality-latency trade-off. Streaming ST has much more strict latency constraints than standard online ST, as the desired latency level must be maintained during the whole translation process. Therefore, it is crucial to be able to accurately measure this latency, but the standard online ST metrics are not well suited for this task. As a consequence, new evaluation methods are proposed for streaming ST evaluation, which ensure realistic, yet interpretable results. Lastly, a novel method is presented for improving translation quality through the use of contextual information. Whereas standard online ST systems translate audios in isolation, there is a wealth of contextual information available for improving streaming ST systems. Our approach introduces the concept of streaming history by storing the most recent information of the translation process, which is then used by the model in order to improve translation quality. / The research leading to these results has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreements no. 761758 (X5Gon) and 952215 (TAILOR), and Erasmus+ Educa- tion programme under grant agreement no. 20-226-093604-SCH (EXPERT); the Government of Spain’s grant RTI2018-094879-B-I00 (Multisub) funded by MCIN/AEI/10.13039/501100011033 & “ERDF A way of making Europe”, and FPU scholarships FPU18/04135; and the Generalitat Valenciana’s research project Classroom Activity Recognition (ref. PROMETEO/2019/111) and predoctoral research scholarship ACIF/2017/055. / Iranzo Sánchez, J. (2023). Streaming Neural Speech Translation [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/199170 / Compendio

Page generated in 0.4737 seconds