• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 26
  • 21
  • Tagged with
  • 47
  • 47
  • 27
  • 27
  • 20
  • 19
  • 17
  • 15
  • 15
  • 14
  • 14
  • 14
  • 14
  • 14
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Computational Argumentation for the Automatic Analysis of Argumentative Discourse and Human Persuasion

Ruiz Dolz, Ramon 10 July 2023 (has links)
Tesis por compendio / [ES] La argumentación computacional es el área de investigación que estudia y analiza el uso de distintas técnicas y algoritmos que aproximan el razonamiento argumentativo humano desde un punto de vista computacional. En esta tesis doctoral se estudia el uso de distintas técnicas propuestas bajo el marco de la argumentación computacional para realizar un análisis automático del discurso argumentativo, y para desarrollar técnicas de persuasión computacional basadas en argumentos. Con estos objetivos, en primer lugar se presenta una completa revisión del estado del arte y se propone una clasificación de los trabajos existentes en el área de la argumentación computacional. Esta revisión nos permite contextualizar y entender la investigación previa de forma más clara desde la perspectiva humana del razonamiento argumentativo, así como identificar las principales limitaciones y futuras tendencias de la investigación realizada en argumentación computacional. En segundo lugar, con el objetivo de solucionar algunas de estas limitaciones, se ha creado y descrito un nuevo conjunto de datos que permite abordar nuevos retos y investigar problemas previamente inabordables (e.g., evaluación automática de debates orales). Conjuntamente con estos datos, se propone un nuevo sistema para la extracción automática de argumentos y se realiza el análisis comparativo de distintas técnicas para esta misma tarea. Además, se propone un nuevo algoritmo para la evaluación automática de debates argumentativos y se prueba con debates humanos reales. Finalmente, en tercer lugar se presentan una serie de estudios y propuestas para mejorar la capacidad persuasiva de sistemas de argumentación computacionales en la interacción con usuarios humanos. De esta forma, en esta tesis se presentan avances en cada una de las partes principales del proceso de argumentación computacional (i.e., extracción automática de argumentos, representación del conocimiento y razonamiento basados en argumentos, e interacción humano-computador basada en argumentos), así como se proponen algunos de los cimientos esenciales para el análisis automático completo de discursos argumentativos en lenguaje natural. / [CA] L'argumentació computacional és l'àrea de recerca que estudia i analitza l'ús de distintes tècniques i algoritmes que aproximen el raonament argumentatiu humà des d'un punt de vista computacional. En aquesta tesi doctoral s'estudia l'ús de distintes tècniques proposades sota el marc de l'argumentació computacional per a realitzar una anàlisi automàtic del discurs argumentatiu, i per a desenvolupar tècniques de persuasió computacional basades en arguments. Amb aquestos objectius, en primer lloc es presenta una completa revisió de l'estat de l'art i es proposa una classificació dels treballs existents en l'àrea de l'argumentació computacional. Aquesta revisió permet contextualitzar i entendre la investigació previa de forma més clara des de la perspectiva humana del raonament argumentatiu, així com identificar les principals limitacions i futures tendències de la investigació realitzada en argumentació computacional. En segon lloc, amb l'objectiu de sol$\cdot$lucionar algunes d'aquestes limitacions, hem creat i descrit un nou conjunt de dades que ens permet abordar nous reptes i investigar problemes prèviament inabordables (e.g., avaluació automàtica de debats orals). Conjuntament amb aquestes dades, es proposa un nou sistema per a l'extracció d'arguments i es realitza l'anàlisi comparativa de distintes tècniques per a aquesta mateixa tasca. A més a més, es proposa un nou algoritme per a l'avaluació automàtica de debats argumentatius i es prova amb debats humans reals. Finalment, en tercer lloc es presenten una sèrie d'estudis i propostes per a millorar la capacitat persuasiva de sistemes d'argumentació computacionals en la interacció amb usuaris humans. D'aquesta forma, en aquesta tesi es presenten avanços en cada una de les parts principals del procés d'argumentació computacional (i.e., l'extracció automàtica d'arguments, la representació del coneixement i raonament basats en arguments, i la interacció humà-computador basada en arguments), així com es proposen alguns dels fonaments essencials per a l'anàlisi automàtica completa de discursos argumentatius en llenguatge natural. / [EN] Computational argumentation is the area of research that studies and analyses the use of different techniques and algorithms that approximate human argumentative reasoning from a computational viewpoint. In this doctoral thesis we study the use of different techniques proposed under the framework of computational argumentation to perform an automatic analysis of argumentative discourse, and to develop argument-based computational persuasion techniques. With these objectives in mind, we first present a complete review of the state of the art and propose a classification of existing works in the area of computational argumentation. This review allows us to contextualise and understand the previous research more clearly from the human perspective of argumentative reasoning, and to identify the main limitations and future trends of the research done in computational argumentation. Secondly, to overcome some of these limitations, we create and describe a new corpus that allows us to address new challenges and investigate on previously unexplored problems (e.g., automatic evaluation of spoken debates). In conjunction with this data, a new system for argument mining is proposed and a comparative analysis of different techniques for this same task is carried out. In addition, we propose a new algorithm for the automatic evaluation of argumentative debates and we evaluate it with real human debates. Thirdly, a series of studies and proposals are presented to improve the persuasiveness of computational argumentation systems in the interaction with human users. In this way, this thesis presents advances in each of the main parts of the computational argumentation process (i.e., argument mining, argument-based knowledge representation and reasoning, and argument-based human-computer interaction), and proposes some of the essential foundations for the complete automatic analysis of natural language argumentative discourses. / This thesis has been partially supported by the Generalitat Valenciana project PROMETEO/2018/002 and by the Spanish Government projects TIN2017-89156-R and PID2020-113416RB-I00 / Ruiz Dolz, R. (2023). Computational Argumentation for the Automatic Analysis of Argumentative Discourse and Human Persuasion [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/194806 / Compendio
32

Layout Analysis for Handwritten Documents. A Probabilistic Machine Learning Approach

Quirós Díaz, Lorenzo 21 March 2022 (has links)
[ES] El Análisis de la Estructura de Documentos (Document Layout Analysis), aplicado a documentos manuscritos, tiene como objetivo obtener automáticamente la estructura intrínseca de dichos documentos. Su desarrollo como campo de investigación se extiende desde los sistemas de segmentación de caracteres desarrollados a principios de la década de 1960 hasta los sistemas complejos desarrollados en la actualidad, donde el objetivo es analizar estructuras de alto nivel (líneas de texto, párrafos, tablas, etc.) y la relación que existe entre ellas. Esta tesis, en primer lugar, define el objetivo del Análisis de la Estructura de Documentos desde una perspectiva probabilística. A continuación, la complejidad del problema se reduce a un conjunto de subproblemas complementarios bien conocidos, de manera que pueda ser gestionado por medio de recursos informáticos modernos. Concretamente se abordan tres de los principales problemas del Análisis de la Estructura de Documentos siguiendo una formulación probabilística. Específicamente se aborda la Detección de Línea Base (Baseline Detection), la Segmentación de Regiones (Region Segmentation) y la Determinación del Orden de Lectura (Reading Order Determination). Uno de los principales aportes de esta tesis es la formalización de los problemas de Detección de Línea Base y Segmentación de Regiones bajo un marco probabilístico, donde ambos problemas pueden ser abordados por separado o de forma integrada por los modelos propuestos. Este último enfoque ha demostrado ser muy útil para procesar grandes colecciones de documentos con recursos informáticos limitados. Posteriormente se aborda el subproblema de la Determinación del Orden de Lectura, que es uno de los subproblemas más importantes, aunque subestimados, del Análisis de la Extructura de Documentos, ya que es el nexo que permite convertir los datos extraídos de los sistemas de Reconocimiento Automático de Texto (Automatic Text Recognition Systems) en información útil. Por lo tanto, en esta tesis abordamos y formalizamos la Determinación del Orden de Lectura como un problema de clasificación probabilística por pares. Además, se proponen dos diferentes algoritmos de decodificación que reducen la complejidad computacional del problema. Por otra parte, se utilizan diferentes modelos estadísticos para representar la distribución de probabilidad sobre la estructura de los documentos. Estos modelos, basados en Redes Neuronales Artificiales (desde un simple Perceptrón Multicapa hasta complejas Redes Convolucionales y Redes de Propuesta de Regiones), se estiman a partir de datos de entrenamiento utilizando algoritmos de aprendizaje automático supervisados. Finalmente, todas las contribuciones se evalúan experimentalmente, no solo en referencias académicas estándar, sino también en colecciones de miles de imágenes. Se han considerado documentos de texto manuascritos y documentos musicales manuscritos, ya que en conjunto representan la mayoría de los documentos presentes en bibliotecas y archivos. Los resultados muestran que los métodos propuestos son muy precisos y versátiles en una amplia gama de documentos manuscritos. / [CA] L'Anàlisi de l'Estructura de Documents (Document Layout Analysis), aplicada a documents manuscrits, pretén automatitzar l'obtenció de l'estructura intrínseca d'un document. El seu desenvolupament com a camp d'investigació comprén des dels sistemes de segmentació de caràcters creats al principi dels anys 60 fins als complexos sistemes de hui dia que busquen analitzar estructures d'alt nivell (línies de text, paràgrafs, taules, etc) i les relacions entre elles. Aquesta tesi busca, primer de tot, definir el propòsit de l'anàlisi de l'estructura de documents des d'una perspectiva probabilística. Llavors, una vegada reduïda la complexitat del problema, es processa utilitzant recursos computacionals moderns, per a dividir-ho en un conjunt de subproblemes complementaris més coneguts. Concretament, tres dels principals subproblemes de l'Anàlisi de l'Estructura de Documents s'adrecen seguint una formulació probabilística: Detecció de la Línia Base Baseline Detection), Segmentació de Regions (Region Segmentation) i Determinació de l'Ordre de Lectura (Reading Order Determination). Una de les principals contribucions d'aquesta tesi és la formalització dels problemes de la Detecció de les Línies Base i dels de Segmentació de Regions en un entorn probabilístic, sent els dos problemes tractats per separat o integrats en conjunt pels models proposats. Aquesta última aproximació ha demostrat ser de molta utilitat per a la gestió de grans col·leccions de documents amb uns recursos computacionals limitats. Posteriorment s'ha adreçat el subproblema de la Determinació de l'Ordre de Lectura, sent un dels subproblemes més importants de l'Anàlisi d'Estructures de Documents, encara així subestimat, perquè és el nexe que permet transformar en informació d'utilitat l'extracció de dades dels sistemes de reconeixement automàtic de text. És per això que el fet de determinar l'ordre de lectura s'adreça i formalitza com un problema d'ordenació probabilística per parells. A més, es proposen dos algoritmes descodificadors diferents que reducix la complexitat computacional del problema. Per altra banda s'utilitzen diferents models estadístics per representar la distribució probabilística sobre l'estructura dels documents. Aquests models, basats en xarxes neuronals artificials (des d'un simple perceptron multicapa fins a complexes xarxes convolucionals i de propostes de regió), s'estimen a partir de dades d'entrenament mitjançant algoritmes d'aprenentatge automàtic supervisats. Finalment, totes les contribucions s'avaluen experimentalment, no només en referents acadèmics estàndard, sinó també en col·leccions de milers d'imatges. S'han considerat documents de text manuscrit i documents musicals manuscrits, ja que representen la majoria de documents presents a biblioteques i arxius. Els resultats mostren que els mètodes proposats són molt precisos i versàtils en una àmplia gamma de documents manuscrits. / [EN] Document Layout Analysis, applied to handwritten documents, aims to automatically obtain the intrinsic structure of a document. Its development as a research field spans from the character segmentation systems developed in the early 1960s to the complex systems designed nowadays, where the goal is to analyze high-level structures (lines of text, paragraphs, tables, etc) and the relationship between them. This thesis first defines the goal of Document Layout Analysis from a probabilistic perspective. Then, the complexity of the problem is reduced, to be handled by modern computing resources, into a set of well-known complementary subproblems. More precisely, three of the main subproblems of Document Layout Analysis are addressed following a probabilistic formulation, namely Baseline Detection, Region Segmentation and Reading Order Determination. One of the main contributions of this thesis is the formalization of Baseline Detection and Region Segmentation problems under a probabilistic framework, where both problems can be handled separately or in an integrated way by the proposed models. The latter approach is proven to be very useful to handle large document collections under restricted computing resources. Later, the Reading Order Determination subproblem is addressed. It is one of the most important, yet underestimated, subproblem of Document Layout Analysis, since it is the bridge that allows us to convert the data extracted from Automatic Text Recognition systems into useful information. Therefore, Reading Order Determination is addressed and formalized as a pairwise probabilistic sorting problem. Moreover, we propose two different decoding algorithms that reduce the computational complexity of the problem. Furthermore, different statistical models are used to represent the probability distribution over the structure of the documents. These models, based on Artificial Neural Networks (from a simple Multilayer Perceptron to complex Convolutional and Region Proposal Networks), are estimated from training data using supervised Machine Learning algorithms. Finally, all the contributions are experimentally evaluated, not only on standard academic benchmarks but also in collections of thousands of images. We consider handwritten text documents and handwritten musical documents as they represent the majority of documents in libraries and archives. The results show that the proposed methods are very accurate and versatile in a very wide range of handwritten documents. / Quirós Díaz, L. (2022). Layout Analysis for Handwritten Documents. A Probabilistic Machine Learning Approach [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181483
33

Clearing the Way in Capsule Endoscopy with Deep Learning and Computer Vision.

Noorda, Reinier Alexander 01 July 2022 (has links)
[ES] La endoscopia capsular (CE) es una ampliamente utilizada alternativa mínimamente invasiva a la endoscopia tradicional, que permite la visualización de todo el intestino delgado, mientras no es posible hacerlo fácilmente con los procedimientos más invasivos. Sin embargo, esos métodos tradicionales aún suelen ser la primera opción de tratamiento, ya que todavía existen desafíos importantes en el campo de la CE, incluyendo el tiempo necesario para el diagnóstico por vídeo después del procedimiento, el hecho de que la cápsula no se puede controlar activamente, la falta de consenso sobre una buena preparación del paciente y el coste alto. En esta tesis doctoral, nuestro objetivo es extraer más información de los procedimientos de endoscopía por cápsula para ayudar a aliviar estos problemas desde una perspectiva que parece estar subrepresentada en la investigación actual. Primero, como el objetivo principal en esta tesis, pretendemos desarrollar un método de evaluación de la limpieza en procedimientos de CE automático y objetivo para asistir la investigación médica en métodos de preparación de los pacientes. Específicamente, a pesar de que una preparación adecuada del paciente pueda ayudar a obtener una mejor visibilidad, los estudios sobre el método más efectivo son contradictorios debido a la ausencia de tal método. Por lo tanto, pretendemos proporcionar un método de ese tipo, capaz de presentar la limpieza en una escala intuitiva, con una novedosa arquitectura relativamente ligera de una red neuronal convolucional en su núcleo. Entrenamos este modelo en un conjunto de datos extensivo de más de 50,000 parches de imágenes, obtenidos de 35 procedimientos CE diferentes, y lo comparamos con métodos de clasificación del estado del arte. A partir de la clasificación, desarrollamos un método para automáticamente estimar las probabilidades a nivel de píxel y deducir los puntos en la escala de la evaluación de la limpieza a través de umbrales aprendidos. Después, validamos nuestro método en un entorno clínico en 30 videos de CE obtenidos nuevamente, comparando las puntuaciones resultantes con las asignadas de forma independiente por especialistas humanos. Obtuvimos la mayor precisión de clasificación para el método propuesto (95,23%), con tiempos de predicción promedios significativamente más bajos que para el segundo mejor método. En la validación, encontramos un acuerdo aceptable con dos especialistas humanos en comparación con el acuerdo interhumano, mostrando su validez como método de evaluación objetivo. Adicionalmente, otro objetivo de este trabajo es detectar automáticamente el túnel y ubicar el túnel en cada fotograma. Para este objetivo, entrenamos un modelo basado en R-CNN, concretamente el detector ligero YOLOv3, en un total de 1385 fotogramas, extraídos de procedimientos de CE de 10 pacientes diferentes. De tal manera, alcanzamos una precisión del 86,55% y una recuperación del 88,79% en nuestro conjunto de datos de test. Ampliando este objetivo, también pretendemos visualizar la motilidad intestinal de una manera análoga a una manometría intestinal tradicional, basada únicamente en la técnica mínimamente invasiva de CE. Para esto, alineamos los fotogramas con similar orientación y derivamos los parámetros adecuados para nuestro método de segmentación de las propiedades del rectángulo delimitador del túnel. Finalmente, calculamos el tamaño relativo del túnel para construir un equivalente de una manometría intestinal a partir de información visual. Desde que concluimos nuestro trabajo, nuestro método para la evaluación automática de la limpieza se ha utilizado en un estudio a gran escala aún en curso, en el que participamos activamente. Mientras gran parte de la investigación se centra en la detección automática de patologías, como tumores, pólipos y hemorragias, esperamos que nuestro trabajo pueda hacer una contribución significativa para extraer más información de la CE también en otras áreas frecuentemente subestimadas. / [CA] L'endoscòpia capsular (CE) és una àmpliament utilitzada alternativa mínimament invasiva a l'endoscòpia tradicional, que permet la visualització de tot l'intestí prim, mentre no és possible fer-lo fàcilment amb els procediments més invasius. No obstant això, aqueixos mètodes tradicionals encara solen ser la primera opció de tractament, ja que encara existeixen desafiaments importants en el camp de la CE, incloent el temps necessari per al diagnòstic per vídeo després del procediment, el fet que la càpsula no es pot controlar activament, la falta de consens sobre una bona preparació del pacient i el cost alt. En aquesta tesi doctoral, el nostre objectiu és extraure més informació dels procediments de endoscopía per càpsula per a ajudar a alleujar aquests problemes des d'una perspectiva que sembla estar subrepresentada en la investigació actual. Primer, com l'objectiu principal en aquesta tesi, pretenem desenvolupar un mètode d'avaluació de la neteja en procediments de CE automàtic i objectiu per a assistir la investigació mèdica en mètodes de preparació dels pacients. Específicament, a pesar que una preparació adequada del pacient puga ajudar a obtindre una millor visibilitat, els estudis sobre el mètode més efectiu són contradictoris a causa de l'absència de tal mètode. Per tant, pretenem proporcionar un mètode d'aqueix tipus, capaç de presentar la neteja en una escala intuïtiva, amb una nova arquitectura relativament lleugera d'una xarxa neuronal convolucional en el seu nucli. Entrenem aquest model en un conjunt de dades extensiu de més de 50,000 pegats d'imatges, obtinguts de 35 procediments CE diferents, i el comparem amb mètodes de classificació de l'estat de l'art. A partir de la classificació, desenvolupem un mètode per a automàticament estimar les probabilitats a nivell de píxel i deduir els punts en l'escala de l'avaluació de la neteja a través de llindars apresos. Després, validem el nostre mètode en un entorn clínic en 30 vídeos de CE obtinguts novament, comparant les puntuacions resultants amb les assignades de manera independent per especialistes humans. Vam obtindre la major precisió de classificació per al mètode proposat (95,23%), amb temps de predicció mitjanes significativament més baixos que per al segon millor mètode. En la validació, trobem un acord acceptable amb dos especialistes humans en comparació amb l'acord interhumà, mostrant la seua validesa com a mètode d'avaluació objectiu. Addicionalment, un altre objectiu d'aquest treball és detectar automàticament el túnel i situar el túnel en cada fotograma. Per a aquest objectiu, entrenem un model basat en R-CNN, concretament el detector lleuger YOLOv3, en un total de 1385 fotogrames, extrets de procediments de CE de 10 pacients diferents. De tal manera, aconseguim una precisió del 86,55% i una recuperació del 88,79% en el nostre conjunt de dades de test. Ampliant aquest objectiu, també pretenem visualitzar la motilitat intestinal d'una manera anàloga a una manometría intestinal tradicional, basada únicament en la tècnica mínimament invasiva de CE. Per a això, alineem els fotogrames amb similar orientació i derivem els paràmetres adequats per al nostre mètode de segmentació de les propietats del rectangle delimitador del túnel. Finalment, calculem la grandària relativa del túnel per a construir un equivalent d'una manometría intestinal a partir d'informació visual. Des que concloem el nostre treball, el nostre mètode per a l'avaluació automàtica de la neteja s'ha utilitzat en un estudi a gran escala encara en curs, en el qual participem activament. Mentre gran part de la investigació se centra en la detecció automàtica de patologies, com a tumors, pòlips i hemorràgies, esperem que el nostre treball puga fer una contribució significativa per a extraure més informació de la CE també en altres àrees sovint subestimades. / [EN] Capsule endoscopy (CE) is a widely used, minimally invasive alternative to traditional endoscopy that allows visualisation of the entire small intestine, whereas more invasive procedures cannot easily do this. However, those traditional methods are still commonly the first choice of treatment for gastroenterologists as there are still important challenges surrounding the field of CE. Among others, these include the time consuming video diagnosis following the procedure, the fact that the capsule cannot be actively controlled, lack of consensus on good patient preparation and the high cost. In this doctoral thesis, we aim to extract more information from capsule endoscopy procedures to aid in alleviating these issues from a perspective that appears to be under-represented in current research. First, and as the main objective in this thesis, we aim to develop an objective, automatic cleanliness evaluation method in CE procedures to aid medical research in patient preparation methods. Namely, even though adequate patient preparation can help to obtain a cleaner intestine and thus better visibility in the resulting videos, studies on the most effective preparation method are conflicting due to the absence of such a method. Therefore, we aim to provide such a method, capable of presenting results on an intuitive scale, with a relatively light-weight novel convolutional neural network architecture at its core. We trained this model on an extensive data set of over 50,000 image patches, collected from 35 different CE procedures, and compared it with state-of-the-art classification methods. From the patch classification results, we developed a method to automatically estimate pixel-level probabilities and deduce cleanliness evaluation scores through automatically learnt thresholds. We then validated our method in a clinical setting on 30 newly collected CE videos, comparing the resulting scores to those independently assigned by human specialists. We obtained the highest classification accuracy for the proposed method (95.23%), with significantly lower average prediction times than for the second-best method. In the validation of our method, we found acceptable agreement with two human specialists compared to interhuman agreement, showing its validity as an objective evaluation method. Additionally, we aim to automatically detect and localise the tunnel in each frame, in order to help determine the capsule orientation at any given time. For this purpose, we trained an R-CNN based model, namely the light-weight YOLOv3 detector, on a total of 1385 frames, extracted from CE procedures of 10 different patients, achieving a precision of 86.55% combined with a recall of 88.79% on our test set. Extending on this, we additionally aim to visualise intestinal motility in a manner analogous to a traditional intestinal manometry, solely based on the minimally invasive technique of CE, through aligning the frames with similar orientation and using the bounding box parameters to derive adequate parameters for our tunnel segmentation method. Finally, we calculate the relative tunnel size to construct an equivalent of an intestinal manometry from visual information. Since we concluded our work, our method for automatic cleanliness evaluation has been used in a still on-going, large-scale study, with in which we actively participate. While much research focuses on automatic detection of pathologies, such as tumors, polyps and bleedings, we hope our work can make a significant contribution to extract more information from CE also in other areas that are often overlooked. / Noorda, RA. (2022). Clearing the Way in Capsule Endoscopy with Deep Learning and Computer Vision [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/183752
34

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Pérez González de Martos, Alejandro Manuel 12 July 2022 (has links)
[ES] En los últimos años, el aprendizaje profundo ha cambiado significativamente el panorama en diversas áreas del campo de la inteligencia artificial, entre las que se incluyen la visión por computador, el procesamiento del lenguaje natural, robótica o teoría de juegos. En particular, el sorprendente éxito del aprendizaje profundo en múltiples aplicaciones del campo del procesamiento del lenguaje natural tales como el reconocimiento automático del habla (ASR), la traducción automática (MT) o la síntesis de voz (TTS), ha supuesto una mejora drástica en la precisión de estos sistemas, extendiendo así su implantación a un mayor rango de aplicaciones en la vida real. En este momento, es evidente que las tecnologías de reconocimiento automático del habla y traducción automática pueden ser empleadas para producir, de forma efectiva, subtítulos multilingües de alta calidad de contenidos audiovisuales. Esto es particularmente cierto en el contexto de los vídeos educativos, donde las condiciones acústicas son normalmente favorables para los sistemas de ASR y el discurso está gramaticalmente bien formado. Sin embargo, en el caso de TTS, aunque los sistemas basados en redes neuronales han demostrado ser capaces de sintetizar voz de un realismo y calidad sin precedentes, todavía debe comprobarse si esta tecnología está lo suficientemente madura como para mejorar la accesibilidad y la participación en el aprendizaje en línea. Además, existen diversas tareas en el campo de la síntesis de voz que todavía suponen un reto, como la clonación de voz inter-lingüe, la síntesis incremental o la adaptación zero-shot a nuevos locutores. Esta tesis aborda la mejora de las prestaciones de los sistemas actuales de síntesis de voz basados en redes neuronales, así como la extensión de su aplicación en diversos escenarios, en el contexto de mejorar la accesibilidad en el aprendizaje en línea. En este sentido, este trabajo presta especial atención a la adaptación a nuevos locutores y a la clonación de voz inter-lingüe, ya que los textos a sintetizar se corresponden, en este caso, a traducciones de intervenciones originalmente en otro idioma. / [CA] Durant aquests darrers anys, l'aprenentatge profund ha canviat significativament el panorama en diverses àrees del camp de la intel·ligència artificial, entre les quals s'inclouen la visió per computador, el processament del llenguatge natural, robòtica o la teoria de jocs. En particular, el sorprenent èxit de l'aprenentatge profund en múltiples aplicacions del camp del processament del llenguatge natural, com ara el reconeixement automàtic de la parla (ASR), la traducció automàtica (MT) o la síntesi de veu (TTS), ha suposat una millora dràstica en la precisió i qualitat d'aquests sistemes, estenent així la seva implantació a un ventall més ampli a la vida real. En aquest moment, és evident que les tecnologies de reconeixement automàtic de la parla i traducció automàtica poden ser emprades per a produir, de forma efectiva, subtítols multilingües d'alta qualitat de continguts audiovisuals. Això és particularment cert en el context dels vídeos educatius, on les condicions acústiques són normalment favorables per als sistemes d'ASR i el discurs està gramaticalment ben format. No obstant això, al cas de TTS, encara que els sistemes basats en xarxes neuronals han demostrat ser capaços de sintetitzar veu d'un realisme i qualitat sense precedents, encara s'ha de comprovar si aquesta tecnologia és ja prou madura com per millorar l'accessibilitat i la participació en l'aprenentatge en línia. A més, hi ha diverses tasques al camp de la síntesi de veu que encara suposen un repte, com ara la clonació de veu inter-lingüe, la síntesi incremental o l'adaptació zero-shot a nous locutors. Aquesta tesi aborda la millora de les prestacions dels sistemes actuals de síntesi de veu basats en xarxes neuronals, així com l'extensió de la seva aplicació en diversos escenaris, en el context de millorar l'accessibilitat en l'aprenentatge en línia. En aquest sentit, aquest treball presta especial atenció a l'adaptació a nous locutors i a la clonació de veu interlingüe, ja que els textos a sintetitzar es corresponen, en aquest cas, a traduccions d'intervencions originalment en un altre idioma. / [EN] In recent years, deep learning has fundamentally changed the landscapes of a number of areas in artificial intelligence, including computer vision, natural language processing, robotics, and game theory. In particular, the striking success of deep learning in a large variety of natural language processing (NLP) applications, including automatic speech recognition (ASR), machine translation (MT), and text-to-speech (TTS), has resulted in major accuracy improvements, thus widening the applicability of these technologies in real-life settings. At this point, it is clear that ASR and MT technologies can be utilized to produce cost-effective, high-quality multilingual subtitles of video contents of different kinds. This is particularly true in the case of transcription and translation of video lectures and other kinds of educational materials, in which the audio recording conditions are usually favorable for the ASR task, and there is a grammatically well-formed speech. However, although state-of-the-art neural approaches to TTS have shown to drastically improve the naturalness and quality of synthetic speech over conventional concatenative and parametric systems, it is still unclear whether this technology is already mature enough to improve accessibility and engagement in online learning, and particularly in the context of higher education. Furthermore, advanced topics in TTS such as cross-lingual voice cloning, incremental TTS or zero-shot speaker adaptation remain an open challenge in the field. This thesis is about enhancing the performance and widening the applicability of modern neural TTS technologies in real-life settings, both in offline and streaming conditions, in the context of improving accessibility and engagement in online learning. Thus, particular emphasis is placed on speaker adaptation and cross-lingual voice cloning, as the input text corresponds to a translated utterance in this context. / Pérez González De Martos, AM. (2022). Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184019 / Premios Extraordinarios de tesis doctorales
35

Clinical Decision Support Systems for Palliative Care Referral: Design and Evaluation of Frailty and Mortality Predictive Models

Blanes Selva, Vicent 30 December 2022 (has links)
[ES] Los Cuidados Paliativos (PC) son cuidados médicos especializados cuyo objetivo esmejorar la calidad de vida de los pacientes con enfermedades graves. Históricamente,se han aplicado a los pacientes en fase terminal, especialmente a los que tienen undiagnóstico oncológico. Sin embargo, los resultados de las investigaciones actualessugieren que la PC afecta positivamente a la calidad de vida de los pacientes condiferentes enfermedades. La tendencia actual sobre la PC es incluir a pacientes nooncológicos con afecciones como la EPOC, la insuficiencia de funciones orgánicas ola demencia. Sin embargo, la identificación de los pacientes con esas necesidades escompleja, por lo que se requieren herramientas alternativas basadas en datos clínicos. La creciente demanda de PC puede beneficiarse de una herramienta de cribadopara identificar a los pacientes con necesidades de PC durante el ingreso hospitalario.Se han propuesto varias herramientas, como la Pregunta Sorpresa (SQ) o la creaciónde diferentes índices y puntuaciones, con distintos grados de éxito. Recientemente,el uso de algoritmos de inteligencia artificial, en concreto de Machine Learning (ML), ha surgido como una solución potencial dada su capacidad de aprendizaje a partirde las Historias Clínicas Electrónicas (EHR) y con la expectativa de proporcionarpredicciones precisas para el ingreso en programas de PC. Esta tesis se centra en la creación de herramientas digitales basadas en ML para la identificación de pacientes con necesidades de cuidados paliativos en el momento del ingreso hospitalario. Hemos utilizado la mortalidad y la fragilidad como los dos criterios clínicos para la toma de decisiones, siendo la corta supervivencia y el aumento de la fragilidad, nuestros objetivos para hacer predicciones. También nos hemos centrado en la implementación de estas herramientas en entornos clínicos y en el estudio de su usabilidad y aceptación en los flujos de trabajo clínicos. Para lograr estos objetivos, en primer lugar, estudiamos y comparamos algoritmos de ML para la supervivencia a un año en pacientes adultos durante el ingreso hospitalario. Para ello, definimos una variable binaria a predecir, equivalente a la SQ y definimos el conjunto de variables predictivas basadas en la literatura. Comparamos modelos basados en Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) y Multilayer Perceptron (MLP), atendiendo a su rendimiento, especialmente al Área bajo la curva ROC (AUC ROC). Además, obtuvimos información sobre la importancia de las variables para los modelos basados en árboles utilizando el criterio GINI. En segundo lugar, estudiamos la medición de la fragilidad de la calidad de vida(QoL) en los candidatos a la intervención en PC. Para este segundo estudio, redujimosla franja de edad de la población a pacientes ancianos (≥ 65 años) como grupo objetivo. A continuación, creamos tres modelos diferentes: 1) la adaptación del modelo demortalidad a un año para pacientes ancianos, 2) un modelo de regresión para estimarel número de días desde el ingreso hasta la muerte para complementar los resultadosdel primer modelo, y finalmente, 3) un modelo predictivo del estado de fragilidad aun año. Estos modelos se compartieron con la comunidad académica a través de unaaplicación web b que permite la entrada de datos y muestra la predicción de los tresmodelos y unos gráficos con la importancia de las variables. En tercer lugar, propusimos una versión del modelo de mortalidad a un año enforma de calculadora online. Esta versión se diseñó para maximizar el acceso de losprofesionales minimizando los requisitos de datos y haciendo que el software respondiera a las plataformas tecnológicas actuales. Así pues, se eliminaron las variablesadministrativas específicas de la fuente de datos y se trabajó en un proceso para minimizar las variables de entrada requeridas, manteniendo al mismo tiempo un ROCAUC elevado del modelo. Como resultado, e / [CA] Les Cures Pal·liatives (PC) són cures mèdiques especialitzades l'objectiu de les qualsés millorar la qualitat de vida dels pacients amb malalties greus. Històricament, s'hanaplicat als pacients en fase terminal, especialment als quals tenen un diagnòstic oncològic. No obstant això, els resultats de les investigacions actuals suggereixen que lesPC afecten positivament a la qualitat de vida dels pacients amb diferents malalties. Latendència actual sobre les PC és incloure a pacients no oncològics amb afeccions comla malaltia pulmonar obstructiva crònica, la insuficiència de funcions orgàniques o lademència. No obstant això, la identificació dels pacients amb aqueixes necessitats éscomplexa, per la qual cosa es requereixen eines alternatives basades en dades clíniques. La creixent demanda de PC pot beneficiar-se d'una eina de garbellat per a identificar als pacients amb necessitats de PC durant l'ingrés hospitalari. S'han proposatdiverses eines, com la Pregunta Sorpresa (SQ) o la creació de diferents índexs i puntuacions, amb diferents graus d'èxit. Recentment, l'ús d'algorismes d'intel·ligènciaartificial, en concret de Machine Learning (ML), ha sorgit com una potencial soluciódonada la seua capacitat d'aprenentatge a partir de les Històries Clíniques Electròniques (EHR) i amb l'expectativa de proporcionar prediccions precises per a l'ingrés enprogrames de PC. Aquesta tesi se centra en la creació d'eines digitals basades en MLper a la identificació de pacients amb necessitats de cures pal·liatives durant l'ingréshospitalari. Hem utilitzat mortalitat i fragilitat com els dos criteris clínics per a lapresa de decisions, sent la curta supervivència i la major fragilitat els nostres objectiusa predir. Després, ens hem centrat en la seua implementació en entorns clínics i hemestudiat la seua usabilitat i acceptació en els fluxos de treball clínics.Aquesta tesi se centra en la creació d'eines digitals basades en ML per a la identificació de pacients amb necessitats de cures pal·liatives en el moment de l'ingrés hospitalari. Hem utilitzat la mortalitat i la fragilitat com els dos criteris clínics per ala presa de decisions, sent la curta supervivència i l'augment de la fragilitat, els nostresobjectius per a fer prediccions. També ens hem centrat en la implementació d'aquesteseines en entorns clínics i en l'estudi de la seua usabilitat i acceptació en els fluxos detreball clínics. Per a aconseguir aquests objectius, en primer lloc, estudiem i comparem algorismesde ML per a la supervivència a un any en pacients adults durant l'ingrés hospitalari.Per a això, definim una variable binària a predir, equivalent a la SQ i definim el conjuntde variables predictives basades en la literatura. Comparem models basats en Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) i Multilayer Perceptron (MLP), atenent el seu rendiment,especialment a l'Àrea sota la corba ROC (AUC ROC). A més, vam obtindre informaciósobre la importància de les variables per als models basats en arbres utilitzant el criteri GINI. En segon lloc, estudiem el mesurament de la fragilitat de la qualitat de vida (QoL)en els candidats a la intervenció en PC. Per a aquest segon estudi, vam reduir lafranja d'edat de la població a pacients ancians (≥ 65 anys) com a grup objectiu. Acontinuació, creem tres models diferents: 1) l'adaptació del model de mortalitat a unany per a pacients ancians, 2) un model de regressió per a estimar el nombre de dies desde l'ingrés fins a la mort per a complementar els resultats del primer model, i finalment,3) un model predictiu de l'estat de fragilitat a un any. Aquests models es van compartiramb la comunitat acadèmica a través d'una aplicació web c que permet l'entrada dedades i mostra la predicció dels tres models i uns gràfics amb la importància de lesvariables. En tercer lloc, vam proposar una versió del model de mortalitat a un any en formade calculadora en línia. Aquesta versió es va di / [EN] Palliative Care (PC) is specialized medical care that aims to improve patients' quality of life with serious illnesses. Historically, it has been applied to terminally ill patients, especially those with oncologic diagnoses. However, current research results suggest that PC positively affects the quality of life of patients with different conditions. The current trend on PC is to include non-oncological patients with conditions such as Chronic Obstructive Pulmonary Disease (COPD), organ function failure or dementia. However, the identification of patients with those needs is complex, and therefore alternative tools based on clinical data are required. The growing demand for PC may benefit from a screening tool to identify patients with PC needs during hospital admission. Several tools, such as the Surprise Question (SQ) or the creation of different indexes and scores, have been proposed with varying degrees of success. Recently, the use of artificial intelligence algorithms, specifically Machine Learning (ML), has arisen as a potential solution given their capacity to learn from the Electronic Health Records (EHRs) and with the expectation to provide accurate predictions for admission to PC programs. This thesis focuses on creating ML-based digital tools for identifying patients with palliative care needs at hospital admission. We have used mortality and frailty as the two clinical criteria for decision-making, being short survival and increased frailty, as our targets to make predictions. We also have focused on implementing these tools in clinical settings and studying their usability and acceptance in clinical workflows. To accomplish these objectives, first, we studied and compared ML algorithms for one-year survival in adult patients during hospital admission. To do so, we defined a binary variable to predict, equivalent to the SQ and defined the set of predictive variables based on literature. We compared models based on Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) and Multilayer Perceptron (MLP), attending to their performance, especially to the Area under the ROC curve (AUC ROC). Additionally, we obtained information on the importance of variables for tree-based models using the GINI criterion. Second, we studied frailty measurement of Quality of Life (QoL) in candidates for PC intervention. For this second study, we narrowed the age of the population to elderly patients (≥ 65 years) as the target group. Then we created three different models: 1) for the adaptation of the one-year mortality model for elderly patients, 2) a regression model to estimate the number of days from admission to death to complement the results of the first model, and finally, 3) a predictive model for frailty status at one year. These models were shared with the academic community through a web application a that allows data input and shows the prediction from the three models and some graphs with the importance of the variables. Third, we proposed a version of the 1-year mortality model in the form of an online calculator. This version was designed to maximize access from professionals by minimizing data requirements and making the software responsive to the current technological platforms. So we eliminated the administrative variables specific to the dataset source and worked on a process to minimize the required input variables while maintaining high the model's AUC ROC. As a result, this model retained most of the predictive power and required only seven bed-side inputs. Finally, we evaluated the Clinical Decision Support System (CDSS) web tool on PC with an actual set of users. This evaluation comprised three domains: evaluation of participant's predictions against the ML baseline, the usability of the graphical interface, and user experience measurement. A first evaluation was performed, followed by a period of implementation of improvements and corrections to the pla / Blanes Selva, V. (2022). Clinical Decision Support Systems for Palliative Care Referral: Design and Evaluation of Frailty and Mortality Predictive Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/190993
36

Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models

Jorge Cano, Javier 30 December 2022 (has links)
Tesis por compendio / [ES] Durante la última década, los medios de comunicación han experimentado una revolución, alejándose de la televisión convencional hacia las plataformas de contenido bajo demanda. Además, esta revolución no ha cambiado solamente la manera en la que nos entretenemos, si no también la manera en la que aprendemos. En este sentido, las plataformas de contenido educativo bajo demanda también han proliferado para proporcionar recursos educativos de diversos tipos. Estas nuevas vías de distribución de contenido han llegado con nuevos requisitos para mejorar la accesibilidad, en particular las relacionadas con las dificultades de audición y las barreras lingüísticas. Aquí radica la oportunidad para el reconocimiento automático del habla (RAH) para cumplir estos requisitos, proporcionando subtitulado automático de alta calidad. Este subtitulado proporciona una base sólida para reducir esta brecha de accesibilidad, especialmente para contenido en directo o streaming. Estos sistemas de streaming deben trabajar bajo estrictas condiciones de tiempo real, proporcionando la subtitulación tan rápido como sea posible, trabajando con un contexto limitado. Sin embargo, esta limitación puede conllevar una degradación de la calidad cuando se compara con los sistemas para contenido en diferido u offline. Esta tesis propone un sistema de RAH en streaming con baja latencia, con una calidad similar a un sistema offline. Concretamente, este trabajo describe el camino seguido desde el sistema offline híbrido inicial hasta el eficiente sistema final de reconocimiento en streaming. El primer paso es la adaptación del sistema para efectuar una sola iteración de reconocimiento haciendo uso de modelos de lenguaje estado del arte basados en redes neuronales. En los sistemas basados en múltiples iteraciones estos modelos son relegados a una segunda (o posterior) iteración por su gran coste computacional. Tras adaptar el modelo de lenguaje, el modelo acústico basado en redes neuronales también tiene que adaptarse para trabajar con un contexto limitado. La integración y la adaptación de estos modelos es ampliamente descrita en esta tesis, evaluando el sistema RAH resultante, completamente adaptado para streaming, en conjuntos de datos académicos extensamente utilizados y desafiantes tareas basadas en contenidos audiovisuales reales. Como resultado, el sistema proporciona bajas tasas de error con un reducido tiempo de respuesta, comparables al sistema offline. / [CA] Durant l'última dècada, els mitjans de comunicació han experimentat una revolució, allunyant-se de la televisió convencional cap a les plataformes de contingut sota demanda. A més a més, aquesta revolució no ha canviat només la manera en la que ens entretenim, si no també la manera en la que aprenem. En aquest sentit, les plataformes de contingut educatiu sota demanda també han proliferat pera proporcionar recursos educatius de diversos tipus. Aquestes noves vies de distribució de contingut han arribat amb nous requisits per a millorar l'accessibilitat, en particular les relacionades amb les dificultats d'audició i les barreres lingüístiques. Aquí radica l'oportunitat per al reconeixement automàtic de la parla (RAH) per a complir aquests requisits, proporcionant subtitulat automàtic d'alta qualitat. Aquest subtitulat proporciona una base sòlida per a reduir aquesta bretxa d'accessibilitat, especialment per a contingut en directe o streaming. Aquests sistemes han de treballar sota estrictes condicions de temps real, proporcionant la subtitulació tan ràpid com sigui possible, treballant en un context limitat. Aquesta limitació, però, pot comportar una degradació de la qualitat quan es compara amb els sistemes per a contingut en diferit o offline. Aquesta tesi proposa un sistema de RAH en streaming amb baixa latència, amb una qualitat similar a un sistema offline. Concretament, aquest treball descriu el camí seguit des del sistema offline híbrid inicial fins l'eficient sistema final de reconeixement en streaming. El primer pas és l'adaptació del sistema per a efectuar una sola iteració de reconeixement fent servir els models de llenguatge de l'estat de l'art basat en xarxes neuronals. En els sistemes basats en múltiples iteracions aquests models son relegades a una segona (o posterior) iteració pel seu gran cost computacional. Un cop el model de llenguatge s'ha adaptat, el model acústic basat en xarxes neuronals també s'ha d'adaptar per a treballar amb un context limitat. La integració i l'adaptació d'aquests models és àmpliament descrita en aquesta tesi, avaluant el sistema RAH resultant, completament adaptat per streaming, en conjunts de dades acadèmiques àmpliament utilitzades i desafiants tasques basades en continguts audiovisuals reals. Com a resultat, el sistema proporciona baixes taxes d'error amb un reduït temps de resposta, comparables al sistema offline. / [EN] Over the last decade, the media have experienced a revolution, turning away from the conventional TV in favor of on-demand platforms. In addition, this media revolution not only changed the way entertainment is conceived but also how learning is conducted. Indeed, on-demand educational platforms have also proliferated and are now providing educational resources on diverse topics. These new ways to distribute content have come along with requirements to improve accessibility, particularly related to hearing difficulties and language barriers. Here is the opportunity for automatic speech recognition (ASR) to comply with these requirements by providing high-quality automatic captioning. Automatic captioning provides a sound basis for diminishing the accessibility gap, especially for live or streaming content. To this end, streaming ASR must work under strict real-time conditions, providing captions as fast as possible, and working with limited context. However, this limited context usually leads to a quality degradation as compared to the pre-recorded or offline content. This thesis is aimed at developing low-latency streaming ASR with a quality similar to offline ASR. More precisely, it describes the path followed from an initial hybrid offline system to an efficient streaming-adapted system. The first step is to perform a single recognition pass using a state-of-the-art neural network-based language model. In conventional multi-pass systems, this model is often deferred to the second or later pass due to its computational complexity. As with the language model, the neural-based acoustic model is also properly adapted to work with limited context. The adaptation and integration of these models is thoroughly described and assessed using fully-fledged streaming systems on well-known academic and challenging real-world benchmarks. In brief, it is shown that the proposed adaptation of the language and acoustic models allows the streaming-adapted system to reach the accuracy of the initial offline system with low latency. / Jorge Cano, J. (2022). Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/191001 / Compendio
37

Desarrollo de técnicas avanzadas de seguimiento de posturas para reconocimiento de comportamientos de C. elegans

Layana Castro, Pablo Emmanuel 26 October 2023 (has links)
Tesis por compendio / [ES] El objetivo principal de esta tesis es el desarrollo de técnicas avanzadas de seguimiento de posturas para reconocimiento de comportamientos del Caenorhabditis elegans o C. elegans. El C. elegans es una clase de nematodo utilizado como organismo modelo para el estudio y tratamientos de diferentes enfermedades patológicas así como neurodegenerativas. Su comportamiento ofrece información valiosa para la investigación de nuevos fármacos (o productos alimenticios y cosméticos saludables) en el estudio de lifespan y healthspan. Al día de hoy, muchos de los ensayos con C. elegans se realizan de forma manual, es decir, usando microscopios para seguirlos y observar sus comportamientos o en laboratorios más modernos utilizando programas específicos. Estos programas no son totalmente automáticos, requieren ajuste de parámetros. Y en otros casos, son programas para visualización de imágenes donde el operador debe etiquetar maualmente el comportamiento de cada C. elegans. Todo esto se traduce a muchas horas de trabajo, lo cual se puede automatizar utilizando técnicas de visión por computador. Además de poder estimar indicadores de movilidad con mayor precisión que un operador humano. El problema principal en el seguimiento de posturas de C. elegans en placas de Petri son las agregaciones entre nematodos o con ruido del entorno. La pérdida o cambios de identidad son muy comunes ya sea de forma manual o usando programas automáticos/semi-automáticos. Y este problema se vuelve más complicado aún en imágenes de baja resolución. Los programas que automatizan estas tareas de seguimiento de posturas trabajan con técnicas de visión por computador usando técnicas tradicionales de procesamiento de imágenes o técnicas de aprendizaje profundo. Ambas técnicas han demostrado excelentes resultados en la detección y seguimiento de posturas de C. elegan}. Por un lado, técnicas tradicionales utilizan algoritmos/optimizadores para obtener la mejor solución, mientras que las técnicas de aprendizaje profundo aprenden de forma automática características del conjunto de datos de entrenamiento. El problema con las técnicas de aprendizaje profundo es que necesitan un conjunto de datos dedicado y grande para entrenar los modelos. La metodología utilizada para el desarrollo de esta tesis (técnicas avanzadas de seguimiento de posturas) se encuadran dentro del área de investigación de la visión artificial. Y ha sido abordada explorando ambas ramas de visión por computador para resolver los problemas de seguimiento de posturas de C. elegans en imágenes de baja resolución. La primera parte, es decir, secciones 1 y 2, capítulo 2, utilizó técnicas tradicionales de procesamiento de imágenes para realizar la detección y seguimiento de posturas de los C. elegans. Para ello se propuso una nueva técnica de esqueletización y dos nuevos criterios de evaluación para obtener mejores resultados de seguimiento, detección, y segmentación de posturas. Las siguientes secciones del capítulo 2 utilizan técnicas de aprendizaje profundo, y simulación de imágenes sintéticas para entrenar modelos y mejorar los resultados de detección y predicción de posturas. Los resultados demostraron ser más rápidos y más precisos en comparación con técnicas tradicionales. También se demostró que los métodos de aprendizaje profundo son más robustos ante la presencia de ruido en la placa. / [CA] L'objectiu principal d'aquesta tesi és el desenvolupament de tècniques avançades de seguiment de postures per a reconeixement de comportaments del Caenorhabditis elegans o C. elegans. El C. elegans és una classe de nematodo utilitzat com a organisme model per a l'estudi i tractaments de diferents malalties patològiques així com neurodegeneratives. El seu comportament ofereix informació valuosa per a la investigació de nous fàrmacs (o productes alimentosos i cosmètics saludables) en l'estudi de lifespan i healthspan. Al dia de hui, molts dels assajos amb C. elegans es realitzen de manera manual, és a dir, usant microscopis per a seguir-los i observar els seus comportaments o en laboratoris més moderns utilitzant programes específics. Aquests programes no són totalment automàtics, requereixen ajust de paràmetres. I en altres casos, són programes per a visualització d'imatges on l'operador ha d'etiquetar maualment el comportament de cada C. elegans. Tot això es tradueix a moltes hores de treball, la qual cosa es pot automatitzar utilitzant tècniques de visió per computador. A més de poder estimar indicadors de mobilitat amb major precisió que un operador humà. El problema principal en el seguiment de postures de C. elegans en plaques de Petri són les agregacions entre nematodes o amb soroll de l'entorn. La pèrdua o canvis d'identitat són molt comuns ja siga de manera manual o usant programes automàtics/semi-automàtics. I aquest problema es torna més complicat encara en imatges de baixa resolució. Els programes que automatitzen aquestes tasques de seguiment de postures treballen amb tècniques de visió per computador usant tècniques tradicionals de processament d'imatges o tècniques d'aprenentatge profund. Totes dues tècniques han demostrat excel·lents resultats en la detecció i seguiment de postures de C. elegans. D'una banda, tècniques tradicionals utilitzen algorismes/optimizadors per a obtindre la millor solució, mentre que les tècniques d'aprenentatge profund aprenen de manera automàtica característiques del conjunt de dades d'entrenament. El problema amb les tècniques d'aprenentatge profund és que necessiten un conjunt de dades dedicat i gran per a entrenar els models. La metodologia utilitzada per al desenvolupament d'aquesta tesi (tècniques avançades de seguiment de postures) s'enquadren dins de l'àrea d'investigació de la visió artificial. I ha sigut abordada explorant totes dues branques de visió per computador per a resoldre els problemes de seguiment de postures de C. elegans en imatges de baixa resolució. La primera part, és a dir, secció 1 i 2, capítol 2, va utilitzar tècniques tradicionals de processament d'imatges per a realitzar la detecció i seguiment de postures dels C. elegans. Per a això es va proposar una nova tècnica de esqueletizació i dos nous criteris d'avaluació per a obtindre millors resultats de seguiment, detecció i segmentació de postures. Les següents seccions del capítol 2 utilitzen tècniques d'aprenentatge profund i simulació d'imatges sintètiques per a entrenar models i millorar els resultats de detecció i predicció de postures. Els resultats van demostrar ser més ràpids i més precisos en comparació amb tècniques tradicionals. També es va demostrar que els mètodes d'aprenentatge profund són més robustos davant la presència de soroll en la placa. / [EN] The main objective of this thesis is the development of advanced posture-tracking techniques for behavioural recognition of Caenorhabditis elegans or C. elegans. C. elegans is a kind of nematode used as a model organism for the study and treatment of different pathological and neurodegenerative diseases. Their behaviour provides valuable information for the research of new drugs (or healthy food and cosmetic products) in the study of lifespan and healthspan. Today, many of the tests on C. elegans are performed manually, i.e. using microscopes to track them and observe their behaviour, or in more modern laboratories using specific software. These programmes are not fully automatic, requiring parameter adjustment. And in other cases, they are programmes for image visualisation where the operator must label the behaviour of each C. elegans manually. All this translates into many hours of work, which can be automated using computer vision techniques. In addition to being able to estimate mobility indicators more accurately than a human operator. The main problem in tracking C. elegans postures in Petri dishes is aggregations between nematodes or with noise from the environment. Loss or changes of identity are very common either manually or using automatic/semi-automatic programs. And this problem becomes even more complicated in low-resolution images. Programs that automate these pose-tracking tasks work with computer vision techniques using either traditional image processing techniques or deep learning techniques. Both techniques have shown excellent results in the detection and tracking of C. elegans postures. On the one hand, traditional techniques use algorithms/optimizers to obtain the best solution, while deep learning techniques automatically learn features from the training dataset. The problem with deep learning techniques is that they need a dedicated and large dataset to train the models. The methodology used for the development of this thesis (advanced posture-tracking techniques) falls within the research area of computer vision. It has been approached by exploring both branches of computer vision to solve the posture-tracking problems of C. elegans in low-resolution images. The first part, i.e. sections 1 and 2, chapter 2, used traditional image processing techniques to perform posture detection and tracking of C. elegans. For this purpose, a new skeletonization technique and two new evaluation criteria were proposed to obtain better posture-tracking, detection, and segmentation results. The next sections of chapter 2 use deep learning techniques, and synthetic image simulation to train models and improve posture detection and prediction results. The results proved to be faster and more accurate compared to traditional techniques. Deep learning methods were also shown to be more robust in the presence of plate noise. / This research was supported by Ministerio de Ciencia, Innovación y Universidades [RTI2018-094312-B-I00 (European FEDER funds); FPI PRE2019-088214], and also was supported by Universitat Politècnica de València [“Funding for open access charge: Uni- versitat Politècnica de València”]. The author received a scholarship from the grant: Ayudas para contratos predoctorales para la formación de doctores 2019. / Layana Castro, PE. (2023). Desarrollo de técnicas avanzadas de seguimiento de posturas para reconocimiento de comportamientos de C. elegans [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/198879 / Compendio
38

Streaming Neural Speech Translation

Iranzo Sánchez, Javier 03 November 2023 (has links)
Tesis por compendio / [ES] Gracias a avances significativos en aprendizaje profundo, la traducción del habla (ST) se ha convertido en un campo consolidado, lo que permite la utilización de la tecnología ST en soluciones para entornos de producción. Como consecuencia del aumento constante del número de horas de contenido audiovisual generado cada año, así como una mayor sensibilización sobre la importancia de la accesibilidad, la ST está preparada para convertirse en un elemento clave para la producción de contenidos audiovisuales, tanto de ocio como educativos. A pesar de que se ha progresado significativamente en ST, la mayor parte de la investigación se ha centrado en el escenario en diferido (offline), en el cual todo el audio de entrada está disponible. En cambio, la ST en directo (online) es una temática en la que falta mucho por investigar. En concreto, existe un caso de traducción en directo, la traducción continua (streaming), que traduce un flujo continuo de palabras en tiempo real y bajo unas estrictas condiciones de latencia. Este es un problema mucho más realista, que es necesario resolver para que sea posible aplicar la ST a una variedad de tareas de la vida real. Esta tesis está centrada en investigar y desarrollar las técnicas claves que son necesarias para una solución de ST continua. En primer lugar, de cara a permitir el desarrollo y la evaluación de sistemas de ST, se ha recopilado un nuevo conjunto de datos para ST multilingüe, que expande significativamente el número de horas disponibles para ST. A continuación se ha desarrollado un segmentador preparado para la condición continua, que se utiliza para segmentar las transcripciones intermedias de nuestra solución por etapas, que consiste en un sistema de reconocimiento automático del habla (ASR), seguido de un sistema de traducción automática (MT) encargado de traducir las transcripciones intermedias al idioma de destino elegido. Diversas investigaciones han concluido que la calidad de la segmentación es un factor muy influyente es la calidad del sistema MT, por lo que el desarrollo de un segmentador efectivo es un paso fundamental en el proceso de ST continua. Este segmentador se ha integrado en la solución por etapas, y estas se optimizan de manera conjunta para alcanzar el equilibrio óptimo entre calidad y latencia. La ST continua tiene unas restricciones de latencia mucho más estrictas que la ST en directo, ya que el nivel deseado de latencia tiene que mantenerse durante todo el proceso de traducción. Por tanto, es crucial ser capaz de medir de manera precisa esta latencia, pero las métricas estándar de ST en directo no se adaptan bien a esta tarea. Como consecuencia de esto, se proponen nuevos métodos para la evaluación de ST continua, que garantizan unos resultados precisos a la vez que interpretables. Por último, se presenta un nuevo método para mejorar la calidad de la traducción continua mediante el uso de información contextual. Mientras que los sistemas tradicionales de ST en directo traducen audios de manera aislada, existe abundante información contextual que está disponible para mejorar los sistemas de ST continua. Nuestra propuesta introduce el concepto de historia continua, que consiste en el almacenamiento de la información más reciente del proceso de traducción, que se utiliza más adelante por el modelo para mejorar la calidad de la traducción. / [CA] Gràcies a avanços significatius en aprenentatge profund, la traducció de la parla (ST) s'ha convertit en un camp consolidat, la qual cosa permet la utilització de la tecnologia ST en solucions per a entorns de producció. A conseqüència de l'augment constant del nombre d'hores de contingut audiovisual generat cada any, així com una major sensibilització sobre la importància de l'accessibilitat, la ST està preparada per a convertir-se en un element clau per a la producció de continguts audiovisuals, tant d'oci com educatius. A pesar que s'ha progressat significativament en ST, la major part de la recerca s'ha centrat en l'escenari en diferit, en el qual tot l'àudio d'entrada està disponible. En canvi, la ST en directe és una temàtica en la qual falta molt per investigar. En concret, existeix un cas de traducció en directe, la traducció contínua, que tradueix un flux continu de paraules en temps real i sota unes estrictes condicions de latència. Aquest és un problema molt més realista, que és necessari resoldre perquè sigui possible aplicar la ST a una varietat de tasques de la vida real. Aquesta tesi està centrada en investigar i desenvolupar les tècniques claus que són necessàries per a una solució de ST contínua. En primer lloc, de cara a permetre el desenvolupament i l'avaluació de sistemes de ST, s'ha recopilat un nou conjunt de dades per a ST multilingüe, que expandeix significativament la quantitat de dades disponibles per a ST. A continuació s'ha desenvolupat un segmentador preparat per a la condició contínua, que s'utilitza per a segmentar les transcripcions intermèdies de la nostra solució per etapes, que consisteix en un sistema de reconeixement automàtic de la parla (ASR), seguit d'un sistema de traducció automàtica (MT) encarregat de traduir les transcripcions intermèdies a l'idioma de destí triat. Diveros treballs de recerca han conclòs que la qualitat de la segmentació és un factor molt important en la qualitat del sistema MT, per la qual cosa el desenvolupament d'un segmentador efectiu és un pas fonamental en el procés de ST contínua. Aquest segmentador s'ha integrat en la solució per etapes, i aquestes s'optimitzen de manera conjunta per a aconseguir l'equilibri òptim entre qualitat i latència. La ST contínua té unes restriccions de latència molt més estrictes que la ST en directe, ja que el nivell desitjat de latència ha de mantindre's durant tot el procés de traducció. Per tant, és crucial ser capaç de mesurar de manera precisa aquesta latència, però les mètriques estàndard de ST en directe no s'adapten bé a aquesta tasca. A conseqüència d'això, es proposen nous mètodes per a l'avaluació de ST contínua, que garanteixen uns resultats precisos alhora que interpretables. Finalment, es presenta un nou mètode per a millorar la qualitat de la traducció contínua mitjançant l'ús d'informació contextual. Mentre que els sistemes tradicionals de ST en directe tradueixen àudios de manera aïllada, existeix abundant informació contextual que està disponible per a millorar els sistemes de ST contínua. La nostra proposta introdueix el concepte d'història contínua, que consisteix en l'emmagatzematge de la informació més recent del procés de traducció, que s'utilitza més endavant pel model per a millorar la qualitat de la traducció. / [EN] Thanks to significant advances in Deep Learning, Speech Translation (ST) has become a mature field that enables the use of ST technology in production-ready solutions. Due to the ever-increasing hours of audio-visual content produced each year, as well as higher awareness of the importance of media accessibility, ST is poised to become a key element for the production of entertainment and educational media. Although significant advances have been made in ST, most research has focused on the offline scenario, where the entire input audio is available. In contrast, online ST remains an under-researched topic. A special case of online ST, streaming ST, translates an unbounded input stream in a real-time fashion under strict latency constraints. This is a much more realistic problem that needs to be solved in order to apply ST to a variety of real-life tasks. The focus of this thesis is on researching and developing key techniques necessary for a successful streaming ST solution. First, in order to enable ST system development and evaluation, a new multilingual ST dataset is collected, which significantly expands the amount of hours available for ST. Then, a streaming-ready segmenter component is developed to segment the intermediate transcriptions of our proposed cascade solution, which consists in an Automatic Speech Recognition (ASR) system that transcribes the audio, followed by a Machine Translation (MT) system that translates the intermediate transcriptions into the desired language. Research has shown that segmentation quality plays a significant role in downstream MT performance, so the development of an effective streaming segmenter is a critical step in the streaming ST process. This segmenter is then integrated and the components of the cascade are jointly optimized to achieve an appropriate quality-latency trade-off. Streaming ST has much more strict latency constraints than standard online ST, as the desired latency level must be maintained during the whole translation process. Therefore, it is crucial to be able to accurately measure this latency, but the standard online ST metrics are not well suited for this task. As a consequence, new evaluation methods are proposed for streaming ST evaluation, which ensure realistic, yet interpretable results. Lastly, a novel method is presented for improving translation quality through the use of contextual information. Whereas standard online ST systems translate audios in isolation, there is a wealth of contextual information available for improving streaming ST systems. Our approach introduces the concept of streaming history by storing the most recent information of the translation process, which is then used by the model in order to improve translation quality. / The research leading to these results has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreements no. 761758 (X5Gon) and 952215 (TAILOR), and Erasmus+ Educa- tion programme under grant agreement no. 20-226-093604-SCH (EXPERT); the Government of Spain’s grant RTI2018-094879-B-I00 (Multisub) funded by MCIN/AEI/10.13039/501100011033 & “ERDF A way of making Europe”, and FPU scholarships FPU18/04135; and the Generalitat Valenciana’s research project Classroom Activity Recognition (ref. PROMETEO/2019/111) and predoctoral research scholarship ACIF/2017/055. / Iranzo Sánchez, J. (2023). Streaming Neural Speech Translation [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/199170 / Compendio
39

Aprendizaje profundo y biomarcadores de imagen en el estudio de enfermedades metabólicas y hepáticas a partir de resonancia magnética y tomografía computarizada

Jimenez Pastor, Ana Maria 05 February 2024 (has links)
[ES] El síndrome metabólico se define como un conjunto de trastornos (e.g., niveles elevados de presión arterial, niveles elevados de glucosa en sangre, exceso de grasa abdominal o niveles elevados de colesterol o triglicéridos) que afectan a un individuo al mismo tiempo. La presencia de uno de estos factores no implica un riesgo elevado para la salud, sin embargo, presentar varios de ellos aumenta la probabilidad de sufrir enfermedades secundarias como la enfermedad cardiovascular o la diabetes tipo II. Las enfermedades difusas hepáticas son todas aquellas enfermedades que afectan a las células funcionales del hígado, los hepatocitos, alterando, de este modo, la función hepática. En estos procesos, los hepatocitos se ven sustituidos por adipocitos y tejido fibroso. La enfermedad de hígado graso no alcohólico es una afección reversible originada por la acumulación de triglicéridos en los hepatocitos. El alcoholismo, la obesidad, y la diabetes son las causas más comunes de esta enfermedad. Este estado del hígado es reversible si se cambia la dieta del paciente, sin embargo, si este no se cuida, la enfermedad puede ir avanzando hacia estadios más severos, desencadenando fibrosis, cirrosis e incluso carcinoma hepatocelular (CHC). La temprana detección de todos estos procesos es de gran importancia en la mejora del pronóstico de los pacientes. Así, las técnicas de imagen en combinación con modelos computacionales permiten caracterizar el tejido mediante la extracción de parámetros objetivos, conocidos como biomarcadores de imagen, relacionados con estos procesos fisiológicos y patológicos, permitiendo una estadificación más precisa de las enfermedades. Además, gracias a las técnicas de inteligencia artificial, se pueden desarrollar algoritmos de segmentación automática que permitan realizar dicha caracterización de manera completamente automática y acelerar, de este modo, el flujo radiológico. Por todo esto, en la presente tesis doctoral, se presenta una metodología para el desarrollo de modelos de segmentación y cuantificación automática, siendo aplicada a tres casos de uso. Para el estudio del síndrome metabólico se propone un método de segmentación automática de la grasa visceral y subcutánea en imágenes de tomografía computarizada (TC), para el estudio de la enfermedad hepática difusa se propone un método de segmentación hepática y cuantificación de la grasa y hierro hepáticos en imágenes de resonancia magnética (RM), y, finalmente, para el estudio del CHC, se propone un método de segmentación hepática y cuantificación de los descriptores de la curva de perfusión en imágenes de RM. Todo esto se ha integrado en una plataforma que permite su integración en la práctica clínica. Así, se han adaptado los algoritmos desarrollados para ser ejecutados en contenedores Docker de forma que, dada una imagen de entrada, generen los parámetros cuantitativos de salida junto con un informe que resuma dichos resultados; se han implementado herramientas para que los usuarios puedan interactuar con las segmentaciones generadas por los algoritmos de segmentación automática desarrollados; finalmente, éstos se han implementado de forma que generen dichas segmentaciones en formatos estándar como DICOM RT Struct o DICOM Seg, para garantizar la interoperabilidad con el resto de sistemas sanitarios. / [CA] La síndrome metabòlica es defineix com un conjunt de trastorns (e.g., nivells elevats de pressió arterial, nivells elevats de glucosa en sang, excés de greix abdominal o nivells elevats de colesterol o triglicèrids) que afecten un individu al mateix temps. La presència d'un d'aquests factors no implica un risc elevat per a la salut, no obstant això, presentar diversos d'ells augmenta la probabilitat de patir malalties secundàries com la malaltia cardiovascular o la diabetis tipus II. Les malalties difuses hepàtiques són totes aquelles malalties que afecten les cèl·lules funcionals del fetge, els hepatòcits, alterant, d'aquesta manera, la funció hepàtica. En aquests processos, els hepatòcits es veuen substituïts per adipòcits i teixit fibrós. La malaltia de fetge gras no alcohòlic és una afecció reversible originada per l'acumulació de triglicèrids en els hepatòcits. L'alcoholisme, l'obesitat, i la diabetis són les causes més comunes d'aquesta malaltia. Aquest estat del fetge és reversible si es canvia la dieta del pacient, no obstant això, si aquest no es cuida, la malaltia pot anar avançant cap a estadis més severs, desencadenant fibrosis, cirrosis i fins i tot carcinoma hepatocel·lular (CHC). La primerenca detecció de tots aquests processos és de gran importància en la millora del pronòstic dels pacients. Així, les tècniques d'imatge en combinació amb models computacionals permeten caracteritzar el teixit mitjançant l'extracció paràmetres objectius, coneguts com biomarcadores d'imatge, relacionats amb aquests processos fisiològics i patològics, permetent una estratificació més precisa de les malalties. A més, gràcies a les tècniques d'intel·ligència artificial, es poden desenvolupar algorismes de segmentació automàtica que permeten realitzar aquesta caracterització de manera completament automàtica i accelerar, d'aquesta manera, el flux radiològic. Per tot això, en la present tesi doctoral, es presenta una metodologia per al desenvolupament de models de segmentació i quantificació automàtica, sent aplicada a tres casos d'ús. Per a l'estudi de la síndrome metabòlica es proposa un mètode de segmentació automàtica del greix visceral i subcutani en imatges de tomografia computada (TC), per a l'estudi de la malaltia hepàtica difusa es proposa un mètode segmentació hepàtica i quantificació del greix i ferro hepàtics en imatges de ressonància magnètica (RM), i, finalment, per a l'estudi del CHC, es proposa un mètode de segmentació hepàtica i quantificació dels descriptors de la corba de perfusió en imatges de RM. Tot això s'ha integrat en una plataforma que permet la seua integració en la pràctica clínica. Així, s'han adaptat els algorismes desenvolupats per a ser executats en contenidors Docker de manera que, donada una imatge d'entrada, generen els paràmetres quantitatius d'eixida juntament amb un informe que resumisca aquests resultats; s'han implementat eines perquè els usuaris puguen interactuar amb les segmentacions generades pels algorismes de segmentació automàtica desenvolupats; finalment, aquests s'han implementat de manera que generen aquestes segmentacions en formats estàndard com DICOM RT Struct o DICOM Seg, per a garantir la interoperabilitat amb la resta de sistemes sanitaris. / [EN] Metabolic syndrome is defined as a group of disorders (e.g., high blood pressure, high blood glucose levels, excess abdominal fat, or high cholesterol or triglyceride levels) that affect an individual at the same time. The presence of one of these factors does not imply an elevated health risk; however, having several of them increases the probability of secondary diseases such as cardiovascular disease or type II diabetes. Diffuse liver diseases are all those diseases that affect the functional cells of the liver, the hepatocytes, thus altering liver function. In these processes, the hepatocytes are replaced by adipocytes and fibrous tissue. Non-alcoholic fatty liver disease is a reversible condition caused by the accumulation of triglycerides in hepatocytes. Alcoholism, obesity, and diabetes are the most common causes of this disease. This liver condition is reversible if the patient's diet is changed; however, if the patient is not cared for, the disease can progress to more severe stages, triggering fibrosis, cirrhosis and even hepatocellular carcinoma (HCC). Early detection of all these processes is of great importance in improving patient prognosis. Thus, imaging techniques in combination with computational models allow tissue characterization by extracting objective parameters, known as imaging biomarkers, related to these physiological and pathological processes, allowing a more accurate statification of diseases. Moreover, thanks to artificial intelligence techniques, it is possible to develop automatic segmentation algorithms that allow to perform such characterization in a fully automatic way and thus accelerate the radiological workflow. Therefore, in this PhD, a methodology for the development of automatic segmentation and quantification models is presented and applied to three use cases. For the study of metabolic syndrome, a method of automatic segmentation of visceral and subcutaneous fat in computed tomography (CT) images is proposed; for the study of diffuse liver disease, a method of liver segmentation and quantification of hepatic fat and iron in magnetic resonance imaging (MRI) is proposed; and, finally, for the study of HCC, a method of liver segmentation and quantification of perfusion curve descriptors in MRI is proposed. All this has been integrated into a platform that allows its integration into clinical practice. Thus, the developed algorithms have been adapted to be executed in Docker containers so that, given an input image, they generate the quantitative output parameters together with a report summarizing these results; tools have been implemented so that users can interact with the segmentations generated by the automatic segmentation algorithms developed; finally, these have been implemented so that they generate these segmentations in standard formats such as DICOM RT Struct or DICOM Seg, to ensure interoperability with other health systems. / Jimenez Pastor, AM. (2023). Aprendizaje profundo y biomarcadores de imagen en el estudio de enfermedades metabólicas y hepáticas a partir de resonancia magnética y tomografía computarizada [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/202602
40

Deep Continual Multimodal Multitask Models for Out-of-Hospital Emergency Medical Call Incidents Triage Support in the Presence of Dataset Shifts

Ferri Borredà, Pablo 28 March 2024 (has links)
[ES] El triaje de los incidentes de urgencias y emergencias extrahospitalarias representa un reto difícil, debido a las limitaciones temporales y a la incertidumbre. Además, errores en este proceso pueden tener graves consecuencias para los pacientes. Por lo tanto, cualquier herramienta o estrategia novedosa que mejore estos procesos ofrece un valor sustancial en términos de atención al paciente y gestión global de los incidentes. La hipótesis en la que se basa esta tesis es que el Aprendizaje Automático, concretamente el Aprendizaje Profundo, puede mejorar estos procesos proporcionando estimaciones de la gravedad de los incidentes, mediante el análisis de millones de datos derivados de llamadas de emergencia de la Comunitat Valenciana (España) que abarcan desde 2009 hasta 2019. Por tanto, esta tesis profundiza en el diseño y desarrollo de modelos basados en Aprendizaje Profundo Multitarea que aprovechan los datos multimodales asociados a eventos de urgencias y emergencias extrahospitalarias. Nuestro objetivo principal era predecir si el incidente suponía una situación de riesgo vital, la demora admisible de la respuesta y si era competencia del sistema de emergencias o de atención primaria. Utilizando datos disponibles entre 2009 y 2012, se observaron mejoras sustanciales en las métricas macro F1, con ganancias del 12.5% para la clasificación de riesgo vital, del 17.5% para la demora en la respuesta y del 5.1% para la clasificación por jurisdicción, en comparación con el protocolo interno de triaje de la Comunidad Valenciana. Sin embargo, los sistemas, los protocolos de triaje y las prácticas operativas evolucionan de forma natural con el tiempo. Los modelos que mostraron un rendimiento excelente con el conjunto de datos inicial de 2009 a 2012 no demostraron la misma eficacia cuando se evaluaron con datos posteriores que abarcaban de 2014 a 2019. Estos últimos habían sufrido modificaciones en comparación con los anteriores, que dieron lugar a variaciones en las distribuciones de probabilidad, caracterizadas e investigadas meticulosamente en esta tesis. Continuando con nuestra investigación, nos centramos en la incorporación de técnicas de Aprendizaje Continuo Profundo en nuestros desarrollos. Gracias a ello, pudimos mitigar sustancialmente los efectos adversos consecuencia de los cambios distribucionales sobre el rendimiento. Los resultados indican que, si bien las fluctuaciones de rendimiento no se eliminan por completo, pueden mantenerse dentro de un rango manejable. En particular, con respecto a la métrica F1, cuando las variaciones distribucionales son ligeras o moderadas, el comportamiento se mantiene estable, sin variar más de un 2.5%. Además, nuestra tesis demuestra la viabilidad de construir herramientas auxiliares que permitan a los operadores interactuar con estos complejos modelos. En consecuencia, sin interrumpir el flujo de trabajo de los profesionales, se hace posible proporcionar retroalimentación mediante predicciones de probabilidad para cada clase de etiqueta de gravedad y tomar las medidas pertinentes. Por último, los resultados de esta tesis tienen implicaciones directas en la gestión de las urgencias y emergencias extrahospitalarias en la Comunidad Valenciana, al integrarse el modelo final resultante en los centros de atención de llamadas. Este modelo utilizará los datos proporcionados por los operadores telefónicos para calcular automáticamente las predicciones de gravedad, que luego se compararán con las generadas por el protocolo de triaje interno. Cualquier disparidad entre estas predicciones desencadenará la derivación del incidente a un coordinador médico, que supervisará su tratamiento. Por lo tanto, nuestra tesis, además de realizar importantes contribuciones al campo de la Investigación en Aprendizaje Automático Biomédico, también conlleva implicaciones sustanciales para mejorar la gestión de las urgencias y emergencias extrahospitalarias en el contexto de la Comunidad Valenciana. / [CA] El triatge dels incidents d'urgències i emergències extrahospitalàries representa un repte difícil, a causa de les limitacions temporals i de la incertesa. A més, els errors en aquest procés poden tindre greus conseqüències per als pacients. Per tant, qualsevol eina o estratègia innovadora que millore aquests processos ofereix un valor substancial en termes d'atenció al pacient i gestió global dels incidents. La hipòtesi en què es basa aquesta tesi és que l'Aprenentatge Automàtic, concretament l'Aprenentatge Profund, pot millorar significativament aquests processos proporcionant estimacions de la gravetat dels incidents, mitjançant l'anàlisi de milions de dades derivades de trucades d'emergència de la Comunitat Valenciana (Espanya) que abasten des de 2009 fins a 2019. Per tant, aquesta tesi aprofundeix en el disseny i desenvolupament de models basats en Aprenentatge Profund Multitasca que aprofiten dades multimodals d'incidents mèdics d'urgències i emergències extrahospitalàries. El nostre objectiu principal era predir si l'incident suposava una situació de risc vital, la demora admissible de la resposta i si era competència del sistema d'emergències o d'atenció primària. Utilitzant dades disponibles entre 2009 i 2012, es van observar millores substancials en les mètriques macro F1, amb guanys del 12.5% per a la classificació de risc vital, del 17.5% per a la demora en la resposta i del 5.1% per a la classificació per jurisdicció, en comparació amb el protocol intern de triatge de la Comunitat Valenciana. Tanmateix, els protocols de triatge i les pràctiques operatives evolucionen de forma natural amb el temps. Els models que van mostrar un rendiment excel·lent amb el conjunt de dades inicial de 2009 a 2012 no van demostrar la mateixa eficàcia quan es van avaluar amb dades posteriors que abastaven de 2014 a 2019. Aquestes últimes havien sofert modificacions en comparació amb les anteriors, que van donar lloc a variacions en les distribucions de probabilitat, caracteritzades i investigades minuciosament en aquesta tesi. Continuant amb la nostra investigació, ens vam centrar en la incorporació de tècniques d'Aprenentatge Continu als nostres desenvolupaments. Gràcies a això, vam poder mitigar substancialment els efectes adversos sobre el rendiment conseqüència dels canvis distribucionals. Els resultats indiquen que, si bé les fluctuacions de rendiment no s'eliminen completament al llarg del temps, poden mantenir-se dins d'un rang manejable. En particular, respecte a la mètrica F1, quan les variacions distribucionals són lleugeres o moderades, el comportament es manté estable, sense variar més d'un 2.5%. A més, la nostra tesi demostra la viabilitat de construir eines auxiliars que permeten als operadors interactuar amb aquests models complexos. En conseqüència, sense interrompre el flux de treball dels professionals, es fa possible proporcionar retroalimentació mitjançant prediccions de probabilitat per a cada classe d'etiqueta de gravetat i prendre les mesures pertinents. Finalment, els resultats d'aquesta tesi tenen implicacions directes en la gestió de les urgències i emergències extrahospitalàries a la Comunitat Valenciana, al integrar-se el model final resultant als centres d'atenció de telefonades. Aquest model utilitzarà les dades proporcionades pels operadors telefònics per calcular automàticament les prediccions de gravetat, que després es compararan amb les generades pel protocol de triatge intern. Qualsevol disparitat entre aquestes prediccions desencadenarà la derivació de l'incident a un coordinador mèdic, que supervisarà el seu tractament. Per tant, és evident que la nostra tesi, a més de realitzar importants contribucions al camp de la Investigació en Aprenentatge Automàtic Biomèdic, també comporta implicacions substancials per a millorar la gestió de les urgències i emergències extrahospitalàries en el context de la Comunitat Valenciana. / [EN] Triage for out-of-hospital emergency incidents represents a tough challenge, primarily due to time constraints and uncertainty. Furthermore, errors in this process can have severe consequences for patients. Therefore, any novel tool or strategy that enhances these processes can offer substantial value in terms of patient care and overall management of out-of-hospital emergency medical incidents. The hypothesis upon which this thesis is based is that Machine Learning, specifically Deep Learning, can improve these processes by providing estimations of the severity of incidents, by analyzing millions of data derived from emergency calls from the Valencian Region (Spain) spanning from 2009 to 2019. Hence, this thesis delves into designing and developing Deep Multitask Learning models that leverage multimodal out-of-hospital emergency medical data. Our primary objective was to predict whether the incident posed a life-threatening situation, the admissible response delay, and whether it fell under the jurisdiction of the emergency system or primary care. Using data available from 2009 to 2012, the results obtained were promising. We observed substantial improvements in macro F1-scores, with gains of 12.5% for life-threatening classification, 17.5% for response delay, and 5.1% for jurisdiction classification, compared to the in-house triage protocol of the Valencian Region. However, systems, dispatch protocols, and operational practices naturally evolve over time. Models that exhibited excellent performance with the initial dataset from 2009 to 2012 did not demonstrate the same efficacy when evaluated on data spanning from 2014 to 2019. This later dataset had undergone modifications compared to the earlier one, which led to dataset shifts, which we have meticulously characterized and investigated in this thesis. Continuing our research, we incorporated Deep Continual Learning techniques in our developments. As a result, we could substantially mitigate the adverse performance effects consequence of dataset shifts. The results indicate that, while performance fluctuations are not completely eliminated, they can be kept within a manageable range. In particular, with respect to the F1-score, when distributional variations fall within the light to moderate range, the performance remains stable, not varying by more than 2.5%. Furthermore, our thesis demonstrates the feasibility of building auxiliary tools that enable dispatchers to interact with these complex deep models. Consequently, without disrupting professionals' workflow, it becomes possible to provide feedback through probability predictions for each severity label class and take appropriate actions based on these predictions. Finally, the outcomes of this thesis hold direct implications for the management of out-of-hospital emergency medical incidents in the Valencian Region. The final model resulting from our research is slated for integration into the emergency medical dispatch centers of the Valencian Region. This model will utilize data provided by dispatchers to automatically compute severity predictions, which will then be compared with those generated by the in-house triage protocol. Any disparities between these predictions will trigger the referral of the incident to a physician coordinator, who will oversee its handling. Therefore, it is evident that our thesis, in addition to making significant contributions to the field of Biomedical Machine Learning Research, also carries substantial implications for enhancing the management of out-of-hospital emergencies in the context of the Valencian Region. / Ferri Borredà, P. (2024). Deep Continual Multimodal Multitask Models for Out-of-Hospital Emergency Medical Call Incidents Triage Support in the Presence of Dataset Shifts [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203192

Page generated in 0.0572 seconds