• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 89
  • 41
  • Tagged with
  • 130
  • 130
  • 65
  • 62
  • 53
  • 52
  • 52
  • 52
  • 52
  • 52
  • 50
  • 45
  • 37
  • 29
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
121

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Pérez González de Martos, Alejandro Manuel 12 July 2022 (has links)
[ES] En los últimos años, el aprendizaje profundo ha cambiado significativamente el panorama en diversas áreas del campo de la inteligencia artificial, entre las que se incluyen la visión por computador, el procesamiento del lenguaje natural, robótica o teoría de juegos. En particular, el sorprendente éxito del aprendizaje profundo en múltiples aplicaciones del campo del procesamiento del lenguaje natural tales como el reconocimiento automático del habla (ASR), la traducción automática (MT) o la síntesis de voz (TTS), ha supuesto una mejora drástica en la precisión de estos sistemas, extendiendo así su implantación a un mayor rango de aplicaciones en la vida real. En este momento, es evidente que las tecnologías de reconocimiento automático del habla y traducción automática pueden ser empleadas para producir, de forma efectiva, subtítulos multilingües de alta calidad de contenidos audiovisuales. Esto es particularmente cierto en el contexto de los vídeos educativos, donde las condiciones acústicas son normalmente favorables para los sistemas de ASR y el discurso está gramaticalmente bien formado. Sin embargo, en el caso de TTS, aunque los sistemas basados en redes neuronales han demostrado ser capaces de sintetizar voz de un realismo y calidad sin precedentes, todavía debe comprobarse si esta tecnología está lo suficientemente madura como para mejorar la accesibilidad y la participación en el aprendizaje en línea. Además, existen diversas tareas en el campo de la síntesis de voz que todavía suponen un reto, como la clonación de voz inter-lingüe, la síntesis incremental o la adaptación zero-shot a nuevos locutores. Esta tesis aborda la mejora de las prestaciones de los sistemas actuales de síntesis de voz basados en redes neuronales, así como la extensión de su aplicación en diversos escenarios, en el contexto de mejorar la accesibilidad en el aprendizaje en línea. En este sentido, este trabajo presta especial atención a la adaptación a nuevos locutores y a la clonación de voz inter-lingüe, ya que los textos a sintetizar se corresponden, en este caso, a traducciones de intervenciones originalmente en otro idioma. / [CA] Durant aquests darrers anys, l'aprenentatge profund ha canviat significativament el panorama en diverses àrees del camp de la intel·ligència artificial, entre les quals s'inclouen la visió per computador, el processament del llenguatge natural, robòtica o la teoria de jocs. En particular, el sorprenent èxit de l'aprenentatge profund en múltiples aplicacions del camp del processament del llenguatge natural, com ara el reconeixement automàtic de la parla (ASR), la traducció automàtica (MT) o la síntesi de veu (TTS), ha suposat una millora dràstica en la precisió i qualitat d'aquests sistemes, estenent així la seva implantació a un ventall més ampli a la vida real. En aquest moment, és evident que les tecnologies de reconeixement automàtic de la parla i traducció automàtica poden ser emprades per a produir, de forma efectiva, subtítols multilingües d'alta qualitat de continguts audiovisuals. Això és particularment cert en el context dels vídeos educatius, on les condicions acústiques són normalment favorables per als sistemes d'ASR i el discurs està gramaticalment ben format. No obstant això, al cas de TTS, encara que els sistemes basats en xarxes neuronals han demostrat ser capaços de sintetitzar veu d'un realisme i qualitat sense precedents, encara s'ha de comprovar si aquesta tecnologia és ja prou madura com per millorar l'accessibilitat i la participació en l'aprenentatge en línia. A més, hi ha diverses tasques al camp de la síntesi de veu que encara suposen un repte, com ara la clonació de veu inter-lingüe, la síntesi incremental o l'adaptació zero-shot a nous locutors. Aquesta tesi aborda la millora de les prestacions dels sistemes actuals de síntesi de veu basats en xarxes neuronals, així com l'extensió de la seva aplicació en diversos escenaris, en el context de millorar l'accessibilitat en l'aprenentatge en línia. En aquest sentit, aquest treball presta especial atenció a l'adaptació a nous locutors i a la clonació de veu interlingüe, ja que els textos a sintetitzar es corresponen, en aquest cas, a traduccions d'intervencions originalment en un altre idioma. / [EN] In recent years, deep learning has fundamentally changed the landscapes of a number of areas in artificial intelligence, including computer vision, natural language processing, robotics, and game theory. In particular, the striking success of deep learning in a large variety of natural language processing (NLP) applications, including automatic speech recognition (ASR), machine translation (MT), and text-to-speech (TTS), has resulted in major accuracy improvements, thus widening the applicability of these technologies in real-life settings. At this point, it is clear that ASR and MT technologies can be utilized to produce cost-effective, high-quality multilingual subtitles of video contents of different kinds. This is particularly true in the case of transcription and translation of video lectures and other kinds of educational materials, in which the audio recording conditions are usually favorable for the ASR task, and there is a grammatically well-formed speech. However, although state-of-the-art neural approaches to TTS have shown to drastically improve the naturalness and quality of synthetic speech over conventional concatenative and parametric systems, it is still unclear whether this technology is already mature enough to improve accessibility and engagement in online learning, and particularly in the context of higher education. Furthermore, advanced topics in TTS such as cross-lingual voice cloning, incremental TTS or zero-shot speaker adaptation remain an open challenge in the field. This thesis is about enhancing the performance and widening the applicability of modern neural TTS technologies in real-life settings, both in offline and streaming conditions, in the context of improving accessibility and engagement in online learning. Thus, particular emphasis is placed on speaker adaptation and cross-lingual voice cloning, as the input text corresponds to a translated utterance in this context. / Pérez González De Martos, AM. (2022). Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184019 / Premios Extraordinarios de tesis doctorales
122

Clinical Decision Support Systems for Palliative Care Referral: Design and Evaluation of Frailty and Mortality Predictive Models

Blanes Selva, Vicent 30 December 2022 (has links)
[ES] Los Cuidados Paliativos (PC) son cuidados médicos especializados cuyo objetivo esmejorar la calidad de vida de los pacientes con enfermedades graves. Históricamente,se han aplicado a los pacientes en fase terminal, especialmente a los que tienen undiagnóstico oncológico. Sin embargo, los resultados de las investigaciones actualessugieren que la PC afecta positivamente a la calidad de vida de los pacientes condiferentes enfermedades. La tendencia actual sobre la PC es incluir a pacientes nooncológicos con afecciones como la EPOC, la insuficiencia de funciones orgánicas ola demencia. Sin embargo, la identificación de los pacientes con esas necesidades escompleja, por lo que se requieren herramientas alternativas basadas en datos clínicos. La creciente demanda de PC puede beneficiarse de una herramienta de cribadopara identificar a los pacientes con necesidades de PC durante el ingreso hospitalario.Se han propuesto varias herramientas, como la Pregunta Sorpresa (SQ) o la creaciónde diferentes índices y puntuaciones, con distintos grados de éxito. Recientemente,el uso de algoritmos de inteligencia artificial, en concreto de Machine Learning (ML), ha surgido como una solución potencial dada su capacidad de aprendizaje a partirde las Historias Clínicas Electrónicas (EHR) y con la expectativa de proporcionarpredicciones precisas para el ingreso en programas de PC. Esta tesis se centra en la creación de herramientas digitales basadas en ML para la identificación de pacientes con necesidades de cuidados paliativos en el momento del ingreso hospitalario. Hemos utilizado la mortalidad y la fragilidad como los dos criterios clínicos para la toma de decisiones, siendo la corta supervivencia y el aumento de la fragilidad, nuestros objetivos para hacer predicciones. También nos hemos centrado en la implementación de estas herramientas en entornos clínicos y en el estudio de su usabilidad y aceptación en los flujos de trabajo clínicos. Para lograr estos objetivos, en primer lugar, estudiamos y comparamos algoritmos de ML para la supervivencia a un año en pacientes adultos durante el ingreso hospitalario. Para ello, definimos una variable binaria a predecir, equivalente a la SQ y definimos el conjunto de variables predictivas basadas en la literatura. Comparamos modelos basados en Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) y Multilayer Perceptron (MLP), atendiendo a su rendimiento, especialmente al Área bajo la curva ROC (AUC ROC). Además, obtuvimos información sobre la importancia de las variables para los modelos basados en árboles utilizando el criterio GINI. En segundo lugar, estudiamos la medición de la fragilidad de la calidad de vida(QoL) en los candidatos a la intervención en PC. Para este segundo estudio, redujimosla franja de edad de la población a pacientes ancianos (≥ 65 años) como grupo objetivo. A continuación, creamos tres modelos diferentes: 1) la adaptación del modelo demortalidad a un año para pacientes ancianos, 2) un modelo de regresión para estimarel número de días desde el ingreso hasta la muerte para complementar los resultadosdel primer modelo, y finalmente, 3) un modelo predictivo del estado de fragilidad aun año. Estos modelos se compartieron con la comunidad académica a través de unaaplicación web b que permite la entrada de datos y muestra la predicción de los tresmodelos y unos gráficos con la importancia de las variables. En tercer lugar, propusimos una versión del modelo de mortalidad a un año enforma de calculadora online. Esta versión se diseñó para maximizar el acceso de losprofesionales minimizando los requisitos de datos y haciendo que el software respondiera a las plataformas tecnológicas actuales. Así pues, se eliminaron las variablesadministrativas específicas de la fuente de datos y se trabajó en un proceso para minimizar las variables de entrada requeridas, manteniendo al mismo tiempo un ROCAUC elevado del modelo. Como resultado, e / [CA] Les Cures Pal·liatives (PC) són cures mèdiques especialitzades l'objectiu de les qualsés millorar la qualitat de vida dels pacients amb malalties greus. Històricament, s'hanaplicat als pacients en fase terminal, especialment als quals tenen un diagnòstic oncològic. No obstant això, els resultats de les investigacions actuals suggereixen que lesPC afecten positivament a la qualitat de vida dels pacients amb diferents malalties. Latendència actual sobre les PC és incloure a pacients no oncològics amb afeccions comla malaltia pulmonar obstructiva crònica, la insuficiència de funcions orgàniques o lademència. No obstant això, la identificació dels pacients amb aqueixes necessitats éscomplexa, per la qual cosa es requereixen eines alternatives basades en dades clíniques. La creixent demanda de PC pot beneficiar-se d'una eina de garbellat per a identificar als pacients amb necessitats de PC durant l'ingrés hospitalari. S'han proposatdiverses eines, com la Pregunta Sorpresa (SQ) o la creació de diferents índexs i puntuacions, amb diferents graus d'èxit. Recentment, l'ús d'algorismes d'intel·ligènciaartificial, en concret de Machine Learning (ML), ha sorgit com una potencial soluciódonada la seua capacitat d'aprenentatge a partir de les Històries Clíniques Electròniques (EHR) i amb l'expectativa de proporcionar prediccions precises per a l'ingrés enprogrames de PC. Aquesta tesi se centra en la creació d'eines digitals basades en MLper a la identificació de pacients amb necessitats de cures pal·liatives durant l'ingréshospitalari. Hem utilitzat mortalitat i fragilitat com els dos criteris clínics per a lapresa de decisions, sent la curta supervivència i la major fragilitat els nostres objectiusa predir. Després, ens hem centrat en la seua implementació en entorns clínics i hemestudiat la seua usabilitat i acceptació en els fluxos de treball clínics.Aquesta tesi se centra en la creació d'eines digitals basades en ML per a la identificació de pacients amb necessitats de cures pal·liatives en el moment de l'ingrés hospitalari. Hem utilitzat la mortalitat i la fragilitat com els dos criteris clínics per ala presa de decisions, sent la curta supervivència i l'augment de la fragilitat, els nostresobjectius per a fer prediccions. També ens hem centrat en la implementació d'aquesteseines en entorns clínics i en l'estudi de la seua usabilitat i acceptació en els fluxos detreball clínics. Per a aconseguir aquests objectius, en primer lloc, estudiem i comparem algorismesde ML per a la supervivència a un any en pacients adults durant l'ingrés hospitalari.Per a això, definim una variable binària a predir, equivalent a la SQ i definim el conjuntde variables predictives basades en la literatura. Comparem models basats en Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) i Multilayer Perceptron (MLP), atenent el seu rendiment,especialment a l'Àrea sota la corba ROC (AUC ROC). A més, vam obtindre informaciósobre la importància de les variables per als models basats en arbres utilitzant el criteri GINI. En segon lloc, estudiem el mesurament de la fragilitat de la qualitat de vida (QoL)en els candidats a la intervenció en PC. Per a aquest segon estudi, vam reduir lafranja d'edat de la població a pacients ancians (≥ 65 anys) com a grup objectiu. Acontinuació, creem tres models diferents: 1) l'adaptació del model de mortalitat a unany per a pacients ancians, 2) un model de regressió per a estimar el nombre de dies desde l'ingrés fins a la mort per a complementar els resultats del primer model, i finalment,3) un model predictiu de l'estat de fragilitat a un any. Aquests models es van compartiramb la comunitat acadèmica a través d'una aplicació web c que permet l'entrada dedades i mostra la predicció dels tres models i uns gràfics amb la importància de lesvariables. En tercer lloc, vam proposar una versió del model de mortalitat a un any en formade calculadora en línia. Aquesta versió es va di / [EN] Palliative Care (PC) is specialized medical care that aims to improve patients' quality of life with serious illnesses. Historically, it has been applied to terminally ill patients, especially those with oncologic diagnoses. However, current research results suggest that PC positively affects the quality of life of patients with different conditions. The current trend on PC is to include non-oncological patients with conditions such as Chronic Obstructive Pulmonary Disease (COPD), organ function failure or dementia. However, the identification of patients with those needs is complex, and therefore alternative tools based on clinical data are required. The growing demand for PC may benefit from a screening tool to identify patients with PC needs during hospital admission. Several tools, such as the Surprise Question (SQ) or the creation of different indexes and scores, have been proposed with varying degrees of success. Recently, the use of artificial intelligence algorithms, specifically Machine Learning (ML), has arisen as a potential solution given their capacity to learn from the Electronic Health Records (EHRs) and with the expectation to provide accurate predictions for admission to PC programs. This thesis focuses on creating ML-based digital tools for identifying patients with palliative care needs at hospital admission. We have used mortality and frailty as the two clinical criteria for decision-making, being short survival and increased frailty, as our targets to make predictions. We also have focused on implementing these tools in clinical settings and studying their usability and acceptance in clinical workflows. To accomplish these objectives, first, we studied and compared ML algorithms for one-year survival in adult patients during hospital admission. To do so, we defined a binary variable to predict, equivalent to the SQ and defined the set of predictive variables based on literature. We compared models based on Support Vector Machine (SVM), k-Nearest Neighbours (kNN), Random Forest (RF), Gradient Boosting Machine (GBM) and Multilayer Perceptron (MLP), attending to their performance, especially to the Area under the ROC curve (AUC ROC). Additionally, we obtained information on the importance of variables for tree-based models using the GINI criterion. Second, we studied frailty measurement of Quality of Life (QoL) in candidates for PC intervention. For this second study, we narrowed the age of the population to elderly patients (≥ 65 years) as the target group. Then we created three different models: 1) for the adaptation of the one-year mortality model for elderly patients, 2) a regression model to estimate the number of days from admission to death to complement the results of the first model, and finally, 3) a predictive model for frailty status at one year. These models were shared with the academic community through a web application a that allows data input and shows the prediction from the three models and some graphs with the importance of the variables. Third, we proposed a version of the 1-year mortality model in the form of an online calculator. This version was designed to maximize access from professionals by minimizing data requirements and making the software responsive to the current technological platforms. So we eliminated the administrative variables specific to the dataset source and worked on a process to minimize the required input variables while maintaining high the model's AUC ROC. As a result, this model retained most of the predictive power and required only seven bed-side inputs. Finally, we evaluated the Clinical Decision Support System (CDSS) web tool on PC with an actual set of users. This evaluation comprised three domains: evaluation of participant's predictions against the ML baseline, the usability of the graphical interface, and user experience measurement. A first evaluation was performed, followed by a period of implementation of improvements and corrections to the pla / Blanes Selva, V. (2022). Clinical Decision Support Systems for Palliative Care Referral: Design and Evaluation of Frailty and Mortality Predictive Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/190993
123

Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models

Jorge Cano, Javier 30 December 2022 (has links)
Tesis por compendio / [ES] Durante la última década, los medios de comunicación han experimentado una revolución, alejándose de la televisión convencional hacia las plataformas de contenido bajo demanda. Además, esta revolución no ha cambiado solamente la manera en la que nos entretenemos, si no también la manera en la que aprendemos. En este sentido, las plataformas de contenido educativo bajo demanda también han proliferado para proporcionar recursos educativos de diversos tipos. Estas nuevas vías de distribución de contenido han llegado con nuevos requisitos para mejorar la accesibilidad, en particular las relacionadas con las dificultades de audición y las barreras lingüísticas. Aquí radica la oportunidad para el reconocimiento automático del habla (RAH) para cumplir estos requisitos, proporcionando subtitulado automático de alta calidad. Este subtitulado proporciona una base sólida para reducir esta brecha de accesibilidad, especialmente para contenido en directo o streaming. Estos sistemas de streaming deben trabajar bajo estrictas condiciones de tiempo real, proporcionando la subtitulación tan rápido como sea posible, trabajando con un contexto limitado. Sin embargo, esta limitación puede conllevar una degradación de la calidad cuando se compara con los sistemas para contenido en diferido u offline. Esta tesis propone un sistema de RAH en streaming con baja latencia, con una calidad similar a un sistema offline. Concretamente, este trabajo describe el camino seguido desde el sistema offline híbrido inicial hasta el eficiente sistema final de reconocimiento en streaming. El primer paso es la adaptación del sistema para efectuar una sola iteración de reconocimiento haciendo uso de modelos de lenguaje estado del arte basados en redes neuronales. En los sistemas basados en múltiples iteraciones estos modelos son relegados a una segunda (o posterior) iteración por su gran coste computacional. Tras adaptar el modelo de lenguaje, el modelo acústico basado en redes neuronales también tiene que adaptarse para trabajar con un contexto limitado. La integración y la adaptación de estos modelos es ampliamente descrita en esta tesis, evaluando el sistema RAH resultante, completamente adaptado para streaming, en conjuntos de datos académicos extensamente utilizados y desafiantes tareas basadas en contenidos audiovisuales reales. Como resultado, el sistema proporciona bajas tasas de error con un reducido tiempo de respuesta, comparables al sistema offline. / [CA] Durant l'última dècada, els mitjans de comunicació han experimentat una revolució, allunyant-se de la televisió convencional cap a les plataformes de contingut sota demanda. A més a més, aquesta revolució no ha canviat només la manera en la que ens entretenim, si no també la manera en la que aprenem. En aquest sentit, les plataformes de contingut educatiu sota demanda també han proliferat pera proporcionar recursos educatius de diversos tipus. Aquestes noves vies de distribució de contingut han arribat amb nous requisits per a millorar l'accessibilitat, en particular les relacionades amb les dificultats d'audició i les barreres lingüístiques. Aquí radica l'oportunitat per al reconeixement automàtic de la parla (RAH) per a complir aquests requisits, proporcionant subtitulat automàtic d'alta qualitat. Aquest subtitulat proporciona una base sòlida per a reduir aquesta bretxa d'accessibilitat, especialment per a contingut en directe o streaming. Aquests sistemes han de treballar sota estrictes condicions de temps real, proporcionant la subtitulació tan ràpid com sigui possible, treballant en un context limitat. Aquesta limitació, però, pot comportar una degradació de la qualitat quan es compara amb els sistemes per a contingut en diferit o offline. Aquesta tesi proposa un sistema de RAH en streaming amb baixa latència, amb una qualitat similar a un sistema offline. Concretament, aquest treball descriu el camí seguit des del sistema offline híbrid inicial fins l'eficient sistema final de reconeixement en streaming. El primer pas és l'adaptació del sistema per a efectuar una sola iteració de reconeixement fent servir els models de llenguatge de l'estat de l'art basat en xarxes neuronals. En els sistemes basats en múltiples iteracions aquests models son relegades a una segona (o posterior) iteració pel seu gran cost computacional. Un cop el model de llenguatge s'ha adaptat, el model acústic basat en xarxes neuronals també s'ha d'adaptar per a treballar amb un context limitat. La integració i l'adaptació d'aquests models és àmpliament descrita en aquesta tesi, avaluant el sistema RAH resultant, completament adaptat per streaming, en conjunts de dades acadèmiques àmpliament utilitzades i desafiants tasques basades en continguts audiovisuals reals. Com a resultat, el sistema proporciona baixes taxes d'error amb un reduït temps de resposta, comparables al sistema offline. / [EN] Over the last decade, the media have experienced a revolution, turning away from the conventional TV in favor of on-demand platforms. In addition, this media revolution not only changed the way entertainment is conceived but also how learning is conducted. Indeed, on-demand educational platforms have also proliferated and are now providing educational resources on diverse topics. These new ways to distribute content have come along with requirements to improve accessibility, particularly related to hearing difficulties and language barriers. Here is the opportunity for automatic speech recognition (ASR) to comply with these requirements by providing high-quality automatic captioning. Automatic captioning provides a sound basis for diminishing the accessibility gap, especially for live or streaming content. To this end, streaming ASR must work under strict real-time conditions, providing captions as fast as possible, and working with limited context. However, this limited context usually leads to a quality degradation as compared to the pre-recorded or offline content. This thesis is aimed at developing low-latency streaming ASR with a quality similar to offline ASR. More precisely, it describes the path followed from an initial hybrid offline system to an efficient streaming-adapted system. The first step is to perform a single recognition pass using a state-of-the-art neural network-based language model. In conventional multi-pass systems, this model is often deferred to the second or later pass due to its computational complexity. As with the language model, the neural-based acoustic model is also properly adapted to work with limited context. The adaptation and integration of these models is thoroughly described and assessed using fully-fledged streaming systems on well-known academic and challenging real-world benchmarks. In brief, it is shown that the proposed adaptation of the language and acoustic models allows the streaming-adapted system to reach the accuracy of the initial offline system with low latency. / Jorge Cano, J. (2022). Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/191001 / Compendio
124

Desarrollo de procedimientos para la deteccion del abandono de cultivos de cítricos utilizando técnicas de teledetección

Morell Monzó, Sergio 02 May 2023 (has links)
Tesis por compendio / [ES] El abandono de tierras agrícolas es un problema creciente en muchas regiones del planeta con importantes consecuencias a nivel socioeconómico y medioambiental. La Comunitat Valenciana (España) es la principal región productora de cítricos de Europa, sin embargo, actualmente se está produciendo un abandono significativo de estos cultivos. La presente tesis pretende desarrollar procedimientos para la identificar el abandono de los cultivos de cítricos a través de técnicas de teledetección y aprendizaje automático. Los métodos basados en teledetección se consideran especialmente convenientes debido a su alto grado de automatización y a su eficiencia en tiempo y coste, comparado con otras técnicas cartográficas habituales basadas en fotointerpretación y visitas de campo. La tesis desarrolla procedimientos para la identificación del estado de los cultivos utilizando diferentes tipos de datos de observación de la Tierra, como son: imágenes multiespectrales de los satélites Sentinel-2 y WorldVIew-3, imágenes aéreas, y nubes de puntos altimétricas derivadas de LiDAR aerotransportado y procesos fotogramétricos a partir de imágenes tomadas con vehículos aéreos no tripulados. Se desarrollaron diferentes metodologías para explotar dichas fuentes de datos en un paisaje agrícola altamente fragmentado con un tamaño promedio de las parcelas entre 0,25 ha y 0,50 ha. El análisis tomó como referencia la base de datos catastral de parcelas agrícolas y se identificaron tres estados de los cultivos en campo: productivo, no productivo y abandonado. Los resultados más precisos se obtuvieron al utilizar las imágenes aéreas o imágenes de satélite WorldView 3, incluyendo el cálculo de descriptores de textura, con una exactitud global entre 90-95%. La importancia de los descriptores de textura extraídos a partir de imágenes de resolución submétrica radica en su capacidad para identificar los patrones de plantación de los cultivos. Este enfoque permitió obtener una alta exactitud a partir de una única imagen. No obstante, también son destacables los resultados obtenidos al utilizar series temporales de imágenes Sentinel-2 con exactitudes globales en torno al 90%. Las diferencias existentes en las series temporales de índices de vegetación y humedad de los tres estados del cultivo permitieron mejorar el rendimiento de clasificación con respecto al enfoque basado en una única fecha. Diferentes casos de estudio demostraron la capacidad de identificar el abandono de tierras a través de teledetección. La información cuantitativa y espacialmente explícita generada sobre el estado de los cultivos puede ser una herramienta útil para la gestión agrícola, para la implementación de medidas de gestión del paisaje y para mejorar las estimaciones anuales de rendimiento de los cítricos. / [CA] L'abandonament de terres agrícoles és un problema creixent en moltes regions del planeta amb importants conseqüències en l'àmbit socioeconòmic i mediambiental. La Comunitat Valenciana (España) és la principal regió productora de cítrics d'Europa, no obstant això, actualment està produint-se'n un abandonament significatiu d'estos cultius. La present tesi pretén desenvolupar procediments per identificar l'abandonament dels cultius de cítrics per mitjà de tècniques de teledetecció i aprenentatge automàtic. Els mètodes basats en teledetecció es consideren especialment convenients a causa del seu alt grau d'automatització i a la seua eficiència en temps i cost, comparat amb altres tècniques cartogràfiques habituals basades en fotointerpretació i visites de camp. La tesi desenvolupa procediments per a la identificació de l'estat dels cultius utilitzant diferents tipus de dades d'observació de la Terra, com són: imatges multiespectrals dels satèl·lits Sentinel-2 i WorldVIew-3, imatges aèries i núvols de punts altimètrics derivats de LiDAR aerotransportat i processos fotogramètrics a partir d'imatges preses amb vehicles aeris no tripulats. Es van desenvolupar diferents metodologies per explotar estes fonts de dades en un paisatge agrícola altament fragmentat amb una grandària mitjana de les parcel·les entre 0,25 ha i 0,50 ha. L'anàlisi va prendre com a referència la base de dades cadastral de parcel·les agrícoles i es van identificar tres estats dels cultius al camp: productiu, no productiu i abandonat. Els resultats més precisos es van obtenir en utilitzar imatges aèries o imatges de satèl·lit WorldVIew-3, incloent-ne el càlcul de descriptors de textura, amb una exactitud global entre 90-95%. La importància dels descriptors de textura extrets a partir d'imatges de resolució submètrica radica en la seua capacitat per a identificar els patrons de plantació dels cultius. Aquest enfocament va permetre obtenir una alta exactitud a partir d'una única imatge. No obstant això, també són destacables els resultats obtinguts en utilitzar sèries temporals d'imatges Sentinel-2, amb exactituds globals entorn del 90%. Les diferències existents en les sèries temporals d'índex de vegetació i humitat dels tres estats del cultiu van permetre millorar el rendiment de classificació respecte a l'enfocament basat en una única data. Diferents casos d'estudi han demostrar la capacitat d'identificar l'abandonament de terres per mitjà de teledetecció. La informació quantitativa i espacialment explícita generada sobre l'estat dels cultius pot ser un ferrament útil per a la gestió agrícola, per a la implementació de mesures de gestió del paisatge i per millorar les estimacions anuals de rendiment dels cítrics. / [EN] Agricultural land abandonment is a growing issue in many regions of the planet with important socioeconomic and environmental consequences. The Comunitat Valenciana region (Spain) is the main citrus-producing in Europe, however, there is a currently significant abandonment of these crops. This thesis aims to develop procedures to identify citrus crop abandonment through remote sensing and machine learning techniques. Remote sensing-based methods are considered particularly convenient due to their high degree of automation and their efficiency in time and cost, compared to other usual cartographic techniques based on photo-interpretation and field visits. The thesis develops procedures for crop status identification using different types of Earth observation data, such as: multispectral images from Sentinel-2 and WorldView-3 satellites, aerial images, and altimetric point clouds derived from airborne LiDAR and photogrammetric processes from images taken by unmanned aerial vehicles. Different methodologies were developed to apply these data sources in a highly fragmented agricultural landscape with an average parcel size between 0.25 ha and 0.50 ha. The analysis was based on the cadastral database of agricultural parcels and three crop statuses were identified at field: productive, non-productive and abandoned. The most accurate results were obtained using aerial images or WorldView-3 satellite images, including the computation of texture descriptors, with an overall accuracy between 90-95%. The importance of texture descriptors extracted from sub-metric resolution images lies in their ability to identify crop planting patterns. This approach made it possible to obtain high accuracy from a single image. However, the results obtained when using time series of Sentinel-2 images are also remarkable, with an overall accuracy around 90%. The differences in the time series of vegetation and moisture indices of the three crop statuses improved the classification accuracy compared to the single date approach. Different case studies demonstrate the ability to identify agricultural land abandonment through remote sensing. The quantitative and spatially explicit information generated can be a useful tool for agricultural management, for implementing landscape management actions and for improving annual citrus yield estimations. / Morell Monzó, S. (2023). Desarrollo de procedimientos para la deteccion del abandono de cultivos de cítricos utilizando técnicas de teledetección [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/193058 / Compendio
125

Optimal Deep Learning Assisted Design of Socially and Environmentally Efficient Steel Concrete Composite Bridges under Constrained Budgets

Martínez Muñoz, David 06 September 2023 (has links)
Tesis por compendio / [ES] El diseño de infraestructuras está fuertemente influido por la búsqueda de soluciones que tengan en cuenta el impacto en la economía, el medio ambiente y la sociedad. Estos criterios están muy relacionados con la definición de sostenibilidad que hizo la Comisión Brundtland en 1987. Este hito supuso un reto para técnicos, científicos y legisladores. Este reto consistía en generar métodos, criterios, herramientas y normativas que permitieran incluir el concepto de sostenibilidad en el desarrollo y diseño de nuevas infraestructuras. Desde entonces, se han producido pequeños avances en la búsqueda de la sostenibilidad, pero se necesitan más a corto plazo. Como plan de acción, las Naciones Unidas establecieron los Objetivos de Desarrollo Sostenible, fijando el año 2030 como meta para alcanzarlos. Dentro de estos objetivos, las infraestructuras se postulan como un punto crítico. Tradicionalmente, se han desarrollado métodos para obtener diseños óptimos desde el punto de vista del impacto económico. Sin embargo, aunque en los últimos tiempos se ha avanzado en la aplicación y utilización de métodos de análisis del ciclo de vida completo, aún falta un consenso claro, especialmente en el pilar social de la sostenibilidad. Dado que la sostenibilidad engloba diferentes criterios, que en principio no van necesariamente de la mano, el problema de la búsqueda de la sostenibilidad se plantea no sólo como un problema de optimización, sino también como un problema de toma de decisiones multi-criterio. El objetivo principal de esta tesis doctoral es proponer diferentes metodologías para la obtención de diseños óptimos que introduzcan los pilares de la sostenibilidad en el diseño de puentes mixtos acero-hormigón. Como problema estructural representativo se propone un puente viga en cajón de tres vanos mixto. Dada la complejidad de la estructura, en la que intervienen 34 variables discretas, la optimización con métodos matemáticos resulta inabordable. Por ello, se propone el uso de algoritmos metaheurísticos. Esta complejidad también se traduce en un alto coste computacional para el modelo, por lo que se implementa un modelo de redes neuronales profundas que permite la validación del diseño sin necesidad de computación. Dada la naturaleza discreta del problema, se proponen técnicas de discretización para adaptar los algoritmos al problema de optimización estructural. Además, para mejorar las soluciones obtenidas a partir de estos algoritmos discretos, se introducen métodos de hibridación basados en la técnica K-means y operadores de mutación en función del tipo de algoritmo. Los algoritmos utilizados se clasifican en dos ramas. La primera son los basados en trayectorias como el Simulated Annealing, Threshold Accepting y el Algoritmo del Solterón. Por otra parte, se utilizan algoritmos de inteligencia de enjambre como Jaya, Sine Cosine Algorithm y Cuckoo Search. La metodología de Análisis del Ciclo de Vida definida en la norma ISO 14040 se utiliza para evaluar el impacto social y medioambiental de los diseños propuestos. La aplicación de esta metodología permite evaluar el impacto y compararlo con otros diseños. La evaluación mono-objetivo de los diferentes criterios lleva a la conclusión de que la optimización de costes está asociada a una reducción del impacto medioambiental y social de la estructura. Sin embargo, la optimización de los criterios medioambientales y sociales no reduce necesariamente los costes. Por ello, para realizar una optimización multi-objetivo y encontrar una solución de compromiso, se implementa una técnica basada en la Teoría de Juegos, proponiendo una estrategia de juego cooperativo. La técnica multi-criterio utilizada es la Teoría de la Entropía para asignar pesos a los criterios para la función objetivo agregada. Los criterios considerados son los tres pilares de la sostenibilidad y la facilidad constructiva de la losa superior. Aplicando esta técnica se obtiene un diseño óptimo relativo a los tres pilares de la soste / [CAT] El disseny d'infraestructures està fortament influït per la cerca de solucions que tinguen en compte l'impacte en l'economia, el medi ambient i la societat. Aquests criteris estan molt relacionats amb la definició de sostenibilitat que va fer la Comissió Brundtland en 1987. Aquesta fita va suposar un repte per a tècnics, científics i legisladors. Aquest repte consistia a generar mètodes, criteris, eines i normatives que permeteren incloure el concepte de sostenibilitat en el desenvolupament i disseny de noves infraestructures. Des de llavors, s'han produït xicotets avanços en la cerca de la sostenibilitat, però es necessiten més a curt termini. Com a pla d'acció, les Nacions Unides van establir els Objectius de Desenvolupament Sostenible, fixant l'any 2030 com a meta per aconseguir-los. Dins d'aquests objectius, les infraestructures es postulen com un punt crític. Tradicionalment, s'han desenvolupat mètodes per a obtindre dissenys òptims des del punt de vista de l'impacte econòmic. No obstant això, encara que en els últims temps s'ha avançat en l'aplicació i utilització de mètodes d'anàlisis del cicle de vida complet, encara falta un consens clar, especialment en el pilar social de la sostenibilitat. Atés que la sostenibilitat engloba diferents criteris, que en principi no van necessàriament de la mà, el problema de la cerca de la sostenibilitat es planteja no sols com un problema d'optimització, sinó també com un problema de presa de decisions multi-criteri. L'objectiu principal d'aquesta tesi doctoral és proposar diferents metodologies per a l'obtenció de dissenys òptims que introduïsquen els pilars de la sostenibilitat en el disseny de ponts mixtos. Com a problema estructural representatiu es proposa un pont viga en calaix de tres vans mixt. Donada la complexitat de l'estructura, en la qual intervenen 34 variables discretes, l'optimització amb mètodes matemàtics resulta inabordable. Per això, es proposa l'ús d'algorismes metaheurísticos. Aquesta complexitat també es tradueix en un alt cost computacional per al model, per la qual cosa s'implementa un model de xarxes neuronals profundes que permet la validació del disseny sense necessitat de computació. Donada la naturalesa discreta del problema, es proposen tècniques de discretització per a adaptar els algorismes al problema d'optimització estructural. A més, per a millorar les solucions obtingudes a partir d'aquests algorismes discrets, s'introdueixen mètodes d'hibridació basats en la tècnica K-*means i operadors de mutació en funció del tipus d'algorisme. Els algorismes utilitzats es classifiquen en dues branques. La primera són els basats en trajectòries com la Simulated Annealing, Threshold Accepting i el Old Bachelor Acceptance. D'altra banda, s'utilitzen algorismes d'intel·ligència d'eixam com Jaya, Sine Cosine Algorithm i Cuckoo Search. La metodologia d'Anàlisi del Cicle de Vida definida en la norma ISO 14040 s'utilitza per a avaluar l'impacte social i mediambiental dels dissenys proposats. L'aplicació d'aquesta metodologia permet avaluar l'impacte i comparar-lo amb altres dissenys. L'avaluació mono-objectiu dels diferents criteris porta a la conclusió que l'optimització de costos està associada a una reducció de l'impacte mediambiental i social de l'estructura. No obstant això, l'optimització dels criteris mediambientals i socials no redueix necessàriament els costos. Per això, per a realitzar una optimització multi-objectiu i trobar una solució de compromís, s'implementa una tècnica basada en la Teoria de Jocs, proposant una estratègia de joc cooperatiu. La tècnica multi-criteri utilitzada és la Teoria de l'Entropia per a assignar pesos als criteris per a la funció objectiu agregada. Els criteris considerats són els tres pilars de la sostenibilitat i la facilitat constructiva de la llosa superior. Aplicant aquesta tècnica s'obté un disseny òptim relatiu als tres pilars de la sostenibilitat i a partir del qual es millora la facilitat constructiva. / [EN] Infrastructure design is strongly influenced by the search for solutions considering the impact on the economy, the environment, and society. These criteria were strongly related to the definition of sustainability by the Brundtland Commission in 1987. This milestone posed a challenge for technicians, scientists, and legislators alike. This challenge consisted of generating methods, criteria, tools, and regulations that would allow the inclusion of the concept of sustainability in developing and designing new infrastructures. Since then, small advances have been made in the search for sustainability, but they need more in the short term. As an action plan, the United Nations established the Sustainable Development Goals, setting the year 2030 as the target for achieving them. Within these goals, infrastructure is postulated as a critical point. Traditionally, methods have been developed to obtain optimal designs from the point of view of economic impact. However, although recent advances have been made in implementing and using complete life cycle analysis methods, there still needs to be a clear consensus, especially in the social pillar of sustainability. Given that sustainability encompasses different criteria, which in principle do not necessarily go hand in hand, the problem of finding sustainability is posed not only as an optimization problem but also as a multi-criteria decision-making problem. The main objective of this doctoral thesis is to propose different methodologies for obtaining optimal designs that introduce the pillars of sustainability in the design of steel-concrete composite bridges. A three-span box-girder bridge is proposed as a representative structural problem. Given the complexity of the structure, which involves 34 discrete variables, optimization with mathematical methods is unaffordable. Therefore, the use of metaheuristic algorithms is proposed. This complexity also translates into a high computational cost for the model, so a deep neural networks model is implemented to allow the validation of the design without the need for computation. Given the problem's discrete nature, discretization techniques are proposed to adapt the algorithms to the structural optimization problem. In addition, to improve the solutions obtained from these discrete algorithms, hybridization methods based on the K-means technique and mutation operators are introduced depending on the type of algorithm. The algorithms used are classified into two branches. The first are those based on trajectories such as Simulated Annealing, Threshold Accepting, and Old Bachelor Acceptance. Moreover, swarm intelligence algorithms such as Jaya, Sine Cosine Algorithm, and Cuckoo Search are used. The Life Cycle Assessment methodology defined in the ISO 14040 standard is used to evaluate the social and environmental impact of the proposed designs. The application of this methodology allows the evaluation of the impact and comparison with other designs. The single-objective evaluation of the different criteria leads to the conclusion that cost optimization is associated with a reduction of the environmental and social impact of the structure. However, optimizing environmental and social criteria does not necessarily reduce costs. Therefore, to perform a multi-objective optimization and find a compromise solution, a technique based on Game Theory is implemented, proposing a cooperative game strategy. The multi-criteria technique used is the Entropy Theory to assign criteria weights for the aggregate objective function. The criteria considered are the three pillars of sustainability and the constructive ease of the top slab. Applying this technique results in an optimal design concerning the three pillars of sustainability and from which the constructive ease is improved. / I would like to thank the Spanish Ministry of Science and Innovation. This research would not have been possible without the support of grant FPU-18/01592, funded by MCIN/AEI/10.13039/501100011033, "ESF invests in your future", as well as the financial assistance provided by DIMALIFE (BIA2017-85098-R) and HYDELIFE (PID2020-117056RB-I00), both funded by MCIN/AEI/10.13039/5011-00011033, and "ERDF A way of making Europe". / Martínez Muñoz, D. (2023). Optimal Deep Learning Assisted Design of Socially and Environmentally Efficient Steel Concrete Composite Bridges under Constrained Budgets [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/195967 / Compendio
126

Streaming Neural Speech Translation

Iranzo Sánchez, Javier 03 November 2023 (has links)
Tesis por compendio / [ES] Gracias a avances significativos en aprendizaje profundo, la traducción del habla (ST) se ha convertido en un campo consolidado, lo que permite la utilización de la tecnología ST en soluciones para entornos de producción. Como consecuencia del aumento constante del número de horas de contenido audiovisual generado cada año, así como una mayor sensibilización sobre la importancia de la accesibilidad, la ST está preparada para convertirse en un elemento clave para la producción de contenidos audiovisuales, tanto de ocio como educativos. A pesar de que se ha progresado significativamente en ST, la mayor parte de la investigación se ha centrado en el escenario en diferido (offline), en el cual todo el audio de entrada está disponible. En cambio, la ST en directo (online) es una temática en la que falta mucho por investigar. En concreto, existe un caso de traducción en directo, la traducción continua (streaming), que traduce un flujo continuo de palabras en tiempo real y bajo unas estrictas condiciones de latencia. Este es un problema mucho más realista, que es necesario resolver para que sea posible aplicar la ST a una variedad de tareas de la vida real. Esta tesis está centrada en investigar y desarrollar las técnicas claves que son necesarias para una solución de ST continua. En primer lugar, de cara a permitir el desarrollo y la evaluación de sistemas de ST, se ha recopilado un nuevo conjunto de datos para ST multilingüe, que expande significativamente el número de horas disponibles para ST. A continuación se ha desarrollado un segmentador preparado para la condición continua, que se utiliza para segmentar las transcripciones intermedias de nuestra solución por etapas, que consiste en un sistema de reconocimiento automático del habla (ASR), seguido de un sistema de traducción automática (MT) encargado de traducir las transcripciones intermedias al idioma de destino elegido. Diversas investigaciones han concluido que la calidad de la segmentación es un factor muy influyente es la calidad del sistema MT, por lo que el desarrollo de un segmentador efectivo es un paso fundamental en el proceso de ST continua. Este segmentador se ha integrado en la solución por etapas, y estas se optimizan de manera conjunta para alcanzar el equilibrio óptimo entre calidad y latencia. La ST continua tiene unas restricciones de latencia mucho más estrictas que la ST en directo, ya que el nivel deseado de latencia tiene que mantenerse durante todo el proceso de traducción. Por tanto, es crucial ser capaz de medir de manera precisa esta latencia, pero las métricas estándar de ST en directo no se adaptan bien a esta tarea. Como consecuencia de esto, se proponen nuevos métodos para la evaluación de ST continua, que garantizan unos resultados precisos a la vez que interpretables. Por último, se presenta un nuevo método para mejorar la calidad de la traducción continua mediante el uso de información contextual. Mientras que los sistemas tradicionales de ST en directo traducen audios de manera aislada, existe abundante información contextual que está disponible para mejorar los sistemas de ST continua. Nuestra propuesta introduce el concepto de historia continua, que consiste en el almacenamiento de la información más reciente del proceso de traducción, que se utiliza más adelante por el modelo para mejorar la calidad de la traducción. / [CA] Gràcies a avanços significatius en aprenentatge profund, la traducció de la parla (ST) s'ha convertit en un camp consolidat, la qual cosa permet la utilització de la tecnologia ST en solucions per a entorns de producció. A conseqüència de l'augment constant del nombre d'hores de contingut audiovisual generat cada any, així com una major sensibilització sobre la importància de l'accessibilitat, la ST està preparada per a convertir-se en un element clau per a la producció de continguts audiovisuals, tant d'oci com educatius. A pesar que s'ha progressat significativament en ST, la major part de la recerca s'ha centrat en l'escenari en diferit, en el qual tot l'àudio d'entrada està disponible. En canvi, la ST en directe és una temàtica en la qual falta molt per investigar. En concret, existeix un cas de traducció en directe, la traducció contínua, que tradueix un flux continu de paraules en temps real i sota unes estrictes condicions de latència. Aquest és un problema molt més realista, que és necessari resoldre perquè sigui possible aplicar la ST a una varietat de tasques de la vida real. Aquesta tesi està centrada en investigar i desenvolupar les tècniques claus que són necessàries per a una solució de ST contínua. En primer lloc, de cara a permetre el desenvolupament i l'avaluació de sistemes de ST, s'ha recopilat un nou conjunt de dades per a ST multilingüe, que expandeix significativament la quantitat de dades disponibles per a ST. A continuació s'ha desenvolupat un segmentador preparat per a la condició contínua, que s'utilitza per a segmentar les transcripcions intermèdies de la nostra solució per etapes, que consisteix en un sistema de reconeixement automàtic de la parla (ASR), seguit d'un sistema de traducció automàtica (MT) encarregat de traduir les transcripcions intermèdies a l'idioma de destí triat. Diveros treballs de recerca han conclòs que la qualitat de la segmentació és un factor molt important en la qualitat del sistema MT, per la qual cosa el desenvolupament d'un segmentador efectiu és un pas fonamental en el procés de ST contínua. Aquest segmentador s'ha integrat en la solució per etapes, i aquestes s'optimitzen de manera conjunta per a aconseguir l'equilibri òptim entre qualitat i latència. La ST contínua té unes restriccions de latència molt més estrictes que la ST en directe, ja que el nivell desitjat de latència ha de mantindre's durant tot el procés de traducció. Per tant, és crucial ser capaç de mesurar de manera precisa aquesta latència, però les mètriques estàndard de ST en directe no s'adapten bé a aquesta tasca. A conseqüència d'això, es proposen nous mètodes per a l'avaluació de ST contínua, que garanteixen uns resultats precisos alhora que interpretables. Finalment, es presenta un nou mètode per a millorar la qualitat de la traducció contínua mitjançant l'ús d'informació contextual. Mentre que els sistemes tradicionals de ST en directe tradueixen àudios de manera aïllada, existeix abundant informació contextual que està disponible per a millorar els sistemes de ST contínua. La nostra proposta introdueix el concepte d'història contínua, que consisteix en l'emmagatzematge de la informació més recent del procés de traducció, que s'utilitza més endavant pel model per a millorar la qualitat de la traducció. / [EN] Thanks to significant advances in Deep Learning, Speech Translation (ST) has become a mature field that enables the use of ST technology in production-ready solutions. Due to the ever-increasing hours of audio-visual content produced each year, as well as higher awareness of the importance of media accessibility, ST is poised to become a key element for the production of entertainment and educational media. Although significant advances have been made in ST, most research has focused on the offline scenario, where the entire input audio is available. In contrast, online ST remains an under-researched topic. A special case of online ST, streaming ST, translates an unbounded input stream in a real-time fashion under strict latency constraints. This is a much more realistic problem that needs to be solved in order to apply ST to a variety of real-life tasks. The focus of this thesis is on researching and developing key techniques necessary for a successful streaming ST solution. First, in order to enable ST system development and evaluation, a new multilingual ST dataset is collected, which significantly expands the amount of hours available for ST. Then, a streaming-ready segmenter component is developed to segment the intermediate transcriptions of our proposed cascade solution, which consists in an Automatic Speech Recognition (ASR) system that transcribes the audio, followed by a Machine Translation (MT) system that translates the intermediate transcriptions into the desired language. Research has shown that segmentation quality plays a significant role in downstream MT performance, so the development of an effective streaming segmenter is a critical step in the streaming ST process. This segmenter is then integrated and the components of the cascade are jointly optimized to achieve an appropriate quality-latency trade-off. Streaming ST has much more strict latency constraints than standard online ST, as the desired latency level must be maintained during the whole translation process. Therefore, it is crucial to be able to accurately measure this latency, but the standard online ST metrics are not well suited for this task. As a consequence, new evaluation methods are proposed for streaming ST evaluation, which ensure realistic, yet interpretable results. Lastly, a novel method is presented for improving translation quality through the use of contextual information. Whereas standard online ST systems translate audios in isolation, there is a wealth of contextual information available for improving streaming ST systems. Our approach introduces the concept of streaming history by storing the most recent information of the translation process, which is then used by the model in order to improve translation quality. / The research leading to these results has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreements no. 761758 (X5Gon) and 952215 (TAILOR), and Erasmus+ Educa- tion programme under grant agreement no. 20-226-093604-SCH (EXPERT); the Government of Spain’s grant RTI2018-094879-B-I00 (Multisub) funded by MCIN/AEI/10.13039/501100011033 & “ERDF A way of making Europe”, and FPU scholarships FPU18/04135; and the Generalitat Valenciana’s research project Classroom Activity Recognition (ref. PROMETEO/2019/111) and predoctoral research scholarship ACIF/2017/055. / Iranzo Sánchez, J. (2023). Streaming Neural Speech Translation [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/199170 / Compendio
127

Deep Continual Multimodal Multitask Models for Out-of-Hospital Emergency Medical Call Incidents Triage Support in the Presence of Dataset Shifts

Ferri Borredà, Pablo 28 March 2024 (has links)
[ES] El triaje de los incidentes de urgencias y emergencias extrahospitalarias representa un reto difícil, debido a las limitaciones temporales y a la incertidumbre. Además, errores en este proceso pueden tener graves consecuencias para los pacientes. Por lo tanto, cualquier herramienta o estrategia novedosa que mejore estos procesos ofrece un valor sustancial en términos de atención al paciente y gestión global de los incidentes. La hipótesis en la que se basa esta tesis es que el Aprendizaje Automático, concretamente el Aprendizaje Profundo, puede mejorar estos procesos proporcionando estimaciones de la gravedad de los incidentes, mediante el análisis de millones de datos derivados de llamadas de emergencia de la Comunitat Valenciana (España) que abarcan desde 2009 hasta 2019. Por tanto, esta tesis profundiza en el diseño y desarrollo de modelos basados en Aprendizaje Profundo Multitarea que aprovechan los datos multimodales asociados a eventos de urgencias y emergencias extrahospitalarias. Nuestro objetivo principal era predecir si el incidente suponía una situación de riesgo vital, la demora admisible de la respuesta y si era competencia del sistema de emergencias o de atención primaria. Utilizando datos disponibles entre 2009 y 2012, se observaron mejoras sustanciales en las métricas macro F1, con ganancias del 12.5% para la clasificación de riesgo vital, del 17.5% para la demora en la respuesta y del 5.1% para la clasificación por jurisdicción, en comparación con el protocolo interno de triaje de la Comunidad Valenciana. Sin embargo, los sistemas, los protocolos de triaje y las prácticas operativas evolucionan de forma natural con el tiempo. Los modelos que mostraron un rendimiento excelente con el conjunto de datos inicial de 2009 a 2012 no demostraron la misma eficacia cuando se evaluaron con datos posteriores que abarcaban de 2014 a 2019. Estos últimos habían sufrido modificaciones en comparación con los anteriores, que dieron lugar a variaciones en las distribuciones de probabilidad, caracterizadas e investigadas meticulosamente en esta tesis. Continuando con nuestra investigación, nos centramos en la incorporación de técnicas de Aprendizaje Continuo Profundo en nuestros desarrollos. Gracias a ello, pudimos mitigar sustancialmente los efectos adversos consecuencia de los cambios distribucionales sobre el rendimiento. Los resultados indican que, si bien las fluctuaciones de rendimiento no se eliminan por completo, pueden mantenerse dentro de un rango manejable. En particular, con respecto a la métrica F1, cuando las variaciones distribucionales son ligeras o moderadas, el comportamiento se mantiene estable, sin variar más de un 2.5%. Además, nuestra tesis demuestra la viabilidad de construir herramientas auxiliares que permitan a los operadores interactuar con estos complejos modelos. En consecuencia, sin interrumpir el flujo de trabajo de los profesionales, se hace posible proporcionar retroalimentación mediante predicciones de probabilidad para cada clase de etiqueta de gravedad y tomar las medidas pertinentes. Por último, los resultados de esta tesis tienen implicaciones directas en la gestión de las urgencias y emergencias extrahospitalarias en la Comunidad Valenciana, al integrarse el modelo final resultante en los centros de atención de llamadas. Este modelo utilizará los datos proporcionados por los operadores telefónicos para calcular automáticamente las predicciones de gravedad, que luego se compararán con las generadas por el protocolo de triaje interno. Cualquier disparidad entre estas predicciones desencadenará la derivación del incidente a un coordinador médico, que supervisará su tratamiento. Por lo tanto, nuestra tesis, además de realizar importantes contribuciones al campo de la Investigación en Aprendizaje Automático Biomédico, también conlleva implicaciones sustanciales para mejorar la gestión de las urgencias y emergencias extrahospitalarias en el contexto de la Comunidad Valenciana. / [CA] El triatge dels incidents d'urgències i emergències extrahospitalàries representa un repte difícil, a causa de les limitacions temporals i de la incertesa. A més, els errors en aquest procés poden tindre greus conseqüències per als pacients. Per tant, qualsevol eina o estratègia innovadora que millore aquests processos ofereix un valor substancial en termes d'atenció al pacient i gestió global dels incidents. La hipòtesi en què es basa aquesta tesi és que l'Aprenentatge Automàtic, concretament l'Aprenentatge Profund, pot millorar significativament aquests processos proporcionant estimacions de la gravetat dels incidents, mitjançant l'anàlisi de milions de dades derivades de trucades d'emergència de la Comunitat Valenciana (Espanya) que abasten des de 2009 fins a 2019. Per tant, aquesta tesi aprofundeix en el disseny i desenvolupament de models basats en Aprenentatge Profund Multitasca que aprofiten dades multimodals d'incidents mèdics d'urgències i emergències extrahospitalàries. El nostre objectiu principal era predir si l'incident suposava una situació de risc vital, la demora admissible de la resposta i si era competència del sistema d'emergències o d'atenció primària. Utilitzant dades disponibles entre 2009 i 2012, es van observar millores substancials en les mètriques macro F1, amb guanys del 12.5% per a la classificació de risc vital, del 17.5% per a la demora en la resposta i del 5.1% per a la classificació per jurisdicció, en comparació amb el protocol intern de triatge de la Comunitat Valenciana. Tanmateix, els protocols de triatge i les pràctiques operatives evolucionen de forma natural amb el temps. Els models que van mostrar un rendiment excel·lent amb el conjunt de dades inicial de 2009 a 2012 no van demostrar la mateixa eficàcia quan es van avaluar amb dades posteriors que abastaven de 2014 a 2019. Aquestes últimes havien sofert modificacions en comparació amb les anteriors, que van donar lloc a variacions en les distribucions de probabilitat, caracteritzades i investigades minuciosament en aquesta tesi. Continuant amb la nostra investigació, ens vam centrar en la incorporació de tècniques d'Aprenentatge Continu als nostres desenvolupaments. Gràcies a això, vam poder mitigar substancialment els efectes adversos sobre el rendiment conseqüència dels canvis distribucionals. Els resultats indiquen que, si bé les fluctuacions de rendiment no s'eliminen completament al llarg del temps, poden mantenir-se dins d'un rang manejable. En particular, respecte a la mètrica F1, quan les variacions distribucionals són lleugeres o moderades, el comportament es manté estable, sense variar més d'un 2.5%. A més, la nostra tesi demostra la viabilitat de construir eines auxiliars que permeten als operadors interactuar amb aquests models complexos. En conseqüència, sense interrompre el flux de treball dels professionals, es fa possible proporcionar retroalimentació mitjançant prediccions de probabilitat per a cada classe d'etiqueta de gravetat i prendre les mesures pertinents. Finalment, els resultats d'aquesta tesi tenen implicacions directes en la gestió de les urgències i emergències extrahospitalàries a la Comunitat Valenciana, al integrar-se el model final resultant als centres d'atenció de telefonades. Aquest model utilitzarà les dades proporcionades pels operadors telefònics per calcular automàticament les prediccions de gravetat, que després es compararan amb les generades pel protocol de triatge intern. Qualsevol disparitat entre aquestes prediccions desencadenarà la derivació de l'incident a un coordinador mèdic, que supervisarà el seu tractament. Per tant, és evident que la nostra tesi, a més de realitzar importants contribucions al camp de la Investigació en Aprenentatge Automàtic Biomèdic, també comporta implicacions substancials per a millorar la gestió de les urgències i emergències extrahospitalàries en el context de la Comunitat Valenciana. / [EN] Triage for out-of-hospital emergency incidents represents a tough challenge, primarily due to time constraints and uncertainty. Furthermore, errors in this process can have severe consequences for patients. Therefore, any novel tool or strategy that enhances these processes can offer substantial value in terms of patient care and overall management of out-of-hospital emergency medical incidents. The hypothesis upon which this thesis is based is that Machine Learning, specifically Deep Learning, can improve these processes by providing estimations of the severity of incidents, by analyzing millions of data derived from emergency calls from the Valencian Region (Spain) spanning from 2009 to 2019. Hence, this thesis delves into designing and developing Deep Multitask Learning models that leverage multimodal out-of-hospital emergency medical data. Our primary objective was to predict whether the incident posed a life-threatening situation, the admissible response delay, and whether it fell under the jurisdiction of the emergency system or primary care. Using data available from 2009 to 2012, the results obtained were promising. We observed substantial improvements in macro F1-scores, with gains of 12.5% for life-threatening classification, 17.5% for response delay, and 5.1% for jurisdiction classification, compared to the in-house triage protocol of the Valencian Region. However, systems, dispatch protocols, and operational practices naturally evolve over time. Models that exhibited excellent performance with the initial dataset from 2009 to 2012 did not demonstrate the same efficacy when evaluated on data spanning from 2014 to 2019. This later dataset had undergone modifications compared to the earlier one, which led to dataset shifts, which we have meticulously characterized and investigated in this thesis. Continuing our research, we incorporated Deep Continual Learning techniques in our developments. As a result, we could substantially mitigate the adverse performance effects consequence of dataset shifts. The results indicate that, while performance fluctuations are not completely eliminated, they can be kept within a manageable range. In particular, with respect to the F1-score, when distributional variations fall within the light to moderate range, the performance remains stable, not varying by more than 2.5%. Furthermore, our thesis demonstrates the feasibility of building auxiliary tools that enable dispatchers to interact with these complex deep models. Consequently, without disrupting professionals' workflow, it becomes possible to provide feedback through probability predictions for each severity label class and take appropriate actions based on these predictions. Finally, the outcomes of this thesis hold direct implications for the management of out-of-hospital emergency medical incidents in the Valencian Region. The final model resulting from our research is slated for integration into the emergency medical dispatch centers of the Valencian Region. This model will utilize data provided by dispatchers to automatically compute severity predictions, which will then be compared with those generated by the in-house triage protocol. Any disparities between these predictions will trigger the referral of the incident to a physician coordinator, who will oversee its handling. Therefore, it is evident that our thesis, in addition to making significant contributions to the field of Biomedical Machine Learning Research, also carries substantial implications for enhancing the management of out-of-hospital emergencies in the context of the Valencian Region. / Ferri Borredà, P. (2024). Deep Continual Multimodal Multitask Models for Out-of-Hospital Emergency Medical Call Incidents Triage Support in the Presence of Dataset Shifts [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203192
128

Estimación del comportamiento biomecánico del hígado y la mama in vivo utilizando algoritmos avanzados.

Martínez Sanchís, Sandra 01 July 2024 (has links)
[ES] El objetivo principal de este trabajo es la estimación de las constantes elásticas de modelos constitutivos que gobiernan el comportamiento biomecánico de órganos como el hígado y la mama, in vivo y para paciente específico. Para ello, se han definido dos tipos de metodologías, las cuales se diferencian por el tipo de algoritmo empleado: algoritmos genéticos (método 1) y algoritmos de aprendizaje automático (método 2). A lo largo del presente trabajo se definen ambas metodologías desde su fase inicial, la obtención de las imágenes médicas necesarias, hasta su fase final, la definición del comportamiento biomecánico del órgano. Estas metodologías pueden ser aplicadas en cualquier órgano, independientemente de su localización (por ejemplo en un órgano interno como el hígado u órgano externo como la mama), así como de su composición (órgano compuesto de un único tipo de tejido u órgano multitejido). En ambos casos, los resultados han sido satisfactorios con una precisión aceptable para su uso en el ámbito médico. Además, el método 2 puede ser aplicado en tiempo real. / [CA] L'objectiu principal d'este treball és l'estimació de les constants elàstiques de models constitutius que governen el comportament biomecànic d'òrgans com el fetge i la mama, in vivo i per a pacient específic. Per a això, s'han definit dos tipus de metodologies, les quals es diferencien pel tipus d'algorisme emprat: algorismes genètics (mètode 1) i algorismes d'aprenentatge automàtic (mètode 2). Al llarg del present treball es definixen dues metodologies des de la seua fase inicial, l'obtenció de les imatges mèdiques necessàries, fins a la seua fase final, la definició del comportament biomecànic de l'òrgan. Estes metodologies poden ser aplicades en qualsevol òrgan, independentment de la seua localització (per exemple en un òrgan intern com el fetge o òrgan extern com la mama), així com de la seua composició (òrgan compost d'un únic tipus de teixit o òrgan multiteixit). En dues casos, els resultats han sigut satisfactoris amb una precisió acceptable per al seu ús en l'àmbit mèdic. A més, el mètode 2 pot ser aplicat en temps real. / [EN] The main objective of this work is the estimation of the elastic constants of constitutive models that govern the biomechanical behavior of organs such as the liver and breast, in vivo and for a specific patient. To this end, two types of methodologies have been defined, which are differentiated by the type of algorithm used: genetic algorithms (method 1) and machine learning (method 2). Throughout this work, both methodologies are defined from its initial phase, obtaining the necessary medical images, to its final phase, the definition of the biomechanical behavior of the organ. These methodologies can be applied to any organ, regardless of its location (for example in an internal organ such as the liver or an external organ such as the breast), as well as its composition (organ composed of a single type of tissue or multi-tissue organ). In both cases, the results have been satisfactory with acceptable precision for use in the medical field. Furthermore, method 2 can be applied in real time. / Martínez Sanchís, S. (2024). Estimación del comportamiento biomecánico del hígado y la mama in vivo utilizando algoritmos avanzados [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/206019
129

Breast medical images classification through the application of deep learning processing technologies

Jiménez Gaona, Yuliana del Cisne 02 September 2024 (has links)
Tesis por compendio / [ES] El cáncer de mama es una de las principales causas de muerte en mujeres de todo el mundo. Supone el 18.2% de las muertes por cáncer en la mujer y la primera causa de muerte en mujeres entre 40 y 55 años según la Sociedad Española de Senología y Patología Mamaria (SESPM). Una forma eficiente de disminuir este porcentaje es diagnosticarlo de forma temprana mediante exámenes de rayos x (Mamografía, Tomografía por emisión de positrones, Imagen de resonancia magnética, Tomografía computarizada), Ultrasonido, Tomosíntesis, Histopatología y Termografía. En la actualidad dentro del campo de la radiómica estos datos clínicos están siendo procesados con el uso de algoritmos de inteligencia artificial, especialmente para el preprocesamiento, segmentación y clasificación de lesiones malignas o benignas presentes en las imágenes médicas. Además, el desarrollo de estos sistemas computacionales asistidos para diagnóstico y detección temprana de anomalías presentes en la mama, ayudan al médico con una segunda opinión al diagnóstico manual tradicional. En consecuencia, el objetivo de este estudio es construir modelos de aprendizaje profundo y automático para la detección, segmentación y clasificación de lesiones mamarias en imágenes de mamografía y ultrasonido. Los hallazgos de este estudio brindan diversas herramientas de aumento de datos, super resolución, segmentación y clasificación automática de imágenes de mama para mejorar la precisión en los algoritmos de clasificación de lesiones mamarias. / [CA] El càncer de mama és una de les principals causes de mort en dones de tot el món. La mortalitat relacionada amb esta mena de càncer és més alta en comparación amb altres tipus de càncer. Una forma eficient de disminuir este percentatge és diagnosticar-lo de manera primerenca mitjançant exàmens de raigs x (Mamografia, Tomografía per emissió de positrons, Imatge de ressonància magnètica, Tomografia computada), Ultrasò, Tomosíntesi, Histopatologia i Termografia. En la actualidad dins del camp de la radiómica estes dades clíniques estan sent processados amb l'ús d'algorismes d'intel·ligència artificial, especialment per al preprocesamiento, segmentació i classificació de lesions malignes o benignes presents en les imatges mèdiques. A més, el desenvolupament d'estos sistemes computacionals asistidos per a diagnòstic i detecció precoç d'anomalies presents en la mama, ajuden al metge amb una segona opinió al diagnòstic manual tradicional. En conseqüència, l'objectiu d'este estudi és construir models d'aprenentatge profundo i automàtic per a la detecció, segmentació i classificació de lesions mamàries en imatges de mamografia i ultrasò. Les troballes d'este estudi brinden vaig donar-verses ferramentes d'augment de dades, super resolució, segmentació i classificación automàtica d'imatges de mama per a millorar la precisió en els algorismes de classificació de lesions mamàries. / [EN] Breast cancer is one of the most common causes of death in women worldwide. It accounts for 18.2% of cancer deaths in women and is the leading cause of death in women between 40 and 55 years of age, according to the Spanish Society of Senology and Breast Pathology (SESPM). An effective way to reduce this rate is through early diagnosis using radiological imaging (mammography, positron emission tomography, magnetic resonance imaging, computed tomography), Ultrasound, Tomosynthesis, Histopathology and Thermography. Currently, the field of radiomics is processing these clinical data using artificial intelligence algorithms, for pre-processing, segmentation, and classification of malignant or benign lesions present in medical images. In addition, the development of these computer-aided systems for diagnosis and early detection of breast abnormalities helps the radiologists with a second opinion to the traditional manual diagnosis. Therefore, the aim of this study is to build deep and machine learning models for the detection, segmentation, and classification of breast lesions in mammography and ultrasound images. The results of this study provide several tools for data augmentation, super-resolution, segmentation, and automatic classification of breast images to improve the accuracy of breast lesion classification algorithms. / This research project was co-funded by the Spanish Government Grant PID2019-107790RB-C22, which aimed to develop software for a continuous PET crystal system to be applied in breast cancer treatment. / Jiménez Gaona, YDC. (2024). Breast medical images classification through the application of deep learning processing technologies [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/208435 / Compendio
130

Robustness of Machine Learning algorithms applied to gas turbines / Robusthet av maskininlärningsalgoritmer i gasturbiner

Cardenas Meza, Andres Felipe January 2024 (has links)
This thesis demonstrates the successful development of a software sensor for Siemens Energy's SGT-700 gas turbines using machine learning algorithms. Our goal was to enhance the robustness of measurements and redundancies, enabling early detection of sensor or turbine malfunctions and contributing to predictive maintenance methodologies. The research is based on a real-world case study, implementing the Cross Industry Standard Process for Data Mining (CRISP DM) methodology in an industrial setting. The thesis details the process from dataset preparation and data exploration to algorithm development and evaluation, providing a comprehensive view of the development process. This work is a step towards integrating machine learning into gas turbine systems. The data preparation process highlights the challenges that arise in the industrial application of data-driven methodologies due to inevitable data quality issues. It provides insight into potential future improvements, such as the constraint programming approach used for dataset construction in this thesis, which remains a valuable tool for future research. The range of algorithms proposed for the software sensor's development spans from basic to more complex methods, including shallow networks, ensemble methods and recurrent neural networks. Our findings explore the limitations and potential of the proposed algorithms, providing valuable insights into the practical application of machine learning in gas turbines. This includes assessing the reliability of these solutions, their role in monitoring machine health over time, and the importance of clean, usable data in driving accurate and satisfactory estimates of different variables in gas turbines. The research underscores that, while replacing a physical sensor with a software sensor is not yet feasible, integrating these solutions into gas turbine systems for health monitoring is indeed possible. This work lays the groundwork for future advancements and discoveries in the field. / Denna avhandling dokumenterar den framgångsrika utvecklingen av en mjukvarusensor för Siemens Energy's SGT-700 gasturbiner med hjälp av maskininlärningsalgoritmer. Vårt mål var att öka mätkvaliten samt införa redundans, vilket möjliggör tidig upptäckt av sensor- eller turbinfel och bidrar till utvecklingen av prediktiv underhållsmetodik. Forskningen baseras på en verklig fallstudie, implementerad enligt Cross Industry Standard Process for Data Mining-metodiken i en industriell miljö. Avhandligen beskriver processen från datamängdsförberedelse och datautforskning till utveckling och utvärdering av algoritmer, vilket ger en heltäckande bild av utvecklingsprocessen. Detta arbete är ett steg mot att integrera maskininlärning i gasturbinssystem. Dataförberedelsesprocessen belyser de utmaningar som uppstår vid industriell tillämpning av datadrivna metoder på grund av oundvikliga datakvalitetsproblem. Det ger insikt i potentiella framtida förbättringar, såsom den begränsningsprogrammeringsansats som används för datamängdskonstruktion i denna avhandling, vilket förblir ett värdefullt verktyg för framtida forskning. Utvecklingen av mjukvarusensorn sträcker sig från grundläggande till mer komplexa metoder, inklusive ytliga nätverk, ensemblemetoder och återkommande neurala nätverk. Våra resultat utforskar begränsningarna och potentialen hos de föreslagna algoritmerna och ger värdefulla insikter i den praktiska tillämpningen av maskininlärning i gasturbiner. Detta inkluderar att bedöma tillförlitligheten hos dessa lösningar, deras roll i övervakning av maskinhälsa över tid och vikten av ren, användbar data för att generera korrekta och tillfredsställande uppskattningar av olika variabler i gasturbiner. Forskningen understryker att, medan det ännu inte är genomförbart att ersätta en fysisk sensor med en mjukvarusensor, är det verkligen möjligt att integrera dessa lösningar i gasturbinssystem för tillståndsövervakning. Detta arbete lägger grunden för vidare studier och upptäckter inom området. / Esta tesis demuestra el exitoso desarrollo de un sensor basado en software para las turbinas de gas SGT-700 de Siemens Energy utilizando algoritmos de aprendizaje automático. Esto con el objetivo de contribuir a las metodologías de mantenimiento predictivo. La investigación se basa en un estudio industrial que implementa la metodología de Proceso Estándar de la Industria para la Minería de Datos, cuyo acrónimo en inglés CRISP-DM. La tesis detalla el proceso desde la preparación del 'dataset', la exploración de datos hasta el desarrollo y evaluación de algoritmos, proporcionando una visión holistica del proceso de desarrollo. Este trabajo representa un paso hacia la integración del aprendizaje automático en turbinas de gas. Nuestros hallazgos exploran las limitaciones y el potencial de los algoritmos propuestos, proporcionando un analisis sobre la aplicación práctica del aprendizaje automático en turbinas de gas. Esto incluye evaluar la confiabilidad de estas soluciones, su papel en la monitorización de la salud de la máquina a lo largo del tiempo, y la importancia de los datos limpios y utilizables para impulsar estimaciones precisas y satisfactorias de diferentes variables en las turbinas de gas. La investigación sugiere que, aunque reemplazar un sensor físico con un sensor basado en aprendizaje automatico aún no es factible, sí es posible integrar estas soluciones en los sistemas de turbinas de gas para monitorear del estado de la maquina.

Page generated in 0.0596 seconds