Global ETD Search

41	Desarrollo de técnicas avanzadas de seguimiento de posturas para reconocimiento de comportamientos de C. elegans Layana Castro, Pablo Emmanuel 26 October 2023 (has links) Tesis por compendio / [ES] El objetivo principal de esta tesis es el desarrollo de técnicas avanzadas de seguimiento de posturas para reconocimiento de comportamientos del Caenorhabditis elegans o C. elegans. El C. elegans es una clase de nematodo utilizado como organismo modelo para el estudio y tratamientos de diferentes enfermedades patológicas así como neurodegenerativas. Su comportamiento ofrece información valiosa para la investigación de nuevos fármacos (o productos alimenticios y cosméticos saludables) en el estudio de lifespan y healthspan. Al día de hoy, muchos de los ensayos con C. elegans se realizan de forma manual, es decir, usando microscopios para seguirlos y observar sus comportamientos o en laboratorios más modernos utilizando programas específicos. Estos programas no son totalmente automáticos, requieren ajuste de parámetros. Y en otros casos, son programas para visualización de imágenes donde el operador debe etiquetar maualmente el comportamiento de cada C. elegans. Todo esto se traduce a muchas horas de trabajo, lo cual se puede automatizar utilizando técnicas de visión por computador. Además de poder estimar indicadores de movilidad con mayor precisión que un operador humano. El problema principal en el seguimiento de posturas de C. elegans en placas de Petri son las agregaciones entre nematodos o con ruido del entorno. La pérdida o cambios de identidad son muy comunes ya sea de forma manual o usando programas automáticos/semi-automáticos. Y este problema se vuelve más complicado aún en imágenes de baja resolución. Los programas que automatizan estas tareas de seguimiento de posturas trabajan con técnicas de visión por computador usando técnicas tradicionales de procesamiento de imágenes o técnicas de aprendizaje profundo. Ambas técnicas han demostrado excelentes resultados en la detección y seguimiento de posturas de C. elegan}. Por un lado, técnicas tradicionales utilizan algoritmos/optimizadores para obtener la mejor solución, mientras que las técnicas de aprendizaje profundo aprenden de forma automática características del conjunto de datos de entrenamiento. El problema con las técnicas de aprendizaje profundo es que necesitan un conjunto de datos dedicado y grande para entrenar los modelos. La metodología utilizada para el desarrollo de esta tesis (técnicas avanzadas de seguimiento de posturas) se encuadran dentro del área de investigación de la visión artificial. Y ha sido abordada explorando ambas ramas de visión por computador para resolver los problemas de seguimiento de posturas de C. elegans en imágenes de baja resolución. La primera parte, es decir, secciones 1 y 2, capítulo 2, utilizó técnicas tradicionales de procesamiento de imágenes para realizar la detección y seguimiento de posturas de los C. elegans. Para ello se propuso una nueva técnica de esqueletización y dos nuevos criterios de evaluación para obtener mejores resultados de seguimiento, detección, y segmentación de posturas. Las siguientes secciones del capítulo 2 utilizan técnicas de aprendizaje profundo, y simulación de imágenes sintéticas para entrenar modelos y mejorar los resultados de detección y predicción de posturas. Los resultados demostraron ser más rápidos y más precisos en comparación con técnicas tradicionales. También se demostró que los métodos de aprendizaje profundo son más robustos ante la presencia de ruido en la placa. / [CA] L'objectiu principal d'aquesta tesi és el desenvolupament de tècniques avançades de seguiment de postures per a reconeixement de comportaments del Caenorhabditis elegans o C. elegans. El C. elegans és una classe de nematodo utilitzat com a organisme model per a l'estudi i tractaments de diferents malalties patològiques així com neurodegeneratives. El seu comportament ofereix informació valuosa per a la investigació de nous fàrmacs (o productes alimentosos i cosmètics saludables) en l'estudi de lifespan i healthspan. Al dia de hui, molts dels assajos amb C. elegans es realitzen de manera manual, és a dir, usant microscopis per a seguir-los i observar els seus comportaments o en laboratoris més moderns utilitzant programes específics. Aquests programes no són totalment automàtics, requereixen ajust de paràmetres. I en altres casos, són programes per a visualització d'imatges on l'operador ha d'etiquetar maualment el comportament de cada C. elegans. Tot això es tradueix a moltes hores de treball, la qual cosa es pot automatitzar utilitzant tècniques de visió per computador. A més de poder estimar indicadors de mobilitat amb major precisió que un operador humà. El problema principal en el seguiment de postures de C. elegans en plaques de Petri són les agregacions entre nematodes o amb soroll de l'entorn. La pèrdua o canvis d'identitat són molt comuns ja siga de manera manual o usant programes automàtics/semi-automàtics. I aquest problema es torna més complicat encara en imatges de baixa resolució. Els programes que automatitzen aquestes tasques de seguiment de postures treballen amb tècniques de visió per computador usant tècniques tradicionals de processament d'imatges o tècniques d'aprenentatge profund. Totes dues tècniques han demostrat excel·lents resultats en la detecció i seguiment de postures de C. elegans. D'una banda, tècniques tradicionals utilitzen algorismes/optimizadors per a obtindre la millor solució, mentre que les tècniques d'aprenentatge profund aprenen de manera automàtica característiques del conjunt de dades d'entrenament. El problema amb les tècniques d'aprenentatge profund és que necessiten un conjunt de dades dedicat i gran per a entrenar els models. La metodologia utilitzada per al desenvolupament d'aquesta tesi (tècniques avançades de seguiment de postures) s'enquadren dins de l'àrea d'investigació de la visió artificial. I ha sigut abordada explorant totes dues branques de visió per computador per a resoldre els problemes de seguiment de postures de C. elegans en imatges de baixa resolució. La primera part, és a dir, secció 1 i 2, capítol 2, va utilitzar tècniques tradicionals de processament d'imatges per a realitzar la detecció i seguiment de postures dels C. elegans. Per a això es va proposar una nova tècnica de esqueletizació i dos nous criteris d'avaluació per a obtindre millors resultats de seguiment, detecció i segmentació de postures. Les següents seccions del capítol 2 utilitzen tècniques d'aprenentatge profund i simulació d'imatges sintètiques per a entrenar models i millorar els resultats de detecció i predicció de postures. Els resultats van demostrar ser més ràpids i més precisos en comparació amb tècniques tradicionals. També es va demostrar que els mètodes d'aprenentatge profund són més robustos davant la presència de soroll en la placa. / [EN] The main objective of this thesis is the development of advanced posture-tracking techniques for behavioural recognition of Caenorhabditis elegans or C. elegans. C. elegans is a kind of nematode used as a model organism for the study and treatment of different pathological and neurodegenerative diseases. Their behaviour provides valuable information for the research of new drugs (or healthy food and cosmetic products) in the study of lifespan and healthspan. Today, many of the tests on C. elegans are performed manually, i.e. using microscopes to track them and observe their behaviour, or in more modern laboratories using specific software. These programmes are not fully automatic, requiring parameter adjustment. And in other cases, they are programmes for image visualisation where the operator must label the behaviour of each C. elegans manually. All this translates into many hours of work, which can be automated using computer vision techniques. In addition to being able to estimate mobility indicators more accurately than a human operator. The main problem in tracking C. elegans postures in Petri dishes is aggregations between nematodes or with noise from the environment. Loss or changes of identity are very common either manually or using automatic/semi-automatic programs. And this problem becomes even more complicated in low-resolution images. Programs that automate these pose-tracking tasks work with computer vision techniques using either traditional image processing techniques or deep learning techniques. Both techniques have shown excellent results in the detection and tracking of C. elegans postures. On the one hand, traditional techniques use algorithms/optimizers to obtain the best solution, while deep learning techniques automatically learn features from the training dataset. The problem with deep learning techniques is that they need a dedicated and large dataset to train the models. The methodology used for the development of this thesis (advanced posture-tracking techniques) falls within the research area of computer vision. It has been approached by exploring both branches of computer vision to solve the posture-tracking problems of C. elegans in low-resolution images. The first part, i.e. sections 1 and 2, chapter 2, used traditional image processing techniques to perform posture detection and tracking of C. elegans. For this purpose, a new skeletonization technique and two new evaluation criteria were proposed to obtain better posture-tracking, detection, and segmentation results. The next sections of chapter 2 use deep learning techniques, and synthetic image simulation to train models and improve posture detection and prediction results. The results proved to be faster and more accurate compared to traditional techniques. Deep learning methods were also shown to be more robust in the presence of plate noise. / This research was supported by Ministerio de Ciencia, Innovación y Universidades [RTI2018-094312-B-I00 (European FEDER funds); FPI PRE2019-088214], and also was supported by Universitat Politècnica de València [“Funding for open access charge: Uni- versitat Politècnica de València”]. The author received a scholarship from the grant: Ayudas para contratos predoctorales para la formación de doctores 2019. / Layana Castro, PE. (2023). Desarrollo de técnicas avanzadas de seguimiento de posturas para reconocimiento de comportamientos de C. elegans [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/198879 / Compendio Caenorhabditis elegans C. elegans Lifespan Healthspan Image processing Traditional techniques Deep learning Detection Skeletonization Multi-tracker Low-resolution images Behavioural simulator Synthetic images. Imágenes sintéticas Simulador de comportamiento Imágenes de baja resolución Esqueletización Detección Aprendizaje profundo Técnicas tradicionales Procesamiento de imágenes Esperanza de vida Esperanza de vida saludable INGENIERIA DE SISTEMAS Y AUTOMATICA
42	Aprendizaje profundo y biomarcadores de imagen en el estudio de enfermedades metabólicas y hepáticas a partir de resonancia magnética y tomografía computarizada Jimenez Pastor, Ana Maria 05 February 2024 (has links) [ES] El síndrome metabólico se define como un conjunto de trastornos (e.g., niveles elevados de presión arterial, niveles elevados de glucosa en sangre, exceso de grasa abdominal o niveles elevados de colesterol o triglicéridos) que afectan a un individuo al mismo tiempo. La presencia de uno de estos factores no implica un riesgo elevado para la salud, sin embargo, presentar varios de ellos aumenta la probabilidad de sufrir enfermedades secundarias como la enfermedad cardiovascular o la diabetes tipo II. Las enfermedades difusas hepáticas son todas aquellas enfermedades que afectan a las células funcionales del hígado, los hepatocitos, alterando, de este modo, la función hepática. En estos procesos, los hepatocitos se ven sustituidos por adipocitos y tejido fibroso. La enfermedad de hígado graso no alcohólico es una afección reversible originada por la acumulación de triglicéridos en los hepatocitos. El alcoholismo, la obesidad, y la diabetes son las causas más comunes de esta enfermedad. Este estado del hígado es reversible si se cambia la dieta del paciente, sin embargo, si este no se cuida, la enfermedad puede ir avanzando hacia estadios más severos, desencadenando fibrosis, cirrosis e incluso carcinoma hepatocelular (CHC). La temprana detección de todos estos procesos es de gran importancia en la mejora del pronóstico de los pacientes. Así, las técnicas de imagen en combinación con modelos computacionales permiten caracterizar el tejido mediante la extracción de parámetros objetivos, conocidos como biomarcadores de imagen, relacionados con estos procesos fisiológicos y patológicos, permitiendo una estadificación más precisa de las enfermedades. Además, gracias a las técnicas de inteligencia artificial, se pueden desarrollar algoritmos de segmentación automática que permitan realizar dicha caracterización de manera completamente automática y acelerar, de este modo, el flujo radiológico. Por todo esto, en la presente tesis doctoral, se presenta una metodología para el desarrollo de modelos de segmentación y cuantificación automática, siendo aplicada a tres casos de uso. Para el estudio del síndrome metabólico se propone un método de segmentación automática de la grasa visceral y subcutánea en imágenes de tomografía computarizada (TC), para el estudio de la enfermedad hepática difusa se propone un método de segmentación hepática y cuantificación de la grasa y hierro hepáticos en imágenes de resonancia magnética (RM), y, finalmente, para el estudio del CHC, se propone un método de segmentación hepática y cuantificación de los descriptores de la curva de perfusión en imágenes de RM. Todo esto se ha integrado en una plataforma que permite su integración en la práctica clínica. Así, se han adaptado los algoritmos desarrollados para ser ejecutados en contenedores Docker de forma que, dada una imagen de entrada, generen los parámetros cuantitativos de salida junto con un informe que resuma dichos resultados; se han implementado herramientas para que los usuarios puedan interactuar con las segmentaciones generadas por los algoritmos de segmentación automática desarrollados; finalmente, éstos se han implementado de forma que generen dichas segmentaciones en formatos estándar como DICOM RT Struct o DICOM Seg, para garantizar la interoperabilidad con el resto de sistemas sanitarios. / [CA] La síndrome metabòlica es defineix com un conjunt de trastorns (e.g., nivells elevats de pressió arterial, nivells elevats de glucosa en sang, excés de greix abdominal o nivells elevats de colesterol o triglicèrids) que afecten un individu al mateix temps. La presència d'un d'aquests factors no implica un risc elevat per a la salut, no obstant això, presentar diversos d'ells augmenta la probabilitat de patir malalties secundàries com la malaltia cardiovascular o la diabetis tipus II. Les malalties difuses hepàtiques són totes aquelles malalties que afecten les cèl·lules funcionals del fetge, els hepatòcits, alterant, d'aquesta manera, la funció hepàtica. En aquests processos, els hepatòcits es veuen substituïts per adipòcits i teixit fibrós. La malaltia de fetge gras no alcohòlic és una afecció reversible originada per l'acumulació de triglicèrids en els hepatòcits. L'alcoholisme, l'obesitat, i la diabetis són les causes més comunes d'aquesta malaltia. Aquest estat del fetge és reversible si es canvia la dieta del pacient, no obstant això, si aquest no es cuida, la malaltia pot anar avançant cap a estadis més severs, desencadenant fibrosis, cirrosis i fins i tot carcinoma hepatocel·lular (CHC). La primerenca detecció de tots aquests processos és de gran importància en la millora del pronòstic dels pacients. Així, les tècniques d'imatge en combinació amb models computacionals permeten caracteritzar el teixit mitjançant l'extracció paràmetres objectius, coneguts com biomarcadores d'imatge, relacionats amb aquests processos fisiològics i patològics, permetent una estratificació més precisa de les malalties. A més, gràcies a les tècniques d'intel·ligència artificial, es poden desenvolupar algorismes de segmentació automàtica que permeten realitzar aquesta caracterització de manera completament automàtica i accelerar, d'aquesta manera, el flux radiològic. Per tot això, en la present tesi doctoral, es presenta una metodologia per al desenvolupament de models de segmentació i quantificació automàtica, sent aplicada a tres casos d'ús. Per a l'estudi de la síndrome metabòlica es proposa un mètode de segmentació automàtica del greix visceral i subcutani en imatges de tomografia computada (TC), per a l'estudi de la malaltia hepàtica difusa es proposa un mètode segmentació hepàtica i quantificació del greix i ferro hepàtics en imatges de ressonància magnètica (RM), i, finalment, per a l'estudi del CHC, es proposa un mètode de segmentació hepàtica i quantificació dels descriptors de la corba de perfusió en imatges de RM. Tot això s'ha integrat en una plataforma que permet la seua integració en la pràctica clínica. Així, s'han adaptat els algorismes desenvolupats per a ser executats en contenidors Docker de manera que, donada una imatge d'entrada, generen els paràmetres quantitatius d'eixida juntament amb un informe que resumisca aquests resultats; s'han implementat eines perquè els usuaris puguen interactuar amb les segmentacions generades pels algorismes de segmentació automàtica desenvolupats; finalment, aquests s'han implementat de manera que generen aquestes segmentacions en formats estàndard com DICOM RT Struct o DICOM Seg, per a garantir la interoperabilitat amb la resta de sistemes sanitaris. / [EN] Metabolic syndrome is defined as a group of disorders (e.g., high blood pressure, high blood glucose levels, excess abdominal fat, or high cholesterol or triglyceride levels) that affect an individual at the same time. The presence of one of these factors does not imply an elevated health risk; however, having several of them increases the probability of secondary diseases such as cardiovascular disease or type II diabetes. Diffuse liver diseases are all those diseases that affect the functional cells of the liver, the hepatocytes, thus altering liver function. In these processes, the hepatocytes are replaced by adipocytes and fibrous tissue. Non-alcoholic fatty liver disease is a reversible condition caused by the accumulation of triglycerides in hepatocytes. Alcoholism, obesity, and diabetes are the most common causes of this disease. This liver condition is reversible if the patient's diet is changed; however, if the patient is not cared for, the disease can progress to more severe stages, triggering fibrosis, cirrhosis and even hepatocellular carcinoma (HCC). Early detection of all these processes is of great importance in improving patient prognosis. Thus, imaging techniques in combination with computational models allow tissue characterization by extracting objective parameters, known as imaging biomarkers, related to these physiological and pathological processes, allowing a more accurate statification of diseases. Moreover, thanks to artificial intelligence techniques, it is possible to develop automatic segmentation algorithms that allow to perform such characterization in a fully automatic way and thus accelerate the radiological workflow. Therefore, in this PhD, a methodology for the development of automatic segmentation and quantification models is presented and applied to three use cases. For the study of metabolic syndrome, a method of automatic segmentation of visceral and subcutaneous fat in computed tomography (CT) images is proposed; for the study of diffuse liver disease, a method of liver segmentation and quantification of hepatic fat and iron in magnetic resonance imaging (MRI) is proposed; and, finally, for the study of HCC, a method of liver segmentation and quantification of perfusion curve descriptors in MRI is proposed. All this has been integrated into a platform that allows its integration into clinical practice. Thus, the developed algorithms have been adapted to be executed in Docker containers so that, given an input image, they generate the quantitative output parameters together with a report summarizing these results; tools have been implemented so that users can interact with the segmentations generated by the automatic segmentation algorithms developed; finally, these have been implemented so that they generate these segmentations in standard formats such as DICOM RT Struct or DICOM Seg, to ensure interoperability with other health systems. / Jimenez Pastor, AM. (2023). Aprendizaje profundo y biomarcadores de imagen en el estudio de enfermedades metabólicas y hepáticas a partir de resonancia magnética y tomografía computarizada [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/202602 Automatic segmentation Metabolism Diffuse liver disease Clinical decision support system Convolutional neural networks Deep learning Radiology Image biomarkers Medical imaging Imagen médica Biomarcador de imagen Radiología Aprendizaje profundo Redes neuronales convolucionales Sistema de apoyo a la decisión clínica Enfermedad difusa hepática Metabolismo Inteligencia artificial Segmentación automática TEORÍA DE LA SEÑAL Y COMUNICACIONES
43	Deep Continual Multimodal Multitask Models for Out-of-Hospital Emergency Medical Call Incidents Triage Support in the Presence of Dataset Shifts Ferri Borredà, Pablo 28 March 2024 (has links) [ES] El triaje de los incidentes de urgencias y emergencias extrahospitalarias representa un reto difícil, debido a las limitaciones temporales y a la incertidumbre. Además, errores en este proceso pueden tener graves consecuencias para los pacientes. Por lo tanto, cualquier herramienta o estrategia novedosa que mejore estos procesos ofrece un valor sustancial en términos de atención al paciente y gestión global de los incidentes. La hipótesis en la que se basa esta tesis es que el Aprendizaje Automático, concretamente el Aprendizaje Profundo, puede mejorar estos procesos proporcionando estimaciones de la gravedad de los incidentes, mediante el análisis de millones de datos derivados de llamadas de emergencia de la Comunitat Valenciana (España) que abarcan desde 2009 hasta 2019. Por tanto, esta tesis profundiza en el diseño y desarrollo de modelos basados en Aprendizaje Profundo Multitarea que aprovechan los datos multimodales asociados a eventos de urgencias y emergencias extrahospitalarias. Nuestro objetivo principal era predecir si el incidente suponía una situación de riesgo vital, la demora admisible de la respuesta y si era competencia del sistema de emergencias o de atención primaria. Utilizando datos disponibles entre 2009 y 2012, se observaron mejoras sustanciales en las métricas macro F1, con ganancias del 12.5% para la clasificación de riesgo vital, del 17.5% para la demora en la respuesta y del 5.1% para la clasificación por jurisdicción, en comparación con el protocolo interno de triaje de la Comunidad Valenciana. Sin embargo, los sistemas, los protocolos de triaje y las prácticas operativas evolucionan de forma natural con el tiempo. Los modelos que mostraron un rendimiento excelente con el conjunto de datos inicial de 2009 a 2012 no demostraron la misma eficacia cuando se evaluaron con datos posteriores que abarcaban de 2014 a 2019. Estos últimos habían sufrido modificaciones en comparación con los anteriores, que dieron lugar a variaciones en las distribuciones de probabilidad, caracterizadas e investigadas meticulosamente en esta tesis. Continuando con nuestra investigación, nos centramos en la incorporación de técnicas de Aprendizaje Continuo Profundo en nuestros desarrollos. Gracias a ello, pudimos mitigar sustancialmente los efectos adversos consecuencia de los cambios distribucionales sobre el rendimiento. Los resultados indican que, si bien las fluctuaciones de rendimiento no se eliminan por completo, pueden mantenerse dentro de un rango manejable. En particular, con respecto a la métrica F1, cuando las variaciones distribucionales son ligeras o moderadas, el comportamiento se mantiene estable, sin variar más de un 2.5%. Además, nuestra tesis demuestra la viabilidad de construir herramientas auxiliares que permitan a los operadores interactuar con estos complejos modelos. En consecuencia, sin interrumpir el flujo de trabajo de los profesionales, se hace posible proporcionar retroalimentación mediante predicciones de probabilidad para cada clase de etiqueta de gravedad y tomar las medidas pertinentes. Por último, los resultados de esta tesis tienen implicaciones directas en la gestión de las urgencias y emergencias extrahospitalarias en la Comunidad Valenciana, al integrarse el modelo final resultante en los centros de atención de llamadas. Este modelo utilizará los datos proporcionados por los operadores telefónicos para calcular automáticamente las predicciones de gravedad, que luego se compararán con las generadas por el protocolo de triaje interno. Cualquier disparidad entre estas predicciones desencadenará la derivación del incidente a un coordinador médico, que supervisará su tratamiento. Por lo tanto, nuestra tesis, además de realizar importantes contribuciones al campo de la Investigación en Aprendizaje Automático Biomédico, también conlleva implicaciones sustanciales para mejorar la gestión de las urgencias y emergencias extrahospitalarias en el contexto de la Comunidad Valenciana. / [CA] El triatge dels incidents d'urgències i emergències extrahospitalàries representa un repte difícil, a causa de les limitacions temporals i de la incertesa. A més, els errors en aquest procés poden tindre greus conseqüències per als pacients. Per tant, qualsevol eina o estratègia innovadora que millore aquests processos ofereix un valor substancial en termes d'atenció al pacient i gestió global dels incidents. La hipòtesi en què es basa aquesta tesi és que l'Aprenentatge Automàtic, concretament l'Aprenentatge Profund, pot millorar significativament aquests processos proporcionant estimacions de la gravetat dels incidents, mitjançant l'anàlisi de milions de dades derivades de trucades d'emergència de la Comunitat Valenciana (Espanya) que abasten des de 2009 fins a 2019. Per tant, aquesta tesi aprofundeix en el disseny i desenvolupament de models basats en Aprenentatge Profund Multitasca que aprofiten dades multimodals d'incidents mèdics d'urgències i emergències extrahospitalàries. El nostre objectiu principal era predir si l'incident suposava una situació de risc vital, la demora admissible de la resposta i si era competència del sistema d'emergències o d'atenció primària. Utilitzant dades disponibles entre 2009 i 2012, es van observar millores substancials en les mètriques macro F1, amb guanys del 12.5% per a la classificació de risc vital, del 17.5% per a la demora en la resposta i del 5.1% per a la classificació per jurisdicció, en comparació amb el protocol intern de triatge de la Comunitat Valenciana. Tanmateix, els protocols de triatge i les pràctiques operatives evolucionen de forma natural amb el temps. Els models que van mostrar un rendiment excel·lent amb el conjunt de dades inicial de 2009 a 2012 no van demostrar la mateixa eficàcia quan es van avaluar amb dades posteriors que abastaven de 2014 a 2019. Aquestes últimes havien sofert modificacions en comparació amb les anteriors, que van donar lloc a variacions en les distribucions de probabilitat, caracteritzades i investigades minuciosament en aquesta tesi. Continuant amb la nostra investigació, ens vam centrar en la incorporació de tècniques d'Aprenentatge Continu als nostres desenvolupaments. Gràcies a això, vam poder mitigar substancialment els efectes adversos sobre el rendiment conseqüència dels canvis distribucionals. Els resultats indiquen que, si bé les fluctuacions de rendiment no s'eliminen completament al llarg del temps, poden mantenir-se dins d'un rang manejable. En particular, respecte a la mètrica F1, quan les variacions distribucionals són lleugeres o moderades, el comportament es manté estable, sense variar més d'un 2.5%. A més, la nostra tesi demostra la viabilitat de construir eines auxiliars que permeten als operadors interactuar amb aquests models complexos. En conseqüència, sense interrompre el flux de treball dels professionals, es fa possible proporcionar retroalimentació mitjançant prediccions de probabilitat per a cada classe d'etiqueta de gravetat i prendre les mesures pertinents. Finalment, els resultats d'aquesta tesi tenen implicacions directes en la gestió de les urgències i emergències extrahospitalàries a la Comunitat Valenciana, al integrar-se el model final resultant als centres d'atenció de telefonades. Aquest model utilitzarà les dades proporcionades pels operadors telefònics per calcular automàticament les prediccions de gravetat, que després es compararan amb les generades pel protocol de triatge intern. Qualsevol disparitat entre aquestes prediccions desencadenarà la derivació de l'incident a un coordinador mèdic, que supervisarà el seu tractament. Per tant, és evident que la nostra tesi, a més de realitzar importants contribucions al camp de la Investigació en Aprenentatge Automàtic Biomèdic, també comporta implicacions substancials per a millorar la gestió de les urgències i emergències extrahospitalàries en el context de la Comunitat Valenciana. / [EN] Triage for out-of-hospital emergency incidents represents a tough challenge, primarily due to time constraints and uncertainty. Furthermore, errors in this process can have severe consequences for patients. Therefore, any novel tool or strategy that enhances these processes can offer substantial value in terms of patient care and overall management of out-of-hospital emergency medical incidents. The hypothesis upon which this thesis is based is that Machine Learning, specifically Deep Learning, can improve these processes by providing estimations of the severity of incidents, by analyzing millions of data derived from emergency calls from the Valencian Region (Spain) spanning from 2009 to 2019. Hence, this thesis delves into designing and developing Deep Multitask Learning models that leverage multimodal out-of-hospital emergency medical data. Our primary objective was to predict whether the incident posed a life-threatening situation, the admissible response delay, and whether it fell under the jurisdiction of the emergency system or primary care. Using data available from 2009 to 2012, the results obtained were promising. We observed substantial improvements in macro F1-scores, with gains of 12.5% for life-threatening classification, 17.5% for response delay, and 5.1% for jurisdiction classification, compared to the in-house triage protocol of the Valencian Region. However, systems, dispatch protocols, and operational practices naturally evolve over time. Models that exhibited excellent performance with the initial dataset from 2009 to 2012 did not demonstrate the same efficacy when evaluated on data spanning from 2014 to 2019. This later dataset had undergone modifications compared to the earlier one, which led to dataset shifts, which we have meticulously characterized and investigated in this thesis. Continuing our research, we incorporated Deep Continual Learning techniques in our developments. As a result, we could substantially mitigate the adverse performance effects consequence of dataset shifts. The results indicate that, while performance fluctuations are not completely eliminated, they can be kept within a manageable range. In particular, with respect to the F1-score, when distributional variations fall within the light to moderate range, the performance remains stable, not varying by more than 2.5%. Furthermore, our thesis demonstrates the feasibility of building auxiliary tools that enable dispatchers to interact with these complex deep models. Consequently, without disrupting professionals' workflow, it becomes possible to provide feedback through probability predictions for each severity label class and take appropriate actions based on these predictions. Finally, the outcomes of this thesis hold direct implications for the management of out-of-hospital emergency medical incidents in the Valencian Region. The final model resulting from our research is slated for integration into the emergency medical dispatch centers of the Valencian Region. This model will utilize data provided by dispatchers to automatically compute severity predictions, which will then be compared with those generated by the in-house triage protocol. Any disparities between these predictions will trigger the referral of the incident to a physician coordinator, who will oversee its handling. Therefore, it is evident that our thesis, in addition to making significant contributions to the field of Biomedical Machine Learning Research, also carries substantial implications for enhancing the management of out-of-hospital emergencies in the context of the Valencian Region. / Ferri Borredà, P. (2024). Deep Continual Multimodal Multitask Models for Out-of-Hospital Emergency Medical Call Incidents Triage Support in the Presence of Dataset Shifts [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203192 Gestión de urgencias hospitalarias Triaje de urgencias médicas Inteligencia Artificial (IA) Aprendizaje continuo Aprendizaje profundo Aprendizaje automático Emergencias médicas Aprendizaje multimodal Aprendizaje multitarea Procesamiento del lenguaje natural (PLN) Artificial Intelligence Continual Learning Deep Learning Emergency Medical Dispatch Emergency Medical Triage Machine Learning Medical Emergencies Multimodal Learning Multitask Learning Natural Language Processing (NLP) FISICA APLICADA
44	Investigación y desarrollo de metodología avanzada de segmentación de la médula espinal cervical a partir de imágenes RM para la ayuda al diagnóstico y seguimiento de pacientes de esclerosis múltiple Bueno Gómez, América 01 July 2024 (has links) [ES] La Esclerosis Múltiple (EM) es una enfermedad inflamatoria y autoinmune del sistema nervioso central (SNC) con rasgos de desmielinización y degeneración axonal en el tiempo, y caracterizada por ser muy heterogénea en los síntomas y en el curso de la enfermedad. La Imagen de Resonancia Magnética (RM) es una de las herramientas clínicas más sensibles para la evaluación de los procesos inflamatorios y neurodegenerativos. En los últimos años, la evaluación de la médula espinal ha tenido un creciente interés clínico para mejorar el diagnóstico y el fenotipado de la enfermedad, aunque, a diferencia del cerebro, en médula espinal cervical no existen algoritmos de inteligencia artificial (IA) desarrollados y certificados para práctica clínica. Es por ello, que nuestro objetivo se centra en investigar y desarrollar un método automático de segmentación de médula cervical en RM, facilitando así una evaluación automática y mejorada de la atrofia de la médula espinal, pues esta puede proporcionar información valiosa sobre la progresión de la enfermedad y sus consecuencias clínicas. El algoritmo se desarrolló mediante datos del mundo real (real-world data) recogidos de manera retrospectiva en 121 pacientes de EM. Se utilizaron 96 de ellos para el entrenamiento del modelo, 25 para test y 13 para la validación del modelo. Durante la tesis se trabajaron secuencias de RM adquiridas en un equipo de 3T (SignaHD, GEHC), de tipo 3D axiales potenciadas en T1, dada su mejor resolución y contraste para identificar pequeñas estructuras anatómicas como la médula espinal. El etiquetado manual de los datos fue realizado bajo el consejo y supervisión de dos radiólogos experimentados, obteniendo finalmente el ground-truth. Varias fueron las arquitecturas, hiperparámetros y formas de preprocesado aplicados al dataset en busca de la solución óptima. Dada su conocida importancia en la segmentación de imagen médica, la arquitectura U-Net fue el punto de partida. Tras la ausencia de buenos resultados y una mayor investigación en el campo, se dio con la problemática del desbalanceo de datos. Finalmente, para obtener la segmentación deseada, se implementó y entrenó una red neuronal convolucional 2D compuesta por un mecanismo de atención residual y conexiones basadas en la arquitectura U-Net. El mecanismo de atención permitió que el modelo se centrara en aquellas localizaciones de la imagen que son importantes para la tarea de clasificación de los vóxeles correspondientes a la médula cervical, a la vez que retenía la información del resto de estructuras anatómicas, mientras que los bloques residuales nos permitieron solventar problemas de desvanecimiento de gradiente comunes en redes neuronales profundas. El entrenamiento se diseñó con una función de pérdidas local, basada en el índice de Tversky con el fin de controlar el problema de desbalanceo de datos de imagen médica, y un buscador automático de tasa de aprendizaje óptima que nos permitió mejorar la convergencia y rendimiento del modelo. Finalmente, nuestro método proporcionó una segmentación con una elevada tasa de acierto, obteniendo un valor de 0.95 como MCC en la métrica de entrenamiento y consiguiendo en validación un coeficiente DICE de 0.904±0.101 tomando como referencia la segmentación manual. Además de obtener una herramienta para la segmentación automática de la médula, también creamos un módulo para el cálculo de sus dimensiones, actuando como biomarcador de imagen, lo que será útil y eficaz para la valoración de la atrofia. De esta forma, los clínicos pueden evaluar el grado de daño neurológico y seguir su evolución a lo largo del tiempo. Como biomarcadores de imagen, calculamos las dimensiones de las médulas de nuestros pacientes en forma de volumen (mm3) y sección media (mm2) y estudiamos la relación entre sección media de la médula espinal cervical con la distribución de las distintas formas clínicas y los niveles en Escala de Discapacidad Extendida de Kurtzke (EDSS) de los pacientes. / [CA] L'Esclerosi Múltiple (EM), és una malaltia inflamatòria i autoimmune del sistema nerviós central (SNC) amb trets de desmielinització i degeneració axonal en el el temps. Es caracteritza per ser molt heterogènia amb els símptomes i curs de la malaltia. La Imatge de Ressonància Magnètica (RM) és una de les eines més sensibles per a l'avaluació dels processos inflamatoris i neurodegeneratius. Als darrers anys, l'evolució de la medul·la espinal ha tingut un creixent interés clínic per tal de millorar el diagnòstic i el fenotipatge de la malaltia, encara que, a diferència del cervell, en medul·la espinal cervical no existeixen algoritmes d'intel·ligència artificial (IA) desenvolupats i certificats. Aquest fet motiva el present estudi, que se centra en la recerca i desenvolupament d'un mètode automàtic de segmentació de medul·la cervical en RM. L'automatització i millora del procés d'avaluació de l'atròfia de la medul·la espinal podrà proporcionar valuosa informació sobre la progressió de la malaltia i les seves conseqüències clíniques. L'algoritme proposat al present treball va ser desenvolupat mitjançant dades del món real (real-world data) recollides de manera retrospectiva en 121 pacients d'EM. D'aquestes mostres, 96 foren utilitzades per a l'entrenament del model d'IA, 13 per a la validació durant l'entrenament i les 25 restants com a conjunt d'avaluació. Les seqüències d'imatges de RM fetes servir foren adquirides amb un equip 3T de tipus 3D axials potenciats en T1, donada la seua millor resolució i contrast alhora identificar petites estructures anatòmiques com la medul·la espinal. L'etiquetatge de les dades fou realitzat sota la supervisió i consell de dos experimentats radiòlegs. El resultat final fou un conjunt d'imatges RM de referència (ground truth dataset) amb les corresponents màscares de segmentació de la medul·la espinal cervical definides pels radiòlegs. Diverses van ser les arquitectures, hiperparàmetres i tècniques de preprocessat aplicades al conjunt de dades en cerca de la solució òptima. Donada la seua coneguda importància en la segmentació d'imatge mèdica, l'arquitectura U-Net fou el punt de partida. Un altre punt d'inflexió fou resoldre la problemàtica de la desproporció de representativitat al conjunt de dades utilitzat (dataset imbalancement). Finalment, per obtindre la segmentació desitjada, es va implementar i entrenar una xarxa neuronal convolucional 2D composta per un mecanisme d'atenció residual i connexions basades en l'arquitectura U-Net. El mecanisme d'atenció va permetre que el model se centrara en aquelles localitzacions de la imatge més importants per a la tasca de classificació dels corresponents vòxels a la medul·la cervical, a la volta que retenia la informació de la resta d'estructures anatòmiques. Alhora, els blocs residuals, van permetre resoldre els problemes d'esvaïment de gradient, comuns a l'entrenament de xarxes neuronals profundes. L'entrenament es va dissenyar amb una funció de cost local, basada en l'índex Tversky, amb el fi de controlar la problemàtica del dataset imbalancement i, un buscador automàtic de la taxa d'aprenentatge òptima que permetia una millor convergència i rendiment del model. Els resultats proporcionats pel nostre mètode de segmentació automàtica, presentaren una elevada taxa d'encert, obtinguen un valor de 0.95 com coeficient de correlació de Matthew en la mètrica d'entrenament i aconseguint en validació un coeficient DICE de 0.904±0.101 prenent com a referència la segmentació manual. A més de l'eina de segmentació automàtica, també hem desenvolupat un mòdul per al càlcul de les seues dimensions, el que serà útil per a una eficaç valoració de l'atròfia. Com biomarcadors d'imatge, calcularem les dimensions de les medul·les dels nostres pacients en forma de volum (mm³) i secció mitjana (mm²) i estudiarem la relació entre secció mitjana de la medul·la espinal cervical amb la distribució de les distintes formes clíniques i l'escala de discapacitat estesa de Kurtzke / [EN] Multiple Sclerosis (MS) is an inflammatory and autoimmune disease of the central nervous system (CNS) with features of demyelination and axonal degeneration over time, and characterised by being very heterogeneous in symptoms, disease course and outcome. Magnetic Resonance Imaging (MRI) is one of the most sensitive clinical tools for the evaluation of inflammatory and neurodegenerative processes. In recent years, the evaluation of the spinal cord has been of increasing clinical interest to improve the diagnosis and phenotyping of the disease, although, unlike the brain, in the cervical spinal cord there are no artificial intelligence (AI) algorithms developed and certified for clinical practice. Therefore, our aim is to investigate and develop an automatic method of cervical cord segmentation in MRI, thus facilitating an automatic and improved assessment of spinal cord atrophy, which can provide valuable information on the progression of the disease and its clinical consequences. The algorithm was developed using real-world data collected retrospectively from 121 MS patients. Of these, 96 were used for model training, 25 for testing and 13 for validation of the proposed model. During the thesis, 3D axial T1-weighted MRI sequences acquired in 3T equipment (SignaHD, GEHC) were used, given their better resolution and contrast to identify small anatomical structures such as the spinal cord. Manual labelling of the data was performed under the advice and supervision of two experienced radiologists, between whom possible discrepancies were resolved with a third radiologist, resulting in a set of cervical spinal cord masks as ground-truth. Several architectures, hyperparameters and forms of pre-processing were applied to the dataset in search of the optimal solution. Given its known importance in medical image segmentation, the U-Net architecture was the starting point. After the absence of good results and further research in the field, the problem of data imbalance was identified. Finally, to obtain the desired segmentation, a 2D convolutional neural network (CNN) composed of a residual attention mechanism and connections based on the U-Net architecture was implemented and trained. The attention mechanism allowed the model to focus on those image locations that are important for the classification task of the voxels corresponding to the cervical cord, while retaining the information of the rest of the anatomical structures. Residual blocks allowed us to solve common gradient fading problems in deep neural networks. Training was designed with a local loss function, based on the Tversky index in order to control the medical image data imbalance problem, and an automatic optimal learning rate finder that allowed us to improve the convergence and performance of the model. Finally, our method provided a segmentation with a high success rate, obtaining a value of 0.95 as MCC in the training metric and obtaining in validation a DICE coefficient of 0.904±0.101 taking manual segmentation as a reference. In addition to obtaining a tool for the automatic segmentation of the spinal cord, we also created a module for the calculation of its dimensions, which will be useful and effective for the assessment of atrophy. Atrophy is a direct indicator of neuronal damage and tissue loss in both the brain and spinal cord, and is a key risk factor for disability in MS. By accurately calculating atrophy, clinicians can assess the degree of neurological damage and follow its evolution over time. In our study, we calculated the dimensions of our patients' cords, as possible imaging biomarkers, in terms of volume (mm3) and mean section (mm2), and studied the relationship between the mean section of the cervical spinal cord with the distribution of the different clinical forms and the Kurtzke Expanded Disability Status Scale (EDSS) levels in our study group. / Bueno Gómez, A. (2024). Investigación y desarrollo de metodología avanzada de segmentación de la médula espinal cervical a partir de imágenes RM para la ayuda al diagnóstico y seguimiento de pacientes de esclerosis múltiple [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/205742 Multiple sclerosis Esclerosis múltiple Segmentation Segmentación MRI IRM Deep Learning Aprendizaje profundo Residual attention-aware Biomarcadores de imagen Image biomarkers Inteligencia Artificial Artificial Intelligence Convolutional Neural Network (CNN) TEORÍA DE LA SEÑAL Y COMUNICACIONES
45	Deep learning strategies for histological image retrieval Tabatabaei, Zahra 02 September 2024 (has links) Tesis por compendio / [ES] Según World Health Organization (WHO), el cáncer es una de las principales causas de muerte a nivel mundial, con cerca de 10 millones de fallecimientos en 2020. Esto significa que aproximadamente una de cada seis muertes es causada por el cáncer. Para prevenir y disminuir esta enorme cantidad de muertes, es necesario un diagnóstico preciso del cáncer. Las técnicas basadas en Deep Learning (DL) han ofrecido algunas técnicas en el Diagnóstico Asistido por Computadora (CAD) para ayudar a los médicos con su diagnóstico. Estas técnicas no solo disminuyen la carga de trabajo de los patólogos, sino que también aumentan la precisión de sus diagnósticos con menos costos. Las colecciones de imágenes de alta resolución, como las láminas histopatológicas y las exploraciones médicas, han mejorado el rendimiento de estas técnicas. En esta tesis, nos enfocamos principalmente en imágenes histopatológicas escaneadas por escáneres de Whole Slide Images (WSI). Estas imágenes se introducen en métodos basados en DL, que emplean Redes Neuronales Convolucionales (CNN) para detectar las anomalías y los patrones en el tejido escaneado. Estas técnicas son capaces de analizar el tejido para disminuir los impactos de los errores humanos en el diagnóstico del cáncer. Content-Based Medical Image Retrieval (CBMIR) es uno de estos métodos que recientemente ha captado la atención de los investigadores en patología digital. En esta tesis, proponemos tres marcos CBMIR sobre imágenes histopatológicas con dos técnicas basadas en DL que se presentan en diferentes escenarios. En cuanto a los obstáculos potenciales que un CBMIR en patología digital podría enfrentar, incluida la limitación de recursos de GPU, la falta de suficientes conjuntos de datos, y las estrictas regulaciones de privacidad de datos para el intercambio de datos. En relación con estas complejidades, nos enfocamos en el aprendizaje federado en la segunda clase de nuestra investigación. En esta sección, combinamos los conceptos de Federated Learning (FL) con un marco CBMIR para imitar un CBMIR Federado Mundial (FedCBMIR) en imágenes histológicas de cáncer de mama. En esta investigación, seguimos tres escenarios para imitar los tres casos de uso de FedCBMIR en el flujo de trabajo médico. En la última contribución de esta tesis, el enfoque principal es una estrategia basada en aprendizaje contrastivo. Proponemos un marco CBMIR que puede superar las técnicas anteriores con el top K (K>1) y también tener un alto rendimiento en la recuperación de imágenes en el top primero. Además, otra contribución de esta tesis es resolver los desafíos que los patólogos tienen al clasificar los Tumores Spitzoides de Potencial Maligno Incierto (STUMP). Los STUMP presentan un dilema diagnóstico debido a su intrincada histología, creando desafíos para establecer parámetros claros entre nevos benignos y melanomas potencialmente malignos. Para ayudar a los patólogos a enfrentar esta complejidad, el marco puede proporcionar parches similares al top K para ellos con sus etiquetas correspondientes. En resumen, los marcos CBMIR y CBHIR propuestos en esta tesis contribuyen al diagnóstico del cáncer de próstata, mama y piel a partir de imágenes histopatológicas mediante el uso de FEs basados en DL en diferentes escenarios. Estos no solo mejoran la precisión y la eficiencia del diagnóstico del cáncer, sino que también prometen facilitar la detección temprana y las estrategias de tratamiento personalizado. Aprovechar estos marcos en el diagnóstico actual del cáncer podría conducir en última instancia a mejores resultados para los pacientes, menores costos de atención médica y una mayor calidad de vida para las personas afectadas por el cáncer de próstata, mama y piel. Estos avances tienen el potencial de impulsar un cambio social positivo y contribuir a la lucha global contra el cáncer. / [CA] Segons l'Organització Mundial de la Salut (OMS), el càncer és una de les principals causes de mort a nivell mundial, amb prop de 10 milions de defuncions en 2020. Això significa que aproximadament una de cada sis morts és causada pel càncer. Per prevenir i disminuir aquesta enorme quantitat de morts, és necessari un diagnòstic precís del càncer. Les tècniques basades en Deep Learning (DL) han ofert algunes tècniques en el Diagnòstic Assistit per Ordinador (CAD) per ajudar els metges amb el seu diagnòstic. Aquestes tècniques no només disminueixen la càrrega de treball dels patòlegs, sinó que també augmenten la precisió dels seus diagnòstics amb menys costos. Les col·leccions d'imatges d'alta resolució, com les làmines histopatològiques i les exploracions mèdiques, han millorat el rendiment d'aquestes tècniques. En aquesta tesi, ens enfoquem principalment en imatges histopatològiques escanejades per escàners de Whole Slide Images (WSI). Aquestes imatges s'introdueixen en mètodes basats en DL, que empren Xarxes Neuronals Convolucionals (CNN) per detectar les anomalies i els patrons en el teixit escanejat. Aquestes tècniques són capaces d'analitzar el teixit per disminuir els impactes dels errors humans en el diagnòstic del càncer. El Content-Based Medical Image Retrieval (CBMIR) és un d'aquests mètodes que recentment ha captat l'atenció dels investigadors en patologia digital. En aquesta tesi, proposem tres marcs CBMIR sobre imatges histopatològiques amb dues tècniques basades en DL que es presenten en diferents escenaris. Pel que fa als obstacles potencials que un CBMIR en patologia digital podria afrontar, inclou la limitació de recursos de GPU, la manca de suficients conjunts de dades, i les estrictes regulacions de privadesa de dades per a l'intercanvi de dades. En relació amb aquestes complexitats, ens enfoquem en l'aprenentatge federat en la segona classe de la nostra investigació. En aquesta secció, combinem els conceptes de Federated Learning (FL) amb un marc CBMIR per imitar un CBMIR Federat Mundial (FedCBMIR) en imatges histològiques de càncer de mama. En aquesta investigació, seguim tres escenaris per imitar els tres casos d'ús de FedCBMIR en el flux de treball mèdic. En l'última contribució d'aquesta tesi, l'enfocament principal és una estratègia basada en aprenentatge contrastiu. Proposem un marc CBMIR que pot superar les tècniques anteriors amb el top K (K>1) i també tenir un alt rendiment en la recuperació d'imatges en el top primer. A més, una altra contribució d'aquesta tesi és resoldre els desafiaments que els patòlegs tenen a l'hora de classificar els Tumors Spitzoides de Potencial Maligne Incert (STUMP). Els STUMP presenten un dilema diagnòstic a causa de la seva intricada histologia, creant desafiaments per establir paràmetres clars entre nevus benignes i melanomes potencialment malignes. Per ajudar els patòlegs a enfrontar aquesta complexitat, el marc pot proporcionar parches similars al top K per a ells amb les seves etiquetes corresponents. En resum, els marcs CBMIR i CBHIR proposats en aquesta tesi contribueixen al diagnòstic del càncer de pròstata, mama i pell a partir d'imatges histopatològiques mitjançant l'ús de FEs basats en DL en diferents escenaris. Aquests no només milloren la precisió i l'eficiència del diagnòstic del càncer, sinó que també prometen facilitar la detecció primerenca i les estratègies de tractament personalitzat. Aprofitar aquests marcs en el diagnòstic actual del càncer podria conduir en última instància a millors resultats per als pacients, menors costos d'atenció mèdica i una major qualitat de vida per a les persones afectades pel càncer de pròstata, mama i pell. Aquests avenços tenen el potencial d'impulsar un canvi social positiu i contribuir a la lluita global contra el càncer. / [EN] According to the World Health Organization (WHO), cancer is one of the leading causes of death worldwide, with nearly 10 million deaths in 2020. This means that approximately one in six deaths is caused by cancer. To prevent and decrease this enormous number of deaths, an accurate cancer diagnosis is necessary. Deep Learning (DL)-based techniques have offered some methods in Computer-Aided Diagnosis (CAD) to assist doctors with their diagnoses. These techniques not only reduce the workload of pathologists but also increase the accuracy of their diagnoses at lower costs. Collections of high-resolution images, such as histopathological slides and medical scans, have improved the performance of these techniques. In this thesis, we focus mainly on histopathological images scanned by Whole Slide Image (WSI) scanners. These images are introduced into DL-based methods, which employ Convolutional Neural Networks (CNN) to detect anomalies and patterns in the scanned tissue. These techniques can analyze the tissue to reduce the impacts of human errors in cancer diagnosis. Content-Based Medical Image Retrieval (CBMIR) is one of these methods that has recently attracted the attention of researchers in digital pathology. In this thesis, we propose three CBMIR frameworks on histopathological images with two DL-based techniques presented in different scenarios. Regarding potential obstacles that a CBMIR in digital pathology might face, including the limitation of GPU resources, the lack of sufficient datasets, and strict data privacy regulations for data sharing. Considering these complexities, we focus on federated learning in the second part of our research. In this section, we combine the concepts of Federated Learning (FL) with a CBMIR framework to simulate a World-Wide Federated CBMIR (FedCBMIR) on histological images of breast cancer. In this research, we follow three scenarios to mimic the three use cases of FedCBMIR in the medical workflow. In the final contribution of this thesis, the main focus is a contrastive learning-based strategy. We propose a CBMIR framework that can surpass previous techniques with the top K (K>1) and also have high performance in retrieving images at the top first. Additionally, another contribution of this thesis is to solve the challenges that pathologists face in grading Spitzoid Tumors of Uncertain Malignant Potential (STUMP). STUMPs present a diagnostic dilemma due to their intricate histology, creating challenges for establishing clear parameters between benign nevi and potentially malignant melanomas. To assist pathologists in coping with this complexity, the framework can provide top K similar patches for them with their corresponding labels. In summary, the CBMIR and CBHIR frameworks proposed in this thesis contribute to the diagnosis of prostate, breast, and skin cancer from histopathological images using DL-based FEs in different scenarios. These not only improve the accuracy and efficiency of cancer diagnosis but also promise to facilitate early detection and personalized treatment strategies. Leveraging these frameworks in current cancer diagnosis could ultimately lead to better patient outcomes, lower healthcare costs, and a higher quality of life for individuals affected by prostate, breast, and skin cancer. These advances have the potential to drive positive social change and contribute to the global fight against cancer. / This study is funded by European Union’s Horizon 2020 research and innovation program under the Marie Skłodowska-Curie grant agreement No. 860627 (CLAR- IFY Project). The work of Adrián Colomer has been supported by the ValgrAI – Valencian Graduate School and Research Network for Artificial Intelligence & Gen- eralitat Valenciana and Universitat Politècnica de València (PAID-PD-22). / Tabatabaei, Z. (2024). Deep learning strategies for histological image retrieval [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/207119 / Compendio Deep learning Medical image processing Digital patholgy Histopathological images Whole slide images Aprendizaje profundo Procesamiento de imágenes médicas Patología digital Imágenes histopatológicas Imágenes de portaobjetos completos TEORÍA DE LA SEÑAL Y COMUNICACIONES ESTADISTICA E INVESTIGACION OPERATIVA
46	Machine Learning en Resonancia Magnética. Describiendo la Fisiopatología del Dolor Lumbar Sáenz Gamboa, Jhon Jairo 02 September 2024 (has links) [ES] El dolor lumbar es una afección común que afecta a casi el 70% de la población, representando una carga significativa para el sistema de atención médica. Esta tesis se centra en extraer conocimiento médico a partir de Imágenes de Resonancia Magnética (IRM) lumbar, relacionándolas con el dolor lumbar. A través de las técnicas de aprendizaje automático (Machine Learning), se procesan extensos conjuntos de datos de IRM lumbar para desarrollar algoritmos de segmentación semántica que identifican las estructuras en la columna vertebral. El objetivo principal es mejorar la comprensión de las causas del dolor lumbar y desarrollar modelos predictivos que respalden una toma de decisiones clínicas más precisa. Simultáneamente, se busca crear un repositorio público de imágenes de columna lumbar anonimizadas y datos poblacionales para facilitar la colaboración en la investigación en este campo. Los métodos propuestos en esta tesis se centran en el análisis preciso de IRM lumbar de pacientes con antecedentes de dolor lumbar en hospitales públicos de la Comunidad Valenciana, generando dos conjuntos de datos significativos. El primero, llamado "Massive Image Data Anatomy of the Spine" (MIDAS), contiene datos de alrededor de 23,688 pacientes, equivalente a unas 124,800 IRM lumbar. Estos datos fueron recopilados de 17 departamentos de salud y sometidos a diversas fases, que incluyen la aprobación de un comité ético, la de-identificación y corrección de metadatos DICOM, y la estandarización de protocolos de adquisición. Además, se implementó una estructura de archivos estandarizada llamada " Medical Imaging Data Structure" (MIDS) para garantizar la transparencia y reproducibilidad de los datos. Este conjunto de datos está disponible para descarga bajo solicitud en https://bimcv.cipf.es/bimcv-projects/midas- 2/. El segundo conjunto de datos se creó mediante la segmentación manual de 181 IRM lumbar, realizada por dos radiólogos expertos. El propósito de esta tarea fue asignar etiquetas de clase a cada píxel de las imágenes, donde las clases se definieron según elementos anatómicos como vértebras, discos intervertebrales, nervios, vasos sanguíneos y otros tejidos, cubriendo un total de 11 elementos diferentes de la columna vertebral. Estos datos se utilizaron para diseñar y entrenar variantes de arquitecturas de Redes Neuronales Convolucionales (Convolutional Neural Networks o CNN) para la tarea de segmentación automática de IRM lumbar. Como resultado de los experimentos, esta tesis hace hincapié en la importancia de recopilar y preprocesar datos de alta calidad, así como elegir estratégicamente arquitecturas de red y técnicas de aprendizaje profundo en la segmentación semántica de imágenes médicas. Presenta topologías de red efectivas que superan al modelo U-Net estándar y resalta la versatilidad de un solo modelo para segmentar imágenes de diferentes protocolos y vistas, simplificando el desarrollo de sistemas de procesamiento de imágenes médicas. En última instancia, esta tesis representa un viaje interdisciplinario desde la ingeniería hasta la medicina, destacando la innovación de aplicar métodos de ML para obtener conjuntos de datos médicos etiquetados a gran escala. Las futuras investigaciones se centran en mejorar el conjunto de datos y desarrollar herramientas de visión por computadora para detectar y clasificar patologías de la columna lumbar. Una vez validadas clínicamente, estas innovaciones podrían revolucionar el diagnóstico clínico y la toma de decisiones médicas basadas en evidencia en este campo. / [CA] El dolor lumbar és una afecció comuna que afecta a gairebé el 70% de la població, la qual cosa representa una càrrega significativa per al sistema d'atenció mèdica. Aquesta tesi se centra a extraure coneixement mèdic a partir d'Imatges de Ressonància Magnètica (IRM) lumbar, relacionant-les amb el dolor lumbar. Mitjançant tècniques d'aprenentatge automàtic ("Machine Learning", ML), es processen extensos conjunts de dades d'IRM lumbar per tal de desenvolupar algoritmes de segmentació semàntica que identifiquen les estructures a la columna vertebral. L'objectiu principal és millorar la comprensió de les causes del dolor lumbar i desenvolupar models predictius que donen suport a una presa de decisions clíniques més precisa. Simultàniament, es busca crear un repositori públic d'imatges de columna lumbar anonimitzades i dades poblacionals per facilitar la col·laboració en la recerca en aquest camp. Els mètodes proposats en aquesta tesi se centren en l'anàlisi precisa d'IRM lumbar de pacients amb antecedents de dolor lumbar en hospitals públics de la Comunitat Valenciana, generant dos conjunts de dades significatius. El primer, anomenat "Massive Image Data Anatomy of the Spine" (MIDAS), conté dades de vora 23.688 pacients, equivalent a unes 124.800 IRM lumbars. Aquestes dades van ser recopilades de 17 departaments de salut i sotmeses a diverses fases, que inclouen l'aprovació d'un comitè ètic, la desidentificació i correcció de metadades DICOM (Digital Imaging and Communications in Medicine), i l'estandardització de protocols d'adquisició. A més, es va implementar una estructura d'arxius estandarditzada anomenada "Medical Imaging Data Structure" (MIDS) per tal de garantir la transparència i la reproducció de les dades. Aquest conjunt de dades està disponible per a descarregar sota sol·licitud a https://bimcv.cipf.es/bimcv-projects/midas-2/. El segon conjunt de dades es va crear mitjançant la segmentació manual de 181 IRM lumbars, realitzada per dos radiòlegs experts. El propòsit d'aquesta tasca va ser assignar etiquetes de classe a cada píxel de les imatges, classes que es van definir segons elements anatòmics com ara vèrtebres, discs intervertebrals, nervis, vasos sanguinis i altres teixits, tot cobrint un total d'11 elements diferents de la columna vertebral. Aquestes dades es van utilitzar per dissenyar i entrenar variants d'arquitectures de Xarxes Neuronals Convolucionals (Convolutional Neural Networks o CNN) per a la tasca de segmentació automàtica d'IRM lumbar. Com a resultat dels experiments, aquesta tesi destaca la importància de recopilar i preprocessar dades d'alta qualitat, així com de triar estratègicament arquitectures de xarxa i tècniques de DL en la segmentació semàntica d'imatges mèdiques. Presenta topologies de xarxa efectives que superen al model U-Net estàndard i destaca la versatilitat d'un sol model per a segmentar imatges de diferents protocols i vistes, simplificant el desenvolupament de sistemes de processament d'imatges mèdiques. Finalment, aquesta tesi representa un viatge interdisciplinari des de l'enginyeria fins a la medicina, tot destacant la innovació a l'hora d'aplicar mètodes d'ML per obtenir conjunts de dades mèdiques etiquetats a gran escala. Les futures investigacions se centren a millorar el conjunt de dades i desenvolupar eines de visió per ordinador per detectar i classificar patologies de la columna lumbar. Un cop validades clínicament, aquestes innovacions podrien revolucionar el diagnòstic clínic i la presa de decisions mèdiques basades en evidències en aquest camp. / [EN] Lower back pain is a common condition affecting nearly 70% of the population, representing a significant burden for the healthcare system. This thesis focuses on extracting medical knowledge from lumbar Magnetic Resonance Imaging (MRI), linking them to lower back pain. Through Machine Learning techniques, extensive lumbar MRI datasets are processed to develop semantic segmentation algorithms that identify structures in the spine. The main goal is to improve understanding of the causes of lower back pain and develop predictive models that support more accurate clinical decision-making. Simultaneously, the aim is to create a public repository of anonymized lumbar spine images and population data to facilitate collaboration in research in this field. The methods proposed in this thesis focus on the precise analysis of lumbar MRI from patients with a history of lower back pain in public hospitals of the Valencian Community, generating two significant datasets. The first, called "Massive Image Data Anatomy of the Spine" (MIDAS), contains data from around 23,688 patients, equivalent to about 124,800 lumbar MRIs. These data were collected from 17 health departments and underwent various phases, including ethical committee approval, de-identification and correction of DICOM metadata, and standardization of acquisition protocols. In addition, a standardized file structure called "Medical Imaging Data Structure" (MIDS) was implemented to ensure data transparency and reproducibility. This dataset is available for download upon request at https://bimcv.cipf.es/bimcv-projects/midas-2/. The second dataset involved the manual segmentation of 181 lumbar MRIs. Two expert radiologists performed this to assign class labels to each pixel in the images based on anatomical elements, including vertebrae, intervertebral discs, nerves, blood vessels, and other tissues, comprising 11 distinct elements of the spine. This data was utilized to design and train different Convolutional Neural Network (CNN) architectures for the automatic segmentation of lumbar MRI. As a result of the experiments, this thesis emphasizes the importance of collecting and preprocessing high-quality data and strategically choosing network architectures and DL techniques in the semantic segmentation of medical images. It presents effective network topologies that surpass the standard U-Net model and highlights the versatility of a single model to segment images from different protocols and views, simplifying the development of medical image processing systems. Ultimately, this thesis represents an interdisciplinary journey from engineering to medicine, highlighting the innovation of applying ML methods to obtain large-scale labelled medical datasets. Future research focuses on improving the dataset and developing computer vision tools to detect and classify lumbar spine pathologies. Once clinically validated, these innovations could revolutionize clinical diagnosis and evidence-based medical decision-making in this field. / Sáenz Gamboa, JJ. (2024). Machine Learning en Resonancia Magnética. Describiendo la Fisiopatología del Dolor Lumbar [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/207346 Redes neuronales convolucionales Aprendizaje profundo Imágenes de resonancia magnética Segmentación semántica de imágenes Columna vertebral Convolutional neural networks Deep learning Magnetic resonance imaging Semantic image segmentation Spinal column LENGUAJES Y SISTEMAS INFORMATICOS
47	Breast medical images classification through the application of deep learning processing technologies Jiménez Gaona, Yuliana del Cisne 02 September 2024 (has links) Tesis por compendio / [ES] El cáncer de mama es una de las principales causas de muerte en mujeres de todo el mundo. Supone el 18.2% de las muertes por cáncer en la mujer y la primera causa de muerte en mujeres entre 40 y 55 años según la Sociedad Española de Senología y Patología Mamaria (SESPM). Una forma eficiente de disminuir este porcentaje es diagnosticarlo de forma temprana mediante exámenes de rayos x (Mamografía, Tomografía por emisión de positrones, Imagen de resonancia magnética, Tomografía computarizada), Ultrasonido, Tomosíntesis, Histopatología y Termografía. En la actualidad dentro del campo de la radiómica estos datos clínicos están siendo procesados con el uso de algoritmos de inteligencia artificial, especialmente para el preprocesamiento, segmentación y clasificación de lesiones malignas o benignas presentes en las imágenes médicas. Además, el desarrollo de estos sistemas computacionales asistidos para diagnóstico y detección temprana de anomalías presentes en la mama, ayudan al médico con una segunda opinión al diagnóstico manual tradicional. En consecuencia, el objetivo de este estudio es construir modelos de aprendizaje profundo y automático para la detección, segmentación y clasificación de lesiones mamarias en imágenes de mamografía y ultrasonido. Los hallazgos de este estudio brindan diversas herramientas de aumento de datos, super resolución, segmentación y clasificación automática de imágenes de mama para mejorar la precisión en los algoritmos de clasificación de lesiones mamarias. / [CA] El càncer de mama és una de les principals causes de mort en dones de tot el món. La mortalitat relacionada amb esta mena de càncer és més alta en comparación amb altres tipus de càncer. Una forma eficient de disminuir este percentatge és diagnosticar-lo de manera primerenca mitjançant exàmens de raigs x (Mamografia, Tomografía per emissió de positrons, Imatge de ressonància magnètica, Tomografia computada), Ultrasò, Tomosíntesi, Histopatologia i Termografia. En la actualidad dins del camp de la radiómica estes dades clíniques estan sent processados amb l'ús d'algorismes d'intel·ligència artificial, especialment per al preprocesamiento, segmentació i classificació de lesions malignes o benignes presents en les imatges mèdiques. A més, el desenvolupament d'estos sistemes computacionals asistidos per a diagnòstic i detecció precoç d'anomalies presents en la mama, ajuden al metge amb una segona opinió al diagnòstic manual tradicional. En conseqüència, l'objectiu d'este estudi és construir models d'aprenentatge profundo i automàtic per a la detecció, segmentació i classificació de lesions mamàries en imatges de mamografia i ultrasò. Les troballes d'este estudi brinden vaig donar-verses ferramentes d'augment de dades, super resolució, segmentació i classificación automàtica d'imatges de mama per a millorar la precisió en els algorismes de classificació de lesions mamàries. / [EN] Breast cancer is one of the most common causes of death in women worldwide. It accounts for 18.2% of cancer deaths in women and is the leading cause of death in women between 40 and 55 years of age, according to the Spanish Society of Senology and Breast Pathology (SESPM). An effective way to reduce this rate is through early diagnosis using radiological imaging (mammography, positron emission tomography, magnetic resonance imaging, computed tomography), Ultrasound, Tomosynthesis, Histopathology and Thermography. Currently, the field of radiomics is processing these clinical data using artificial intelligence algorithms, for pre-processing, segmentation, and classification of malignant or benign lesions present in medical images. In addition, the development of these computer-aided systems for diagnosis and early detection of breast abnormalities helps the radiologists with a second opinion to the traditional manual diagnosis. Therefore, the aim of this study is to build deep and machine learning models for the detection, segmentation, and classification of breast lesions in mammography and ultrasound images. The results of this study provide several tools for data augmentation, super-resolution, segmentation, and automatic classification of breast images to improve the accuracy of breast lesion classification algorithms. / This research project was co-funded by the Spanish Government Grant PID2019-107790RB-C22, which aimed to develop software for a continuous PET crystal system to be applied in breast cancer treatment. / Jiménez Gaona, YDC. (2024). Breast medical images classification through the application of deep learning processing technologies [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/208435 / Compendio Modelos de aprendizaje automático Imágenes médicas Tratamiento de imágenes médicas Cáncer de mama Aprendizaje profundo Medical images Machine learning models Medical image processing Breast cancer Deep learning MATEMATICA APLICADA
48	Streaming Neural Speech Translation Iranzo Sánchez, Javier 03 November 2023 (has links) Tesis por compendio / [ES] Gracias a avances significativos en aprendizaje profundo, la traducción del habla (ST) se ha convertido en un campo consolidado, lo que permite la utilización de la tecnología ST en soluciones para entornos de producción. Como consecuencia del aumento constante del número de horas de contenido audiovisual generado cada año, así como una mayor sensibilización sobre la importancia de la accesibilidad, la ST está preparada para convertirse en un elemento clave para la producción de contenidos audiovisuales, tanto de ocio como educativos. A pesar de que se ha progresado significativamente en ST, la mayor parte de la investigación se ha centrado en el escenario en diferido (offline), en el cual todo el audio de entrada está disponible. En cambio, la ST en directo (online) es una temática en la que falta mucho por investigar. En concreto, existe un caso de traducción en directo, la traducción continua (streaming), que traduce un flujo continuo de palabras en tiempo real y bajo unas estrictas condiciones de latencia. Este es un problema mucho más realista, que es necesario resolver para que sea posible aplicar la ST a una variedad de tareas de la vida real. Esta tesis está centrada en investigar y desarrollar las técnicas claves que son necesarias para una solución de ST continua. En primer lugar, de cara a permitir el desarrollo y la evaluación de sistemas de ST, se ha recopilado un nuevo conjunto de datos para ST multilingüe, que expande significativamente el número de horas disponibles para ST. A continuación se ha desarrollado un segmentador preparado para la condición continua, que se utiliza para segmentar las transcripciones intermedias de nuestra solución por etapas, que consiste en un sistema de reconocimiento automático del habla (ASR), seguido de un sistema de traducción automática (MT) encargado de traducir las transcripciones intermedias al idioma de destino elegido. Diversas investigaciones han concluido que la calidad de la segmentación es un factor muy influyente es la calidad del sistema MT, por lo que el desarrollo de un segmentador efectivo es un paso fundamental en el proceso de ST continua. Este segmentador se ha integrado en la solución por etapas, y estas se optimizan de manera conjunta para alcanzar el equilibrio óptimo entre calidad y latencia. La ST continua tiene unas restricciones de latencia mucho más estrictas que la ST en directo, ya que el nivel deseado de latencia tiene que mantenerse durante todo el proceso de traducción. Por tanto, es crucial ser capaz de medir de manera precisa esta latencia, pero las métricas estándar de ST en directo no se adaptan bien a esta tarea. Como consecuencia de esto, se proponen nuevos métodos para la evaluación de ST continua, que garantizan unos resultados precisos a la vez que interpretables. Por último, se presenta un nuevo método para mejorar la calidad de la traducción continua mediante el uso de información contextual. Mientras que los sistemas tradicionales de ST en directo traducen audios de manera aislada, existe abundante información contextual que está disponible para mejorar los sistemas de ST continua. Nuestra propuesta introduce el concepto de historia continua, que consiste en el almacenamiento de la información más reciente del proceso de traducción, que se utiliza más adelante por el modelo para mejorar la calidad de la traducción. / [CA] Gràcies a avanços significatius en aprenentatge profund, la traducció de la parla (ST) s'ha convertit en un camp consolidat, la qual cosa permet la utilització de la tecnologia ST en solucions per a entorns de producció. A conseqüència de l'augment constant del nombre d'hores de contingut audiovisual generat cada any, així com una major sensibilització sobre la importància de l'accessibilitat, la ST està preparada per a convertir-se en un element clau per a la producció de continguts audiovisuals, tant d'oci com educatius. A pesar que s'ha progressat significativament en ST, la major part de la recerca s'ha centrat en l'escenari en diferit, en el qual tot l'àudio d'entrada està disponible. En canvi, la ST en directe és una temàtica en la qual falta molt per investigar. En concret, existeix un cas de traducció en directe, la traducció contínua, que tradueix un flux continu de paraules en temps real i sota unes estrictes condicions de latència. Aquest és un problema molt més realista, que és necessari resoldre perquè sigui possible aplicar la ST a una varietat de tasques de la vida real. Aquesta tesi està centrada en investigar i desenvolupar les tècniques claus que són necessàries per a una solució de ST contínua. En primer lloc, de cara a permetre el desenvolupament i l'avaluació de sistemes de ST, s'ha recopilat un nou conjunt de dades per a ST multilingüe, que expandeix significativament la quantitat de dades disponibles per a ST. A continuació s'ha desenvolupat un segmentador preparat per a la condició contínua, que s'utilitza per a segmentar les transcripcions intermèdies de la nostra solució per etapes, que consisteix en un sistema de reconeixement automàtic de la parla (ASR), seguit d'un sistema de traducció automàtica (MT) encarregat de traduir les transcripcions intermèdies a l'idioma de destí triat. Diveros treballs de recerca han conclòs que la qualitat de la segmentació és un factor molt important en la qualitat del sistema MT, per la qual cosa el desenvolupament d'un segmentador efectiu és un pas fonamental en el procés de ST contínua. Aquest segmentador s'ha integrat en la solució per etapes, i aquestes s'optimitzen de manera conjunta per a aconseguir l'equilibri òptim entre qualitat i latència. La ST contínua té unes restriccions de latència molt més estrictes que la ST en directe, ja que el nivell desitjat de latència ha de mantindre's durant tot el procés de traducció. Per tant, és crucial ser capaç de mesurar de manera precisa aquesta latència, però les mètriques estàndard de ST en directe no s'adapten bé a aquesta tasca. A conseqüència d'això, es proposen nous mètodes per a l'avaluació de ST contínua, que garanteixen uns resultats precisos alhora que interpretables. Finalment, es presenta un nou mètode per a millorar la qualitat de la traducció contínua mitjançant l'ús d'informació contextual. Mentre que els sistemes tradicionals de ST en directe tradueixen àudios de manera aïllada, existeix abundant informació contextual que està disponible per a millorar els sistemes de ST contínua. La nostra proposta introdueix el concepte d'història contínua, que consisteix en l'emmagatzematge de la informació més recent del procés de traducció, que s'utilitza més endavant pel model per a millorar la qualitat de la traducció. / [EN] Thanks to significant advances in Deep Learning, Speech Translation (ST) has become a mature field that enables the use of ST technology in production-ready solutions. Due to the ever-increasing hours of audio-visual content produced each year, as well as higher awareness of the importance of media accessibility, ST is poised to become a key element for the production of entertainment and educational media. Although significant advances have been made in ST, most research has focused on the offline scenario, where the entire input audio is available. In contrast, online ST remains an under-researched topic. A special case of online ST, streaming ST, translates an unbounded input stream in a real-time fashion under strict latency constraints. This is a much more realistic problem that needs to be solved in order to apply ST to a variety of real-life tasks. The focus of this thesis is on researching and developing key techniques necessary for a successful streaming ST solution. First, in order to enable ST system development and evaluation, a new multilingual ST dataset is collected, which significantly expands the amount of hours available for ST. Then, a streaming-ready segmenter component is developed to segment the intermediate transcriptions of our proposed cascade solution, which consists in an Automatic Speech Recognition (ASR) system that transcribes the audio, followed by a Machine Translation (MT) system that translates the intermediate transcriptions into the desired language. Research has shown that segmentation quality plays a significant role in downstream MT performance, so the development of an effective streaming segmenter is a critical step in the streaming ST process. This segmenter is then integrated and the components of the cascade are jointly optimized to achieve an appropriate quality-latency trade-off. Streaming ST has much more strict latency constraints than standard online ST, as the desired latency level must be maintained during the whole translation process. Therefore, it is crucial to be able to accurately measure this latency, but the standard online ST metrics are not well suited for this task. As a consequence, new evaluation methods are proposed for streaming ST evaluation, which ensure realistic, yet interpretable results. Lastly, a novel method is presented for improving translation quality through the use of contextual information. Whereas standard online ST systems translate audios in isolation, there is a wealth of contextual information available for improving streaming ST systems. Our approach introduces the concept of streaming history by storing the most recent information of the translation process, which is then used by the model in order to improve translation quality. / The research leading to these results has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreements no. 761758 (X5Gon) and 952215 (TAILOR), and Erasmus+ Educa- tion programme under grant agreement no. 20-226-093604-SCH (EXPERT); the Government of Spain’s grant RTI2018-094879-B-I00 (Multisub) funded by MCIN/AEI/10.13039/501100011033 & “ERDF A way of making Europe”, and FPU scholarships FPU18/04135; and the Generalitat Valenciana’s research project Classroom Activity Recognition (ref. PROMETEO/2019/111) and predoctoral research scholarship ACIF/2017/055. / Iranzo Sánchez, J. (2023). Streaming Neural Speech Translation [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/199170 / Compendio Traducción automática del habla Aprendizaje profundo Aprendizaje automático Inteligencia artificial Procesamiento del lenguaje natural Deep learning Machine learning Artificial intelligence Natural language processing Real-time automatic speech translation Speech translation Streaming speech translation LENGUAJES Y SISTEMAS INFORMATICOS
49	Analysis Design and Implementation of Artificial Intelligence Techniques in Edge Computing Environments Hernández Vicente, Daniel 27 March 2023 (has links) Tesis por compendio / [ES] Edge Computing es un modelo de computación emergente basado en acercar el procesamiento a los dispositivos de captura de datos en las infraestructuras Internet of things (IoT). Edge computing mejora, entre otras cosas, los tiempos de respuesta, ahorra anchos de banda, incrementa la seguridad de los servicios y oculta las caídas transitorias de la red. Este paradigma actúa en contraposición a la ejecución de servicios en entornos cloud y es muy útil cuando se desea desarrollar soluciones de inteligencia artificial (AI) que aborden problemas en entornos de desastres naturales, como pueden ser inundaciones, incendios u otros eventos derivados del cambio climático. La cobertura de estos escenarios puede resultar especialmente difícil debido a la escasez de infraestructuras disponibles, lo que a menudo impide un análisis de los datos basado en la nube en tiempo real. Por lo tanto, es fundamental habilitar técnicas de IA que no dependan de sistemas de cómputo externos y que puedan ser embebidas en dispositivos de móviles como vehículos aéreos no tripulados (VANT), para que puedan captar y procesar información que permita inferir posibles situaciones de emergencia y determinar así el curso de acción más adecuado de manera autónoma. Históricamente, se hacía frente a este tipo de problemas utilizando los VANT como dispositivos de recogida de datos con el fin de, posteriormente, enviar esta información a la nube donde se dispone de servidores capacitados para analizar esta ingente cantidad de información. Este nuevo enfoque pretende realizar todo el procesamiento y la obtención de resultados en el VANT o en un dispositivo local complementario. Esta aproximación permite eliminar la dependencia de un centro de cómputo remoto que añade complejidad a la infraestructura y que no es una opción en escenarios específicos, donde las conexiones inalámbricas no cumplen los requisitos de transferencia de datos o son entornos en los que la información tiene que obtenerse en ese preciso momento, por requisitos de seguridad o inmediatez. Esta tesis doctoral está compuesta de tres propuestas principales. En primer lugar se plantea un sistema de despegue de enjambres de VANTs basado en el algoritmo de Kuhn Munkres que resuelve el problema de asignación en tiempo polinómico. Nuestra evaluación estudia la complejidad de despegue de grandes enjambres y analiza el coste computacional y de calidad de nuestra propuesta. La segunda propuesta es la definición de una secuencia de procesamiento de imágenes de catástrofes naturales tomadas desde drones basada en Deep learning (DL). El objetivo es reducir el número de imágenes que deben procesar los servicios de emergencias en la catástrofe natural para poder tomar acciones sobre el terreno de una manera más rápida. Por último, se utiliza un conjunto de datos de imágenes obtenidas con VANTs y relativas a diferentes inundaciones, en concreto, de la DANA de 2019, cedidas por el Ayuntamiento de San Javier, ejecutando un modelo DL de segmentación semántica que determina automáticamente las regiones más afectadas por las lluvias (zonas inundadas). Entre los resultados obtenidos se destacan los siguientes: 1- la mejora drástica del rendimiento del despegue vertical coordinado de una red de VANTs. 2- La propuesta de un modelo no supervisado para la vigilancia de zonas desconocidas representa un avance para la exploración autónoma mediante VANTs. Esto permite una visión global de una zona concreta sin realizar un estudio detallado de la misma. 3- Por último, un modelo de segmentación semántica de las zonas inundadas, desplegado para el procesamiento de imágenes en el VANTs, permite la obtención de datos de inundaciones en tiempo real (respetando la privacidad) para una reconstrucción virtual fidedigna del evento. Esta tesis ofrece una propuesta para mejorar el despegue coordinado de drones y dotar de capacidad de procesamiento de algoritmos de deep learning a dispositivos edge, más concretamente UAVs autónomos. / [CA] Edge Computing és un model de computació emergent basat a acostar el processament als dispositius de captura de dades en les infraestructures Internet of things (IoT). Edge computing millora, entre altres coses, els temps de resposta, estalvia amplades de banda, incrementa la seguretat dels serveis i oculta les caigudes transitòries de la xarxa. Aquest paradigma actua en contraposició a l'execució de serveis en entorns cloud i és molt útil quan es desitja desenvolupar solucions d'intel·ligència artificial (AI) que aborden problemes en entorns de desastres naturals, com poden ser inundacions, incendis o altres esdeveniments derivats del canvi climàtic. La cobertura d'aquests escenaris pot resultar especialment difícil a causa de l'escassetat d'infraestructures disponibles, la qual cosa sovint impedeix una anàlisi de les dades basat en el núvol en temps real. Per tant, és fonamental habilitar tècniques de IA que no depenguen de sistemes de còmput externs i que puguen ser embegudes en dispositius de mòbils com a vehicles aeris no tripulats (VANT), perquè puguen captar i processar informació per a inferir possibles situacions d'emergència i determinar així el curs d'acció més adequat de manera autònoma. Històricament, es feia front a aquesta mena de problemes utilitzant els VANT com a dispositius de recollida de dades amb la finalitat de, posteriorment, enviar aquesta informació al núvol on es disposa de servidors capacitats per a analitzar aquesta ingent quantitat d'informació. Aquest nou enfocament pretén realitzar tot el processament i l'obtenció de resultats en el VANT o en un dispositiu local complementari. Aquesta aproximació permet eliminar la dependència d'un centre de còmput remot que afig complexitat a la infraestructura i que no és una opció en escenaris específics, on les connexions sense fils no compleixen els requisits de transferència de dades o són entorns en els quals la informació ha d'obtindre's en aqueix precís moment, per requisits de seguretat o immediatesa. Aquesta tesi doctoral està composta de tres propostes principals. En primer lloc es planteja un sistema d'enlairament d'eixams de VANTs basat en l'algorisme de Kuhn Munkres que resol el problema d'assignació en temps polinòmic. La nostra avaluació estudia la complexitat d'enlairament de grans eixams i analitza el cost computacional i de qualitat de la nostra proposta. La segona proposta és la definició d'una seqüència de processament d'imatges de catàstrofes naturals preses des de drons basada en Deep learning (DL).L'objectiu és reduir el nombre d'imatges que han de processar els serveis d'emergències en la catàstrofe natural per a poder prendre accions sobre el terreny d'una manera més ràpida. Finalment, s'utilitza un conjunt de dades d'imatges obtingudes amb VANTs i relatives a diferents inundacions, en concret, de la DANA de 2019, cedides per l'Ajuntament de San Javier, executant un model DL de segmentació semàntica que determina automàticament les regions més afectades per les pluges (zones inundades). Entre els resultats obtinguts es destaquen els següents: 1- la millora dràstica del rendiment de l'enlairament vertical coordinat d'una xarxa de VANTs. 2- La proposta d'un model no supervisat per a la vigilància de zones desconegudes representa un avanç per a l'exploració autònoma mitjançant VANTs. Això permet una visió global d'una zona concreta sense realitzar un estudi detallat d'aquesta. 3- Finalment, un model de segmentació semàntica de les zones inundades, desplegat per al processament d'imatges en el VANTs, permet l'obtenció de dades d'inundacions en temps real (respectant la privacitat) per a una reconstrucció virtual fidedigna de l'esdeveniment. / [EN] Edge Computing is an emerging computing model based on bringing data processing and storage closer to the location needed to improve response times and save bandwidth. This new paradigm acts as opposed to running services in cloud environments and is very useful in developing artificial intelligence (AI) solutions that address problems in natural disaster environments, such as floods, fires, or other events of an adverse nature. Coverage of these scenarios can be particularly challenging due to the lack of available infrastructure, which often precludes real-time cloud-based data analysis. Therefore, it is critical to enable AI techniques that do not rely on external computing systems and can be embedded in mobile devices such as unmanned aerial vehicles (UAVs) so that they can capture and process information to understand their context and determine the appropriate course of action independently. Historically, this problem was addressed by using UAVs as data collection devices to send this information to the cloud, where servers can process it. This new approach aims to do all the processing and get the results on the UAV or a complementary local device. This approach eliminates the dependency on a remote computing center that adds complexity to the infrastructure and is not an option in specific scenarios where wireless connections do not meet the data transfer requirements. It is also an option in environments where the information has to be obtained at that precise moment due to security or immediacy requirements. This study consists of three main proposals. First, we propose a UAV swarm takeoff system based on the Kuhn Munkres algorithm that solves the assignment problem in polynomial time. Our evaluation studies the takeoff complexity of large swarms and analyzes our proposal's computational and quality cost. The second proposal is the definition of a Deep learning (DL) based image processing sequence for natural disaster images taken from drones to reduce the number of images processed by the first responders in the natural disaster. Finally, a dataset of images obtained with UAVs and related to different floods is used to run a semantic segmentation DL model that automatically determines the regions most affected by the rains (flooded areas). The results are 1- The drastic improvement of the performance of the coordinated vertical take-off of a network of UAVs. 2- The proposal of an unsupervised model for the surveillance of unknown areas represents a breakthrough for autonomous exploration by UAVs. This allows a global view of a specific area without performing a detailed study. 3- Finally, a semantic segmentation model of flooded areas, deployed for image processing in the UAV, allows obtaining real-time flood data (respecting privacy) for a reliable virtual reconstruction of the event. This thesis offers a proposal to improve the coordinated take-off of drones, to provide edge devices with deep learning algorithms processing capacity, more specifically autonomous UAVs, in order to develop services for the surveillance of areas affected by natural disasters such as fire detection, segmentation of flooded areas or detection of people in danger. Thanks to this research, services can be developed that enable the coordination of large arrays of drones and allow image processing without needing additional devices. This flexibility makes our approach a bet for the future and thus provides a development path for anyone interested in deploying an autonomous drone-based surveillance and actuation system. / I would like to acknowledge the project Development of High-Performance IoT Infrastructures against Climate Change based on Artificial Intelligence (GLOBALoT). Funded by Ministerio de Ciencia e Innovación (RTC2019-007159-5), of which this thesis is part. / Hernández Vicente, D. (2023). Analysis Design and Implementation of Artificial Intelligence Techniques in Edge Computing Environments [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/192605 / Compendio Heurísticas Inteligencia artificial (IA) Vehículos aéreos no tripulados (UAV) Algoritmo de Kuhn-Munkres Unidad de procesamiento gráfico Redes neuronales profundas Detección de inundaciones Catástrofes naturales Segmentación semántica Informática de borde Cambio climático Aprendizaje profundo Visión artificial Tecnologías sostenibles Enjambres de drones Heuristics Artificial Intelligence (AI) Unmanned Aerial Vehicles (UAVs) Kuhn-Munkres algorithm Graphics Processing Unit Deep Neural Networks Flood detection Natural disasters Semantic segmentation Edge computing Climate Change Deep Learning Artificial Vision Sustainable ICT Assignment problem Swarm Safe takeoff Optimization
50	Robustness of Machine Learning algorithms applied to gas turbines / Robusthet av maskininlärningsalgoritmer i gasturbiner Cardenas Meza, Andres Felipe January 2024 (has links) This thesis demonstrates the successful development of a software sensor for Siemens Energy's SGT-700 gas turbines using machine learning algorithms. Our goal was to enhance the robustness of measurements and redundancies, enabling early detection of sensor or turbine malfunctions and contributing to predictive maintenance methodologies. The research is based on a real-world case study, implementing the Cross Industry Standard Process for Data Mining (CRISP DM) methodology in an industrial setting. The thesis details the process from dataset preparation and data exploration to algorithm development and evaluation, providing a comprehensive view of the development process. This work is a step towards integrating machine learning into gas turbine systems. The data preparation process highlights the challenges that arise in the industrial application of data-driven methodologies due to inevitable data quality issues. It provides insight into potential future improvements, such as the constraint programming approach used for dataset construction in this thesis, which remains a valuable tool for future research. The range of algorithms proposed for the software sensor's development spans from basic to more complex methods, including shallow networks, ensemble methods and recurrent neural networks. Our findings explore the limitations and potential of the proposed algorithms, providing valuable insights into the practical application of machine learning in gas turbines. This includes assessing the reliability of these solutions, their role in monitoring machine health over time, and the importance of clean, usable data in driving accurate and satisfactory estimates of different variables in gas turbines. The research underscores that, while replacing a physical sensor with a software sensor is not yet feasible, integrating these solutions into gas turbine systems for health monitoring is indeed possible. This work lays the groundwork for future advancements and discoveries in the field. / Denna avhandling dokumenterar den framgångsrika utvecklingen av en mjukvarusensor för Siemens Energy's SGT-700 gasturbiner med hjälp av maskininlärningsalgoritmer. Vårt mål var att öka mätkvaliten samt införa redundans, vilket möjliggör tidig upptäckt av sensor- eller turbinfel och bidrar till utvecklingen av prediktiv underhållsmetodik. Forskningen baseras på en verklig fallstudie, implementerad enligt Cross Industry Standard Process for Data Mining-metodiken i en industriell miljö. Avhandligen beskriver processen från datamängdsförberedelse och datautforskning till utveckling och utvärdering av algoritmer, vilket ger en heltäckande bild av utvecklingsprocessen. Detta arbete är ett steg mot att integrera maskininlärning i gasturbinssystem. Dataförberedelsesprocessen belyser de utmaningar som uppstår vid industriell tillämpning av datadrivna metoder på grund av oundvikliga datakvalitetsproblem. Det ger insikt i potentiella framtida förbättringar, såsom den begränsningsprogrammeringsansats som används för datamängdskonstruktion i denna avhandling, vilket förblir ett värdefullt verktyg för framtida forskning. Utvecklingen av mjukvarusensorn sträcker sig från grundläggande till mer komplexa metoder, inklusive ytliga nätverk, ensemblemetoder och återkommande neurala nätverk. Våra resultat utforskar begränsningarna och potentialen hos de föreslagna algoritmerna och ger värdefulla insikter i den praktiska tillämpningen av maskininlärning i gasturbiner. Detta inkluderar att bedöma tillförlitligheten hos dessa lösningar, deras roll i övervakning av maskinhälsa över tid och vikten av ren, användbar data för att generera korrekta och tillfredsställande uppskattningar av olika variabler i gasturbiner. Forskningen understryker att, medan det ännu inte är genomförbart att ersätta en fysisk sensor med en mjukvarusensor, är det verkligen möjligt att integrera dessa lösningar i gasturbinssystem för tillståndsövervakning. Detta arbete lägger grunden för vidare studier och upptäckter inom området. / Esta tesis demuestra el exitoso desarrollo de un sensor basado en software para las turbinas de gas SGT-700 de Siemens Energy utilizando algoritmos de aprendizaje automático. Esto con el objetivo de contribuir a las metodologías de mantenimiento predictivo. La investigación se basa en un estudio industrial que implementa la metodología de Proceso Estándar de la Industria para la Minería de Datos, cuyo acrónimo en inglés CRISP-DM. La tesis detalla el proceso desde la preparación del 'dataset', la exploración de datos hasta el desarrollo y evaluación de algoritmos, proporcionando una visión holistica del proceso de desarrollo. Este trabajo representa un paso hacia la integración del aprendizaje automático en turbinas de gas. Nuestros hallazgos exploran las limitaciones y el potencial de los algoritmos propuestos, proporcionando un analisis sobre la aplicación práctica del aprendizaje automático en turbinas de gas. Esto incluye evaluar la confiabilidad de estas soluciones, su papel en la monitorización de la salud de la máquina a lo largo del tiempo, y la importancia de los datos limpios y utilizables para impulsar estimaciones precisas y satisfactorias de diferentes variables en las turbinas de gas. La investigación sugiere que, aunque reemplazar un sensor físico con un sensor basado en aprendizaje automatico aún no es factible, sí es posible integrar estas soluciones en los sistemas de turbinas de gas para monitorear del estado de la maquina. Gas turbines machine learning deep learning predictive maintenance software sensor data quality Reliability Ensemble Methods Gasturbiner maskininlärning djupinlärning prediktivt underhåll mjukvarusensor datakvalitet Pålitlighet Ensemble metoder Turbinas de gas aprendizaje automático aprendizaje profundo mantenimiento predictivo sensor basado en software calidad de datos CRISP DM Fiabilidad Métodos de conjunto Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik

Search results