Return to search

Deep Learning Strategies for Overcoming Diagnosis Challenges with Limited Annotations

Tesis por compendio / [ES] En los últimos años, el aprendizaje profundo (DL) se ha convertido en una de
las principales áreas de la inteligencia artificial (IA), impulsado principalmente
por el avance en la capacidad de procesamiento. Los algoritmos basados en
DL han logrado resultados asombrosos en la comprensión y manipulación de
diversos tipos de datos, incluyendo imágenes, señales de habla y texto.
La revolución digital del sector sanitario ha permitido la generación de nuevas
bases de datos, lo que ha facilitado la implementación de modelos de DL bajo
el paradigma de aprendizaje supervisado. La incorporación de estos métodos
promete mejorar y automatizar la detección y el diagnóstico de enfermedades,
permitiendo pronosticar su evolución y facilitar la aplicación de intervenciones
clínicas de manera más efectiva.
Una de las principales limitaciones de la aplicación de algoritmos de DL
supervisados es la necesidad de grandes bases de datos anotadas por expertos,
lo que supone una barrera importante en el ámbito médico. Para superar este
problema, se está abriendo un nuevo campo de desarrollo de estrategias de
aprendizaje no supervisado o débilmente supervisado que utilizan los datos
disponibles no anotados o débilmente anotados. Estos enfoques permiten
aprovechar al máximo los datos existentes y superar las limitaciones de la
dependencia de anotaciones precisas.
Para poner de manifiesto que el aprendizaje débilmente supervisado puede
ofrecer soluciones óptimas, esta tesis se ha enfocado en el desarrollado de
diferentes paradigmas que permiten entrenar modelos con bases de datos
débilmente anotadas o anotadas por médicos no expertos. En este sentido, se
han utilizado dos modalidades de datos ampliamente empleadas en la literatura
para estudiar diversos tipos de cáncer y enfermedades inflamatorias: datos
ómicos e imágenes histológicas. En el estudio sobre datos ómicos, se han
desarrollado métodos basados en deep clustering que permiten lidiar con las
altas dimensiones inherentes a este tipo de datos, desarrollando un modelo predictivo sin la necesidad de anotaciones. Al comparar el método propuesto
con otros métodos de clustering presentes en la literatura, se ha observado una
mejora en los resultados obtenidos.
En cuanto a los estudios con imagen histológica, en esta tesis se ha abordado
la detección de diferentes enfermedades, incluyendo cáncer de piel (melanoma
spitzoide y neoplasias de células fusocelulares) y colitis ulcerosa. En este
contexto, se ha empleado el paradigma de multiple instance learning (MIL)
como línea base en todos los marcos desarrollados para hacer frente al
gran tamaño de las imágenes histológicas. Además, se han implementado
diversas metodologías de aprendizaje, adaptadas a los problemas específicos
que se abordan. Para la detección de melanoma spitzoide, se ha utilizado
un enfoque de aprendizaje inductivo que requiere un menor volumen de
anotaciones. Para abordar el diagnóstico de colitis ulcerosa, que implica la
identificación de neutrófilos como biomarcadores, se ha utilizado un enfoque de
aprendizaje restrictivo. Con este método, el coste de anotación se ha reducido
significativamente al tiempo que se han conseguido mejoras sustanciales en los
resultados obtenidos. Finalmente, considerando el limitado número de expertos
en el campo de las neoplasias de células fusiformes, se ha diseñado y validado
un novedoso protocolo de anotación para anotaciones no expertas. En este
contexto, se han desarrollado modelos de aprendizaje profundo que trabajan
con la incertidumbre asociada a dichas anotaciones.
En conclusión, esta tesis ha desarrollado técnicas de vanguardia para abordar
el reto de la necesidad de anotaciones precisas que requiere el sector médico.
A partir de datos débilmente anotados o anotados por no expertos, se han
propuesto novedosos paradigmas y metodologías basados en deep learning para
abordar la detección y diagnóstico de enfermedades utilizando datos ómicos
e imágenes histológicas. / [CA] En els últims anys, l'aprenentatge profund (DL) s'ha convertit en una de les
principals àrees de la intel·ligència artificial (IA), impulsat principalment per
l'avanç en la capacitat de processament. Els algorismes basats en DL han
aconseguit resultats sorprenents en la comprensió i manipulació de diversos
tipus de dades, incloent-hi imatges, senyals de parla i text.
La revolució digital del sector sanitari ha permés la generació de noves
bases de dades, la qual cosa ha facilitat la implementació de models de
DL sota el paradigma d'aprenentatge supervisat. La incorporació d'aquests
mètodes promet millorar i automatitzar la detecció i el diagnòstic de malalties,
permetent pronosticar la seua evolució i facilitar l'aplicació d'intervencions
clíniques de manera més efectiva.
Una de les principals limitacions de l'aplicació d'algorismes de DL supervisats
és la necessitat de grans bases de dades anotades per experts, la qual cosa
suposa una barrera important en l'àmbit mèdic. Per a superar aquest
problema, s'està obrint un nou camp de desenvolupament d'estratègies
d'aprenentatge no supervisat o feblement supervisat que utilitzen les dades
disponibles no anotades o feblement anotats. Aquests enfocaments permeten
aprofitar al màxim les dades existents i superar les limitacions de la
dependència d'anotacions precises.
Per a posar de manifest que l'aprenentatge feblement supervisat pot oferir
solucions òptimes, aquesta tesi s'ha enfocat en el desenvolupat de diferents
paradigmes que permeten entrenar models amb bases de dades feblement
anotades o anotades per metges no experts. En aquest sentit, s'han utilitzat
dues modalitats de dades àmpliament emprades en la literatura per a estudiar
diversos tipus de càncer i malalties inflamatòries: dades ómicos i imatges
histològiques. En l'estudi sobre dades ómicos, s'han desenvolupat mètodes
basats en deep clustering que permeten bregar amb les altes dimensions
inherents a aquesta mena de dades, desenvolupant un model predictiu sense la
necessitat d'anotacions. En comparar el mètode proposat amb altres mètodes
de clustering presents en la literatura, s'ha observat una millora en els resultats
obtinguts.
Quant als estudis amb imatge histològica, en aquesta tesi s'ha abordat la
detecció de diferents malalties, incloent-hi càncer de pell (melanoma spitzoide
i neoplàsies de cèl·lules fusocelulares) i colitis ulcerosa. En aquest context,
s'ha emprat el paradigma de multiple instance learning (MIL) com a línia
base en tots els marcs desenvolupats per a fer front a la gran grandària de
les imatges histològiques. A més, s'han implementat diverses metodologies
d'aprenentatge, adaptades als problemes específics que s'aborden. Per a la
detecció de melanoma spitzoide, s'ha utilitzat un enfocament d'aprenentatge
inductiu que requereix un menor volum d'anotacions. Per a abordar el
diagnòstic de colitis ulcerosa, que implica la identificació de neutròfils com
biomarcadores, s'ha utilitzat un enfocament d'aprenentatge restrictiu. Amb
aquest mètode, el cost d'anotació s'ha reduït significativament al mateix
temps que s'han aconseguit millores substancials en els resultats obtinguts.
Finalment, considerant el limitat nombre d'experts en el camp de les neoplàsies
de cèl·lules fusiformes, s'ha dissenyat i validat un nou protocol d'anotació
per a anotacions no expertes. En aquest context, s'han desenvolupat models
d'aprenentatge profund que treballen amb la incertesa associada a aquestes
anotacions.
En conclusió, aquesta tesi ha desenvolupat tècniques d'avantguarda per a
abordar el repte de la necessitat d'anotacions precises que requereix el sector
mèdic. A partir de dades feblement anotades o anotats per no experts,
s'han proposat nous paradigmes i metodologies basats en deep learning per a
abordar la detecció i diagnòstic de malalties utilitzant dades *ómicos i imatges
histològiques. Aquestes innovacions poden millorar l'eficàcia i l'automatització
en la detecció precoç i el seguiment de malalties. / [EN] In recent years, deep learning (DL) has become one of the main areas of
artificial intelligence (AI), driven mainly by the advancement in processing
power. DL-based algorithms have achieved amazing results in understanding
and manipulating various types of data, including images, speech signals and
text.
The digital revolution in the healthcare sector has enabled the generation
of new databases, facilitating the implementation of DL models under the
supervised learning paradigm. Incorporating these methods promises to
improve and automate the detection and diagnosis of diseases, allowing
the prediction of their evolution and facilitating the application of clinical
interventions with higher efficacy.
One of the main limitations in the application of supervised DL algorithms is
the need for large databases annotated by experts, which is a major barrier
in the medical field. To overcome this problem, a new field of developing
unsupervised or weakly supervised learning strategies using the available
unannotated or weakly annotated data is opening up. These approaches make
the best use of existing data and overcome the limitations of reliance on precise
annotations.
To demonstrate that weakly supervised learning can offer optimal solutions,
this thesis has focused on developing different paradigms that allow training
models with weakly annotated or non-expert annotated databases. In this
regard, two data modalities widely used in the literature to study various
types of cancer and inflammatory diseases have been used: omics data and
histological images. In the study on omics data, methods based on deep
clustering have been developed to deal with the high dimensions inherent to
this type of data, developing a predictive model without requiring annotations.
In comparison, the results of the proposed method outperform other existing
clustering methods.
Regarding histological imaging studies, the detection of different diseases has
been addressed in this thesis, including skin cancer (spitzoid melanoma and
spindle cell neoplasms) and ulcerative colitis. In this context, the multiple
instance learning (MIL) paradigm has been employed as the baseline in
all developed frameworks to deal with the large size of histological images.
Furthermore, diverse learning methodologies have been implemented, tailored
to the specific problems being addressed. For the detection of spitzoid
melanoma, an inductive learning approach has been used, which requires a
smaller volume of annotations. To address the diagnosis of ulcerative colitis,
which involves the identification of neutrophils as biomarkers, a constraint
learning approach has been utilized. With this method, the annotation cost
has been significantly reduced while achieving substantial improvements in the
obtained results. Finally, considering the limited number of experts in the field
of spindle cell neoplasms, a novel annotation protocol for non-experts has been
designed and validated. In this context, deep learning models that work with
the uncertainty associated with such annotations have been developed.
In conclusion, this thesis has developed cutting-edge techniques to address
the medical sector's challenge of precise data annotation. Using weakly
annotated or non-expert annotated data, novel paradigms and methodologies
based on deep learning have been proposed to tackle disease detection and
diagnosis in omics data and histological images. These innovations can improve
effectiveness and automation in early disease detection and monitoring. / The work of Rocío del Amor to carry out this research and to elaborate this
dissertation has been supported by the Spanish Ministry of Universities under
the FPU grant FPU20/05263. / Amor Del Amor, MRD. (2023). Deep Learning Strategies for Overcoming Diagnosis Challenges with Limited Annotations [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/200227 / Compendio

Identiferoai:union.ndltd.org:upv.es/oai:riunet.upv.es:10251/200227
Date27 November 2023
CreatorsAmor del Amor, María Rocío del
ContributorsColomer Granero, Adrián, Naranjo Ornedo, Valeriana, Universitat Politècnica de València. Departamento de Ingeniería Electrónica - Departament d'Enginyeria Electrònica, Ministerio de Universidades
PublisherUniversitat Politècnica de València
Source SetsUniversitat Politècnica de València
LanguageEnglish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/acceptedVersion
Rightshttp://rightsstatements.org/vocab/InC/1.0/, info:eu-repo/semantics/openAccess
Relationinfo:eu-repo/grantAgreement/MIU//FPU20%2F05263/

Page generated in 0.1498 seconds