Spelling suggestions: "subject:"naive bayes."" "subject:"naive hayes.""
51 |
Desarrollo de nuevos marcadores y clasificadores de bajo coste computacional para identificar afecciones cardiacas en registros ECGJiménez Serrano, Santiago 07 September 2023 (has links)
[ES] Las enfermedades cardiovasculares son una de las principales causas de mortalidad y morbilidad en el mundo. Entre las arritmias más comunes en adultos destaca la Fibrilación Auricular (FA), presentando una tendencia de crecimiento muy significativa, sobre todo en población de edad avanzada o con trastornos de obesidad. En el otro extremo, nos encontramos con la Miocardiopatía Arritmogénica (MCA), considerada una enfermedad rara con una prevalencia de 1:2000-5000 pero con gran afectación entre familiares directos, causante de muerte súbita cardiaca (MSC), y con un diagnóstico clínico complicado. Más allá de la FA o la MCA, existe una amplia variedad de patologías derivadas de una disfunción en la activación y conducción eléctrica del corazón.
Para todas ellas, el electrocardiograma (ECG) continúa figurando como la primera y principal técnica de diagnóstico clínico, siendo una herramienta fundamental de cribado y detección de patologías relativamente económica y ampliamente accesible. Sin embargo, el diagnóstico preciso a partir de la interpretación del ECG requiere de médicos experimentados, siendo ésta una tarea que consume recursos, tiempo y que además está sujeta a la variabilidad entre observadores.
Respecto a las afecciones cardiacas más comunes, conseguir un diagnóstico de forma automática que sea fiable, utilizando tanto 12 como un número reducido o único de derivaciones, sigue presentándose como un desafío. Este aspecto cobra especial relevancia con el uso cada vez más extendido de dispositivos portátiles o wearables, los cuales están ganando un gran interés para la detección temprana y preventiva de enfermedades cardiacas, registrando normalmente un número reducido de derivaciones ECG. Dicho uso masivo les confiere un gran potencial para facilitar el cribado y seguimiento de distintas afecciones en una amplia variedad de escenarios, a pesar de registrar señales de peor calidad en comparación con equipos certificados para uso clínico. El principal reto con estos dispositivos es encontrar un equilibrio adecuado entre la sensibilidad y la especificidad en la detección de ritmos cardiacos susceptibles de ser patológicos. En consecuencia, es indispensable diseñar e implementar algoritmos precisos adecuados para dispositivos móviles o portátiles capaces de detectar distintas afecciones cardiacas en registros de ECG.
Respecto las afecciones cardiacas menos comunes como el caso de la MCA, es necesario incrementar la sensibilidad en la detección durante los cribados intra-familiares realizados tras una MSC. Para ello, sería posible explorar biomarcadores propios a esta enfermedad obtenidos mediante técnicas de procesado de señales ECG, además de modelos de clasificación que hagan uso de ellos, contribuyendo así a reducir el número de casos de muerte súbita.
En base a lo descrito anteriormente, la presente tesis estudia las posibilidades de diagnóstico basadas en técnicas de aprendizaje y clasificación automática en dos escenarios principales. El primero aborda la detección de la FA, así como un amplio abanico de otras patologías cardiacas comunes, donde proponemos y validamos distintos modelos de clasificación de bajo consumo computacional. Todo esto, utilizando extensas bases de datos de acceso abierto, y haciendo énfasis en enfoques de derivación única, ya que son los más utilizados en dispositivos móviles e inteligentes. El segundo escenario se centra en la detección de MCA mediante las 12 derivaciones estándar del ECG, donde proponemos y validamos nuevos biomarcadores y modelos de clasificación que tratan de incrementar la sensibilidad de los cribados intra-familiares realizados tras una MSC. Para ello, utilizamos una base de datos específica de la Unidad de Cardiopatías Familiares del Hospital Universitario y Politécnico La Fe de València. / [CA] Les malalties cardiovasculars són una de les principals causes de mortalitat i morbiditat en el món. Entre les arrítmies més comunes en adults destaca la Fibril·lació Auricular (FA), presentant una tendència de creixement molt significativa, sobretot en població d'edat avançada o amb trastorns d'obesitat. En l'altre extrem, ens trobem amb la Miocardiopatia Arritmogènica (MCA), considerada una malaltia rara amb una prevalença de 1:2000-5000 però amb gran afectació entre familiars directes, causant de mort sobtada cardíaca (MSC), i amb un diagnòstic clínic complicat. Més enllà de la FA o la MCA, existeix una àmplia varietat de patologies derivades d'una disfunció en l'activació i conducció elèctrica del cor.
Per a totes elles, l'electrocardiograma (ECG) continua figurant com la primera i principal tècnica de diagnòstic clínic, sent una eina fonamental de cribratge i detecció de patologies relativament econòmica i àmpliament accessible. No obstant això, el diagnòstic precís a partir de la interpretació del ECG requereix de metges experimentats, sent aquesta una tasca que consumeix recursos, temps i que a més està subjecta a la variabilitat entre observadors.
Respecte a les afeccions cardíaques més comunes, aconseguir un diagnòstic de manera automàtica que siga fiable, utilitzant tant 12 com un número reduït o únic de derivacions, continua presentant-se com un desafiament. Aquest aspecte cobra especial rellevància amb l'ús cada vegada més estés de dispositius portàtils o wearables, els quals estan guanyant un gran interés per a la detecció precoç i preventiva de malalties cardíaques, registrant normalment un nombre reduït de derivacions ECG. Aquest ús massiu els confereix un gran potencial per a facilitar el cribratge i seguiment de diferents afeccions en una àmplia varietat d'escenaris, malgrat registrar senyals de pitjor qualitat en comparació amb equips certificats per a ús clínic. El principal repte amb aquests dispositius és trobar un equilibri adequat entre la sensibilitat i l'especificitat en la detecció de ritmes cardíacs susceptibles de ser patològics. En conseqüència, és indispensable dissenyar i implementar algorismes precisos adequats per a dispositius mòbils o portàtils capaços de detectar diferents afeccions cardíaques en registres de ECG.
Respecte les afeccions cardíaques menys comunes com el cas de la MCA, és necessari incrementar la sensibilitat en la detecció durant els cribratges intra-familiars realitzats després d'una MSC. Per a això, seria possible explorar biomarcadors propis a aquesta malaltia obtinguts mitjançant tècniques de processament de senyals ECG, a més de models de classificació que facen ús d'ells, contribuint així a reduir el nombre de casos de mort sobtada.
Sobre la base del descrit anteriorment, la present tesi estudia les possibilitats de diagnòstic basades en tècniques d'aprenentatge i classificació automàtica en dos escenaris principals. El primer aborda la detecció de la FA, així com un ampli ventall d'altres patologies cardíaques comunes, on proposem i validem diferents models de classificació de baix consum computacional. Tot això, utilitzant extenses bases de dades d'accés obert, i fent èmfasi en enfocaments de derivació única, ja que són els més utilitzats en dispositius mòbils i intel·ligents. El segon escenari se centra en la detecció de MCA mitjançant les 12 derivacions estàndard de l'ECG, on proposem i validem nous biomarcadors i models de classificació que tracten d'incrementar la sensibilitat dels cribratges intra-familiars realitzats després d'una MSC. Per a això, utilitzem una base de dades específica de la Unitat de Cardiopaties Familiars de l'Hospital Universitari i Politècnic La Fe de València. / [EN] Cardiovascular diseases are one of the leading causes of mortality and morbidity worldwide. Atrial Fibrillation (AF) stands out among adults' most common arrhythmias, presenting a very significant growth trend, especially in the elderly population or those with obesity disorders. At the other extreme, we find Arrhythmogenic Cardiomyopathy (ACM), a rare disease with a prevalence of 1:2000-5000 but great affectation among direct relatives, causing sudden cardiac death (SCD), and with a complicated clinical diagnosis. Beyond AF or ACM, there is a wide variety of pathologies derived from dysfunctions in the activation or electrical conduction of the heart.
For all of them, the electrocardiogram (ECG) continues to appear as the first and foremost clinical diagnostic technique, being a fundamental tool for screening and detecting pathologies that is relatively cheap and widely accessible. However, accurate diagnosis based on ECG interpretation requires experienced physicians, as this task consumes resources, time and is subject to variability between observers.
For the most common cardiac conditions, achieving a reliable diagnosis automatically, using either 12 or a smaller or single number of leads, remains a challenge. This aspect is especially relevant with the increasingly widespread use of portable or wearable devices, which are gaining significant interest for the early and preventive detection of heart disease, typically recording a reduced number of ECG leads. Such massive use gives them great potential to facilitate screening and monitoring different conditions in different scenarios, despite registering signals of lower quality compared to equipment certified for clinical use. The main challenge with these devices is finding the right balance between sensitivity and specificity in detecting pathologic heart rhythms. Consequently, designing and implementing accurate algorithms suitable for mobile or portable devices capable of detecting different cardiac conditions in ECG recordings is essential.
Concerning less common cardiac conditions such as the case of ACM, it is necessary to increase the sensitivity in detection during intra-family screenings carried out after an SCD. Hence, it would be possible to explore specific biomarkers to this disease obtained through ECG signal processing techniques, as well as classification models that use them, thus contributing to reduce the number of cases of sudden death.
Based on the previously described, this thesis studies the diagnostic possibilities based on machine learning and classification techniques in two main scenarios. The first deals with detecting AF and a wide range of other common cardiac pathologies, where we propose and validate different classification models with low computational consumption. All this, using extensive open access databases, and emphasizing single-lead approaches, since they are the most used in mobile and smart devices. The second scenario focuses on detecting ACM using the standard 12-lead ECG, where we propose and validate new biomarkers and classification models that try to increase the sensitivity of intra-family screenings carried out after an MSC. For this task, we used a specific database of the Familial Cardiopathies Unit of the Hospital Universitario y Politécnico La Fe de València. / Jiménez Serrano, S. (2023). Desarrollo de nuevos marcadores y clasificadores de bajo coste computacional para identificar afecciones cardiacas en registros ECG [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/196826
|
52 |
Geo-Locating Tweets with Latent Location InformationLee, Sunshin 13 February 2017 (has links)
As part of our work on the NSF funded Integrated Digital Event Archiving and Library (IDEAL) project and the Global Event and Trend Archive Research (GETAR) project, we collected over 1.4 billion tweets using over 1,000 keywords, key phrases, mentions, or hashtags, starting from 2009. Since many tweets talk about events (with useful location information), such as natural disasters, emergencies, and accidents, it is important to geo-locate those tweets whenever possible.
Due to possible location ambiguity, finding a tweet's location often is challenging. Many distinct places have the same geoname, e.g., "Greenville" matches 50 different locations in the U.S.A. Frequently, in tweets, explicit location information, like geonames mentioned, is insufficient, because tweets are often brief and incomplete. They have a small fraction of the full location information of an event due to the 140 character limitation. Location indicative words (LIWs) may include latent location information, for example, "Water main break near White House" does not have any geonames but it is related to a location "1600 Pennsylvania Ave NW, Washington, DC 20500 USA" indicated by the key phrase 'White House'.
To disambiguate tweet locations, we first extracted geospatial named entities (geonames) and predicted implicit state (e.g., Virginia or California) information from entities using machine learning algorithms including Support Vector Machine (SVM), Naive Bayes (NB), and Random Forest (RF). Implicit state information helps reduce ambiguity. We also studied how location information of events is expressed in tweets and how latent location indicative information can help to geo-locate tweets. We then used a machine learning (ML) approach to predict the implicit state using geonames and LIWs.
We conducted experiments with tweets (e.g., about potholes), and found significant improvement in disambiguating tweet locations using a ML algorithm along with the Stanford NER. Adding state information predicted by our classifiers increased the possibility to find the state-level geo-location unambiguously by up to 80%. We also studied over 6 million tweets (3 mid-size and 2 big-size collections about water main breaks, sinkholes, potholes, car crashes, and car accidents), covering 17 months. We found that up to 91.1% of tweets have at least one type of location information (geo-coordinates or geonames), or LIWs. We also demonstrated that in most cases adding LIWs helps geo-locate tweets with less ambiguity using a geo-coding API. Finally, we conducted additional experiments with the five different tweet collections, and found significant improvement in disambiguating tweet locations using a ML approach with geonames and all LIWs that are present in tweet texts as features. / Ph. D. / As part of our work on the projects “Integrated Digital Event Archiving and Library (IDEAL)” and “Global Event and Trend Archive Research (GETAR),” funded by NSF, we collected over 1.4 billion tweets using over 1,000 keywords, key phrases, mentions, or hashtags, starting from 2009. Since many tweets talk about events (with useful location information), such as natural disasters, emergencies, and accidents, it is important to geolocate those tweets whenever possible.
Due to possible location ambiguity, finding a tweet’s location often is challenging. Many distinct places have the same geoname, e.g., “Greenville” matches 50 different locations in the U.S.A. Frequently, in tweets, explicit location information, like geonames mentioned, is insufficient, because tweets are often brief and incomplete. They have a small fraction of the full location information of an event due to the 140 character limitation. Location indicative words (LIWs) may include latent location information, for example, “Water main break near White House” does not have any geonames but it is related to a location “1600 Pennsylvania Ave NW, Washington, DC 20500 USA” indicated by the key phrase ‘White House’.
To disambiguate tweet locations, we first extracted geonames, and then predicted implicit state (e.g., Virginia or California) information from entities using machine learning (ML) algorithms (wherein computers learn from examples what state is appropriate). Implicit state information helps reduce ambiguity. We also studied how location information of events is expressed in tweets and how latent location indicative information can help to geo-locate tweets. We then used a ML approach to predict the implicit state using geonames and LIWs.
We conducted experiments with tweets (e.g., about potholes), and found significant improvement in disambiguating tweet locations using a ML algorithm along with the Stanford Named Entity Recognizer. Adding state information predicted by our classifiers increased the ability to find the state-level geo-location unambiguously by up to 80%. We also studied over 6 million tweets (in three mid-size and two big collections, about water main breaks, sinkholes, potholes, car crashes, and car accidents), covering 17 months. We found that up to 91.1% of tweets have at least one type of location information (geocoordinates or geonames), or LIWs. We also demonstrated that in most cases adding LIWs helps geo-locate tweets with less ambiguity using a geo-coding Web application (that converts addresses into geographic coordinates). Finally, we conducted additional experiments with the five different tweet collections, and found significant improvement in disambiguating tweet locations using a ML approach wherein the features considered are the geonames and all LIWs that are present in the tweet texts.
|
Page generated in 0.0411 seconds