Return to search

Congenital Heart Disease Detection Using Clinical Data and Auscultation Heart Sounds: a Machine Learning Approach

Introdução: A doença cardíaca congénita (DCC) é a malformação congénita mais comum no mundo, com incidência e prevalência crescentes. Está associada a maior morbilidade e mortalidade, relacionadas com o diagnóstico tardio. Apesar da disponibilidade de protocolos de rastreio, aproximadamente 75% das DCC não são detetadas ao nascimento. A auscultação cardíaca pode detetar a presença de um sopro. Contudo, apenas 1% de todos os sopros estão associados a DCC. Além disso, estudos mostram um declínio nas capacidades auscultatórias dos médicos. Estudos anteriores nesta área focaram-se na classificação de sons cardíacos em normais ou anormais e utilizaram coeficientes cepstrais nas frequências de Mel (MFCC) extraídos de sons cardíacos.
Objetivo: O objetivo deste estudo é criar e avaliar modelos para a deteção de DCC utilizando dados clínicos e características dos sons, que seriam extraídos usando quer MFCC convencionais, quer MFCC selecionados por pesquisa de motifs usando a inovação do matrix profiling.
Métodos: Neste estudo retrospetivo usámos uma base de dados colhida no contexto de um rastreio voluntário, formando uma série de conveniência. O critério de elegibilidade para rastreio foi idade inferior a 21 anos. Os critérios de exclusão para o estudo foram serem fetos, terem uma cirurgia cardíaca prévia e não terem um diagnóstico ecocardiográfico, que foi usado como referência standard. A informação clínica foi pré-processada e recodificada. Os MFCC foram extraídos das gravações de auscultação de segmentos de batimento cardíaco e de segmentos de motif identificados. Combinações diferentes dos dados foram usadas para treinar árvores de decisão (AD) e redes neuronais artificiais (RNA), e a área sob a curva (AUC) foi comparada. Posteriormente, treinámos modelos para a deteção de qualquer patologia no dataset.
Resultados: Este estudo incluiu 1655 indivíduos, 459 (27.73%) com DCC e 1196 (72.27%) sem DCC. Começando pela DCC, ambos os tipos de modelos dos dados clínicos mostraram uma AUC de 0.747. Os modelos de AD e RNA dos dados clínicos e ambos os tipos de dados do som tiveram AUC de 0.713 e 0.759, respetivamente. Embora, o modelo da RNA treinada usando dados clínicos e MFCC convencionais a mostrar a maior AUC (0.762). Para qualquer patologia, os modelos de dados clínicos mostraram AUC de 0.733 para a AD e 0.789 para a RNA. Quando todos os dados do som são incluídos, AUC cai para ambos (0.676 e 0.784, respetivamente). Novamente, o melhor modelo foi a RNA treinada com dados clínicos e MFCC convencionais (0.791).
Conclusão: Esperávamos que os dados do som melhorassem a performance dos modelos. Contudo, os resultados parecem indicar que estes produzem apenas uma ligeira melhoria. Adicionalmente, a inclusão dos MFCC extraídos de motifs parecem piorar a performance do modelo. Mais investigação é necessária para melhor selecionar as características extraídas dos sons e otimizá-los para patologias específicas. Isto tem o potencial de se tornar uma ferramenta de rastreio para DCC, que seria útil para médicos dos cuidados de saúde primários. / Background: Congenital heart disease (CHD) is the most common congenital malformation in the world, with increasing incidence and prevalence. It is associated with high morbidity and mortality, related to late diagnosis. Despite the availability of a screening protocols, approximately 75% of CHD is not detected at birth. Cardiac auscultation can detect the presence of a murmur. However, only 1% of all murmurs are associated with CHD. Moreover, studies show a decline in the auscultation skills of doctors, which highlights the need for screening tools. Previous studies in this area focused on classifying heart sounds as normal or abnormal and used Mel-frequency cepstral coefficients (MFCC) extracted from heart sounds.
Objective: The aim of this study is to create and evaluate models for the detection of CHD using clinical data and sound features, which would be extracted using either conventional MFCC or MFCC selected through motif search using the innovation of matrix profiling.
Methods: In this retrospective study we used a dataset collected on a volunteer screening setting, forming a convenience series. Eligibility criteria for screening was age under 21. Exclusion criteria for the study was being a fetus, having previous cardiac surgery, and having no echocardiogram result, which was used as reference standard. Clinical data was preprocessed and recoded. MFCC were extracted from the auscultation recordings from heartbeat segments and from motif segments identified. Different combinations of data were used to train decision trees (DT) and artificial neural networks (ANN), and the area under the curve (AUC) was compared. Posteriorly, we trained models for the detection of any pathology in the dataset.
Results: This study included 1655 individuals, 459 (27.73%) with CHD and 1196 (72.27%) without CHD. Starting with CHD, both types of models of the clinical data showed AUC of 0.747. The DT and ANN models of clinical data and both types of sound features had AUC of 0.713 and 0.759, respectively. Although, the ANN model trained using clinical data and conventional MFCC showed the highest AUC (0.762). For any pathology, the clinical data models showed AUC of 0.733 for DT and 0.789 for ANN. When all sound features are included, AUC fall for both (0.676 and 0.784, respectively). Again, the best model was the ANN trained with clinical data and conventional MFCC (0.791).
Conclusions: We expected that sound features would improve the performance of the models. However, the results seem to indicate they produce only a slight improvement. Additionally, the inclusion of MFCC extracted from motifs seems to worsen the model performance. Further research is needed to better select the sound features extracted and optimize them for specific pathologies. This has the potential of becoming a screening tool for CHD, which would be useful for primary care physicians.

Identiferoai:union.ndltd.org:up.pt/oai:repositorio-aberto.up.pt:10216/139714
Date15 July 2021
CreatorsSolange Maria Teixeira Belinha
ContributorsFaculdade de Medicina
Source SetsUniversidade do Porto
LanguageEnglish
Detected LanguagePortuguese
TypeDissertação
Formatapplication/pdf
RightsrestrictedAccess, https://creativecommons.org/licenses/by-nc-nd/4.0/

Page generated in 0.0036 seconds