O avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença. / Technology has been producing large biological datasets of genome sequences, gene and protein expression, RNA and protein structure, images, electronic questionnaires and laboratory test results. In order to extract information and knowledge from these large datasets, data mining techniques have been used in the investigation of a wide range of biological processes, with the goal of predicting gene, gene function, phenotype, regulatory modules, molecular interaction, protein function and protein structure. Each dataset has different characteristics and demands the application of different statistical methodologies and pattern recognition algorithms, such as Random Forests, Neural Networks, Deep Learning, Markov Hidden Model, Support Vector Machine, K-means and Principal Component Analysis. The choice of the algorithm depends on data type, data generation, data characteristics and goal of the study. Therefore, the goal of this work was to explore pattern recognition and statistical techniques in a biological dataset on sickle cell disease patients, in order to extract information and knowledge about the biological systems, processes and mechanisms associated with the disease. A diverse dataset was analyzed, containing data from medical records, patient interviews, laboratory tests and single nucleotide polymorphisms. The dataset requires a variety of analysis approaches, in order to explore and reveal the hidden data structure. In an initial investigation, pattern recognition algorithms were used in the analysis of clinical data from sickle cell patients, in order to obtain clusters containing similar patients. PCAMix, PAM and TwoStep clustering algorithms generated homogeneous clusters of patients that display different clinical characteristics and different levels of disease severity. The results show that age, bilirubin levels, transfusion history, vaso-occlusive pain episodes, acute chest syndrome, infarctive stroke, hemorrhagic stroke, ischemic attack, leg ulcers, moyamoya, ferritin, reticulocyte count, retinopathy, seizures and transfusional hemosiderosis are important to define homogeneous patient clusters, with distinct levels of sickle cell severity. Additionally, the patients with history of priapism, a sickle cell related complication, were studied. The goal of the study was to characterize patients with priapism history and investigate genetic factors that modify the risks of the disease. Priapism more frequently occurred among patients with HbSS genotype and was associated with older age and occurrence of pulmonary hypertension and avascular necrosis. Two novel SNPs were associated with priapism and there was evidence of replication of a previously reported association of TGFBR3 with priapism risk.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-07092019-110857 |
Date | 02 July 2019 |
Creators | Ozahata, Mina Cintho |
Contributors | Ferreira, João Eduardo |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0028 seconds