Aplicação de técnicas de mineração de texto na recuperação de informação clínica em prontuário eletrônico do paciente / Application of text mining techniques in clinical information retrieval in the electronic patient record

Submitted by RICARDO CÉSAR DE CARVALHO (ricdon@gmail.com) on 2017-06-02T04:41:34Z
No. of bitstreams: 1
Mestrado_Ricardo_Carvalho.pdf: 4464660 bytes, checksum: ba1819b77212278eb1a2808fd9658e4c (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-06-02T13:47:17Z (GMT) No. of bitstreams: 1
carvalho_rc_me_mar.pdf: 4464660 bytes, checksum: ba1819b77212278eb1a2808fd9658e4c (MD5) / Made available in DSpace on 2017-06-02T13:47:17Z (GMT). No. of bitstreams: 1
carvalho_rc_me_mar.pdf: 4464660 bytes, checksum: ba1819b77212278eb1a2808fd9658e4c (MD5)
Previous issue date: 2017-05-08 / Na área da saúde, as tecnologias digitais fornecem recursos para a geração, controle, manutenção e arquivamento dos dados vitais dos pacientes, pesquisas biomédicas, captura e disponibilização de imagens diagnósticas. Ao criar grandes bancos de dados sobre a saúde das pessoas, o processamento das informações contidas no prontuário do paciente permitirá uma nova visão a respeito do conhecimento atual do processo de diagnóstico médico. Existem diversos problemas nessa área, porque o acesso ao prontuário analógico é complicado, e em formato eletrônico não está disponível para todos, apesar do conhecido potencial desses documentos como fonte informacional. Uma das formas para a organização desse conhecimento é por meio da mineração de textos, que possibilita o processamento dos dados descritos em linguagem natural. Entretanto, é preciso levar em consideração o fato da redação médica não poder ser padronizada, embora exista a normativa do Conselho Federal de Medicina que orienta nessa direção. É neste contexto, que esta pesquisa se norteia com o objetivo básico de investigar a aplicabilidade da metodologia de mineração de textos para a extração de informações provenientes da anamnese de prontuários eletrônicos do paciente divulgados no ciberespaço visando a qualidade na recuperação de informações. Trata-se de uma pesquisa de cunho exploratório, tendo-se realizado a mineração de textos sobre um conjunto de 46 anamneses divulgadas no ciberespaço visando a recuperação de informação. Em seguida, fez-se um cotejamento com os dados recuperados de forma manual, efetuando-se a interpretação da linguagem de comunicação médico-paciente. Esses dois resultados foram registrados em um protótipo construído e simulando o ambiente de um consultório médico. Os resultados evidenciam que a utilização da mineração de texto como ferramenta de extração na busca e recuperação de informações em saúde encontrou diversas dificuldades decorrentes das inúmeras formas de se redigir uma anamnese, além dos erros ortográficos, erros gramaticais, remoção de sufixos e prefixos, sinônimos, abreviações, siglas, símbolos, pontuações, termos e jargões médicos. Esse fato evidencia que ao se planejar um sistema computacional ele deve ser capaz de interpretar informações descritas de inúmeras formas, não excluindo palavras importantes ou ignorando aqueles relevantes que poderiam colocar em risco as ações de cuidados do paciente. Ao aplicar os processos de tokenization, remoção de stopwords, normalização morfológica, stemming e cálculo da relevância, conjuntamente contribuíram para que os termos resultantes fossem muito diferentes daqueles extraídos manualmente, ou seja, há ainda muitos desafios em cada uma dessas etapas na busca da qualidade na recuperação de informações concernente à anamnese. Conclui-se que embora a mineração seja uma ferramenta útil ao se tratar de textos estruturados e de outros domínios, quando aplicada a anamnese que é um texto mais livre tal ferramenta deixa a desejar, posto que ao se tratar da área da saúde, a redução de termos compostos, bem como a utilização de siglas, símbolos, abreviaturas ou outra forma de redução linguística trará interferências danosas para a recuperação de informação. A construção do protótipo ilustra a criação de uma ferramenta leve e intuitiva aplicando os conceitos discutidos nessa dissertação, além de se tornar o pontapé inicial de trabalhos futuros. / In the health area, digital technologies provide resources for the generation, control, maintenance and vital patient data archiving biomedical research, diagnostic images capture and availability. By creating large databases on people´s health records, processing the information contained in the patient's medical record, will provide a new insight into current knowledge of the medical diagnostic process. There are several problems in this area, because the access to analogical records is very complex and electronic format is not available for all of them, despite the known potential of these documents as informational source. One of the ways to arrange this knowledge is by the text mining which enables the data processing in natural language. However, it is necessary to consider the fact that medical writing cannot be standardized, although there is a Federal Council of Medicine policy that directs to that path. This is the context which this research is guided by the basic goal of investigating the methodology applicability of text mining for extracting information from the anamnesis of patients' electronic medical records divulged in cyberspace and aiming at the quality of information retrieval. This is an exploratory research, with texts mining on a set of 46 anamnesis published in cyberspace aimed at information retrieval. Then, a comparison was made with the data retrieved manually, to the interpretation of the medical-patient communication language. Those two results were recorded in a prototype built and simulating the environment of a doctor's office. The results show that the use of text mining as an extraction tool in the search and retrieval of health information has found several difficulties due to the numerous ways of writing an anamnesis, besides spelling errors, grammatical errors, deletion of suffixes and prefixes, synonyms, abbreviations, acronyms, symbols, punctuations, medical terms and jargon. It shows that when planning a computer system, it should be able to interpret information described in different ways, not excluding important words or ignoring relevant ones that could jeopardize patient care actions. By applying the processes of tokenization, stopwords, morphological normalization, stemming and calculus of relevance, altogether contributed to showing that the resulting terms were very different from those extracted manually. There are still many challenges in each of those steps concerning quality in the anamnesis information retrieval. Concluding that although mining is a useful tool when dealing with structured texts and other domains, when applied to anamnesis, which is a freer text, such tool lacks efficiency, since in health area the compound terms reduction, as well as the use of acronyms, symbols, abbreviations or other forms of linguistic reduction will bring harmful interference to the retrieval of information. The prototype is a light and intuitive tool applied to the concepts discussed on this dissertation, which way become the kickoff of a future project.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unesp.br:11449/150814
Date08 May 2017
CreatorsCarvalho, Ricardo César de [UNESP]
ContributorsUniversidade Estadual Paulista (UNESP), Pinto, Virginia Bentes [UNESP]
PublisherUniversidade Estadual Paulista (UNESP)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UNESP, instname:Universidade Estadual Paulista, instacron:UNESP
Rightsinfo:eu-repo/semantics/openAccess
Relation600

Page generated in 0.0029 seconds