Global ETD Search

1	Metodologia de pré-processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico Matos, Pablo Freire 24 September 2010 (has links) Made available in DSpace on 2016-06-02T19:05:46Z (GMT). No. of bitstreams: 1 3250.pdf: 4243437 bytes, checksum: 462620b959061657eacd8e13120fedb0 (MD5) Previous issue date: 2010-09-24 / Financiadora de Estudos e Projetos / There is a large volume of unstructured information (i.e., in text format) being published in electronic media, in digital libraries particularly. Thus, the human being becomes restricted to an amount of text that is able to process and to assimilate over time. In this dissertation is proposed a methodology for textual preprocessing to extract information about disease effects in the biomedical domain papers, in order to identify relevant information from a text, to structure and to store this information in a database to provide a future discovery of interesting relationships between the extracted information. The methodology consists of four steps: Data Entrance (Step 1), Sentence Classification (Step 2), Identification of Relevant Terms (Step 3) and Terms Management (Step 4). This methodology uses three information extraction approaches from the literature: machine learning approach, dictionary-based approach and rule-based approach. The first one is developed in Step 2, in which a supervised machine learning algorithm is responsible for classify the sentences. The second and third ones are developed in Step 3, in which a dictionary of terms validated by an expert and rules developed through regular expressions were used to identify relevant terms in sentences. The methodology validation was carried out through its instantiation to an area of the biomedical domain, more specifically using papers on Sickle Cell Anemia. Accordingly, two case studies were conducted in both Step 2 and in Step 3. The obtained accuracy in the sentence classification was above of 60% and F-measure for the negative effect class was above of 70%. These values correspond to the results achieved with the Support Vector Machine algorithm along with the use of the Noise Removal filter. The obtained F-measure with the identification of relevant terms was above of 85% for the fictitious extraction (i.e., manual classification performed by the expert) and above of 80% for the actual extraction (i.e., automatic classification performed by the classifier). The F-measure of the classifier above of 70% and F-measure of the actual extraction above 80% show the relevance of the sentence classification in the proposed methodology. Importantly to say that many false positives would be identified in full text papers without the sentence classification step. / Existe um grande volume de informação não estruturada (i.e., em formato textual) sendo publicada cada vez mais em meios eletrônicos, particularmente em bibliotecas digitais. Assim, com o passar do tempo, o ser humano fica cada vez mais restringido a uma limitada quantidade de texto que é capaz de processar e assimilar. No sentido de identificar as informações relevantes de um texto e com o objetivo de estruturar e armazenar essas informações em um banco de dados, a fim de propiciar uma futura descoberta de relacionamentos interessantes entre as informações extraídas, nesta dissertação é proposta uma metodologia de pré-processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico. A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1), Classificação de Sentenças (Etapa 2), Identificação de Termos Relevantes (Etapa 3) e Gerenciamento de Termos (Etapa 4). Esta metodologia utiliza três abordagens de extração de informação encontradas na literatura: abordagem baseada em aprendizado de máquina, abordagem baseada em dicionário e abordagem baseada em regras. A primeira abordagem é desenvolvida na Etapa 2, na qual um algoritmo de aprendizado de máquina supervisionado é responsável em classificar as sentenças. A segunda e a terceira abordagens são desenvolvidas na Etapa 3, na qual um dicionário de termos validados pelo especialista e regras desenvolvidas por meio de expressões regulares foram utilizados para identificar termos relevantes nas sentenças. A validação da metodologia foi realizada por meio de sua instanciação para uma área do domínio biomédico, mais especificamente usando artigos sobre a doença Anemia Falciforme. Nesse sentido, dois estudos de caso foram realizados tanto na Etapa 2 quanto na Etapa 3. O valor da acurácia obtida na classificação de sentenças foi acima de 60% e o valor da medida-F para a classe efeito negativo foi acima de 70%. Estes valores correspondem aos resultados alcançados com o algoritmo de aprendizado de máquina Support Vector Machine juntamente com a aplicação do filtro Remoção de Ruído. A medida-F obtida com a identificação de termos relevantes foi acima de 85% para a extração fictícia (i.e., classificação manual realizada pelo especialista) e acima de 80% para a extração real (i.e., classificação automática realizada pelo classificador). O valor de medida-F acima de 70% do classificador e o valor de medida-F acima de 80% da extração real mostra a relevância da classificação de sentenças na metodologia proposta. É importante ressaltar que sem a classificação de sentença, muitos falsos positivos seriam identificados nos artigos completos. Banco de dados Mineração de textos Artigos científicos Domínio biomédico Pré-processamento textual Extração de informação Textual preprocessing Information extraction Full papers Biomedical domain
2	Um processo baseado em parágrafos para a extração de tratamentos de artigos científicos do domínio biomédico Duque, Juliana Lilian 24 February 2012 (has links) Made available in DSpace on 2016-06-02T19:05:56Z (GMT). No. of bitstreams: 1 4310.pdf: 3265738 bytes, checksum: 6650fb70eee9b096860bcac6b5ed596c (MD5) Previous issue date: 2012-02-24 / Currently in the medical field there is a large amount of unstructured information (i.e., in textual format). Regarding the large volume of data, it makes it impossible for doctors and specialists to analyze manually all the relevant literature, which requires techniques for automatically analyze the documents. In order to identify relevant information, as well as to structure and store them into a database and to enable future discovery of significant relationships, in this paper we propose a paragraph-based process to extract treatments from scientific papers in the biomedical domain. The hypothesis is that the initial search for sentences that have terms of complication improves the identification and extraction of terms of treatment. This happens because treatments mainly occur in the same sentence of a complication, or in nearby sentences in the same paragraph. Our methodology employs three approaches for information extraction: machine learning-based approach, for classifying sentences of interest that will have terms to be extracted; dictionary-based approach, which uses terms validated by an expert in the field; and rule-based approach. The methodology was validated as proof of concept, using papers from the biomedical domain, specifically, papers related to Sickle Cell Anemia disease. The proof of concept was performed in the classification of sentences and identification of relevant terms. The value obtained in the classification accuracy of sentences was 79% for the classifier of complication and 71% for the classifier of treatment. These values are consistent with the results obtained from the combination of the machine learning algorithm Support Vector Machine with the filter Noise Removal and Balancing of Classes. In the identification of relevant terms, the results of our methodology showed higher F-measure percentage (42%) compared to the manual classification (31%) and to the partial process, i.e., without using the classifier of complication (36%). Even with low percentage of recall, there was no impact observed on the extraction process, and, in addition, we were able to validate the hypothesis considered in this work. In other words, it was possible to obtain 100% of recall for different terms, thus not impacting the extraction process, and further the working hypothesis of this study was proven. / Atualmente na área médica existe uma grande quantidade de informações não estruturadas (i.e., em formato textual) sendo produzidas na literatura médica. Com o grande volume de dados, torna-se impossível que os médicos e especialistas da área analisem toda a literatura de forma manual, exigindo técnicas para automatizar a análise destes documentos. Com o intuito de identificar as informações relevantes, estruturar e armazenar estas informações em um banco de dados, para posteriormente identificar relacionamentos interessantes entre as informações extraídas, nesta dissertação é proposto um processo baseado em parágrafos para a extração de tratamentos de artigos científicos do domínio biomédico. A hipótese é que a busca inicial de sentenças que possuem termos de complicação melhora a eficiência na identificação e na extração de termos de tratamento. Isso acontece porque tratamentos ocorrem principalmente na mesma sentença de complicação ou em sentenças próximas no mesmo parágrafo. Esta metodologia utiliza três abordagens de extração de informação encontradas na literatura: abordagem baseada em aprendizado de máquina para classificar as sentenças de interesse; abordagem baseada em dicionário com termos validados pelo especialista da área e abordagem baseada em regras. A metodologia foi validada como prova de conceito, utilizando artigos do domínio biomédico, mais especificamente da doença Anemia Falciforme. A prova de conceito foi realizada na classificação de sentenças e identificação de termos relevantes. O valor da acurácia obtida na classificação de sentenças foi de 79% para o classificador de complicação e 71% para o classificador de tratamento. Estes valores condizem com os resultados obtidos com a combinação do algoritmo de aprendizado de máquina Support Vector Machine juntamente com a aplicação do filtro Remoção de Ruído e Balanceamento das Classes. Na identificação de termos relevantes, os resultados da metodologia proposta obteve percentual superior de 42% de medida-F comparado à classificação manual (31%) e comparado ao processo parcial, ou seja, sem utilizar o classificador de complicação (36%). Mesmo com a baixa revocação, foi possível obter 100% de revocação para os termos distintos de tratamento, não impactando o processo de extração, e portanto a hipótese considerada neste trabalho foi comprovada. Inteligência artificial Banco de dados Mineração de textos Reconhecimento de padrões Extração de informação Anemia falciforme Tratamentos Pré-Processamento Domínio Biomédico Information Extraction Treatments Text Mining Preprocessing Biomedical Domain Sickle Cell Anemia
3	Um método para descoberta de relacionamentos semânticos do tipo causa e efeito em sentenças de artigos científicos do domínio biomédico Scheicher, Ricardo Brigato 28 November 2013 (has links) Made available in DSpace on 2016-06-02T19:06:20Z (GMT). No. of bitstreams: 1 6477.pdf: 3193803 bytes, checksum: 2bf85c80b2865f8b7efd9d6eeb6aa172 (MD5) Previous issue date: 2013-11-28 / Financiadora de Estudos e Projetos / Recently, there is an enormous amount of scientific material written in textual format and published in electronic ways (paper on proceedings and articles on journals). In the biomedical field, researchers need to analyse a vast amount of information in order to update their knowledges, in order to get more precise diagnostics and propose more modern and effective treatments. The task of getting knowledge is extremely onerous and the manual process to annotate relationships and to propose novel hypothesis for treatments becomes very slow and error-prone. In this sense, as a result of this master s research it is proposed a method to extract cause and effect semantic relationships in sentences of scientific papers of the biomedical domain. The goal of this work is to propose and implements a solution for: (1) to extract terms from the biomedical domain (genes, proteins, chemical components, structures and anatomical processes, cell components and strutures, and treatmens), (2) to identify existing relationships on the texts, from the extracted terms, and (3) to suggest a knowledge network based on the relations of cause and effect . Over the approach using textual patterns, our proposed method had extracted semantic relations with a precision of 94,83 %, recall of 98,10 %, F-measure of 96,43 %. / Atualmente, existe uma enorme quantidade de material científico escrito em formato textual e publicado em meios eletrônicos (artigos em anais de eventos e periódicos). Na área biomédica, pesquisadores necessitam assimilar uma grande parte deste conteúdo com a finalidade de se atualizarem e, por conseguinte realizarem diagnosticos mais precisos e aplicar tratamentos mais modernos e eficazes. A tarefa de obtenção de conhecimento é bastante onerosa e o processo manual para anotar relacionamentos e propor novas hipóteses de tratamentos torna-se muito lento. Neste sentido, como resultado desta pesquisa de mestrado, foi proposto um método para a extração de relacionamentos semânticos do tipo causa e efeito em artigos científicos do domínio biomédico. Mais especificamente, o objetivo deste trabalho é propor e implementar uma solução para (1) extrair termos do domínio biomédico de documentos científicos (genes, componentes químicos, proteínas, estruturas e processos anatômicos, componentes e estruturas celulares e tratamentos), (2) identificar relacionamentos existentes nos textos, com base nos termos extraídos, e (3) sugerir uma rede de conhecimento baseada nos relacionamentos extraídos. Através de uma abordagem utilizando regras e padrões textuais, o método proposto extraiu relacionamentos semânticos com uma precisão de 94,83 %, cobertura de 98,10 % e Medida-F de 96,43 %. Inteligência artificial Relações semânticas Rede semântica Extração de informação Mineração de textos Domínio biomédico Information extraction Text mining Semantic relations Semantic networks Biomedical domain Sickle cell anemia

1

Page generated in 0.0393 seconds