Global ETD Search

11	Coerência na representação temática de artigos científicos indexados no repositório de saúde pública da Fundação Oswaldo Cruz Santos, Fatima Cristina Lopes dos 22 February 2017 (has links) Submitted by Priscilla Araujo (priscilla@ibict.br) on 2017-07-24T20:00:23Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) CoerênciaRepresentaçãoTemáticaArtigos.pdf: 3995690 bytes, checksum: 96229e3502d9de3c1a878a3bed8df30e (MD5) / Made available in DSpace on 2017-07-24T20:00:23Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) CoerênciaRepresentaçãoTemáticaArtigos.pdf: 3995690 bytes, checksum: 96229e3502d9de3c1a878a3bed8df30e (MD5) Previous issue date: 2017-02-22 / Esta dissertação investiga a coerência semântica na indexação de artigos de periódicos na área de saúde pública, em língua portuguesa, indexados no Repositório de Produção Científica da Escola Nacional de Saúde Pública Sergio Arouca (ENSP) da Fundação Oswaldo Cruz (Fiocruz), visando a contribuir com a interoperabilidade semântica entre os repositórios dessa Fundação. A pesquisa se fundamenta em pressupostos teóricos e metodológicos das áreas de representação temática e da linguística documentária, no âmbito da Organização do Conhecimento na CI, bem como na Bibliometria, e tem como metas: (a) verificar comparativamente a coerência semântica na indexação de artigos científicos na área de saúde pública; (b) investigar a ocorrência de termos de indexação à luz de modelos quantitativos bibliométricos utilizados na indexação na Ciência da Informação; (c) fornecer evidências da importância do gênero discursivo artigo de periódico científico na área de saúde pública; (d) identificar os termos-figura e os termos-fundo dos artigos analisados para maior entendimento da informatividade de textos científicos; (e) contribuir para o avanço do conhecimento acerca de fenômenos que norteiam a indexação da informação científica, particularmente sobre a coerência semântica na indexação da informação na área de saúde. Para tal, foram analisados 10 artigos de periódicos científicos brasileiros, publicados em acesso aberto entre 2012- 2014 e cadastrados no Repositório de Produção Científica da ENSP/Fiocruz. Os artigos foram processados nos softwares RankWord e WordSmith 6.0, aplicando-se depois as leis de Zipf e Ponto de Transição de Goffman para identificação dos termos de alta carga semântica dos textos. Os termos selecionados em cada artigo foram comparados nos 5 (cinco) indicadores utilizados na pesquisa: Região T de Goffman; Expressões WordSmith 6.0, Palavras-chave; DeCS (Descritores em Ciências da Saúde) e Título. Os resultados foram compilados utilizando-se o plano discursivo das orações, com ênfase em termos usados como figura (foregrounding) e em termos usados como fundo (backgrounding), auxiliando na verificação do grau de coerência entre os artigos. Os dados coletados revelam baixo grau de coerência semântica na maioria dos artigos estudados. Sugere-se uma investigação com amostra ampliada para confirmação dos dados obtidos, principalmente se tratando de artigos de periódicos publicados em português na área de saúde e sua importância na comunicação científica nacional. / This dissertation investigates the semantic coherence in the indexing of journal articles in the public health area, in Portuguese, indexed in the Scientific Production Repository of the National School of Public Health Sergio Arouca (ENSP) of the Oswaldo Cruz Foundation (Fiocruz), aiming to contribute With the semantic interoperability between the repositories of this Foundation. The research is based on the theoretical and methodological assumptions of the areas of thematic representation and documentary linguistics, within the scope of the Organization of Knowledge in CI, as well as in Bibliometrics, and its goals are: (a) to verify comparatively the semantic coherence in the indexing of articles Scientists in the field of public health; (B) to investigate the occurrence of indexation terms in light of quantitative bibliometric models used in indexing in Information Science; (C) provide evidence of the importance of the discursive genre scientific journal article in the area of public health; (D) identify the terms-figure and background terms of the articles analyzed for a better understanding of the informativeness of scientific texts; (E) contribute to the advancement of knowledge about phenomena that guide the indexing of scientific information, particularly on semantic coherence in indexing information in the health area. For that, 10 articles from Brazilian scientific journals, published in open access between 2012-2014 and registered in the Scientific Production Repository of the ENSP / Fiocruz, were analyzed. The articles were processed in the software RankWord and WordSmith 6.0, applying later the laws of Zipf and Goffman Transition Point to identify the terms of high semantic load of the texts. The terms selected in each article were compared in the 5 (five) indicators used in the research: Goffman Region T; Expressions WordSmith 6.0, Keywords; DeCS (Descriptors in Health Sciences) and Title. The results were compiled using the discourse plan of the sentences, with emphasis on terms used as foregrounding and in terms used as background, helping to verify the degree of coherence between the articles. The data collected reveal a low degree of semantic coherence in most articles studied. We suggest an investigation with an expanded sample to confirm the data obtained, especially when dealing with articles published in Portuguese in the health area and its importance in national scientific communication. Coerência Indexação temática, Área de Saúde Artigos científicos Ciência da Informação Coherence Thematic index, Health Area Scientific articles Information Science
12	Metodologia de pré-processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico Matos, Pablo Freire 24 September 2010 (has links) Made available in DSpace on 2016-06-02T19:05:46Z (GMT). No. of bitstreams: 1 3250.pdf: 4243437 bytes, checksum: 462620b959061657eacd8e13120fedb0 (MD5) Previous issue date: 2010-09-24 / Financiadora de Estudos e Projetos / There is a large volume of unstructured information (i.e., in text format) being published in electronic media, in digital libraries particularly. Thus, the human being becomes restricted to an amount of text that is able to process and to assimilate over time. In this dissertation is proposed a methodology for textual preprocessing to extract information about disease effects in the biomedical domain papers, in order to identify relevant information from a text, to structure and to store this information in a database to provide a future discovery of interesting relationships between the extracted information. The methodology consists of four steps: Data Entrance (Step 1), Sentence Classification (Step 2), Identification of Relevant Terms (Step 3) and Terms Management (Step 4). This methodology uses three information extraction approaches from the literature: machine learning approach, dictionary-based approach and rule-based approach. The first one is developed in Step 2, in which a supervised machine learning algorithm is responsible for classify the sentences. The second and third ones are developed in Step 3, in which a dictionary of terms validated by an expert and rules developed through regular expressions were used to identify relevant terms in sentences. The methodology validation was carried out through its instantiation to an area of the biomedical domain, more specifically using papers on Sickle Cell Anemia. Accordingly, two case studies were conducted in both Step 2 and in Step 3. The obtained accuracy in the sentence classification was above of 60% and F-measure for the negative effect class was above of 70%. These values correspond to the results achieved with the Support Vector Machine algorithm along with the use of the Noise Removal filter. The obtained F-measure with the identification of relevant terms was above of 85% for the fictitious extraction (i.e., manual classification performed by the expert) and above of 80% for the actual extraction (i.e., automatic classification performed by the classifier). The F-measure of the classifier above of 70% and F-measure of the actual extraction above 80% show the relevance of the sentence classification in the proposed methodology. Importantly to say that many false positives would be identified in full text papers without the sentence classification step. / Existe um grande volume de informação não estruturada (i.e., em formato textual) sendo publicada cada vez mais em meios eletrônicos, particularmente em bibliotecas digitais. Assim, com o passar do tempo, o ser humano fica cada vez mais restringido a uma limitada quantidade de texto que é capaz de processar e assimilar. No sentido de identificar as informações relevantes de um texto e com o objetivo de estruturar e armazenar essas informações em um banco de dados, a fim de propiciar uma futura descoberta de relacionamentos interessantes entre as informações extraídas, nesta dissertação é proposta uma metodologia de pré-processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico. A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1), Classificação de Sentenças (Etapa 2), Identificação de Termos Relevantes (Etapa 3) e Gerenciamento de Termos (Etapa 4). Esta metodologia utiliza três abordagens de extração de informação encontradas na literatura: abordagem baseada em aprendizado de máquina, abordagem baseada em dicionário e abordagem baseada em regras. A primeira abordagem é desenvolvida na Etapa 2, na qual um algoritmo de aprendizado de máquina supervisionado é responsável em classificar as sentenças. A segunda e a terceira abordagens são desenvolvidas na Etapa 3, na qual um dicionário de termos validados pelo especialista e regras desenvolvidas por meio de expressões regulares foram utilizados para identificar termos relevantes nas sentenças. A validação da metodologia foi realizada por meio de sua instanciação para uma área do domínio biomédico, mais especificamente usando artigos sobre a doença Anemia Falciforme. Nesse sentido, dois estudos de caso foram realizados tanto na Etapa 2 quanto na Etapa 3. O valor da acurácia obtida na classificação de sentenças foi acima de 60% e o valor da medida-F para a classe efeito negativo foi acima de 70%. Estes valores correspondem aos resultados alcançados com o algoritmo de aprendizado de máquina Support Vector Machine juntamente com a aplicação do filtro Remoção de Ruído. A medida-F obtida com a identificação de termos relevantes foi acima de 85% para a extração fictícia (i.e., classificação manual realizada pelo especialista) e acima de 80% para a extração real (i.e., classificação automática realizada pelo classificador). O valor de medida-F acima de 70% do classificador e o valor de medida-F acima de 80% da extração real mostra a relevância da classificação de sentenças na metodologia proposta. É importante ressaltar que sem a classificação de sentença, muitos falsos positivos seriam identificados nos artigos completos. Banco de dados Mineração de textos Artigos científicos Domínio biomédico Pré-processamento textual Extração de informação Textual preprocessing Information extraction Full papers Biomedical domain

Search results

Coerência na representação temática de artigos científicos indexados no repositório de saúde pública da Fundação Oswaldo Cruz

Metodologia de pré-processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico