Spelling suggestions: "subject:"artigos científico"" "subject:"ortigosa científico""
11 |
Coerência na representação temática de artigos científicos indexados no repositório de saúde pública da Fundação Oswaldo CruzSantos, Fatima Cristina Lopes dos 22 February 2017 (has links)
Submitted by Priscilla Araujo (priscilla@ibict.br) on 2017-07-24T20:00:23Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
CoerênciaRepresentaçãoTemáticaArtigos.pdf: 3995690 bytes, checksum: 96229e3502d9de3c1a878a3bed8df30e (MD5) / Made available in DSpace on 2017-07-24T20:00:23Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
CoerênciaRepresentaçãoTemáticaArtigos.pdf: 3995690 bytes, checksum: 96229e3502d9de3c1a878a3bed8df30e (MD5)
Previous issue date: 2017-02-22 / Esta dissertação investiga a coerência semântica na indexação de artigos de periódicos
na área de saúde pública, em língua portuguesa, indexados no Repositório de Produção
Científica da Escola Nacional de Saúde Pública Sergio Arouca (ENSP) da Fundação
Oswaldo Cruz (Fiocruz), visando a contribuir com a interoperabilidade semântica entre
os repositórios dessa Fundação. A pesquisa se fundamenta em pressupostos teóricos e
metodológicos das áreas de representação temática e da linguística documentária, no
âmbito da Organização do Conhecimento na CI, bem como na Bibliometria, e tem como
metas: (a) verificar comparativamente a coerência semântica na indexação de artigos
científicos na área de saúde pública; (b) investigar a ocorrência de termos de indexação
à luz de modelos quantitativos bibliométricos utilizados na indexação na Ciência da
Informação; (c) fornecer evidências da importância do gênero discursivo artigo de
periódico científico na área de saúde pública; (d) identificar os termos-figura e os
termos-fundo dos artigos analisados para maior entendimento da informatividade de
textos científicos; (e) contribuir para o avanço do conhecimento acerca de fenômenos
que norteiam a indexação da informação científica, particularmente sobre a coerência
semântica na indexação da informação na área de saúde. Para tal, foram analisados 10
artigos de periódicos científicos brasileiros, publicados em acesso aberto entre 2012-
2014 e cadastrados no Repositório de Produção Científica da ENSP/Fiocruz. Os artigos
foram processados nos softwares RankWord e WordSmith 6.0, aplicando-se depois as
leis de Zipf e Ponto de Transição de Goffman para identificação dos termos de alta
carga semântica dos textos. Os termos selecionados em cada artigo foram comparados
nos 5 (cinco) indicadores utilizados na pesquisa: Região T de Goffman; Expressões
WordSmith 6.0, Palavras-chave; DeCS (Descritores em Ciências da Saúde) e Título. Os
resultados foram compilados utilizando-se o plano discursivo das orações, com ênfase
em termos usados como figura (foregrounding) e em termos usados como fundo
(backgrounding), auxiliando na verificação do grau de coerência entre os artigos. Os
dados coletados revelam baixo grau de coerência semântica na maioria dos artigos
estudados. Sugere-se uma investigação com amostra ampliada para confirmação dos
dados obtidos, principalmente se tratando de artigos de periódicos publicados em
português na área de saúde e sua importância na comunicação científica nacional. / This dissertation investigates the semantic coherence in the indexing of journal articles
in the public health area, in Portuguese, indexed in the Scientific Production Repository
of the National School of Public Health Sergio Arouca (ENSP) of the Oswaldo Cruz
Foundation (Fiocruz), aiming to contribute With the semantic interoperability between
the repositories of this Foundation. The research is based on the theoretical and
methodological assumptions of the areas of thematic representation and documentary
linguistics, within the scope of the Organization of Knowledge in CI, as well as in
Bibliometrics, and its goals are: (a) to verify comparatively the semantic coherence in
the indexing of articles Scientists in the field of public health; (B) to investigate the
occurrence of indexation terms in light of quantitative bibliometric models used in
indexing in Information Science; (C) provide evidence of the importance of the
discursive genre scientific journal article in the area of public health; (D) identify the
terms-figure and background terms of the articles analyzed for a better understanding of
the informativeness of scientific texts; (E) contribute to the advancement of knowledge
about phenomena that guide the indexing of scientific information, particularly on
semantic coherence in indexing information in the health area. For that, 10 articles from
Brazilian scientific journals, published in open access between 2012-2014 and
registered in the Scientific Production Repository of the ENSP / Fiocruz, were analyzed.
The articles were processed in the software RankWord and WordSmith 6.0, applying
later the laws of Zipf and Goffman Transition Point to identify the terms of high
semantic load of the texts. The terms selected in each article were compared in the 5
(five) indicators used in the research: Goffman Region T; Expressions WordSmith 6.0,
Keywords; DeCS (Descriptors in Health Sciences) and Title. The results were compiled
using the discourse plan of the sentences, with emphasis on terms used as foregrounding
and in terms used as background, helping to verify the degree of coherence between the
articles. The data collected reveal a low degree of semantic coherence in most articles
studied. We suggest an investigation with an expanded sample to confirm the data
obtained, especially when dealing with articles published in Portuguese in the health
area and its importance in national scientific communication.
|
12 |
Metodologia de pré-processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédicoMatos, Pablo Freire 24 September 2010 (has links)
Made available in DSpace on 2016-06-02T19:05:46Z (GMT). No. of bitstreams: 1
3250.pdf: 4243437 bytes, checksum: 462620b959061657eacd8e13120fedb0 (MD5)
Previous issue date: 2010-09-24 / Financiadora de Estudos e Projetos / There is a large volume of unstructured information (i.e., in text format) being published in electronic media, in digital libraries particularly. Thus, the human being becomes restricted to an amount of text that is able to process and to assimilate over time. In this dissertation is proposed a methodology for textual preprocessing to extract information about disease effects in the biomedical domain papers, in order to identify relevant information from a text, to structure and to store this information in a database to provide a future discovery of interesting relationships between the extracted information. The methodology consists of four steps: Data Entrance (Step 1), Sentence Classification (Step 2), Identification of Relevant Terms (Step 3) and Terms Management (Step 4). This methodology uses three information extraction approaches from the literature: machine learning approach, dictionary-based approach and rule-based approach. The first one is developed in Step 2, in which a supervised machine learning algorithm is responsible for classify the sentences. The second and third ones are developed in Step 3, in which a dictionary of terms validated by an expert and rules developed through regular expressions were used to identify relevant terms in sentences. The methodology validation was carried out through its instantiation to an area of the biomedical domain, more specifically using papers on Sickle Cell Anemia. Accordingly, two case studies were conducted in both Step 2 and in Step 3. The obtained accuracy in the sentence classification was above of 60% and F-measure for the negative effect class was above of 70%. These values correspond to the results achieved with the Support Vector Machine algorithm along with the use of the Noise Removal filter. The obtained F-measure with the identification of relevant terms was above of 85% for the fictitious extraction (i.e., manual classification performed by the expert) and above of 80% for the actual extraction (i.e., automatic classification performed by the classifier). The F-measure of the classifier above of 70% and F-measure of the actual extraction above 80% show the relevance of the sentence classification in the proposed methodology. Importantly to say that many false positives would be identified in full text papers without the sentence classification step. / Existe um grande volume de informação não estruturada (i.e., em formato textual) sendo publicada cada vez mais em meios eletrônicos, particularmente em bibliotecas digitais. Assim, com o passar do tempo, o ser humano fica cada vez mais restringido a uma limitada quantidade de texto que é capaz de processar e assimilar. No sentido de identificar as informações relevantes de um texto e com o objetivo de estruturar e armazenar essas informações em um banco de dados, a fim de propiciar uma futura descoberta de relacionamentos interessantes entre as informações extraídas, nesta dissertação é proposta uma metodologia de pré-processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico. A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1), Classificação de Sentenças (Etapa 2), Identificação de Termos Relevantes (Etapa 3) e Gerenciamento de Termos (Etapa 4). Esta metodologia utiliza três abordagens de extração de informação encontradas na literatura: abordagem baseada em aprendizado de máquina, abordagem baseada em dicionário e abordagem baseada em regras. A primeira abordagem é desenvolvida na Etapa 2, na qual um algoritmo de aprendizado de máquina supervisionado é responsável em classificar as sentenças. A segunda e a terceira abordagens são desenvolvidas na Etapa 3, na qual um dicionário de termos validados pelo especialista e regras desenvolvidas por meio de expressões regulares foram utilizados para identificar termos relevantes nas sentenças. A validação da metodologia foi realizada por meio de sua instanciação para uma área do domínio biomédico, mais especificamente usando artigos sobre a doença Anemia Falciforme. Nesse sentido, dois estudos de caso foram realizados tanto na Etapa 2 quanto na Etapa 3. O valor da acurácia obtida na classificação de sentenças foi acima de 60% e o valor da medida-F para a classe efeito negativo foi acima de 70%. Estes valores correspondem aos resultados alcançados com o algoritmo de aprendizado de máquina Support Vector Machine juntamente com a aplicação do filtro Remoção de Ruído. A medida-F obtida com a identificação de termos relevantes foi acima de 85% para a extração fictícia (i.e., classificação manual realizada pelo especialista) e acima de 80% para a extração real (i.e., classificação automática realizada pelo classificador). O valor de medida-F acima de 70% do classificador e o valor de medida-F acima de 80% da extração real mostra a relevância da classificação de sentenças na metodologia proposta. É importante ressaltar que sem a classificação de sentença, muitos falsos positivos seriam identificados nos artigos completos.
|
Page generated in 0.0541 seconds