Global ETD Search

Return to search

Análise lexicográfica da produção acadêmica da Fiocruz: uma proposta de metodologia

Submitted by Jefferson da Costa Lima (jeffersonlima@gmail.com) on 2016-10-31T15:52:52Z
No. of bitstreams: 1
JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-11-07T12:54:12Z (GMT) No. of bitstreams: 1
JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) / Made available in DSpace on 2016-11-08T17:24:34Z (GMT). No. of bitstreams: 1
JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5)
Previous issue date: 2016-09-09 / With the objective to meet the health needs of the population, a huge amount of publications are generated each year. Scientific papers, thesis and dissertations become available digitally, but make them accessible to the user requires an understanding of the indexing process, which is usually made manually. This work proposes an experiment on the feasibility of automatically identify valid descriptors for the documents in the field of health. Are extracted n-grams of the texts and, after comparison with terms of vocabulary Health Sciences Descriptors (DeCS), are identified those who can act as descriptors for the works. We believe that this process can be applied to classification of document sets with deficiencies in their indexing and, even, in supporting the re-indexing processes, improving the precision and recall of the searches, and the possibility of establishing metrics of relevance. / Com o objetivo de atender às demandas de saúde da população, uma quantidade enorme de publicações são geradas a cada ano. Artigos científicos, teses e dissertações tornam-se digitalmente disponíveis, mas torná-los acessíveis aos usuário exige a compreensão do processo de indexação, que em geral é feito manualmente. O presente trabalho propõe um experimento sobre a viabilidade de identificar automaticamente descritores válidos para documentos do campo da saúde. São extraídos n-grams dos textos e, após comparação com termos do vocabulário Descritores em Ciências da Saúde (DeCS), são identificados aqueles que podem atuar como descritores para as obras. Acreditamos que este processo pode ser aplicado na classificação de conjuntos de documentos com deficiências na indexação e, até mesmo, no apoio a processos de reindexação, melhorando a precisão e a revocação das buscas, além da possibilidade de estabelecer métricas de relevância.

Processamento de linguagem natural

Mineração de textos

Descritores em ciências da saúde

Matemática

Mineração de dados (Computação)

Identifer	oai:union.ndltd.org:IBICT/oai:bibliotecadigital.fgv.br:10438/17458
Date	09 September 2016
Creators	Lima, Jefferson da Costa
Contributors	Silva, Moacyr Alvim Horta Barbosa da, Pedroso, Marcel de Moraes, Escolas::EMAp, Souza, Renato Rocha
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional do FGV, instname:Fundação Getulio Vargas, instacron:FGV
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.002 seconds

Análise lexicográfica da produção acadêmica da Fiocruz: uma proposta de metodologia

Description

Links & Downloads

Tags

Additional Fields