Return to search

Indexação automática por atribuição de artigos científicos da área de ciência da informação

Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-07-25T20:45:05Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-07-30T18:30:33Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5) / Made available in DSpace on 2018-07-30T18:30:33Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5)
Previous issue date: 2017-02-20 / Investiga o processo de indexação automática por atribuiçãona representaçãode documentos no contexto da construção de base de dados científicana área de Ciência da Informação, visando a associação entre palavras-chaves e o conhecimento registrado em artigos científicos. O problema de pesquisa deste trabalho está configurado na análise do processo e da qualidade resultante na representação do assunto mediante a indexação automática por atribuição de artigos científicos na área da Ciência da Informação. Realiza levantamento das linguagens documentárias e tipo de indexação automática utilizadas em bases de dados científicas. Investiga o uso do Tesauro Brasileiro em Ciência da Informação (TBCI) conjuntamente com o Sistema de Indexação Semi-Automática (SISA), na indexação automática por atribuição de publicações científicas da área de Ciência da Informação.Utiliza como metodologia a pesquisa exploratória, com base em revisão da literatura brasileira em Ciência da Informação sobre indexação automática por atribuição e em estudo de caso via experimento. Utiliza o corpus composto por 60 artigos científicos referenciados na tese de doutorado de Souza (2005) para comparar as palavras-chave destes artigos com os termos atribuídos pelo sistema SISA usando o vocabulário controlado Tesauro TBCI.Na etapa pragmática desta pesquisafoi realizada a indexação automática por atribuição do corpus formado por estes 60 artigos científicos, bem como, análise e avaliação intrínseca qualitativa, via índices de consistência e, avaliação extrínseca quantitativa, via índices de precisão, revocação e medida F, dos termos propostos para indexação.Ao se avaliar os índices de consistência, adotando-se o critério de consistência relaxada, foi constatada uma média de 15 % nos índices de consistência, com uma variação de um mínimo de 0% a um máximo de 42 %.Quanto aos índices de revocação, precisão e medida F analisados neste experimento foram obtidos os seguintes resultados: Precisão média de 20 %; Revocação média de 42 % e Medida F média de 25 %. Os resultados da pesquisa permitem concluirsobre a importância do emprego do vocabulário controlado em um sistema indexação automática por atribuição uma vez que o Tesauro tem forte influência nos resultados da indexação automática. Também é possível afirmar que neste tipo de indexação feita pelo sistema SISA a habilitação do arquivo de termos gerais TCITG tem forte influência nos índices de qualidade os quais foram analisados pelos valores médios obtidos pelos indicadores de qualidade ou índices de consistência. Foi constatado ainda, que o uso de palavras-chave como termos de indexação precisa ser melhor estudado e pesquisado no sentido de se criar instrumentos que propiciem aos autores dos artigos científicos melhor definição conceitual destes termos e maior controle terminológico. / This work investigates the process of automatic indexing by attribution in the representation of documents within the context of scientific database construction in the area of Information Science, aiming to associate keywords to the knowledge recorded in scientific papers. This work‟s research problem is the analysis of the process and the resulting quality in the representation of the subject through automatic indexing by attribution of scientific papers in the area of Information Science. It appraises documentary language and type of automatic indexing used in scientific databases. Investigates the use of the Brazilian Thesaurus of Information Science (TBCI) along with the Semi-Automatic Indexing System (SISA) in automatic indexing by attribution of scientific publications in the area of Information Science. Its methodology is exploratory research, based on the revision of Brazilian Information Science literature on automatic indexing by attribution and a case study through an experiment. Utilizes the corpus made up of 60 scientific papers referenced in Souza‟s doctorate thesis to compare the keywords used in those papers with the terms attributed by SISA using the TBCI controlled vocabulary. In the pragmatic stage of this research, automatic indexing by attribution of the 60-paper corpus was used, as well as intrinsic qualitative analysis and evaluation, through consistency indices, and extrinsic quantitative evaluation, through precision, recall and F-measure indices of the terms proposed for indexing. Evaluation of the consistency indices, adopting the relaxed consistency criteria, showed an average of 15% in the consistency indices, with a variation going from a minimum of 0% to a maximum of 42%. As to recall, precision and F-measure indices analyzed in this experiment, the following results were obtained: average precision of 20%; average recall of 42%; and average F-measure of 25%. The research results allow us to conclude the importance of the use of controlled vocabulary in an automatic indexing by attribution system since the thesaurus has a strong influence in the results of automatic indexing. It is also possible to assert that in this type of indexing by the SISA system, the habilitation of the general terms archive has a strong influence in the quality indices, which were analyzed through the average values obtained by quality indicators as consistency indices. It was also evidenced that the use of keywords as indexing terms needs to be further studied and researched in order to create tools that provide the authors of scientific papers with a better conceptual definition of these terms and better terminology control.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/25272
Date20 February 2017
CreatorsBANDIM, Marcio Aercio Silva
Contributorshttp://lattes.cnpq.br/7536537827447217, CORRÊA, Renato Fernandes
PublisherUniversidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Informacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds