Return to search

Estratégias para redução da fragmentação em métodos incrementais para desambiguação de nomes de autores.

Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. / Submitted by Oliveira Flávia (flavia@sisbin.ufop.br) on 2014-12-11T16:05:00Z
No. of bitstreams: 2
license_rdf: 21174 bytes, checksum: b98541e59f955f816d2d78f2222e44c8 (MD5)
DISSERTAÇÃO_EstratégiasReduçãoFragmentação.pdf: 3683575 bytes, checksum: b7919dfc1e36337043f4f333b82b072f (MD5) / Approved for entry into archive by Gracilene Carvalho (gracilene@sisbin.ufop.br) on 2014-12-14T12:48:39Z (GMT) No. of bitstreams: 2
license_rdf: 21174 bytes, checksum: b98541e59f955f816d2d78f2222e44c8 (MD5)
DISSERTAÇÃO_EstratégiasReduçãoFragmentação.pdf: 3683575 bytes, checksum: b7919dfc1e36337043f4f333b82b072f (MD5) / Made available in DSpace on 2014-12-14T12:48:39Z (GMT). No. of bitstreams: 2
license_rdf: 21174 bytes, checksum: b98541e59f955f816d2d78f2222e44c8 (MD5)
DISSERTAÇÃO_EstratégiasReduçãoFragmentação.pdf: 3683575 bytes, checksum: b7919dfc1e36337043f4f333b82b072f (MD5)
Previous issue date: 2014 / Ambiguidade de nomes de autores é um grande problema enfrentado pela comunidade científica. Este problema ocorre quando vários autores publicam artigos usando nomes similares, ou quando um mesmo autor publica seus artigos com variações do seu nome. Tradicionalmente, existem métodos de desambiguação automáticos que são aplicadas a todos os registros de citação que estão no repositório de uma biblioteca digital. Mas existem métodos incrementais, que apenas desambiguam os nomes dos autores durante a inserção de um registro de citação no repositório. Estes métodos foram propostos com o objetivo de se obter uma maior eficiência.Porém, como efeito colateral, vários registros de um mesmo autor podem ser considerados como pertencentes a diferentes autores, causando o que é chamado fragmentação. Neste trabalho, é realizado um estudo para comparar várias estratégias visando reduzir a fragmentação dos registros sem comprometer a pureza, ou seja, mantendo os grupos de registros atribuídos a um autor com registros somente de um autor.As estratégias avaliadas foram baseadas em técnicas capazes de isolar os registros de citação possivelmente atribuídos incorretamente durante o processo de desambiguação.A avaliação experimental mostra que algumas estratégias conseguiram produzir melhorias significativas em relação a uma abordagem incremental e mostraram-se muito competitivas em relação a alguns métodos tradicionais. ______________________________________________________________________________________________ / ABSTRACT: Ambiguity in author names is a hard problem faced by the scientific community. This problem occurs when multiple authors publish their articles using similar names, or when the same author publishes their articles with variations in their name. Traditionally, automatic disambiguation methods perform on all citation records in a digital library repository. On the other hand, incremental methods only disambiguate author names when a citation record is inserted into the repository. These methods have been proposed aiming to improve the efficiency. However, as a side effect, several records from the same author may be considered as belonging to different authors, fragmenting the citation list of a same author into several citation lists. In this work, we conduct a study to compare several strategies, in order to reduce this fragmentation without compromising purity, i.e., keeping the groups of records assigned to an author with records from only one author. The evaluated strategies were based on techniques able to isolate citation records possibly incorrectly attributed during the disambiguation process. The experimental evaluation shows that some strategies produce significant improvements against an incremental method and are very competitive compared with some traditional methods.

Identiferoai:union.ndltd.org:IBICT/oai:localhost:123456789/4164
Date January 2014
CreatorsEspiridião, Luciano Vilas Boas
ContributorsFerreira, Anderson Almeida
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFOP, instname:Universidade Federal de Ouro Preto, instacron:UFOP
RightsAutorização concedida ao Repositório Institucional da UFOP pelo autor, 04/12/2014, com as seguintes condições: disponível sob Licença Creative Commons 3.0, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta., info:eu-repo/semantics/openAccess

Page generated in 0.002 seconds