Made available in DSpace on 2016-06-02T19:05:17Z (GMT). No. of bitstreams: 1
DissWSBJ.pdf: 1130582 bytes, checksum: cddbd8f8a11a6e29a95cea9e62612f2b (MD5)
Previous issue date: 2006-05-08 / Financiadora de Estudos e Projetos / This dissertation investigates the use of Automatic Summarization (AS) techniques on
Information Retrieval (IR), two areas that have attracted growing attention due to the
continuous growth of information repositories in digital format.
The main goal of this work is to verify the contribution of extracts generated
automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In
general, the main goal of both phases is to find the most descriptive terms of a given
document. This goal in turn is strongly related to that of the AS techniques to summarize the
main parts of a document which justifies the study.
In order to verify the effectiveness of the AS techniques, we have developed five
systems that use extracts generated by a summarizing system that was considered useful in the
task of indicating the content of documents to human readers. These systems were assessed
through a set of documents written in Portuguese to test IR. In general, the results show that
the generated extracts were not useful for indexing, presenting worse performance compared
to when using a full document for IR. In the PRF case, however, the results obtained using
specific extracts were better than those obtained by a system that does not embed PRF. The
best results were obtained when using query-biased multi-documents extracts, indicating that
this type of extract may be useful for PRF. / Este trabalho de mestrado investiga a aplicação de técnicas de Sumarização
Automática (SA) na Recuperação de Informação (RI), duas áreas que, devido ao crescente
número de repositórios de informação digital disponíveis, têm se mostrado muito importantes
para a captura de informações.
O intuito do trabalho é verificar a contribuição de extratos gerados automaticamente
em duas etapas da RI: a indexação e a realimentação de pseudo-relevantes. O principal
objetivo dessas duas etapas é encontrar os termos mais descritivos de um documento. Esse
objetivo é relacionado fortemente com o objetivo principal da SA que é condensar as
principais partes do documento, o que justifica o emprego.
Para verificar a efetividade das técnicas de SA, foram construídos cinco sistemas que
utilizam extratos gerados por um sistema de sumarização que foi considerado útil na tarefa de
indicar aos leitores humanos o conteúdo de documentos. Esses sistemas foram avaliados com
uma coleção de documentos para testes em RI, escritos em português. Em geral, os resultados
apontam que os extratos gerados não foram úteis para a indexação, apresentando desempenho
inferior à recuperação que usou o conteúdo completo dos documentos na indexação. No caso
da realimentação de pseudo-relevantes, os resultados dos sistemas que utilizam extratos
específicos foram superiores aos de um sistema sem esta realimentação em muitos casos. Os
melhores resultados foram obtidos pelos extratos específicos multi-documentos, mostrando
que esse tipo de extrato pode ser útil para a realimentação de pseudo-relevantes.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/314 |
Date | 08 May 2006 |
Creators | Batista Junior, Wilson dos Santos |
Contributors | Rino, Lúcia Helena Machado |
Publisher | Universidade Federal de São Carlos, Programa de Pós-graduação em Ciência da Computação, UFSCar, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds