Return to search

A solution to extractive summarization based on document type and a new measure for sentence similarity

Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-02-19T18:25:04Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5) / Made available in DSpace on 2016-02-19T18:25:04Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5)
Previous issue date: 2015-03-20 / The Internet is a enormous and fast growing digital repository encompassing billions of
documents in a diversity of subjects, quality, reliability, etc. It is increasingly difficult
to scavenge useful information from it. Thus, it is necessary to provide automatically
techniques that allowing users to save time and resources. Automatic text summarization
techniques may offer a way out to this problem. Text summarization (TS) aims at automatically
compress one or more documents to present their main ideas in less space. TS
platforms receive one or more documents as input to generate a summary. In recent years,
a variety of text summarization methods has been proposed. However, due to the different
document types (such as news, blogs, and scientific articles) it became difficult to create
a general TS application to create expressive summaries for each type. Another related
relevant problem is measuring the degree of similarity between sentences, which is used
in applications, such as: text summarization, information retrieval, image retrieval, text
categorization, and machine translation. Recent works report several efforts to evaluate
sentence similarity by representing sentences using vectors of bag of words or a tree of
the syntactic information among words. However, most of these approaches do not take
in consideration the sentence meaning and the words order. This thesis proposes: (i) a
new text summarization solution which identifies the document type before perform the
summarization, (ii) the creation of a new sentence similarity measure based on lexical,
syntactic and semantic evaluation to deal with meaning and word order problems. The
previous identification of the document types allows the summarization solution to select
the methods that is more suitable to each type of text. This thesis also perform a detailed
assessment with the most used text summarization methods to selects which create more
informative summaries for news, blogs and scientific articles contexts.The sentence similarity
measure proposed is completely unsupervised and reaches results similar to humans
annotator using the dataset proposed by Li et al. The proposed measure was satisfactorily
applied to evaluate the similarity between summaries and to eliminate redundancy in
multi-document summarization. / Atualmente a quantidade de documentos de texto aumentou consideravelmente principalmente com o grande crescimento da internet. Existem milhares de artigos de notícias, livros eletrônicos, artigos científicos, blog, etc. Com isso é necessário aplicar técnicas automáticas para extrair informações dessa grande massa de dados. Sumarização de texto pode ser usada para lidar com esse problema. Sumarização de texto (ST) cria versões comprimidas de um ou mais documentos de texto. Em outras palavras, palataformas de ST recebem um ou mais documentos como entrada e gera um sumário deles. Nos últimos anos, uma grande quantidade de técnicas de sumarização foram propostas. Contudo, dado a grande quantidade de tipos de documentos (por exemplo, notícias, blogs e artigos científicos) é difícil encontrar uma técnica seja genérica suficiente para criar sumários para todos os tipos de forma eficiente. Além disto, outro tópico bastante trabalhado na área de mineração de texto é a análise de similaridade entre sentenças. Essa similaridade pode ser usada em aplicações como: sumarização de texto, recuperação de infromação, recuperação de imagem, categorização de texto e tradução. Em geral, as técnicas propostas são baseados em vetores de palavras ou árvores sintáticas, com isso dois problemas não são abordados: o problema de significado e de ordem das palavras. Essa tese propõe: (i) Uma nova solução em sumarização de texto que identifica o tipo de documento antes de realizar a sumarização. (ii) A criação de uma nova medida de similaridade entre sentenças baseada nas análises léxica, sintática e semântica. A identificação de tipo de documento permite que a solução de sumarização selecione os melhores métodos para cada tipo de texto. Essa tese também realizar um estudo detalhado sobre os métodos de sumarização para selecinoar os que criam sumários mais informativos nos contextos de notícias blogs e artigos científicos. A medida de similaridade entre sentences é completamente não supervisionada e alcança resultados similarires dos anotadores humanos usando o dataset proposed por Li et al. A medida proposta também foi satisfatoriamente aplicada na avaliação de similaridade entre resumos e para eliminar redundância em sumarização multi-documento.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/15257
Date20 March 2015
CreatorsMELLO, Rafael Ferreira Leite de
Contributorshttp://lattes.cnpq.br/6195215666638965, FREITAS, Frederico Gonçalves de, LINS, Rafael Dueire
PublisherUNIVERSIDADE FEDERAL DE PERNAMBUCO, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds