Return to search

RHeSumaRST: um sumarizador automático de estruturas RST.

Made available in DSpace on 2016-06-02T19:06:27Z (GMT). No. of bitstreams: 1
DissERMS.pdf: 1350059 bytes, checksum: b053cbd6eaf16da40d372057cbe1d76d (MD5)
Previous issue date: 2005-08-05 / This work presents an automatic summarization model based on both the Rhetorical Structure Theory RST and the Veins Theory VT. RST allows inter-relating discourse units by means of rhetorical relations. These, in turn, mirror meaning relations between those units. Adding to RST, VT delimits the domain of referential accessibility of each
discourse unit of an RST tree, resulting in its vein . A vein signals, thus, the limits of a discourse unit that may enclose its anaphora antecedents. The automatic summarization
model also embeds Marcu s model of salience: once a discourse is structured as an RST tree, its units are classified according to their salience by considering the its deep in the
tree. The model consists of a set of pruning heuristics that aim at identifying superfluous information in an RST tree of a text. In excluding them, the resulting summary RST tree
and, thus, the text summary, should preserve the co-referential chains. In this way, the heuristics are driven by both, specific features of RST relations and constraints on the
referential accessibility provided by VT. The main contributions of this work include the proposal of the AS model itself and the availability of a prototype for its automatic exploration. / Este trabalho apresenta um modelo de sumarização automática que se baseia no modelo de estruturação de discurso Rhetorical Structure Theory RST e no modelo de
coerência global do discurso Veins Theory VT. A RST permite a estruturação de um discurso relacionando-se unidades discursivas com base em relações retóricas, isto é,
permitindo recuperar as relações de significados entre tais unidades. Com base na estruturação RST, a Veins Theory delimita o domínio de acessibilidade referencial para cada unidade do discurso na forma de veias , indicando os limites nos quais os antecedentes de uma anáfora podem ocorrer ao longo do discurso. Além dessas teorias, o modelo também incorpora o modelo de classificação de saliência de unidades discursivas proposto por Marcu (1997a), que obtém uma ordem de importância das unidades discursivas de uma estrutura RST. O modelo de sumarização proposto consiste em um elenco de heurísticas que visam identificar informações supérfluas em uma estrutura RST de um texto, para exclusão
durante a construção do seu sumário, tendo sempre como foco a preservação dos elos coreferenciais. Dessa forma, as heurísticas são guiadas por características específicas das
relações retóricas da RST e por restrições de acessibilidade referencial da Veins Theory. Assim, o sumarizador proposto se resume à poda de segmentos discursivos irrelevantes das
estruturas RST de textos, resultando em seus correspondentes sumários. As principais contribuições deste trabalho são a proposta de um novo modelo de sumarização automática e um protótipo para a sua aplicação automática.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/623
Date05 August 2005
CreatorsSeno, Eloize Rossi Marques
ContributorsRino, Lúcia Helena Machado
PublisherUniversidade Federal de São Carlos, Programa de Pós-graduação em Ciência da Computação, UFSCar, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0132 seconds