Return to search

Alinhamento automático de textos e sumários multidocumento / Not available

Com o excesso de informação disponível online, a Sumarização Automática tornouse uma área de bastante interesse na grande área da Inteligência Artificial. Alguns autores tentaram caracterizar o processo de sumarização para compreender melhor como sumarizadores o realizam. O alinhamento de um sumário e seus textos fonte pode ser encarado como uma caracterização desse processo. Com relação à sumarização automática, a técnica de alinhamento consiste em obter relações entre segmentos de um ou vários textos e seu sumário e, da forma que o conteúdo de um segmento esteja contido no outro. Uma vez obtidas essas relações, tornase possível (i) aprender como sumarizadores profissionais realizam a sumarização, (ii) explicitar regras e modelos para a sumarização, e (iii) criar métodos automatizados utilizando as regras e modelos explicitados, o que traz uma contribuição à Sumarização Automática. Neste trabalho, foram propostas três abordagens dentro das abordagens superficiais e profundas do Processamento de Língua Natural para realizar os alinhamentos de forma automática. A primeira utiliza três métodos superficiais, sendo eles Word overlap, tamanho relativo e posição relativa. A segunda caracterizase em uma técnica de alinhamento com mais conhecimento linguístico, pois nela foi utilizada uma teoria discursiva, a CST (CrossDocument Structure Theory). A terceira utiliza Aprendizado de Máquina, caracterizando uma abordagem híbrida dada a característica de seus atributos superficiais e profundos, relativo à primeira e à segunda abordagem. Uma avaliação comparativa entre elas, e também entre um trabalho da literatura, foi realizada. Quando os dados do aprendizado de máquina eram balanceados, foi atingido o valor de 97,2% de medidaF, maior valor encontrado. O método superficial Word overlap também obteve um bom resultado, sendo ele 66,2% de medidaF. / With the huge amount of online information, the Automatic Summarization has become an area of great interest in the Artificial Intelligence area. Some authors have tried to characterize the process of summarization to aim a better understanding of how the summarizers perform the summarization. The alignment of an abstract and its source texts can be seen as a characterization of this process. Regarding the automatic summarization, the alignment technique consists in obtaining relations between segments of one, or more text, and its abstract, in a way that the segment content is contained in the other segment. Once obtained these relationships, it becomes possible to (i) learn how professional summarizers perform the summarization, (ii) explicit rules and models for summarization, and (iii) create automated methods using the rules and the models, which brings a contribution to the Automatic Summarization area. In this dissertation, three approaches within the Natural Language Processing superficial and deep approaches have been proposed to carry the alignments automatically. The first uses three superficial methods, namely Word overlap, relative size and relative position. The second is an alignment technique with more linguistic knowledge, because was used a discursive theory, the CST (Crossdocument Structure Theory). The third uses Machine Learning, featuring a hybrid approach given the characteristics of its deep and superficial attributes, relative to the first and second approaches. A comparative evaluation among them was performed. When the machine learning data were balanced, the value achieved was 97.2% of Fmeasure, the highest value found. The superficial method Word overlap also achieved a good result, which is 66.2% of Fmeasure.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-11012018-165357
Date12 May 2014
CreatorsAgostini, Verônica
ContributorsPardo, Thiago Alexandre Salgueiro
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguageEnglish
TypeDissertação de Mestrado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0022 seconds