11 |
Exploração de métodos de sumarização automática multidocumento com base em conhecimento semântico-discursivo / Exploration of automatic methods for multi-document summarization using discourse modelsCardoso, Paula Christina Figueira 05 September 2014 (has links)
A sumarização automática multidocumento visa à produção de um sumário a partir de um conjunto de textos relacionados, para ser utilizado por um usuário particular e/ou para determinada tarefa. Com o crescimento exponencial das informações disponíveis e a necessidade das pessoas obterem a informação em um curto espaço de tempo, a tarefa de sumarização automática tem recebido muita atenção nos últimos tempos. Sabe-se que em um conjunto de textos relacionados existem informações redundantes, contraditórias e complementares, que representam os fenômenos multidocumento. Em cada texto-fonte, o assunto principal é descrito em uma sequência de subtópicos. Além disso, as sentenças de um texto-fonte possuem graus de relevância diferentes. Nesse contexto, espera-se que um sumário multidocumento consista das informações relevantes que representem o total de textos do conjunto. No entanto, as estratégias de sumarização automática multidocumento adotadas até o presente utilizam somente os relacionamentos entre textos e descartam a análise da estrutura textual de cada texto-fonte, resultando em sumários que são pouco representativos dos subtópicos textuais e menos informativos do que poderiam ser. A fim de tratar adequadamente a relevância das informações, os fenômenos multidocumento e a distribuição de subtópicos, neste trabalho de doutorado, investigou-se como modelar o processo de sumarização automática usando o conhecimento semântico-discursivo em métodos de seleção de conteúdo e o impacto disso para a produção de sumários mais informativos e representativos dos textos-fonte. Na formalização do conhecimento semântico-discursivo, foram utilizadas as teorias semântico-discursivas RST (Rhetorical Structure Theory) e CST (Cross-document Structure Theory). Para apoiar o trabalho, um córpus multidocumento foi anotado com RST e subtópicos, consistindo em um recurso disponível para outras pesquisas. A partir da análise de córpus, foram propostos 10 métodos de segmentação em subtópicos e 13 métodos inovadores de sumarização automática. A avaliação dos métodos de segmentação em subtópicos mostrou que existe uma forte relação entre a estrutura de subtópicos e a análise retórica de um texto. Quanto à avaliação dos métodos de sumarização automática, os resultados indicam que o uso do conhecimento semântico-discursivo em boas estratégias de seleção de conteúdo afeta positivamente a produção de sumários informativos. / The multi-document summarization aims at producing a summary from a set of related texts to be used for an individual or/and a particular task. Nowadays, with the exponential growth of available information and the peoples need to obtain information in a short time, the task of automatic summarization has received wide attention. It is known that in a set of related texts there are pieces of redundant, contradictory and complementary information that represent the multi-document phenomenon. In each source text, the main subject is described in a sequence of subtopics. Furthermore, some sentences in the same text are more relevant than others. Considering this context, it is expected that a multi-document summary consists of relevant information that represents a set of texts. However, strategies for automatic multi-document summarization adopted until now have used only the relationships between texts and dismissed the analysis of textual structure of each source text, resulting in summaries that are less representative of subtopics and less informative than they could be. In order to properly treat the relevance of information, multi-document phenomena and distribution of subtopics, in this thesis, we investigated how to model the summarization process using the semantic-discursive knowledge and its impact for producing more informative and representative summaries from source texts. In order to formalize the semantic-discursive knowledge, we adopted RST (Rhetorical Structure Theory) and CST (Cross-document Structure Theory) theories. To support the work, a multi-document corpus was annotated with RST and subtopics, consisting of a new resource available for other researchers. From the corpus analysis, 10 methods for subtopic segmentation and 13 orignal methods for automatic summarization were proposed. The assessment of methods for subtopic segmentation showed that there is a strong relationship between the subtopics structure and the rhetorical analysis of a text. In regards to the assessment of the methods for automatic summarization, the results indicate that the use of semantic-discursive knowledge in good strategies for content selection affects positively the production of informative summaries.
|
12 |
Sumarização automática de opiniões baseada em aspectos / Automatic aspect-based opinion summarizationCondori, Roque Enrique López 24 August 2015 (has links)
A sumarização de opiniões, também conhecida como sumarização de sentimentos, é a tarefa que consiste em gerar automaticamente sumários para um conjunto de opiniões sobre uma entidade específica. Uma das principais abordagens para gerar sumários de opiniões é a sumarização baseada em aspectos. A sumarização baseada em aspectos produz sumários das opiniões para os principais aspectos de uma entidade. As entidades normalmente referem-se a produtos, serviços, organizações, entre outros, e os aspectos são atributos ou componentes das entidades. Nos últimos anos, essa tarefa tem ganhado muita relevância diante da grande quantidade de informação online disponível na web e do interesse cada vez maior em conhecer a avaliação dos usuários sobre produtos, empresas, pessoas e outros. Infelizmente, para o Português do Brasil, pouco se tem pesquisado nessa área. Nesse cenário, neste projeto de mestrado, investigou-se o desenvolvimento de alguns métodos de sumarização de opiniões com base em aspectos. Em particular, foram implementados quatro métodos clássicos da literatura, extrativos e abstrativos. Esses métodos foram analisados em cada uma de suas fases e, como consequência dessa análise, produziram-se duas propostas para gerar sumários de opiniões. Essas duas propostas tentam utilizar as principais vantagens dos métodos clássicos para gerar melhores sumários. A fim de analisar o desempenho dos métodos implementados, foram realizados experimentos em função de três medidas de avaliação tradicionais da área: informatividade, qualidade linguística e utilidade do sumário. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura e, em vários casos, os superam. / Opinion summarization, also known as sentiment summarization, is the task of automatically generating summaries for a set of opinions about a specific entity. One of the main approaches to generate opinion summaries is aspect-based opinion summarization. Aspect-based opinion summarization generates summaries of opinions for the main aspects of an entity. Entities could be products, services, organizations or others, and aspects are attributes or components of them. In the last years, this task has gained much importance because of the large amount of online information available on the web and the increasing interest in learning the user evaluation about products, companies, people and others. Unfortunately, for Brazilian Portuguese language, there are few researches in that area. In this scenario, this master\'s project investigated the development of some aspect-based opinion summarization methods. In particular, it was implemented four classical methods of the literature, extractive and abstractive ones. These methods were analyzed in each of its phases and, as a result of this analysis, it was produced two proposals to generate summaries of opinions. Both proposals attempt to use the main advantages of the classical methods to generate better summaries. In order to analyze the performance of the implemented methods, experiments were carried out according to three traditional evaluation measures: informativeness, linguistic quality and usefulness of the summary. The results show that the proposed methods in this work are competitive with the classical methods and, in many cases, they got the best performance.
|
13 |
Modelagem de discurso para o tratamento da concisão e preservação da idéia central na geração de textos / Discourse modeling for conciseness and gist preservation in text generationRino, Lucia Helena Machado 26 April 1996 (has links)
O foco deste trabalho esta, no processo automático de condensação de uma estrutura complexa de informação e de sua estruturação, para fazê-la apropriada para a expressão textual. A tese principal é que, sem um modelo de discurso, não podemos assegurar a preservação de uma idéia central, pois o processamento do discurso envolve não só a informação, como também metas comunicativas e critérios para ressaltar unidades de informação. Como resultado os métodos para produzir uma estrutura coerente de discurso de um sumário agregam tanto metas comunicativas quanto informações sobre o inter-relacionamentos entre as unidades de informação permitindo a organização do discurso com base em restrições progressivas de planejamento. Esse argumento tem duas implicações: a preservação da idéia central deve ser garantida em nível profundo de processamento e sua proeminência deve ser subordinada aos aspectos comunicativos e retóricos. Portanto, esta investigação se baseia em perspectivas intencionais e retóricas. Propomos um modelo de sumarização dirigido por objetivos, cuja função principal é mapear intenções em relações de coerência, observando ainda a dependência semântica indicada pela estrutura complexa de informação. As estruturas de discurso resultantes devem enfatizar a proposição central a veicular no discurso. Em termos teóricos, o aspecto inovador do modelo está na associação de relações de discurso em três níveis distintos de representação: intencionalidade. coerência e semântica. Em termos práticos, a solução proposta sugere o projeto de um planejador de textos que pode tornar a proposição central de um discurso a informação mais proeminente em uma estrutura de discurso e, assim, assegurar a preservação da idéia central durante a condensação de uma estrutura complexa de informação. Os resultados experimentais da aplicação desse modelo demonstram que é possível selecionar a informação relevante, distinguindo as unidades de conteúdo da estrutura original que são supérfluas ou complementares para a proposição central, e organizá-la coerentemente com o intuito de alcançar um objetivo comunicativo. Propomos a incorporação do modelo a um sumarizador automático cuja arquitetura é sugerida neste trabalho. / The focus of this work is on the automatic process of condensing a. complex information structure and structuring it in such a way as to make it appropriate for textual expression. The main thesis is that without a sound discourse model we cannot guarantee gist preservation because discourse processing comprises not only information, but also communicative goals and criteria to emphasize units of information. As a result, the methods to produce a coherent discourse structure of a summary aggregate both communicative goals and the inter-relationships between information units, allowing for discourse organization by progressively constraining planning decisions. Our thrust has two implications, namely that gist preservation must be guaranteed at the deep level of processing and gist proeminence must be subordinated to communicative and rhetorical settings. The current investigation thus relies on intentional and rhetorical perspectives. A goal-driven summarization model is proposed, whose main function is to map intentions onto coherence relations whilst still observing the semantic dependency indicated by the complex input structure. The resulting discourse structures must highlight the central proposition to be conveyed. In theoretical terms, the innovative contribution of the model relies on the association of discourse relations at three different levels of representation - the intentionality, coherence and semantics. In practical terms, the proposed solution allows for the design of a text planner that can make the central proposition of a discourse the most proeminent information in a discourse structure, thus ensuring the preservation of gist during the condensation of a complex information structure. The results of applying this model show that it is possible to both select relevant information by differentiating content units of the input structure that are superfluous or complementary to the central proposition and organize it coherently by aiming at achieving a communicative goal. The model is proposed to incorporate into an automatic summariser whose architecture suggested in this thesis.
|
14 |
Modelagem gerativa para sumarização automática multidocumento / Generative modeling for multi-document sumarizationJorge, María Lucía Del Rosario Castro 09 March 2015 (has links)
A Sumarização Multidocumento consiste na produção automática de um único sumário a partir de um conjunto de textos que tratam de um mesmo assunto. Essa tarefa vem se tornando cada vez mais importante, já que auxilia o processamento de grandes volumes de informação, permitindo destacar a informação mais relevante para o usuário. Nesse trabalho, são propostas e exploradas modelagens baseadas em Aprendizado Gerativo, em que a tarefa de Sumarização Multidocumento é esquematizada usando o modelo Noisy- Channel e seus componentes de modelagem de língua, de transformação e decodificação, que são apropriadamente instanciados para a tarefa em questão. Essas modelagens são formuladas com atributos superficiais e profundos. Em particular, foram definidos três modelos de transformação, cujas histórias gerativas capturam padrões de seleção de conteúdo a partir de conjuntos de textos e seus correspondentes sumários multidocumento produzidos por humanos. O primeiro modelo é relativamente mais simples, pois é composto por atributos superficiais tradicionais; o segundo modelo é mais complexo, pois, além de atributos superficiais, adiciona atributos discursivos monodocumento; finalmente, o terceiro modelo é o mais complexo, pois integra atributos superficiais, de natureza discursiva monodocumento e semântico-discursiva multidocumento, pelo uso de informação proveniente das teorias RST e CST, respectivamente. Além desses modelos, também foi desenvolvido um modelo de coerência (ou modelo de língua) para sumários multidocumento, que é projetado para capturar padrões de coerência, tratando alguns dos principais fenômenos multidocumento que a afetam. Esse modelo foi desenvolvido com base no modelo de entidades e com informações discursivas. Cada um desses modelos foi inferido a partir do córpus CSTNews de textos jornalísticos e seus respectivos sumários em português. Finalmente, foi desenvolvido também um decodificador para realizar a construção do sumário a partir das inferências obtidas. O decodificador seleciona o subconjunto de sentenças que maximizam a probabilidade do sumário de acordo com as probabilidades inferidas nos modelos de seleção de conteúdo e o modelo de coerência. Esse decodificador inclui também uma estratégia para evitar que sentenças redundantes sejam incluídas no sumário final. Os sumários produzidos a partir dessa modelagem gerativa são comparados com os sumários produzidos por métodos estatísticos do estado da arte, os quais foram implementados, treinados e testados sobre o córpus. Utilizando-se avaliações de informatividade tradicionais da área, os resultados obtidos mostram que os modelos desenvolvidos neste trabalho são competitivos com os métodos estatísticos do estado da arte e, em alguns casos, os superam. / Multi-document Summarization consists in automatically producing a unique summary from a set of source texts that share a common topic. This task is becoming more important, since it supports large volume data processing, enabling to highlight relevant information to the users. In this work, generative modeling approaches are proposed and investigated, where the Multidocument Summarization task is modeled through the Noisy-Channel framework and its components: language model, transformation model and decoding, which are properly instantiated for the correspondent task. These models are formulated with shallow and deep features. Particularly, three main transformation models were defined, establishing generative stories that capture content selection patterns from sets of source texts and their corresponding human multi-document summaries. The first model is the less complex, since its features are traditional shallow features; the second model is more complex, incorporating single-document discursive knowledge features (given by RST) to the features proposed in the first model; finally, the third model is the most complex, since it incorporates multi-document discursive knowledge features (given by CST) to the features provided by models 1 and 2. Besides these models, it was also developed a coherence model (represented by the Noisy-Channel´s language model) for multi-document summaries. This model, different from transformation models, aims at capturing coerence patterns in multi-document summaries. This model was developed over the Entity-based Model and incorporates discursive knowledge in order to capture coherence patterns, exploring multi-document phenomena. Each of these models was treined with the CSTNews córpus of journalistic texts and their corresponding summaries. Finally, a decoder to search for the summary that maximizes the probability of the estimated models was developed. The decoder selects the subset of sentences that maximize the estimated probabilities. The decoder also includes an additional functionality for treating redundancy in the decoding process by using discursive information from the CST. The produced summaries are compared with the summaries produced by state of the art generative models, which were also treined and tested with the CSTNews corpus. The evaluation was carried out using traditional informativeness measures, and the results showed that the generative models developed in this work are competitive with the state of the art statistical models, and, in some cases, they outperform them. .
|
15 |
Sumarização automática de opiniões baseada em aspectos / Automatic aspect-based opinion summarizationRoque Enrique López Condori 24 August 2015 (has links)
A sumarização de opiniões, também conhecida como sumarização de sentimentos, é a tarefa que consiste em gerar automaticamente sumários para um conjunto de opiniões sobre uma entidade específica. Uma das principais abordagens para gerar sumários de opiniões é a sumarização baseada em aspectos. A sumarização baseada em aspectos produz sumários das opiniões para os principais aspectos de uma entidade. As entidades normalmente referem-se a produtos, serviços, organizações, entre outros, e os aspectos são atributos ou componentes das entidades. Nos últimos anos, essa tarefa tem ganhado muita relevância diante da grande quantidade de informação online disponível na web e do interesse cada vez maior em conhecer a avaliação dos usuários sobre produtos, empresas, pessoas e outros. Infelizmente, para o Português do Brasil, pouco se tem pesquisado nessa área. Nesse cenário, neste projeto de mestrado, investigou-se o desenvolvimento de alguns métodos de sumarização de opiniões com base em aspectos. Em particular, foram implementados quatro métodos clássicos da literatura, extrativos e abstrativos. Esses métodos foram analisados em cada uma de suas fases e, como consequência dessa análise, produziram-se duas propostas para gerar sumários de opiniões. Essas duas propostas tentam utilizar as principais vantagens dos métodos clássicos para gerar melhores sumários. A fim de analisar o desempenho dos métodos implementados, foram realizados experimentos em função de três medidas de avaliação tradicionais da área: informatividade, qualidade linguística e utilidade do sumário. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura e, em vários casos, os superam. / Opinion summarization, also known as sentiment summarization, is the task of automatically generating summaries for a set of opinions about a specific entity. One of the main approaches to generate opinion summaries is aspect-based opinion summarization. Aspect-based opinion summarization generates summaries of opinions for the main aspects of an entity. Entities could be products, services, organizations or others, and aspects are attributes or components of them. In the last years, this task has gained much importance because of the large amount of online information available on the web and the increasing interest in learning the user evaluation about products, companies, people and others. Unfortunately, for Brazilian Portuguese language, there are few researches in that area. In this scenario, this master\'s project investigated the development of some aspect-based opinion summarization methods. In particular, it was implemented four classical methods of the literature, extractive and abstractive ones. These methods were analyzed in each of its phases and, as a result of this analysis, it was produced two proposals to generate summaries of opinions. Both proposals attempt to use the main advantages of the classical methods to generate better summaries. In order to analyze the performance of the implemented methods, experiments were carried out according to three traditional evaluation measures: informativeness, linguistic quality and usefulness of the summary. The results show that the proposed methods in this work are competitive with the classical methods and, in many cases, they got the best performance.
|
16 |
Estudo e validação de teorias do domínio lingüístico com vistas à melhoria do tratamento de cadeias de co-referência em Sumarização Automática.Carbonel, Thiago Ianez 21 August 2007 (has links)
Made available in DSpace on 2016-06-02T20:24:59Z (GMT). No. of bitstreams: 1
DissTIC.pdf: 1727948 bytes, checksum: fd1e13beaba58ee4b0a4f9d4b5d19687 (MD5)
Previous issue date: 2007-08-21 / Universidade Federal de Sao Carlos / The work presented in the dissertation focuses on the study and validation of linguistic
theories so as to improve reference cohesion in Automatic Summarization systems, which
with the advent of the Internet have received increasing attention due to the urge to manage
the huge amounts of on-line textual information that become available each day.
In this dissertation we evaluate Seno (2005) s Veins Theory-based proposal and prototype,
and present a reimplementation with distinct features based on the analysis of a corpus
annotated with rhetoric (RST) and referential information. In addition, we report on the
first validation effort for Portuguese for Veins Theory s Conjecture 1 (C1), which
constrains anaphora resolution given the rhetoric structure of texts and whose applicability
to Automatic Summarization interests us. As a methodological novelty, we put forth the
Non-Trivial Precision, a more realistic estimator of C1 s predictive power. / O trabalho apresentado nesta dissertação tem como foco o estudo e validação de teorias
lingüísticas com vistas à melhoria dos sistemas de Sumarização Automática, ramo da
Lingüística Computacional que, com o advento da internet, tem recebido grande atenção
nos últimos tempos, pois a quantidade de informação on-line é enorme e os leitores têm
cada vez menos tempo para apreender o máximo desta informação.
Nesta dissertação, avaliamos o protótipo de AS baseado na Teoria das Veias proposto por
Seno (2005) e apresentamos uma reimplementação com características distintas, baseada
em análise de córpus um córpus anotado com informação retórica (RST) e referencial.
Como inovação metodológica, formulamos a Precisão Não-Trivial, um estimador mais
realista para o poder preditivo da C1.
|
17 |
O uso de informações semânticas do PALAVRAS : em busca do aprimoramento da seleção de unidades textuais correferentes na Sumarização AutomáticaTomazela, Élen Cátia 21 June 2010 (has links)
Made available in DSpace on 2016-06-02T20:25:07Z (GMT). No. of bitstreams: 1
3413.pdf: 1158214 bytes, checksum: 96b742071a87c5d34f6d705e6fa72237 (MD5)
Previous issue date: 2010-06-21 / Universidade Federal de Minas Gerais / This dissertation aims at presenting a theoretical heuristic model which not only takes into consideration the Veins Theory, but also semantic information obtained from the Parser PALAVRAS to improve the selection of correferential textual units to be included in automatic summaries. Based on the analysis of the problems presented by VeinSum, an automatic summarizer, two main issues have been raised: the necessity of improving its summaries salience and reducing their size so that they suit the compression rate more adequately. Better results can be achieved through the elimination of irrelevant textual units although the summaries referential clarity may not be damaged. Heuristics based on the semantic information have then been proposed. Despite the semantic annotation inconsistencies, all the noun phrases that compose the Summ-it Corpus have been post-edited manually, which increases the credibility of the heuristics. Eleven texts from the corpus have been analysed and the results obtained are satisfactory, although a wider study would be required to better evaluate the results of this proposal. / Esta dissertação tem como foco a proposta de um modelo heurístico teórico que utiliza, além da Teoria das Veias, informações semânticas provenientes do Parser PALAVRAS para melhorar a seleção de unidades correferentes para a inclusão em sumários automáticos. A partir da análise dos problemas apresentados pelo sumarizador automático VeinSum, identificou-se a necessidade de melhorar a saliência dos sumários produzidos, além de reduzir o tamanho dos mesmos para que se aproximassem mais da taxa de compressão ideal. Propõese, então, a eliminação de unidades textuais de importância secundária no que tange à clareza referencial, sem danificá-la, no entanto. Para isso, heurísticas baseadas nas informações semânticas do PALAVRAS foram propostas. Apesar de o parser apresentar inconsistências de etiquetação semântica, a anotação de todos os sintagmas nominais dos 50 textos-fonte que compõem o corpus Summ-it foi pós-editada manualmente para melhorar a confiabilidade das heurísticas geradas. Foram analisados 11 textos pertencentes ao corpus e os resultados são satisfatórios, porém reconhece-se que, para melhor avaliar os resultados desta proposta, faz-se necessário um estudo mais amplo.
|
18 |
Recuperação de informação com auxílio de extratos automáticos.Batista Junior, Wilson dos Santos 08 May 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:17Z (GMT). No. of bitstreams: 1
DissWSBJ.pdf: 1130582 bytes, checksum: cddbd8f8a11a6e29a95cea9e62612f2b (MD5)
Previous issue date: 2006-05-08 / Financiadora de Estudos e Projetos / This dissertation investigates the use of Automatic Summarization (AS) techniques on
Information Retrieval (IR), two areas that have attracted growing attention due to the
continuous growth of information repositories in digital format.
The main goal of this work is to verify the contribution of extracts generated
automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In
general, the main goal of both phases is to find the most descriptive terms of a given
document. This goal in turn is strongly related to that of the AS techniques to summarize the
main parts of a document which justifies the study.
In order to verify the effectiveness of the AS techniques, we have developed five
systems that use extracts generated by a summarizing system that was considered useful in the
task of indicating the content of documents to human readers. These systems were assessed
through a set of documents written in Portuguese to test IR. In general, the results show that
the generated extracts were not useful for indexing, presenting worse performance compared
to when using a full document for IR. In the PRF case, however, the results obtained using
specific extracts were better than those obtained by a system that does not embed PRF. The
best results were obtained when using query-biased multi-documents extracts, indicating that
this type of extract may be useful for PRF. / Este trabalho de mestrado investiga a aplicação de técnicas de Sumarização
Automática (SA) na Recuperação de Informação (RI), duas áreas que, devido ao crescente
número de repositórios de informação digital disponíveis, têm se mostrado muito importantes
para a captura de informações.
O intuito do trabalho é verificar a contribuição de extratos gerados automaticamente
em duas etapas da RI: a indexação e a realimentação de pseudo-relevantes. O principal
objetivo dessas duas etapas é encontrar os termos mais descritivos de um documento. Esse
objetivo é relacionado fortemente com o objetivo principal da SA que é condensar as
principais partes do documento, o que justifica o emprego.
Para verificar a efetividade das técnicas de SA, foram construídos cinco sistemas que
utilizam extratos gerados por um sistema de sumarização que foi considerado útil na tarefa de
indicar aos leitores humanos o conteúdo de documentos. Esses sistemas foram avaliados com
uma coleção de documentos para testes em RI, escritos em português. Em geral, os resultados
apontam que os extratos gerados não foram úteis para a indexação, apresentando desempenho
inferior à recuperação que usou o conteúdo completo dos documentos na indexação. No caso
da realimentação de pseudo-relevantes, os resultados dos sistemas que utilizam extratos
específicos foram superiores aos de um sistema sem esta realimentação em muitos casos. Os
melhores resultados foram obtidos pelos extratos específicos multi-documentos, mostrando
que esse tipo de extrato pode ser útil para a realimentação de pseudo-relevantes.
|
19 |
ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.Silva, Patrick Pedreira 10 July 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:19Z (GMT). No. of bitstreams: 1
DissPPS.pdf: 2486545 bytes, checksum: 45bf3bd34f1453685126954dc3708459 (MD5)
Previous issue date: 2006-07-10 / Financiadora de Estudos e Projetos / This dissertation presents an automatic summarizer of Web documents based on
both HTML tags and ontological knowledge. It has been derived from two independent
approaches: one that focuses solely upon HTML tags, and another that focuses only on
ontological knowledge. The three approaches were implemented and assessed,
indicating that associating both knowledge types have a promising descriptive power for
Web documents. The resulting prototype has been named ExtraWeb.
The ExtraWeb system explores the HTML structure of Web documents in
Portuguese and semantic information using the Yahoo ontology in Portuguese. This has
been enriched with additional terms extracted from both a thesaurus, Diadorim and the
Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to
Google one, showing its potential to signal through extracts the relevance of the
retrieved documents. This has been an important issue recently. Extracts may be
particularly useful as surrogates of the current descriptions provided by the existing
search engines. They may even substitute the corresponding source documents. In the
former case, those descriptions do not necessarily convey relevant content of the
documents; in the latter, reading full documents demands a substantial overhead of Web
users. In both cases, extracts may improve the search task, provided that they actually
signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to
improve their descriptions. However, its scability and insertion in a real setting have not
yet been explored. / Esta dissertação propõe um sumarizador de documentos Web baseado em
etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens
independentes: uma que contempla somente etiquetas HTML e outra, somente
conhecimento ontológico. As três abordagens foram implementadas e avaliadas,
indicando que a composição desses dois tipos de conhecimento tem um bom potencial
descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb.
O ExtraWeb explora a estrutura de marcação de documentos em português e
informações de nível semântico usando a ontologia do Yahoo em português,
enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em
uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um
grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por
meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de
grande interesse atualmente, pois os extratos podem ser particularmente úteis como
substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos
dos documentos correspondentes completos. No primeiro caso, as descrições nem
sempre contemplam as informações mais relevantes dos documentos; no segundo, sua
leitura implica um esforço considerável por parte do internauta. Em ambos os casos,
extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da
relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das
ferramentas de busca, para melhorar a forma como os resultados são apresentados,
muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham
sido exploradas.
|
20 |
RHeSumaRST: um sumarizador automático de estruturas RST.Seno, Eloize Rossi Marques 05 August 2005 (has links)
Made available in DSpace on 2016-06-02T19:06:27Z (GMT). No. of bitstreams: 1
DissERMS.pdf: 1350059 bytes, checksum: b053cbd6eaf16da40d372057cbe1d76d (MD5)
Previous issue date: 2005-08-05 / This work presents an automatic summarization model based on both the Rhetorical Structure Theory RST and the Veins Theory VT. RST allows inter-relating discourse units by means of rhetorical relations. These, in turn, mirror meaning relations between those units. Adding to RST, VT delimits the domain of referential accessibility of each
discourse unit of an RST tree, resulting in its vein . A vein signals, thus, the limits of a discourse unit that may enclose its anaphora antecedents. The automatic summarization
model also embeds Marcu s model of salience: once a discourse is structured as an RST tree, its units are classified according to their salience by considering the its deep in the
tree. The model consists of a set of pruning heuristics that aim at identifying superfluous information in an RST tree of a text. In excluding them, the resulting summary RST tree
and, thus, the text summary, should preserve the co-referential chains. In this way, the heuristics are driven by both, specific features of RST relations and constraints on the
referential accessibility provided by VT. The main contributions of this work include the proposal of the AS model itself and the availability of a prototype for its automatic exploration. / Este trabalho apresenta um modelo de sumarização automática que se baseia no modelo de estruturação de discurso Rhetorical Structure Theory RST e no modelo de
coerência global do discurso Veins Theory VT. A RST permite a estruturação de um discurso relacionando-se unidades discursivas com base em relações retóricas, isto é,
permitindo recuperar as relações de significados entre tais unidades. Com base na estruturação RST, a Veins Theory delimita o domínio de acessibilidade referencial para cada unidade do discurso na forma de veias , indicando os limites nos quais os antecedentes de uma anáfora podem ocorrer ao longo do discurso. Além dessas teorias, o modelo também incorpora o modelo de classificação de saliência de unidades discursivas proposto por Marcu (1997a), que obtém uma ordem de importância das unidades discursivas de uma estrutura RST. O modelo de sumarização proposto consiste em um elenco de heurísticas que visam identificar informações supérfluas em uma estrutura RST de um texto, para exclusão
durante a construção do seu sumário, tendo sempre como foco a preservação dos elos coreferenciais. Dessa forma, as heurísticas são guiadas por características específicas das
relações retóricas da RST e por restrições de acessibilidade referencial da Veins Theory. Assim, o sumarizador proposto se resume à poda de segmentos discursivos irrelevantes das
estruturas RST de textos, resultando em seus correspondentes sumários. As principais contribuições deste trabalho são a proposta de um novo modelo de sumarização automática e um protótipo para a sua aplicação automática.
|
Page generated in 0.0341 seconds