Spelling suggestions: "subject:"sumarização automática"" "subject:"curarização automática""
1 |
Sumarização Automática de Atualização para a língua portuguesa / Update Summarization for the portuguese languageNóbrega, Fernando Antônio Asevêdo 12 December 2017 (has links)
O enorme volume de dados textuais disponível na web caracteriza-se como um cenário ideal para inúmeras aplicações do Processamento de Língua Natural, tal como a tarefa da Sumarização Automática de Atualização (SAA), que tem por objetivo a geração automática de resumos a partir de uma coleção textual admitindo-se que o leitor possui algum conhecimento prévio sobre os textos-fonte. Dessa forma, um bom resumo de atualização deve ser constituído pelas informações mais relevantes, novas e atualizadas com relação ao conhecimento prévio do leitor. Essa tarefa implica em diversos desafios, sobretudo nas etapas de seleção e síntese de conteúdo para o sumário. Embora existam inúmeras abordagens na literatura, com diferentes níveis de complexidade teórica e computacional, pouco dessas investigações fazem uso de algum conhecimento linguístico profundo, que pode auxiliar a identificação de conteúdo mais relevante e atualizado. Além disso, os métodos de sumarização comumente empregam uma abordagem de síntese extrativa, na qual algumas sentenças dos textos-fonte são selecionadas e organizadas para compor o sumário sem alteração de seu conteúdo. Tal abordagem pode limitar a informatividade do sumário, uma vez que alguns segmentos sentenciais podem conter informação redundante ou irrelevante ao leitor. Assim, esforços recentes foram direcionados à síntese compressiva, na qual alguns segmentos das sentenças selecionadas para o sumário são removidos previamente à inserção no sumário. Nesse cenário, este trabalho de doutorado teve por objetivo a investigação do uso de conhecimentos linguísticos, como a Teoria Discursiva Multidocumento (CST), Segmentação de Subtópicos e Reconhecimento de Entidades Nomeadas, em distintas abordagens de seleção de conteúdo por meio das sínteses extrativas e compressivas visando à produção de sumários de atualização mais informativos. Tendo a língua Portuguesa como principal objeto de estudo, foram organizados três novos córpus, o CSTNews-Update, que viabiliza experimentos de SAA, e o PCSC-Pares e G1-Pares, para o desenvolvimento/avaliação de métodos de Compressão Sentencial. Ressalta-se que os experimentos de sumarização foram também realizados para a língua inglesa. Após as experimentações, observou-se que a Segmentação de Subtópicos foi mais efetiva para a produção de sumários mais informativos, porém, em apenas poucas abordagens de seleção de conteúdo. Além disso, foram propostas algumas simplificações para o método DualSum por meio da distribuição de Subtópicos. Tais métodos apresentaram resultados muito satisfatórios com menor complexidade computacional. Visando a produção de sumários compressivos, desenvolveram-se inúmeros métodos de Compressão Sentencial por meio de algoritmos de Aprendizado de Máquina. O melhor método proposto apresentou resultados superiores a um trabalho do estado da arte, que faz uso de algoritmos de Deep Learning. Além dos resultados supracitados, ressalta-se que anteriormente a este trabalho, a maioria das investigações de Sumarização Automática para a língua Portuguesa foi direcionada à geração de sumários a partir de um (monodocumento) ou vários textos relacionados (multidocumento) por meio da síntese extrativa, sobretudo pela ausência se recursos que viabilizassem a expansão da área de Sumarização Automática para esse idioma. Assim, as contribuições deste trabalho engajam-se em três campos, nos métodos de SAA propostos com conhecimento linguísticos, nos métodos de Compressão Sentencial e nos recursos desenvolvidos para a língua Portuguesa. / The huge amount of data that is available online is the main motivation for many tasks of Natural Language Processing, as the Update Summarization (US) which aims to produce a summary from a collection of related texts under the assumption the user/reader has some previous knowledge about the texts subject. Thus, a good update summary must be produced with the most relevant, new and updated content in order to assist the user. This task presents many research challenges, mainly in the processes of content selection and synthesis of the summary. Although there are several approaches for US, most of them do not use of some linguistic information that may assist the identification relevant content for the summary/user. Furthermore, US methods frequently apply an extractive synthesis approach, in which the summary is produced by picking some sentences from the source texts without rewriting operations. Once some segments of the picked sentences may contain redundant or irrelevant content, this synthesis process can to reduce the summary informativeness. Thus, some recent efforts in this field have focused in the compressive synthesis approach, in which some sentences are compressed by deletion of tokens or rewriting operations before be inserted in the output summary. Given this background, this PhD research has investigated the use of some linguistic information, as the Cross Document Theory (CST), Subtopic Segmentation and Named Entity Recognition into distinct content selection approaches for US by use extractive and compressive synthesis process in order to produce more informative update summaries. Once we have focused on the Portuguese language, we have compiled three new resources for this language, the CSTNews-Update, which allows the investigation of US methods for this language, the PCST-Pairs and G1-Pairs, in which there are pairs of original and compressed sentences in order to produce methods of sentence compression. It is important to say we also have performed experiments for the English language, in which there are more resources. The results show the Subtopic Segmentation assists the production of better summaries, however, this have occurred just on some content selection approaches. Furthermore, we also have proposed a simplification for the method DualSum by use Subtopic Segments. These simplifications require low computation power than DualSum and they have presented very satisfactory results. Aiming the production of compressive summaries, we have proposed different compression methods by use machine learning techniques. Our better proposed method present quality similar to a state-of-art system, which is based on Deep Learning algorithms. Previously this investigation, most of the researches on the Automatic Summarization field for the Portuguese language was focused on previous traditional tasks, as the production of summaries from one and many texts that does not consider the user knowledge, by use extractive synthesis processes. Thus, beside our proposed US systems based on linguistic information, which were evaluated over English and Portuguese datasets, we have produced many Compressions Methods and three new resources that will assist the expansion of the Automatic Summarization field for the Portuguese Language.
|
2 |
Exploração de métodos de sumarização automática multidocumento com base em conhecimento semântico-discursivo / Exploration of automatic methods for multi-document summarization using discourse modelsCardoso, Paula Christina Figueira 05 September 2014 (has links)
A sumarização automática multidocumento visa à produção de um sumário a partir de um conjunto de textos relacionados, para ser utilizado por um usuário particular e/ou para determinada tarefa. Com o crescimento exponencial das informações disponíveis e a necessidade das pessoas obterem a informação em um curto espaço de tempo, a tarefa de sumarização automática tem recebido muita atenção nos últimos tempos. Sabe-se que em um conjunto de textos relacionados existem informações redundantes, contraditórias e complementares, que representam os fenômenos multidocumento. Em cada texto-fonte, o assunto principal é descrito em uma sequência de subtópicos. Além disso, as sentenças de um texto-fonte possuem graus de relevância diferentes. Nesse contexto, espera-se que um sumário multidocumento consista das informações relevantes que representem o total de textos do conjunto. No entanto, as estratégias de sumarização automática multidocumento adotadas até o presente utilizam somente os relacionamentos entre textos e descartam a análise da estrutura textual de cada texto-fonte, resultando em sumários que são pouco representativos dos subtópicos textuais e menos informativos do que poderiam ser. A fim de tratar adequadamente a relevância das informações, os fenômenos multidocumento e a distribuição de subtópicos, neste trabalho de doutorado, investigou-se como modelar o processo de sumarização automática usando o conhecimento semântico-discursivo em métodos de seleção de conteúdo e o impacto disso para a produção de sumários mais informativos e representativos dos textos-fonte. Na formalização do conhecimento semântico-discursivo, foram utilizadas as teorias semântico-discursivas RST (Rhetorical Structure Theory) e CST (Cross-document Structure Theory). Para apoiar o trabalho, um córpus multidocumento foi anotado com RST e subtópicos, consistindo em um recurso disponível para outras pesquisas. A partir da análise de córpus, foram propostos 10 métodos de segmentação em subtópicos e 13 métodos inovadores de sumarização automática. A avaliação dos métodos de segmentação em subtópicos mostrou que existe uma forte relação entre a estrutura de subtópicos e a análise retórica de um texto. Quanto à avaliação dos métodos de sumarização automática, os resultados indicam que o uso do conhecimento semântico-discursivo em boas estratégias de seleção de conteúdo afeta positivamente a produção de sumários informativos. / The multi-document summarization aims at producing a summary from a set of related texts to be used for an individual or/and a particular task. Nowadays, with the exponential growth of available information and the peoples need to obtain information in a short time, the task of automatic summarization has received wide attention. It is known that in a set of related texts there are pieces of redundant, contradictory and complementary information that represent the multi-document phenomenon. In each source text, the main subject is described in a sequence of subtopics. Furthermore, some sentences in the same text are more relevant than others. Considering this context, it is expected that a multi-document summary consists of relevant information that represents a set of texts. However, strategies for automatic multi-document summarization adopted until now have used only the relationships between texts and dismissed the analysis of textual structure of each source text, resulting in summaries that are less representative of subtopics and less informative than they could be. In order to properly treat the relevance of information, multi-document phenomena and distribution of subtopics, in this thesis, we investigated how to model the summarization process using the semantic-discursive knowledge and its impact for producing more informative and representative summaries from source texts. In order to formalize the semantic-discursive knowledge, we adopted RST (Rhetorical Structure Theory) and CST (Cross-document Structure Theory) theories. To support the work, a multi-document corpus was annotated with RST and subtopics, consisting of a new resource available for other researchers. From the corpus analysis, 10 methods for subtopic segmentation and 13 orignal methods for automatic summarization were proposed. The assessment of methods for subtopic segmentation showed that there is a strong relationship between the subtopics structure and the rhetorical analysis of a text. In regards to the assessment of the methods for automatic summarization, the results indicate that the use of semantic-discursive knowledge in good strategies for content selection affects positively the production of informative summaries.
|
3 |
Modelagem de discurso para o tratamento da concisão e preservação da idéia central na geração de textos / Discourse modeling for conciseness and gist preservation in text generationRino, Lucia Helena Machado 26 April 1996 (has links)
O foco deste trabalho esta, no processo automático de condensação de uma estrutura complexa de informação e de sua estruturação, para fazê-la apropriada para a expressão textual. A tese principal é que, sem um modelo de discurso, não podemos assegurar a preservação de uma idéia central, pois o processamento do discurso envolve não só a informação, como também metas comunicativas e critérios para ressaltar unidades de informação. Como resultado os métodos para produzir uma estrutura coerente de discurso de um sumário agregam tanto metas comunicativas quanto informações sobre o inter-relacionamentos entre as unidades de informação permitindo a organização do discurso com base em restrições progressivas de planejamento. Esse argumento tem duas implicações: a preservação da idéia central deve ser garantida em nível profundo de processamento e sua proeminência deve ser subordinada aos aspectos comunicativos e retóricos. Portanto, esta investigação se baseia em perspectivas intencionais e retóricas. Propomos um modelo de sumarização dirigido por objetivos, cuja função principal é mapear intenções em relações de coerência, observando ainda a dependência semântica indicada pela estrutura complexa de informação. As estruturas de discurso resultantes devem enfatizar a proposição central a veicular no discurso. Em termos teóricos, o aspecto inovador do modelo está na associação de relações de discurso em três níveis distintos de representação: intencionalidade. coerência e semântica. Em termos práticos, a solução proposta sugere o projeto de um planejador de textos que pode tornar a proposição central de um discurso a informação mais proeminente em uma estrutura de discurso e, assim, assegurar a preservação da idéia central durante a condensação de uma estrutura complexa de informação. Os resultados experimentais da aplicação desse modelo demonstram que é possível selecionar a informação relevante, distinguindo as unidades de conteúdo da estrutura original que são supérfluas ou complementares para a proposição central, e organizá-la coerentemente com o intuito de alcançar um objetivo comunicativo. Propomos a incorporação do modelo a um sumarizador automático cuja arquitetura é sugerida neste trabalho. / The focus of this work is on the automatic process of condensing a. complex information structure and structuring it in such a way as to make it appropriate for textual expression. The main thesis is that without a sound discourse model we cannot guarantee gist preservation because discourse processing comprises not only information, but also communicative goals and criteria to emphasize units of information. As a result, the methods to produce a coherent discourse structure of a summary aggregate both communicative goals and the inter-relationships between information units, allowing for discourse organization by progressively constraining planning decisions. Our thrust has two implications, namely that gist preservation must be guaranteed at the deep level of processing and gist proeminence must be subordinated to communicative and rhetorical settings. The current investigation thus relies on intentional and rhetorical perspectives. A goal-driven summarization model is proposed, whose main function is to map intentions onto coherence relations whilst still observing the semantic dependency indicated by the complex input structure. The resulting discourse structures must highlight the central proposition to be conveyed. In theoretical terms, the innovative contribution of the model relies on the association of discourse relations at three different levels of representation - the intentionality, coherence and semantics. In practical terms, the proposed solution allows for the design of a text planner that can make the central proposition of a discourse the most proeminent information in a discourse structure, thus ensuring the preservation of gist during the condensation of a complex information structure. The results of applying this model show that it is possible to both select relevant information by differentiating content units of the input structure that are superfluous or complementary to the central proposition and organize it coherently by aiming at achieving a communicative goal. The model is proposed to incorporate into an automatic summariser whose architecture suggested in this thesis.
|
4 |
Estudo e validação de teorias do domínio lingüístico com vistas à melhoria do tratamento de cadeias de co-referência em Sumarização Automática.Carbonel, Thiago Ianez 21 August 2007 (has links)
Made available in DSpace on 2016-06-02T20:24:59Z (GMT). No. of bitstreams: 1
DissTIC.pdf: 1727948 bytes, checksum: fd1e13beaba58ee4b0a4f9d4b5d19687 (MD5)
Previous issue date: 2007-08-21 / Universidade Federal de Sao Carlos / The work presented in the dissertation focuses on the study and validation of linguistic
theories so as to improve reference cohesion in Automatic Summarization systems, which
with the advent of the Internet have received increasing attention due to the urge to manage
the huge amounts of on-line textual information that become available each day.
In this dissertation we evaluate Seno (2005) s Veins Theory-based proposal and prototype,
and present a reimplementation with distinct features based on the analysis of a corpus
annotated with rhetoric (RST) and referential information. In addition, we report on the
first validation effort for Portuguese for Veins Theory s Conjecture 1 (C1), which
constrains anaphora resolution given the rhetoric structure of texts and whose applicability
to Automatic Summarization interests us. As a methodological novelty, we put forth the
Non-Trivial Precision, a more realistic estimator of C1 s predictive power. / O trabalho apresentado nesta dissertação tem como foco o estudo e validação de teorias
lingüísticas com vistas à melhoria dos sistemas de Sumarização Automática, ramo da
Lingüística Computacional que, com o advento da internet, tem recebido grande atenção
nos últimos tempos, pois a quantidade de informação on-line é enorme e os leitores têm
cada vez menos tempo para apreender o máximo desta informação.
Nesta dissertação, avaliamos o protótipo de AS baseado na Teoria das Veias proposto por
Seno (2005) e apresentamos uma reimplementação com características distintas, baseada
em análise de córpus um córpus anotado com informação retórica (RST) e referencial.
Como inovação metodológica, formulamos a Precisão Não-Trivial, um estimador mais
realista para o poder preditivo da C1.
|
5 |
O uso de informações semânticas do PALAVRAS : em busca do aprimoramento da seleção de unidades textuais correferentes na Sumarização AutomáticaTomazela, Élen Cátia 21 June 2010 (has links)
Made available in DSpace on 2016-06-02T20:25:07Z (GMT). No. of bitstreams: 1
3413.pdf: 1158214 bytes, checksum: 96b742071a87c5d34f6d705e6fa72237 (MD5)
Previous issue date: 2010-06-21 / Universidade Federal de Minas Gerais / This dissertation aims at presenting a theoretical heuristic model which not only takes into consideration the Veins Theory, but also semantic information obtained from the Parser PALAVRAS to improve the selection of correferential textual units to be included in automatic summaries. Based on the analysis of the problems presented by VeinSum, an automatic summarizer, two main issues have been raised: the necessity of improving its summaries salience and reducing their size so that they suit the compression rate more adequately. Better results can be achieved through the elimination of irrelevant textual units although the summaries referential clarity may not be damaged. Heuristics based on the semantic information have then been proposed. Despite the semantic annotation inconsistencies, all the noun phrases that compose the Summ-it Corpus have been post-edited manually, which increases the credibility of the heuristics. Eleven texts from the corpus have been analysed and the results obtained are satisfactory, although a wider study would be required to better evaluate the results of this proposal. / Esta dissertação tem como foco a proposta de um modelo heurístico teórico que utiliza, além da Teoria das Veias, informações semânticas provenientes do Parser PALAVRAS para melhorar a seleção de unidades correferentes para a inclusão em sumários automáticos. A partir da análise dos problemas apresentados pelo sumarizador automático VeinSum, identificou-se a necessidade de melhorar a saliência dos sumários produzidos, além de reduzir o tamanho dos mesmos para que se aproximassem mais da taxa de compressão ideal. Propõese, então, a eliminação de unidades textuais de importância secundária no que tange à clareza referencial, sem danificá-la, no entanto. Para isso, heurísticas baseadas nas informações semânticas do PALAVRAS foram propostas. Apesar de o parser apresentar inconsistências de etiquetação semântica, a anotação de todos os sintagmas nominais dos 50 textos-fonte que compõem o corpus Summ-it foi pós-editada manualmente para melhorar a confiabilidade das heurísticas geradas. Foram analisados 11 textos pertencentes ao corpus e os resultados são satisfatórios, porém reconhece-se que, para melhor avaliar os resultados desta proposta, faz-se necessário um estudo mais amplo.
|
6 |
Recuperação de informação com auxílio de extratos automáticos.Batista Junior, Wilson dos Santos 08 May 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:17Z (GMT). No. of bitstreams: 1
DissWSBJ.pdf: 1130582 bytes, checksum: cddbd8f8a11a6e29a95cea9e62612f2b (MD5)
Previous issue date: 2006-05-08 / Financiadora de Estudos e Projetos / This dissertation investigates the use of Automatic Summarization (AS) techniques on
Information Retrieval (IR), two areas that have attracted growing attention due to the
continuous growth of information repositories in digital format.
The main goal of this work is to verify the contribution of extracts generated
automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In
general, the main goal of both phases is to find the most descriptive terms of a given
document. This goal in turn is strongly related to that of the AS techniques to summarize the
main parts of a document which justifies the study.
In order to verify the effectiveness of the AS techniques, we have developed five
systems that use extracts generated by a summarizing system that was considered useful in the
task of indicating the content of documents to human readers. These systems were assessed
through a set of documents written in Portuguese to test IR. In general, the results show that
the generated extracts were not useful for indexing, presenting worse performance compared
to when using a full document for IR. In the PRF case, however, the results obtained using
specific extracts were better than those obtained by a system that does not embed PRF. The
best results were obtained when using query-biased multi-documents extracts, indicating that
this type of extract may be useful for PRF. / Este trabalho de mestrado investiga a aplicação de técnicas de Sumarização
Automática (SA) na Recuperação de Informação (RI), duas áreas que, devido ao crescente
número de repositórios de informação digital disponíveis, têm se mostrado muito importantes
para a captura de informações.
O intuito do trabalho é verificar a contribuição de extratos gerados automaticamente
em duas etapas da RI: a indexação e a realimentação de pseudo-relevantes. O principal
objetivo dessas duas etapas é encontrar os termos mais descritivos de um documento. Esse
objetivo é relacionado fortemente com o objetivo principal da SA que é condensar as
principais partes do documento, o que justifica o emprego.
Para verificar a efetividade das técnicas de SA, foram construídos cinco sistemas que
utilizam extratos gerados por um sistema de sumarização que foi considerado útil na tarefa de
indicar aos leitores humanos o conteúdo de documentos. Esses sistemas foram avaliados com
uma coleção de documentos para testes em RI, escritos em português. Em geral, os resultados
apontam que os extratos gerados não foram úteis para a indexação, apresentando desempenho
inferior à recuperação que usou o conteúdo completo dos documentos na indexação. No caso
da realimentação de pseudo-relevantes, os resultados dos sistemas que utilizam extratos
específicos foram superiores aos de um sistema sem esta realimentação em muitos casos. Os
melhores resultados foram obtidos pelos extratos específicos multi-documentos, mostrando
que esse tipo de extrato pode ser útil para a realimentação de pseudo-relevantes.
|
7 |
ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.Silva, Patrick Pedreira 10 July 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:19Z (GMT). No. of bitstreams: 1
DissPPS.pdf: 2486545 bytes, checksum: 45bf3bd34f1453685126954dc3708459 (MD5)
Previous issue date: 2006-07-10 / Financiadora de Estudos e Projetos / This dissertation presents an automatic summarizer of Web documents based on
both HTML tags and ontological knowledge. It has been derived from two independent
approaches: one that focuses solely upon HTML tags, and another that focuses only on
ontological knowledge. The three approaches were implemented and assessed,
indicating that associating both knowledge types have a promising descriptive power for
Web documents. The resulting prototype has been named ExtraWeb.
The ExtraWeb system explores the HTML structure of Web documents in
Portuguese and semantic information using the Yahoo ontology in Portuguese. This has
been enriched with additional terms extracted from both a thesaurus, Diadorim and the
Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to
Google one, showing its potential to signal through extracts the relevance of the
retrieved documents. This has been an important issue recently. Extracts may be
particularly useful as surrogates of the current descriptions provided by the existing
search engines. They may even substitute the corresponding source documents. In the
former case, those descriptions do not necessarily convey relevant content of the
documents; in the latter, reading full documents demands a substantial overhead of Web
users. In both cases, extracts may improve the search task, provided that they actually
signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to
improve their descriptions. However, its scability and insertion in a real setting have not
yet been explored. / Esta dissertação propõe um sumarizador de documentos Web baseado em
etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens
independentes: uma que contempla somente etiquetas HTML e outra, somente
conhecimento ontológico. As três abordagens foram implementadas e avaliadas,
indicando que a composição desses dois tipos de conhecimento tem um bom potencial
descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb.
O ExtraWeb explora a estrutura de marcação de documentos em português e
informações de nível semântico usando a ontologia do Yahoo em português,
enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em
uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um
grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por
meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de
grande interesse atualmente, pois os extratos podem ser particularmente úteis como
substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos
dos documentos correspondentes completos. No primeiro caso, as descrições nem
sempre contemplam as informações mais relevantes dos documentos; no segundo, sua
leitura implica um esforço considerável por parte do internauta. Em ambos os casos,
extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da
relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das
ferramentas de busca, para melhorar a forma como os resultados são apresentados,
muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham
sido exploradas.
|
8 |
RHeSumaRST: um sumarizador automático de estruturas RST.Seno, Eloize Rossi Marques 05 August 2005 (has links)
Made available in DSpace on 2016-06-02T19:06:27Z (GMT). No. of bitstreams: 1
DissERMS.pdf: 1350059 bytes, checksum: b053cbd6eaf16da40d372057cbe1d76d (MD5)
Previous issue date: 2005-08-05 / This work presents an automatic summarization model based on both the Rhetorical Structure Theory RST and the Veins Theory VT. RST allows inter-relating discourse units by means of rhetorical relations. These, in turn, mirror meaning relations between those units. Adding to RST, VT delimits the domain of referential accessibility of each
discourse unit of an RST tree, resulting in its vein . A vein signals, thus, the limits of a discourse unit that may enclose its anaphora antecedents. The automatic summarization
model also embeds Marcu s model of salience: once a discourse is structured as an RST tree, its units are classified according to their salience by considering the its deep in the
tree. The model consists of a set of pruning heuristics that aim at identifying superfluous information in an RST tree of a text. In excluding them, the resulting summary RST tree
and, thus, the text summary, should preserve the co-referential chains. In this way, the heuristics are driven by both, specific features of RST relations and constraints on the
referential accessibility provided by VT. The main contributions of this work include the proposal of the AS model itself and the availability of a prototype for its automatic exploration. / Este trabalho apresenta um modelo de sumarização automática que se baseia no modelo de estruturação de discurso Rhetorical Structure Theory RST e no modelo de
coerência global do discurso Veins Theory VT. A RST permite a estruturação de um discurso relacionando-se unidades discursivas com base em relações retóricas, isto é,
permitindo recuperar as relações de significados entre tais unidades. Com base na estruturação RST, a Veins Theory delimita o domínio de acessibilidade referencial para cada unidade do discurso na forma de veias , indicando os limites nos quais os antecedentes de uma anáfora podem ocorrer ao longo do discurso. Além dessas teorias, o modelo também incorpora o modelo de classificação de saliência de unidades discursivas proposto por Marcu (1997a), que obtém uma ordem de importância das unidades discursivas de uma estrutura RST. O modelo de sumarização proposto consiste em um elenco de heurísticas que visam identificar informações supérfluas em uma estrutura RST de um texto, para exclusão
durante a construção do seu sumário, tendo sempre como foco a preservação dos elos coreferenciais. Dessa forma, as heurísticas são guiadas por características específicas das
relações retóricas da RST e por restrições de acessibilidade referencial da Veins Theory. Assim, o sumarizador proposto se resume à poda de segmentos discursivos irrelevantes das
estruturas RST de textos, resultando em seus correspondentes sumários. As principais contribuições deste trabalho são a proposta de um novo modelo de sumarização automática e um protótipo para a sua aplicação automática.
|
9 |
Descrição linguística da complementaridade para a sumarização automática multidocumentoSouza, Jackson Wilke da Cruz 11 November 2015 (has links)
Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-10-25T11:34:48Z
No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:04:54Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:05:00Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Made available in DSpace on 2016-11-08T19:05:06Z (GMT). No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5)
Previous issue date: 2015-11-11 / Não recebi financiamento / Automatic Multidocument Summarizarion (AMS) is a computational alternative
to process the large quantity of information available online. In AMS, we try to
automatically generate a single coherent and cohesive summary from a set of
documents which have same subject, each these documents are originate from
different sources. Furthermore, some methods of AMS select the most important
information from the collection to compose the summary. The selection of main
content sometimes requires the identification of redundancy, complementarity and
contradiction, characterized by being the multidocument phenomena. The
identification of complementarity, in particular, is relevant inasmuch as some
information may be selected to the summary as a complement of another
information that was already selected, ensuring more coherence and most
informative. Some AMS methods to condense the content of the documents based
on the identification of relations from the Cross-document Structure Theory
(CST), which is established between sentences of different documents. These
relationships (for example Historical background) capture the phenomenon of
complementarity. Automatic detection of these relationships is often made based
on lexical similarity between a pair of sentences, since research on AMS not count
on studies that have characterized the phenomenon and show other relevant
linguistic strategies to automatically detect the complementarity. In this work, we
present the linguistic description of complementarity based on corpus. In addition,
we elaborate the characteristics of this phenomenon in attributes that support the
automatic identification. As a result, we obtained sets of rules that demonstrate the
most relevant attributes for complementary CST relations (Historical background,
Follow-up and Elaboration) and its types (temporal and timeless)
complementarity. According this, we hope to contribute to the Descriptive
Linguistics, with survey-based corpus of linguistic characteristics of this
phenomenon, as of Automatic Processing of Natural Languages, by means of
rules that can support the automatic identification of CST relations and types
complementarity. / A Sumarização Automática Multidocumento (SAM) é uma alternativa
computacional para o tratamento da grande quantidade de informação disponível
on-line. Nela, busca-se gerar automaticamente um único sumário coerente e coeso
a partir de uma coleção de textos que tratam de um mesmo assunto, sendo cada
um deles proveniente de fontes distintas. Para tanto, a SAM seleciona informações
mais importantes da coleção para compor o sumário. A seleção do conteúdo
principal requer, por vezes, a identificação da redundância, complementaridade e
contradição, que se caracterizam por serem os fenômenos multidocumento. A
identificação da complementaridade, em especial, é relevante porque uma
informação pode ser selecionada para o sumário uma vez que complementa outra
já selecionada, garantindo mais coerência e informatividade. Alguns métodos de
SAM realizam a condensação do conteúdo dos textos-fonte com base na
identificação das relações do modelo/teoria Cross Document Structure Theory
(CST) que se estabelecem entre as sentenças dos diferentes textos-fonte. Algumas
dessas relações (p.ex., Historical background) capturam o fenômeno da
complementaridade. A detecção automática dessas relações é comumente feita
com base na similaridade lexical entre as sentenças, posto que as pesquisas sobre
SAM não contam com estudos que tenham caracterizado o fenômeno, evidenciado
outras estratégias linguísticas relevantes para detectar automaticamente a
complementaridade. Neste trabalho, fez-se a descrição linguística da
complementaridade com base em corpus, traduzindo as características desse
fenômeno em atributos que subsidiam a sua identificação automática. Como
resultados, obtiveram-se conjuntos de regras que evidenciam os atributos mais
relevantes para a discriminação das relações CST de complementaridade
(Historical background, Follow-up e Elaboration) e dos tipos (temporal e
atemporal) da complementaridade. Com isso, espera-se contribuir para a
Linguística Descritiva, com o levantamento baseados em corpus das
características linguísticas do referido fenômeno, quanto para o Processamento
Automático de Línguas Naturais, por meio das regras que podem subsidiar a
identificação automática das relações CST e dos tipos de complementaridade.
|
10 |
Modelagem de discurso para o tratamento da concisão e preservação da idéia central na geração de textos / Discourse modeling for conciseness and gist preservation in text generationLucia Helena Machado Rino 26 April 1996 (has links)
O foco deste trabalho esta, no processo automático de condensação de uma estrutura complexa de informação e de sua estruturação, para fazê-la apropriada para a expressão textual. A tese principal é que, sem um modelo de discurso, não podemos assegurar a preservação de uma idéia central, pois o processamento do discurso envolve não só a informação, como também metas comunicativas e critérios para ressaltar unidades de informação. Como resultado os métodos para produzir uma estrutura coerente de discurso de um sumário agregam tanto metas comunicativas quanto informações sobre o inter-relacionamentos entre as unidades de informação permitindo a organização do discurso com base em restrições progressivas de planejamento. Esse argumento tem duas implicações: a preservação da idéia central deve ser garantida em nível profundo de processamento e sua proeminência deve ser subordinada aos aspectos comunicativos e retóricos. Portanto, esta investigação se baseia em perspectivas intencionais e retóricas. Propomos um modelo de sumarização dirigido por objetivos, cuja função principal é mapear intenções em relações de coerência, observando ainda a dependência semântica indicada pela estrutura complexa de informação. As estruturas de discurso resultantes devem enfatizar a proposição central a veicular no discurso. Em termos teóricos, o aspecto inovador do modelo está na associação de relações de discurso em três níveis distintos de representação: intencionalidade. coerência e semântica. Em termos práticos, a solução proposta sugere o projeto de um planejador de textos que pode tornar a proposição central de um discurso a informação mais proeminente em uma estrutura de discurso e, assim, assegurar a preservação da idéia central durante a condensação de uma estrutura complexa de informação. Os resultados experimentais da aplicação desse modelo demonstram que é possível selecionar a informação relevante, distinguindo as unidades de conteúdo da estrutura original que são supérfluas ou complementares para a proposição central, e organizá-la coerentemente com o intuito de alcançar um objetivo comunicativo. Propomos a incorporação do modelo a um sumarizador automático cuja arquitetura é sugerida neste trabalho. / The focus of this work is on the automatic process of condensing a. complex information structure and structuring it in such a way as to make it appropriate for textual expression. The main thesis is that without a sound discourse model we cannot guarantee gist preservation because discourse processing comprises not only information, but also communicative goals and criteria to emphasize units of information. As a result, the methods to produce a coherent discourse structure of a summary aggregate both communicative goals and the inter-relationships between information units, allowing for discourse organization by progressively constraining planning decisions. Our thrust has two implications, namely that gist preservation must be guaranteed at the deep level of processing and gist proeminence must be subordinated to communicative and rhetorical settings. The current investigation thus relies on intentional and rhetorical perspectives. A goal-driven summarization model is proposed, whose main function is to map intentions onto coherence relations whilst still observing the semantic dependency indicated by the complex input structure. The resulting discourse structures must highlight the central proposition to be conveyed. In theoretical terms, the innovative contribution of the model relies on the association of discourse relations at three different levels of representation - the intentionality, coherence and semantics. In practical terms, the proposed solution allows for the design of a text planner that can make the central proposition of a discourse the most proeminent information in a discourse structure, thus ensuring the preservation of gist during the condensation of a complex information structure. The results of applying this model show that it is possible to both select relevant information by differentiating content units of the input structure that are superfluous or complementary to the central proposition and organize it coherently by aiming at achieving a communicative goal. The model is proposed to incorporate into an automatic summariser whose architecture suggested in this thesis.
|
Page generated in 0.0583 seconds