Spelling suggestions: "subject:"sumarização automática multidocumento"" "subject:"sumarização automática multidocument""
1 |
Descrição linguística da complementaridade para a sumarização automática multidocumentoSouza, Jackson Wilke da Cruz 11 November 2015 (has links)
Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-10-25T11:34:48Z
No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:04:54Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:05:00Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Made available in DSpace on 2016-11-08T19:05:06Z (GMT). No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5)
Previous issue date: 2015-11-11 / Não recebi financiamento / Automatic Multidocument Summarizarion (AMS) is a computational alternative
to process the large quantity of information available online. In AMS, we try to
automatically generate a single coherent and cohesive summary from a set of
documents which have same subject, each these documents are originate from
different sources. Furthermore, some methods of AMS select the most important
information from the collection to compose the summary. The selection of main
content sometimes requires the identification of redundancy, complementarity and
contradiction, characterized by being the multidocument phenomena. The
identification of complementarity, in particular, is relevant inasmuch as some
information may be selected to the summary as a complement of another
information that was already selected, ensuring more coherence and most
informative. Some AMS methods to condense the content of the documents based
on the identification of relations from the Cross-document Structure Theory
(CST), which is established between sentences of different documents. These
relationships (for example Historical background) capture the phenomenon of
complementarity. Automatic detection of these relationships is often made based
on lexical similarity between a pair of sentences, since research on AMS not count
on studies that have characterized the phenomenon and show other relevant
linguistic strategies to automatically detect the complementarity. In this work, we
present the linguistic description of complementarity based on corpus. In addition,
we elaborate the characteristics of this phenomenon in attributes that support the
automatic identification. As a result, we obtained sets of rules that demonstrate the
most relevant attributes for complementary CST relations (Historical background,
Follow-up and Elaboration) and its types (temporal and timeless)
complementarity. According this, we hope to contribute to the Descriptive
Linguistics, with survey-based corpus of linguistic characteristics of this
phenomenon, as of Automatic Processing of Natural Languages, by means of
rules that can support the automatic identification of CST relations and types
complementarity. / A Sumarização Automática Multidocumento (SAM) é uma alternativa
computacional para o tratamento da grande quantidade de informação disponível
on-line. Nela, busca-se gerar automaticamente um único sumário coerente e coeso
a partir de uma coleção de textos que tratam de um mesmo assunto, sendo cada
um deles proveniente de fontes distintas. Para tanto, a SAM seleciona informações
mais importantes da coleção para compor o sumário. A seleção do conteúdo
principal requer, por vezes, a identificação da redundância, complementaridade e
contradição, que se caracterizam por serem os fenômenos multidocumento. A
identificação da complementaridade, em especial, é relevante porque uma
informação pode ser selecionada para o sumário uma vez que complementa outra
já selecionada, garantindo mais coerência e informatividade. Alguns métodos de
SAM realizam a condensação do conteúdo dos textos-fonte com base na
identificação das relações do modelo/teoria Cross Document Structure Theory
(CST) que se estabelecem entre as sentenças dos diferentes textos-fonte. Algumas
dessas relações (p.ex., Historical background) capturam o fenômeno da
complementaridade. A detecção automática dessas relações é comumente feita
com base na similaridade lexical entre as sentenças, posto que as pesquisas sobre
SAM não contam com estudos que tenham caracterizado o fenômeno, evidenciado
outras estratégias linguísticas relevantes para detectar automaticamente a
complementaridade. Neste trabalho, fez-se a descrição linguística da
complementaridade com base em corpus, traduzindo as características desse
fenômeno em atributos que subsidiam a sua identificação automática. Como
resultados, obtiveram-se conjuntos de regras que evidenciam os atributos mais
relevantes para a discriminação das relações CST de complementaridade
(Historical background, Follow-up e Elaboration) e dos tipos (temporal e
atemporal) da complementaridade. Com isso, espera-se contribuir para a
Linguística Descritiva, com o levantamento baseados em corpus das
características linguísticas do referido fenômeno, quanto para o Processamento
Automático de Línguas Naturais, por meio das regras que podem subsidiar a
identificação automática das relações CST e dos tipos de complementaridade.
|
2 |
Sumarização multidocumento com base em aspectos informativos / Multidocument summarization based on information aspectsGaray, Alessandro Yovan Bokan 20 August 2015 (has links)
A sumarização multidocumento consiste na produção de um sumário/resumo a partir de uma coleção de textos sobre um mesmo assunto. Devido à grande quantidade de informação disponível na Web, esta tarefa é de grande relevância já que pode facilitar a leitura dos usuários. Os aspectos informativos representam as unidades básicas de informação presentes nos textos. Por exemplo, em textos jornalísticos em que se relata um fato/acontecimento, os aspectos podem representar a seguintes informações: o que aconteceu, onde aconteceu, quando aconteceu, como aconteceu, e por que aconteceu. Conhecendo-se esses aspectos e as estratégias de produção e organização de sumários, é possível automatizar a tarefa de sumarização. No entanto, para o Português do Brasil, não há pesquisa feita sobre sumarização com base em aspectos. Portanto, neste trabalho de mestrado, investigaram-se métodos de sumarização multidocumento com base em aspectos informativos, pertencente à abordagem profunda para a sumarização, em que se busca interpretar o texto para se produzir sumários mais informativos. Em particular, implementaram-se duas etapas relacionadas: (i) identificação automática de aspectos os aspectos informativos e (ii) desenvolvimento e avaliação de dois métodos de sumarização com base em padrões de aspectos (ou templates) em sumários. Na etapa (i), criaram-se classificadores de aspectos com base em anotador de papéis semânticos, reconhecedor de entidades mencionadas, regras manuais e técnicas de aprendizado de máquina. Avaliaram-se os classificadores sobre o córpus CSTNews (Rassi et al., 2013; Felippo et al., 2014). Os resultados foram satisfatórios, demostrando que alguns aspectos podem ser identificados automaticamente em textos jornalísticos com um desempenho razoável. Já na etapa (ii), elaboraram-se dois métodos inéditos de sumarização multidocumento com base em aspectos. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura. Salienta-se que esta abordagem para sumarização tem recebido grande destaque ultimamente. Além disso, é inédita nos trabalhos desenvolvidos no Brasil, podendo trazer contribuições importantes para a área. / Multi-document summarization is the task of automatically producing a unique summary from a group of texts on the same topic. With the huge amount of available information in the web, this task is very relevant because it can facilitate the reading of the users. Informative aspects, in particular, represent the basic information units in texts and summaries, e.g., in news texts there should be the following information: what happened, when it happened, where it happened, how it happened and why it happened. Knowing these aspects and the strategies to produce and organize summaries, it is possible to automate the aspect-based summarization. However, there is no research about aspect-based multi-document summarization for Brazilian Portuguese. This research work investigates multi-document summarization methods based on informative aspects, which follows the deep approach for summarization, in which it aims at interpreting the texts to produce more informative summaries. In particular, two main stages are developed: (i) the automatic identification of informative aspects and (ii) and the development and evaluation of two summarization methods based on aspects patterns (or templates). In the step (i) classifiers were created based on semantic role labeling, named entity recognition, handcrafted rules and machine learning techniques. Classifiers were evaluated on the CSTNews annotated corpus (Rassi et al., 2013; Felippo et al., 2014). The results were satisfactory, demonstrating that some aspects can be automatically identified in the news with a reasonable performance. In the step (ii) two novels aspect-based multi-document summarization methods are elaborated. The results show that the proposed methods in this work are competitive with the classical methods. It should be noted that this approach has lately received a lot of attention. Furthermore, it is unprecedented in the summarization task developed in Brazil, with the potential to bring important contributions to the area.
|
3 |
Investigação de métodos de sumarização automática multidocumento baseados em hierarquias conceituaisZacarias, Andressa Caroline Inácio 29 March 2016 (has links)
Submitted by Livia Mello (liviacmello@yahoo.com.br) on 2016-09-30T19:20:49Z
No. of bitstreams: 1
DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-20T16:19:10Z (GMT) No. of bitstreams: 1
DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-20T16:19:17Z (GMT) No. of bitstreams: 1
DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5) / Made available in DSpace on 2016-10-20T16:19:25Z (GMT). No. of bitstreams: 1
DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5)
Previous issue date: 2016-03-29 / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / The Automatic Multi-Document Summarization (MDS) aims at creating a single
summary, coherent and cohesive, from a collection of different sources texts, on the
same topic. The creation of these summaries, in general extracts (informative and
generic), requires the selection of the most important sentences from the collection.
Therefore, one may use superficial linguistic knowledge (or statistic) or deep
knowledge. It is important to note that deep methods, although more expensive and less robust, produce more informative extracts and with more linguistic quality. For the Portuguese language, the sole deep methods that use lexical-conceptual knowledge are based on the frequency of the occurrence of the concepts in the collection for the selection of a content. Considering the potential for application of semantic-conceptual knowledge, the proposition is to investigate MDS methods that start with representation of lexical concepts of source texts in a hierarchy for further exploration of certain hierarchical properties able to distinguish the most relevant concepts (in other words, the topics from a collection of texts) from the others. Specifically, 3 out of 50 CSTNews (multi-document corpus of Portuguese reference) collections were selected and the names that have occurred in the source texts of each collection were manually indexed to the concepts of the WordNet from Princenton (WN.Pr), engendering at the end, an hierarchy with the concepts derived from the collection and other concepts inherited from the WN.PR for the construction of the hierarchy. The hierarchy concepts were characterized in 5 graph metrics (of relevancy) potentially relevant to identify the concepts that compose a summary: Centrality, Simple Frequency, Cumulative Frequency, Closeness and Level. Said characterization was analyzed manually and by machine learning algorithms (ML) with the purpose of verifying the most suitable measures to identify the relevant concepts of the collection. As a result, the measure Centrality was disregarded and the other ones were used to propose content selection methods to MDS. Specifically, 2 sentences selection methods were selected which make up the extractive methods: (i) CFSumm whose content selection is exclusively based on the metric Simple Frequency, and (ii) LCHSumm whose selection is based on rules
learned by machine learning algorithms from the use of all 4 relevant measures as
attributes. These methods were intrinsically evaluated concerning the informativeness, by means of the package of measures called ROUGE, and the evaluation of linguistic quality was based on the criteria from the TAC conference. Therefore, the 6 human abstracts available in each CSTNews collection were used. Furthermore, the summaries generated by the proposed methods were compared to the extracts generated by the GistSumm summarizer, taken as baseline. The two methods got satisfactory results when compared to the GistSumm baseline and the CFSumm method stands out upon the LCHSumm method. / Na Sumarização Automática Multidocumento (SAM), busca-se gerar um único
sumário, coerente e coeso, a partir de uma coleção de textos, de diferentes fontes, que
tratam de um mesmo assunto. A geração de tais sumários, comumente extratos
(informativos e genéricos), requer a seleção das sentenças mais importantes da coleção.
Para tanto, pode-se empregar conhecimento linguístico superficial (ou estatística) ou
conhecimento profundo. Quanto aos métodos profundos, destaca-se que estes, apesar de
mais caros e menos robustos, produzem extratos mais informativos e com mais
qualidade linguística. Para o português, os únicos métodos profundos que utilizam
conhecimento léxico-conceitual baseiam na frequência de ocorrência dos conceitos na
coleção para a seleção de conteúdo. Tendo em vista o potencial de aplicação do
conhecimento semântico-conceitual, propôs-se investigar métodos de SAM que partem
da representação dos conceitos lexicais dos textos-fonte em uma hierarquia para a
posterior exploração de certas propriedades hierárquicas capazes de distinguir os
conceitos mais relevantes (ou seja, os tópicos da coleção) dos demais. Especificamente,
selecionaram-se 3 das 50 coleções do CSTNews, corpus multidocumento de referência
do português, e os nomes que ocorrem nos textos-fonte de cada coleção foram
manualmente indexados aos conceitos da WordNet de Princeton (WN.Pr), gerando, ao
final, uma hierarquia com os conceitos constitutivos da coleção e demais conceitos
herdados da WN.Pr para a construção da hierarquia. Os conceitos da hierarquia foram
caracterizados em função de 5 métricas (de relevância) de grafo potencialmente
pertinentes para a identificação dos conceitos a comporem um sumário: Centrality,
Simple Frequency, Cumulative Frequency, Closeness e Level. Tal caracterização foi
analisada de forma manual e por meio de algoritmos de Aprendizado de Máquina (AM)
com o objetivo de verificar quais medidas seriam as mais adequadas para identificar os
conceitos relevantes da coleção. Como resultado, a medida Centrality foi descartada e
as demais utilizadas para propor métodos de seleção de conteúdo para a SAM.
Especificamente, propuseram-se 2 métodos de seleção de sentenças, os quais compõem
os métodos extrativos: (i) CFSumm, cuja seleção de conteúdo se baseia exclusivamente
na métrica Simple Frequency, e (ii) LCHSumm, cuja seleção se baseia em regras
aprendidas por algoritmos de AM a partir da utilização em conjunto das 4 medidas
relevantes como atributos. Tais métodos foram avaliados intrinsecamente quanto à
informatividade, por meio do pacote de medidas ROUGE, e qualidade linguística, com
base nos critérios da conferência TAC. Para tanto, utilizaram-se os 6 abstracts humanos
disponíveis em cada coleção do CSTNews. Ademais, os sumários gerados pelos
métodos propostos foram comparados aos extratos gerados pelo sumarizador
GistSumm, tido como baseline. Os dois métodos obtiveram resultados satisfatórios
quando comparados ao baseline GistSumm e o método CFSumm se sobressai ao
método LCHSumm. / FAPESP 2014/12817-4
|
4 |
Sumarização multidocumento com base em aspectos informativos / Multidocument summarization based on information aspectsAlessandro Yovan Bokan Garay 20 August 2015 (has links)
A sumarização multidocumento consiste na produção de um sumário/resumo a partir de uma coleção de textos sobre um mesmo assunto. Devido à grande quantidade de informação disponível na Web, esta tarefa é de grande relevância já que pode facilitar a leitura dos usuários. Os aspectos informativos representam as unidades básicas de informação presentes nos textos. Por exemplo, em textos jornalísticos em que se relata um fato/acontecimento, os aspectos podem representar a seguintes informações: o que aconteceu, onde aconteceu, quando aconteceu, como aconteceu, e por que aconteceu. Conhecendo-se esses aspectos e as estratégias de produção e organização de sumários, é possível automatizar a tarefa de sumarização. No entanto, para o Português do Brasil, não há pesquisa feita sobre sumarização com base em aspectos. Portanto, neste trabalho de mestrado, investigaram-se métodos de sumarização multidocumento com base em aspectos informativos, pertencente à abordagem profunda para a sumarização, em que se busca interpretar o texto para se produzir sumários mais informativos. Em particular, implementaram-se duas etapas relacionadas: (i) identificação automática de aspectos os aspectos informativos e (ii) desenvolvimento e avaliação de dois métodos de sumarização com base em padrões de aspectos (ou templates) em sumários. Na etapa (i), criaram-se classificadores de aspectos com base em anotador de papéis semânticos, reconhecedor de entidades mencionadas, regras manuais e técnicas de aprendizado de máquina. Avaliaram-se os classificadores sobre o córpus CSTNews (Rassi et al., 2013; Felippo et al., 2014). Os resultados foram satisfatórios, demostrando que alguns aspectos podem ser identificados automaticamente em textos jornalísticos com um desempenho razoável. Já na etapa (ii), elaboraram-se dois métodos inéditos de sumarização multidocumento com base em aspectos. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura. Salienta-se que esta abordagem para sumarização tem recebido grande destaque ultimamente. Além disso, é inédita nos trabalhos desenvolvidos no Brasil, podendo trazer contribuições importantes para a área. / Multi-document summarization is the task of automatically producing a unique summary from a group of texts on the same topic. With the huge amount of available information in the web, this task is very relevant because it can facilitate the reading of the users. Informative aspects, in particular, represent the basic information units in texts and summaries, e.g., in news texts there should be the following information: what happened, when it happened, where it happened, how it happened and why it happened. Knowing these aspects and the strategies to produce and organize summaries, it is possible to automate the aspect-based summarization. However, there is no research about aspect-based multi-document summarization for Brazilian Portuguese. This research work investigates multi-document summarization methods based on informative aspects, which follows the deep approach for summarization, in which it aims at interpreting the texts to produce more informative summaries. In particular, two main stages are developed: (i) the automatic identification of informative aspects and (ii) and the development and evaluation of two summarization methods based on aspects patterns (or templates). In the step (i) classifiers were created based on semantic role labeling, named entity recognition, handcrafted rules and machine learning techniques. Classifiers were evaluated on the CSTNews annotated corpus (Rassi et al., 2013; Felippo et al., 2014). The results were satisfactory, demonstrating that some aspects can be automatically identified in the news with a reasonable performance. In the step (ii) two novels aspect-based multi-document summarization methods are elaborated. The results show that the proposed methods in this work are competitive with the classical methods. It should be noted that this approach has lately received a lot of attention. Furthermore, it is unprecedented in the summarization task developed in Brazil, with the potential to bring important contributions to the area.
|
Page generated in 0.0749 seconds