Return to search

Descrição linguística da complementaridade para a sumarização automática multidocumento

Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-10-25T11:34:48Z
No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:04:54Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:05:00Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Made available in DSpace on 2016-11-08T19:05:06Z (GMT). No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5)
Previous issue date: 2015-11-11 / Não recebi financiamento / Automatic Multidocument Summarizarion (AMS) is a computational alternative
to process the large quantity of information available online. In AMS, we try to
automatically generate a single coherent and cohesive summary from a set of
documents which have same subject, each these documents are originate from
different sources. Furthermore, some methods of AMS select the most important
information from the collection to compose the summary. The selection of main
content sometimes requires the identification of redundancy, complementarity and
contradiction, characterized by being the multidocument phenomena. The
identification of complementarity, in particular, is relevant inasmuch as some
information may be selected to the summary as a complement of another
information that was already selected, ensuring more coherence and most
informative. Some AMS methods to condense the content of the documents based
on the identification of relations from the Cross-document Structure Theory
(CST), which is established between sentences of different documents. These
relationships (for example Historical background) capture the phenomenon of
complementarity. Automatic detection of these relationships is often made based
on lexical similarity between a pair of sentences, since research on AMS not count
on studies that have characterized the phenomenon and show other relevant
linguistic strategies to automatically detect the complementarity. In this work, we
present the linguistic description of complementarity based on corpus. In addition,
we elaborate the characteristics of this phenomenon in attributes that support the
automatic identification. As a result, we obtained sets of rules that demonstrate the
most relevant attributes for complementary CST relations (Historical background,
Follow-up and Elaboration) and its types (temporal and timeless)
complementarity. According this, we hope to contribute to the Descriptive
Linguistics, with survey-based corpus of linguistic characteristics of this
phenomenon, as of Automatic Processing of Natural Languages, by means of
rules that can support the automatic identification of CST relations and types
complementarity. / A Sumarização Automática Multidocumento (SAM) é uma alternativa
computacional para o tratamento da grande quantidade de informação disponível
on-line. Nela, busca-se gerar automaticamente um único sumário coerente e coeso
a partir de uma coleção de textos que tratam de um mesmo assunto, sendo cada
um deles proveniente de fontes distintas. Para tanto, a SAM seleciona informações
mais importantes da coleção para compor o sumário. A seleção do conteúdo
principal requer, por vezes, a identificação da redundância, complementaridade e
contradição, que se caracterizam por serem os fenômenos multidocumento. A
identificação da complementaridade, em especial, é relevante porque uma
informação pode ser selecionada para o sumário uma vez que complementa outra
já selecionada, garantindo mais coerência e informatividade. Alguns métodos de
SAM realizam a condensação do conteúdo dos textos-fonte com base na
identificação das relações do modelo/teoria Cross Document Structure Theory
(CST) que se estabelecem entre as sentenças dos diferentes textos-fonte. Algumas
dessas relações (p.ex., Historical background) capturam o fenômeno da
complementaridade. A detecção automática dessas relações é comumente feita
com base na similaridade lexical entre as sentenças, posto que as pesquisas sobre
SAM não contam com estudos que tenham caracterizado o fenômeno, evidenciado
outras estratégias linguísticas relevantes para detectar automaticamente a
complementaridade. Neste trabalho, fez-se a descrição linguística da
complementaridade com base em corpus, traduzindo as características desse
fenômeno em atributos que subsidiam a sua identificação automática. Como
resultados, obtiveram-se conjuntos de regras que evidenciam os atributos mais
relevantes para a discriminação das relações CST de complementaridade
(Historical background, Follow-up e Elaboration) e dos tipos (temporal e
atemporal) da complementaridade. Com isso, espera-se contribuir para a
Linguística Descritiva, com o levantamento baseados em corpus das
características linguísticas do referido fenômeno, quanto para o Processamento
Automático de Línguas Naturais, por meio das regras que podem subsidiar a
identificação automática das relações CST e dos tipos de complementaridade.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/8311
Date11 November 2015
CreatorsSouza, Jackson Wilke da Cruz
ContributorsDi Felippo, Ariani
PublisherUniversidade Federal de São Carlos, Câmpus São Carlos, Programa de Pós-graduação em Linguística, UFSCar
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0029 seconds