Made available in DSpace on 2015-05-14T12:36:48Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 1280792 bytes, checksum: d335d67b212e054f48f0e8bca0798fe5 (MD5)
Previous issue date: 2010-01-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Authorship attribution consists in categorizing an unknown document among
some classes of authors previously selected. Knowledge about authorship of a
text can be useful when it is required to detect plagiarism in any literary
document or to properly give the credits to the author of a book. The most
intuitive form of human analysis of a text is by selecting some characteristics
that it has. The study of selecting attributes in any written document, such as
average word length and vocabulary richness, is known as stylometry. For
human analysis of an unknown text, the authorship discovery can take months,
also becoming tiring activity. Some computational tools have the functionality of
extracting such characteristics from the text, leaving the subjective analysis to
the researcher. However, there are computational methods that, in addition to
extract attributes, make the authorship attribution, based in the characteristics
gathered in the text. Techniques such as neural network, decision tree and
classification methods have been applied to this context and presented results
that make them relevant to this question. This work presents a data
compression method, Prediction by Partial Matching (PPM), as a solution of the
authorship attribution problem of Brazilian literary works. The writers and works
selected to compose the authors database were, mainly, by their representative
in national literature. Besides, the availability of the books has also been
considered. The PPM performs the authorship identification without any
subjective interference in the text analysis. This method, also, does not make
use of attributes presents in the text, differently of others methods. The correct
classification rate obtained with PPM, in this work, was approximately 93%,
while related works exposes a correct rate between 72% and 89%. In this work,
was done, also, authorship attribution with SVM approach. For that, were
selected attributes in the text divided in two groups, one word based and other in
function-words frequency, obtaining a correct rate of 36,6% and 88,4%,
respectively. / Atribuição de autoria consiste em categorizar um documento desconhecido
dentre algumas classes de autores previamente selecionadas. Saber a autoria
de um texto pode ser útil quando é necessário detectar plágio em alguma obra
literária ou dar os devidos créditos ao autor de um livro. A forma mais intuitiva
ao ser humano para se analisar um texto é selecionando algumas
características que ele possui. O estudo de selecionar atributos em um
documento escrito, como tamanho médio das palavras e riqueza vocabular, é
conhecido como estilometria. Para análise humana de um texto desconhecido,
descobrir a autoria pode demandar meses, além de se tornar uma tarefa
cansativa. Algumas ferramentas computacionais têm a funcionalidade de extrair
tais características do texto, deixando a análise subjetiva para o pesquisador.
No entanto, existem métodos computacionais que, além de extrair atributos,
atribuem a autoria baseado nas características colhidas ao longo do texto.
Técnicas como redes neurais, árvores de decisão e métodos de classificação já
foram aplicados neste contexto e apresentaram resultados que os tornam
relevantes para tal questão. Este trabalho apresenta um método de compressão
de dados, o Prediction by Partial Matching (PPM), para solução do problema de
atribuição de autoria de obras da literatura brasileira. Os escritores e obras
selecionados para compor o banco de autores se deram, principalmente, pela
representatividade que possuem na literatura nacional. Além disso, a
disponibilidade dos livros em formato eletrônico também foi considerada. O
PPM realiza a identificação de autoria sem ter qualquer interferência subjetiva
na análise do texto. Este método, também, não faz uso de atributos presentes
ao longo do texto, diferentemente de outros métodos. A taxa de classificação
correta alcançada com o PPM, neste trabalho, foi de aproximadamente 93%,
enquanto que trabalhos relacionados mostram uma taxa de acerto entre 72% e
89%. Neste trabalho, também foi realizado atribuição de autoria com a
abordagem SVM. Para isso, foram selecionados atributos no texto dividido em
dois tipos, sendo um baseado em palavras e o outro na contagem de palavrasfunção,
obtendo uma taxa de acerto de 36,6% e 88,4%, respectivamente.
Identifer | oai:union.ndltd.org:IBICT/oai:tede.biblioteca.ufpb.br:tede/6121 |
Date | 19 January 2010 |
Creators | Nobre Neto, Francisco Dantas |
Contributors | Batista, Leonardo Vidal |
Publisher | Universidade Federal da Paraíba, Programa de Pós Graduação em Informática, UFPB, BR, Informática |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFPB, instname:Universidade Federal da Paraíba, instacron:UFPB |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.003 seconds