A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. / Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions.
Identifer | oai:union.ndltd.org:IBICT/oai:lume56.ufrgs.br:10183/108592 |
Date | January 2014 |
Creators | Weren, Edson Roberto Duarte |
Contributors | Moreira, Viviane Pereira, Oliveira, Jose Palazzo Moreira de |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, instname:Universidade Federal do Rio Grande do Sul, instacron:UFRGS |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0011 seconds