Apresentamos uma pesquisa na área de Processamento de Linguagem Natural, para reconhecimento de personalidade com base em textos da língua portuguesa. Neste trabalho utilizamos textos provenientes da rede social Facebook, em conjunto com o modelo de personalidade dos Cinco Grandes Fatores, para construir um córpus rotulado com as personalidades de seus autores e, após a identificação das características mais relevantes para o reconhecimento de personalidade, construir modelos computacionais utilizando essas características. Utilizando-se métodos provenientes de léxicos, como o dicionário LIWC ou atributos psicolinguísticos, e métodos provenientes do próprio texto, como bag of words, representação distribuída de palavras e de documentos foram desenvolvidos modelos para reconhecimento de personalidade sem a necessidade de outros métodos mais comumente utilizados para essa tarefa, como inventários ou entrevistas com psicólogos. Os resultados dos métodos de representação distribuída são ligeiramente superiores do que os resultados utilizando o dicionário LIWC, com a vantagem de não exigirem recursos dependentes de um idioma específico / We present a research proposal in the Natural Language Processing field, to recognize personality through texts in the portuguese language. Using texts from the social network Facebook we built a corpus labeled with authors Big-5 personality traits, and after identifying the most relevant atributes to recognize personality, we built computational models based on those attributes. The model was expected to recognize personality without the help of any other methods commonly used in this task, such as inventories or interviews with psychologists. Using lexical methods such as the LIWC dictionary or psycholinguistic attributes, and methods from the text itself, such as bag of words, distributed representation of words and documents, we obtained models for personality recognition without the need of other methods most commonly used for this task. The results of distributed representation methods are slightly better than the results using the LIWC dictionary, with the advantage of not requiring features dependent on a specific language
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-04052018-192006 |
Date | 27 February 2018 |
Creators | Barbara Barbosa Claudino da Silva |
Contributors | Ivandre Paraboni, Ariadne Maria Brito Rizzoni Carvalho, Fernando Fagundes Ferreira, Ariane Machado-Lima |
Publisher | Universidade de São Paulo, Sistemas de Informação, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0023 seconds