A presente dissertação analisa o conteúdo dos diários e cartas de Virginia Woolf para avaliar se um algoritmo de classificação de texto poderia identificar um padrão escrito relacionado aos dois meses anteriores ao suicídio de Virginia Woolf. Este é um estudo de classificação de texto. Comparamos 46 entradas de textos dos dois meses anteriores ao suicídio de Virginia Woolf com 54 textos selecionados aleatoriamente do trabalho de Virginia Woolf durante outro período de sua vida. O texto de cartas e dos diários foi incluído, enquanto livros, romances, histórias curtas e fragmentos de artigos foram excluídos. Os dados foram analisados usando um algoritmo de aprendizagem mecânica Naïve-Bayes. O modelo mostrou uma acurácia de 80,45%, sensibilidade de 69% e especificidade de 91%. A estatística Kappa foi de 0,6, o que significa um bom acordo, e o valor P do modelo foi de 0,003. A Área Sob a curva ROC foi 0,80. O presente estudo foi o primeiro a analisar a viabilidade de um modelo de machine learning, juntamente com dados de texto, a fim de identificar padrões escritos associados ao comportamento suicida nos diários e cartas de um romancista. Nossa assinatura de texto foi capaz de identificar o período de dois meses antes do suicídio com uma alta precisão / The present study analyzes the content of Virginia Woolf’s diaries and letters to assess whether a text classification algorithm could identify written pattern related to the two months previous to Virginia Woolf’s suicide. This is a text classification study. We compared 46 texts entries from the two months previous to Virginia Woolf’s suicide with 54 texts randomly selected from Virginia Woolf’s work during other period of her life. Letters and diaries were included, while books, novels, short stories, and article fragments were excluded. The data was analyzed by using a Naïve-Bayes machine-learning algorithm. The model showed a balanced accuracy of 80.45%, sensitivity of 69%, and specificity of 91%. The Kappa statistic was 0.6, which means a good agreement, and the p value of the model was 0.003. The Area Under the ROC curve was 0.80. The present study was the first to analyze the feasibility of a machine learning model coupled with text data in order to identify written patterns associated with suicidal behavior in the diaries and letters of a novelist. Our text signature was able to identify the period of two months preceding suicide with a high accuracy.
Identifer | oai:union.ndltd.org:IBICT/oai:lume56.ufrgs.br:10183/179861 |
Date | January 2018 |
Creators | Berni, Gabriela de Ávila |
Contributors | Kapczinski, Flávio Pereira, Passos, Ives Cavalcante |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, instname:Universidade Federal do Rio Grande do Sul, instacron:UFRGS |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds