Spelling suggestions: "subject:"estilometria"" "subject:"stilometria""
1 |
Palavras de RosaCúrcio, Verônica Ribas January 2013 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Literatura, Florianópolis, 2013. / Made available in DSpace on 2013-12-05T23:08:19Z (GMT). No. of bitstreams: 1
317552.pdf: 1307621 bytes, checksum: 26c7deab395b3b7fbd0ef578a53322b1 (MD5)
Previous issue date: 2013 / Nesta tese analisamos a obra literária de João Guimarães Rosa a partir da estilometria, com o objetivo de buscar as características do estilo rosiano que sejam possíveis de detectar por meio de ferramentas informatizadas de análise estatística. Nossa tese é verificar se esse tipo de estudo permite confirmar ou complementar intuições derivadas de leituras convencionais e, além disso, oferecer novos elementos textuais e estilísticos que nem sempre estão explícitos no texto. Para isso, privilegiaremos três estudos rosianos: Signo e sentimento (SPERBER, 1982) sobre a organização da linguagem de Rosa; O insólito em Guimarães Rosa e Borges (COVIZZI,1978), a qual propõe uma linha cronológica de expressão e explicação da obra rosiana; João Guimarães Rosa: travessia literária, (DANIEL, 1968), que afirma haver uma separação do léxico rosiano em duas fases: uma rural e outra urbana. A ferramenta estatística adotada foi o programa Hyperbase, de Étienne Brunet. Para os procedimentos de análises, trabalhamos com duas bases, uma com a cronologia de produção de escrita das obras e outra seguindo a cronologia de primeira publicação das obras, que foram respeitadas a fim de viabilizar a verificação da evolução e do crescimento do vocabulário do escritor. Levantamos muitas características do léxico rosiano, dentre elas verificamos que mais da metade de seu vocabulário não se repete; e que as obras de caráter sertanejo apresentam vocabulário menos diversificado. Por fim, veremos como Guimarães Rosa, ao final de sua carreira literária, tratou mais do seu material linguístico.<br> / Résumé : Cette thèse s'occupera de l'oeuvre littéraire de João Guimarães Rosa à partir de la stylométrie, ayant pour objectif la recherche de caractéristiques du style de l'auteur qui puissent être identifiées par moyen d'outils informatisés d'analyse statistique. Notre thèse consiste à verifier si ce type d'étude permet de confirmer ou d'enrichir des intuitions résultantes de lectures conventionnelles et aussi à offrir de nouveaux éléments textuels et stylistiques qui ne sont pas toujours explicites dans le texte. Pour cela, on privilégiera trois études sur l'écrivain : Signo e sentimento (SPERBER, 1982), texte sur l'organisation du langage de Rosa ; O insólito em Guimarães Rosa e Borges (COVIZZI, 1978), qui propose une frise chronologique de l'expression et explication de l'oeuvre de Rosa ; João Guimarães Rosa, travessia literária, (DANIEL, 1968), selon laquelle il y a deux phases concernant le lexique de l'écrivain : l'une rurale et l'autre urbaine. L'outil statistique adopté a été le logiciel Hyperbase, d'Étienne Brunet. Pour le procédés d'analyse, on a travaillé avec deux bases, à savoir, l'une qui contenait la chronologie de production d'écriture des oeuvres ; l'autre, la chronologie de la première publication des oeuvres, considérée dans ce travail afin de rendre possible une investigation effective de l'évolution et de l'expansion du lexique de l'auteur. Parmi la grande quantité de donnéés recuillies, on a pu constater que plus de la moitié de son lexique ne se répète pas. En outre, les oeuvres "sertanejas" présentent moins de variations lexicales. Pour conclure, on démontrera comment Guimarães Rosa, à la fin de sa vie, s'est occupé davantage de son matériel linguistique.Mots clés: Guimarães Rosa. Stylométrie. Statistique textuel.
|
2 |
Homogeneïtat d'estil en El Tirant Lo BlancRiba Civil, Alexandre 20 September 2002 (has links)
En la tesi s'aborda el problema de l'homogeneïtat d'estil en el Tirant lo Blanc mitjançant l'ús de l'estilometria. Les hipòtesis al voltant de l'autoria del Tirant lo Blanc van des de l'autoria única de Joanot Martorell a la intervenció d'un segon autor, be a l'última part de la novel·la o be al llarg de tota ella, passant per altres teories més heterodoxes. A la primera part de la tesi es fa un breu repàs dels problemes que aborda l'estilometria i d'algunes eines estadístiques útils a l'hora de fer un estudi quantitatiu de l'estil literari, es resumeix la qüestió de l'autoria del Tirant lo Blanc, i es descriu la base de dades que s'ha construït per la quantificació de l'estil en el Tirant. Per atacar el problema, hem començat adaptant tècniques d'anàlisi descriptiva de dades, com els gràfics de control i l'anàlisi de correspondències. Per explotar la base de dades, proposem un mètode pràctic per estimar un o més d'un punt de canvi en seqüències de normals, de binomials i de multinomials. El mètode es basa en l'ajust de models i troba els estimadors màxim versemblants del(s) punt(s) de canvi. També hem utilitzat un mètode cluster basat en l'ajust de models per a dades politòmiques, per a agrupar les files d'una taula de contingència. Vam començar l'estudi fent un estudi comparatiu de 12 maneres diferents de mesurar la riquesa i diversitat de vocabulari. Pel que fa a les unitats lexicomètriques la llargada de paraula i l'ús de paraules freqüents i lliures del context ens han sigut molt útils per a l'estimació del punt de canvi i l'atribució d'estil als capítols. L'ús de lletres, tot i ser menys útil, serveix per a reforçar l'evidència del que trobem amb les unitats abans esmentades. La llargada de frase i la de capítol no ens ha sigut útils per a determinar una frontera d'estil en el Tirant.Per tot el que hem anat trobant estem convençuts que hi ha un canvi sobtat en l'estil entre els capítols 371 i 382, que difícilment pot ser atribuïble a l'argument. També hem trobat que després del punt de canvi conviuen capítols amb els dos estils, el que probablement reforça la teoria de que un segon autor va afegir capítols sobre un original pràcticament acabat. De totes maneres, no ens pertoca a nosaltres descobrir que el canvi d'estil no pugui ser degut a altres raons. / En la tesis se aborda el problema de la homogeneidad de estilo en el Tirant lo Blanc mediante el uso de la estilometría. Las hipótesis sobre la autoría del Tirant lo Blanc van desde la autoría única de Joanot Martorell a la intervención de un segundo autor, bien en la última parte de la novela o bien a lo largo de toda ella, pasando por otras teorías más heterodoxas. En la primera parte de la tesis se hace un breve repaso de los problemas que aborda la estilometría i de algunas herramienta estadísticas útiles para el estudio cuantitativo del estilo literario, se resume la cuestión de la autoría del Tirant lo Blanc, y se describe la base de datos que s ha construido para la ciantificación del estilo en el Tirant. Para atacar el problema, hemos empezado adaptando técnicas de análisis descriptivo de datos, como los gráficos de control y el análisis de correspondencias. Para explotar la base de datos, proponemos un método práctico para estimar uno o más de un punto de cambio en secuencias de normales, de binomiales y de multinomiales. El método se basa en el ajuste de modelos y halla los estimadores máximo verosímiles del (de los) punto(s) de cambio. También hemo utilizado un método cluster basado en el ajuste de modelos para a datos politómicos, para agrupar las filas de una tabla de contingencia. Empezamos el estudio realizando un estudio comparativo de 12 formas diferentes de medir la riqueza y diversidad de vocabulario. Las unidades lexicométricas como la longitud de palabra y el uso de palabras frecuentes y libres del contexto nos han sido muy útiles para la estimación del punto de cambio y la atribución de estilo a los capítulos. El uso de letras, a pesar de ser menos útil, sirve para reforzar la evidencia de lo que hallamos con las unidades antes citadas. La longitud de frase y la de capítulo no nos han sido útiles para a determinar una frontera de estilo en el Tirant.Por todos los resultados que hemos ido obteniendo, estamos convencidos que hay un cambio repentino en el estilo entre los capítulos 371 y 382, que difícilmente puede ser atribuible al argumento. También hemos observado que después del punto de cambio conviven capítulos con los dos estilos, lo que probablemente refuerza la teoría de que un segundo autor añadió capítulos sobre un original prácticamente acabado. De todas maneras, no es nuestra misión descubrir que el cambio de estilo no pueda ser debido a otras razones. / This Ph.D. Thesis tackles the problem of the homogeneity of style in Tirant lo Blanc, using the statistical analysis of stylistic features that are measurable but rarely consciously controlled by the author. The goal is to determine whether the style in the book is homogeneous and, if it is not, to find stylistic boundaries. Tirant lo Blanc is the main work in Catalan literature, a chivalry book hailed to be 'the best book of its kind in the world' by Cervantes in Don Quixote, and is considered to be the first modern novel in Europe. There has been an intense and long lasting debate around its authorship originating from conflicting information given in its first edition; while the dedicatory letter states that Joanot Martorell takes sole responsibility for writing the book, the colophon states that the last quarter of the book was written by Martí Joan de Galba, after the death of Martorell. Neither of the two candidate authors left any text comparable to the one under study, and therefore one can not use discriminant analysis to help classify the chapters in the book by author. The majority opinion among medievalists leans towards the single-authorship hypothesis, even though there is a rather strong dissenting minority. In the first part of the thesis we summarize some useful statistical techniques for the quantitative analysis of literary style, we describe the problems that stylometry deals with and we give the state-of-the-art of the authorship attribution problem in Tirant lo Blanc. The data base built by the quantification of style is described as well. The analysis is started by the use of graphical, Statistical Process Control and Correspondence Analysis techniques. In order to obtain maximum likelihood estimates of one or more than one change points in either normal, binomial or multinomial sequences, we propose a practical method based on the fitting of Generalized Linear Models. A cluster method for the rows of a contingency table, based on the fitting of models, is proposed too. We analyze the evolution of the diversity of the vocabulary used in the book through twelve different diversity indices. Following the lead of the extensive stylometry literature, we use word length, and the use of function words to estimate the change point and the attribution of style to the 489 chapters of the book. The use of letters, in spite of being less useful, reinforces the evidences found with the units previously cited. The sentence length and the chapter length weren't useful to determine a style boundary in Tirant The statistical analysis consistently detects a change in style somewhere between chapters 371 and 382, even though a few chapters at the end have a style similar to the ones before that boundary. It is important to remark that even though the statistical analysis supports the existence of two authors, it is not up to us to exclude the possibility that the stylistic boundary found could be explained otherwise.
|
3 |
Atribuição automática de autoria de obras da literatura brasileira / Atribuição automática de autoria de obras da literatura brasileiraNobre Neto, Francisco Dantas 19 January 2010 (has links)
Made available in DSpace on 2015-05-14T12:36:48Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 1280792 bytes, checksum: d335d67b212e054f48f0e8bca0798fe5 (MD5)
Previous issue date: 2010-01-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Authorship attribution consists in categorizing an unknown document among
some classes of authors previously selected. Knowledge about authorship of a
text can be useful when it is required to detect plagiarism in any literary
document or to properly give the credits to the author of a book. The most
intuitive form of human analysis of a text is by selecting some characteristics
that it has. The study of selecting attributes in any written document, such as
average word length and vocabulary richness, is known as stylometry. For
human analysis of an unknown text, the authorship discovery can take months,
also becoming tiring activity. Some computational tools have the functionality of
extracting such characteristics from the text, leaving the subjective analysis to
the researcher. However, there are computational methods that, in addition to
extract attributes, make the authorship attribution, based in the characteristics
gathered in the text. Techniques such as neural network, decision tree and
classification methods have been applied to this context and presented results
that make them relevant to this question. This work presents a data
compression method, Prediction by Partial Matching (PPM), as a solution of the
authorship attribution problem of Brazilian literary works. The writers and works
selected to compose the authors database were, mainly, by their representative
in national literature. Besides, the availability of the books has also been
considered. The PPM performs the authorship identification without any
subjective interference in the text analysis. This method, also, does not make
use of attributes presents in the text, differently of others methods. The correct
classification rate obtained with PPM, in this work, was approximately 93%,
while related works exposes a correct rate between 72% and 89%. In this work,
was done, also, authorship attribution with SVM approach. For that, were
selected attributes in the text divided in two groups, one word based and other in
function-words frequency, obtaining a correct rate of 36,6% and 88,4%,
respectively. / Atribuição de autoria consiste em categorizar um documento desconhecido
dentre algumas classes de autores previamente selecionadas. Saber a autoria
de um texto pode ser útil quando é necessário detectar plágio em alguma obra
literária ou dar os devidos créditos ao autor de um livro. A forma mais intuitiva
ao ser humano para se analisar um texto é selecionando algumas
características que ele possui. O estudo de selecionar atributos em um
documento escrito, como tamanho médio das palavras e riqueza vocabular, é
conhecido como estilometria. Para análise humana de um texto desconhecido,
descobrir a autoria pode demandar meses, além de se tornar uma tarefa
cansativa. Algumas ferramentas computacionais têm a funcionalidade de extrair
tais características do texto, deixando a análise subjetiva para o pesquisador.
No entanto, existem métodos computacionais que, além de extrair atributos,
atribuem a autoria baseado nas características colhidas ao longo do texto.
Técnicas como redes neurais, árvores de decisão e métodos de classificação já
foram aplicados neste contexto e apresentaram resultados que os tornam
relevantes para tal questão. Este trabalho apresenta um método de compressão
de dados, o Prediction by Partial Matching (PPM), para solução do problema de
atribuição de autoria de obras da literatura brasileira. Os escritores e obras
selecionados para compor o banco de autores se deram, principalmente, pela
representatividade que possuem na literatura nacional. Além disso, a
disponibilidade dos livros em formato eletrônico também foi considerada. O
PPM realiza a identificação de autoria sem ter qualquer interferência subjetiva
na análise do texto. Este método, também, não faz uso de atributos presentes
ao longo do texto, diferentemente de outros métodos. A taxa de classificação
correta alcançada com o PPM, neste trabalho, foi de aproximadamente 93%,
enquanto que trabalhos relacionados mostram uma taxa de acerto entre 72% e
89%. Neste trabalho, também foi realizado atribuição de autoria com a
abordagem SVM. Para isso, foram selecionados atributos no texto dividido em
dois tipos, sendo um baseado em palavras e o outro na contagem de palavrasfunção,
obtendo uma taxa de acerto de 36,6% e 88,4%, respectivamente.
|
Page generated in 0.0519 seconds