1 |
Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuaisSouza, Jacqueline Aparecida de 26 February 2010 (has links)
Made available in DSpace on 2016-06-02T20:25:07Z (GMT). No. of bitstreams: 1
3377.pdf: 3546850 bytes, checksum: d15885076635f742d9e61ee253c4d220 (MD5)
Previous issue date: 2010-02-26 / Universidade Federal de Minas Gerais / Based on methodological postulates of the Linguistic of corpus and on the genre concepts, proposed by Swales (1990) and Biber (1995), this research intends to describe linguistic traces which are characteristic of historic texts and correlate them to their respective genres, as well as propose a typology of traces so that it is possible to automatically identify the genre. In order to execute the research, the corpus of the Portuguese of the centuries XVI, XVII and XVII of the project Historical Dictionary of the Portuguese in Brazil (program Institutes of the Millennium/CNPq UNESP/Araraquara), which is constituted by 2,459 texts and 7,5 million words has been used. In order to realize a historical description, the study has started from synchronic characteristics obtained from the table of contemporary traces elaborated by Aires (2005). As for the manipulation of the corpus, it has been used the Philologic, the Unitex as well as another tool for the extraction and quantification of traces that has been developed. For the purposes of classification, algorithms available at Weka (Waikato Environment for knowledge Analysis) such as: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree have been used. The description has been made based on the 62 traces, which include statistics based on a text as a whole and on words, including classes of verbs, pronouns, adverbs as well as discourse markers, expressions and lexical units. It has been concluded that the genres share specific linguistic characteristics. However, they also present their own standards with the use of specific expressions and the frequency of lexical units. Despite the limitations and complications in using a historical corpus, the performance of the classifiers based on the raised traces was satisfactory and the rate of correct classification was 84% and 92%. / Com base nos postulados metodológicos da Linguística de Corpus e nos conceitos de gênero, propostos por Swales (1990) e Biber (1995), esta pesquisa pretende descrever traços linguísticos característicos de textos históricos, correlacionando-os a seus respectivos gêneros, e propor uma tipologia de traços de forma que seja possível identificar o gênero de cada texto automaticamente. Para execução da pesquisa foi utilizado o corpus do português dos séculos XVI, XVII e XVIII do projeto Dicionário Histórico do Português do Brasil (programa Institutos do Milênio/CNPq UNESP/Araraquara), constituído por 2.459 textos e 7.5 milhões de palavras. Para realizar uma descrição histórica, partiu-se de características sincrônicas obtidas a partir da tabela de traços contemporâneos elaborada por Aires (2005). No que tange à manipulação do corpus, utilizou-se o Philologic, o Unitex e desenvolveu-se uma ferramenta para extração e quantificação dos traços. Para fins de classificação, foram utilizados os algoritmos disponibilizados no Weka (Waikato Environment for Knowledge Analysis), tais como: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree. A descrição foi realizada com base em 62 traços, os quais abarcam estatísticas baseadas no texto como um todo e em palavras, incluindo as classes de verbos, pronomes, advérbios, como também marcadores discursivos, expressões e unidades lexicais. Concluiu-se que os gêneros compartilham características linguísticas específicas, porém, também apresentam seus padrões próprios, como o uso de determinadas expressões e a frequência de unidades lexicais. Apesar das limitações e complicações em utilizar um corpus histórico, o desempenho dos classificadores com base nos traços levantados foi satisfatório, com a taxa de acerto 84% e 92% de classificação correta.
|
2 |
Deverbais de ação em corpus histórico: contribuição computacional para a morfologia construcional do portuguêsCucatto, Livia Aluisi 17 December 2009 (has links)
Made available in DSpace on 2016-06-02T20:25:09Z (GMT). No. of bitstreams: 1
3547.pdf: 2139633 bytes, checksum: f475e62efc91a89ea44917a0eb9b20f1 (MD5)
Previous issue date: 2009-12-17 / In the past few years, several studies based on constructional morphology to describe the mechanisms of construction of deverbal nouns, that is, nouns derived from verbs, using a synchronic perspective were carried out. The interest in this topic comes from the productivity of the construction mechanism of this type of noun. The impact in the Portuguese language, especially on its formal use, is not irrelevant. There aren't studies showing the variations of these mechanisms in Brazilian Portuguese (PB), much less, a diachronic perspective of him. We believe the current mechanisms be very similar with from XVI, XVII e VXIII. The suffix productivity and formation process can been suffering some kind of changing to specific words. The project Historical Dictionary of Brazilian Portuguese (DHPB) of centuries from XVI through XVIII, sponsored by the Programa Institutos do Milênio, and the construction of a corpus collected for this project, are, at the same time, a challenge and an opportunity to deepen the knowledge about this aspect of the Portuguese language. The analysis of this corpus gives us an opportunity to observe how these mechanisms evolved on the Portuguese language. However, there aren't yet tools that automate this type of research, enabling the morphologists to acquire this kind of data efficiently. The objective of this research was, first of all, to describe the different mechanisms of deverbal nouns construction in PB according to the SILEX morphological construction model (cf. Corbin 1987, 1991, 1997, Correia 1999, Rio-Torto (org.) 2004 and Rodrigues 2006). A second objective was the development of a computational system, named EXTRADEV, which allows easy access to the following data: (a) deverbal nouns (current and historic) with various morphological structures; and (b) graphical variants of nominal action (historic), to allow easier information retrieval. The methodology used on the construction of this system is grounded on: (i) description of deverbal nouns and computational rule‟s building about these; (ii) a pilot study of the fifty most frequent verbs of the DHPB project, extracted using UNITEX, and on the analysis of the graphical variations of these verbs; (iii) the knowledge of the Python programming language and regular expressions; and (iv) the use of the resources constructed for the DHPB project, such as a system of generation of graphical variants, SIACONF. We found 1,742,663 action deverbal instances and 15,633 distinct forms of the same without change of spelling. This number more variants extracted in the second module EXTRADEV, totalling 22,442 occurrences of deverbal history (6,809 variants and 15,633 deverbal no change in spelling). We followed some criteria analysis: frequency data, analysis about deverbal form based on in etymoly and history dictionaries and the last criteria was based on the observation of the final list of historical deverbal. With this study, we aim to increase the knowledge of the diachronic variations of deverbal nouns and to motivate the joint linguistics and computer science contribution, particularly the one made by the natural language processing area, to empower future studies about the Portuguese language. / Nos últimos anos, têm-se desenvolvido trabalhos em morfologia construcional que visam à descrição dos mecanismos de construção de nomes deverbais, isto é, nomes derivados de verbos, numa perspectiva sincrônica. As razões para esse interesse podem encontrar-se na produtividade dos mecanismos de construção deste tipo de nomes, cujo impacto no uso do português, sobretudo em contextos formais de uso, não é irrelevante. Faltam, no entanto, estudos que nos permitam conhecer, por um lado, o Português do Brasil (PB) em nível destes mecanismos e, por outro, ter uma perspectiva diacrônica deles. Acreditamos que os mecanismos de construção atuais para o PB sejam iguais aos dos séculos XVI, XVII e XVIII, podendo existir alterações relacionadas aos sufixos mais produtivos e à mudança dos processos de construção mais produtivos para determinadas palavras. A realização do projeto Dicionário Histórico do Português do Brasil (DHPB) dos séculos XVI a XVIII, financiado pelo Programa Institutos do Milênio, associada à construção do corpus coligido para esse efeito constituem ao mesmo tempo um desafio e uma oportunidade para o aprofundamento do conhecimento sobre este aspecto da língua portuguesa. Por um lado, a análise do corpus dános a oportunidade de verificar como se processou a evolução destes mecanismos de construção no português. Porém (e este é o desafio), não existem ainda ferramentas para realizar tais pesquisas de forma (semi-) automática, que permitam aos morfologistas obter os dados necessários para o seu trabalho com agilidade e eficiência. O objetivo desta pesquisa de mestrado foi, em primeiro lugar, descrever os diferentes mecanismos de construção de nomes deverbais em PB de acordo com o modelo de morfologia construcional SILEX (cf. Corbin 1987, 1991, 1997, Correia 1999, Rio-Torto (org.) 2004 e Rodrigues 2006) e, em segundo, desenvolver um sistema computacional denominado EXTRADEV que permitiu um acesso fácil aos seguintes dados: (a) nomes deverbais de ação históricos com as mais diversas estruturas morfológicas; e (b) variantes gráficas desses nomes deverbais (históricos), que facilitem o trabalho de recuperação de informação relativa aos mesmos. A metodologia utilizada para a construção deste sistema se embasa: (i) na descrição dos deverbais e na contrução de regras; (ii) em um estudo piloto dos cinquenta verbos mais frequentes do corpus do projeto DHPB, extraídos por meio da ferramenta UNITEX e na análise das variantes gráficas destes verbos; (iii) no conhecimento da linguagem de programação Python e expressões regulares; e (iv) no uso de recursos criados no projeto DHPB, como o sistema de geração de variantes gráficas SIACONF. Foram encontrados 1.742.663 ocorrências de deverbais de ação e 15.633 formas distintas dos mesmos sem variação de grafia. Este número, mais as variantes extraídas no segundo módulo do EXTRADEV, somam um total de 22.442 ocorrências de deverbais históricos, sendo eles 6.809 variantes e 15.633 deverbais sem variação de grafia. Seguimos os seguintes critérios de análise: frequência, análise da estrutura morfológica com auxílio de dicionários históricos e etimológicos, e observação da lista final de deverbais históricos. Com este trabalho pretendemos contribuir para um melhor conhecimento da variação diacrônica na construção de nomes deverbais através dos dados que foram encontrados, mas, sobretudo, motivar a aliança entre linguística e a ciência da computação, particularmente o processamento de língua natural, de modo a potencializar estudos futuros sobre a língua portuguesa.
|
Page generated in 0.0676 seconds