Construção de um sistema computacional para suporte à pesquisa em fonologia do portugês do Brasil

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão. Programa de Pós-Graduação em Linguística. / Made available in DSpace on 2012-10-24T03:11:06Z (GMT). No. of bitstreams: 1
254656.pdf: 2441162 bytes, checksum: 9d7dfcf6a0cec80241e163da70804632 (MD5) / Esta pesquisa apresenta e discute a construção de um programa computacional que descodifica o sistema verbal escrito oficial do português do Brasil em símbolos fonológicos. A motivação para construir o programa veio do alto grau de transparência do sistema alfabético do português do Brasil, que levou à suposição de que tal transparência corresponde ao nível em que o sistema alfabético é lógico. Assim, a hipótese que norteia a pesquisa é a de que o alto nível de previsibilidade dos valores que os grafemas do sistema alfabético do português do Brasil têm pode ser reproduzido em um sistema computacional baseado em regras, que faz a conversão grafema-grafofonema de modo automático. Metodologicamente, o desenvolvimento do aplicativo associa lingüística computacional, lingüística de corpus, estatística, fonética e fonologia. Por ser planejado com base sólida em metodologia e teoria lingüística apropriadas, o aplicativo pôde ser construído em linguagem de programação de computadores não específica para tratar a língua. A conversão baseia-se em um alfabeto fonológico, em que se usam as fontes do International Phonetic Alphabet (IPA). O aplicativo lê massas de dados relativamente grandes e fornece relatórios de conversão fonológica e relatório estatístico dos fonemas dos textos convertidos. Juntamente com o programa, dão-se alguns passos para se desenvolver metodologia própria para formação e tratamento de corpus lingüístico fonológico. Testes preliminares, feitos a partir de um corpus fonológico montado com base nos pressupostos da teoria pertinente, indicam que o aplicativo reproduz a parte do sistema verbal escrito que é previsível por regras de descodificação fonológicas, com aproximadamente 98% de acerto, e o sistema verbal escrito todo, com acerto mínimo de 95%. Ainda, o programa fornece a tonicidade das palavras da língua portuguesa com acerto superior a 99%, e o relatório estatístico mostra os padrões de distribuição fonêmica do português. A pesquisa revela que esses porcentuais aumentarão mediante novos estudos, portanto, comprova-se a hipótese inicial e confirma-se que a elevada previsibilidade do sistema alfabético do português do Brasil dá-se por ele ser fundamentado em intuições fonológicas. Um aplicativo dessa natureza pode ser ferramenta auxiliar na pesquisa e no ensino de alfabetização, na fonologia, na literatura e em outras áreas.

This research presents and discusses the construction of a computational program that decodes Brazilian's official writing system into phonological symbols. What inspired the software development was the high level of transparency of Brazilian Portuguese alphabetic system, which led to suppose that such transparency corresponds to the level in which this system is based on Logics. So, the research investigates the hypothesis that the high level of predictability of the values that the Brazilian Portuguese alphabetic system graphemes bear can be reproduced by a software based on rules, that makes the conversion of graphemes into phonemes automatically. Methodologically, the applicative development associates Computational Linguistics, Corpus Linguistics, Statistics, Phonetics, and Phonology. Since the program planning combined proper methodology and linguistic theory, the software could be built in a computer programming language which is not specifically planned for the treatment of human language. The program bases the translation on a phonologic alphabet, which takes into account the International Phonetic Alphabet (IPA) fonts. The software reads relatively huge bunches of data, and bestow phonologic reports, and statistical reports. Some directions in order to develop specific methodology to form a phonologic corpus and deal with it are given. At examining a phonologic corpus rightly assembled, preliminary tests done by drawing on the applicative showed that it reaches approximately 98% of accuracy, at reproducing the portion of the Brazilian writing system that is predictable by decoding rules, and in relation to writing system as a hole the correctness is not less than 95%. Also, the program reaches 99% of precision at putting words accent. Some new studies tend to increase these numbers. The statistical report displays Portuguese language phoneme patterns of distribution. In conclusion, the research confirms the hypotheses, and authenticates that the high level of predictability of Brazilian alphabetic system is due to it be based on phonologic intuitions. A software like this can be a tool for aiding researchers and teachers who work with literacy, Literature, Phonology, among other areas.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/91849
Date January 2008
CreatorsVasilévski, Vera
ContributorsUniversidade Federal de Santa Catarina, Rocha, Marco Antônio Esteves da, Cabral, Leonor Scliar
PublisherFlorianópolis, SC
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format165 f.| il., tabs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0031 seconds