Return to search

Termos de (onco)mastologia: uma abordagem mediada por corpus / (Onco)mastology terms: an approach mediated by corpus

Made available in DSpace on 2016-04-28T18:22:16Z (GMT). No. of bitstreams: 1
Rosana de Barros Silva e Teixeira.pdf: 7098951 bytes, checksum: b1b1d4faa3cebd7c0e58d59e7751a964 (MD5)
Previous issue date: 2011-02-02 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Limited to the research field of Applied Linguistics, articulating area of multiple domains of knowledge, this research, by adding the theoretical and methodological basis of Terminology-communicational language (Communicative Theory of Terminology CTT) and Corpus Linguistics, has the purpose of achieving two goals. The first objective aims to organize a monolingual glossary (same title of the research) designed to scientific journalists. The glossary s purpose is to help these professionals make the scientific terminology understood by non-scientific ones. This initiative is based on the fact that breast cancer causes the most deaths among women in Brazil each year, about 22% of new cases are diagnosed according to Health Institute. In order to get language in use, Corpus Linguistics has been chosen to go to that specialty language by observing empirical data, i.e., in vivo perspective, from a corpus of 563,482 words, according to WordSmith Tools 3.0. To do so, taking into consideration computer softwares available to corpus text, I have decided as a second objective to check the achievement accurancy of four tools (Corpógrafo 4.0, WordSmith Tools 3.0, e-Terms and ZExtractor) in relation to index of positive-candidates (terms). As pointed data, Corpógrafo 4.0 leads this ranking, with 27.56% of accurancy, followed respectively by ZExtractor (26.05%), WordSmith Tools 3.0 (21.77%) and e-Terms (14.44%). In order to make it feasible, it was developed a methodology based on the usage of Microsoft Office Excel 2007 to filter the common candidates extracted among all tools and exclusive ones of each. This data cutting, besides offering support to results achievement, provided the recognition of this methodology as a possible resource in terms of optimizing the extraction of terminology groups, starting from processed lists by two or more programs, since all of them are limited. In this way, 237 terms obtained by unigrams were listed, among which 104 were elected to head the entries that are more relevant in terms of conception / Circunscrita ao campo de investigação da Linguística Aplicada, área articuladora de múltiplos domínios do saber, esta pesquisa, ao agregar pressupostos teórico-metodológicos da Terminologia de base linguístico-comunicacional (Teoria Comunicativa da Terminologia TCT) e da Linguística de Corpus, procurou atingir dois objetivos: o primeiro deles visa à confecção de um glossário monolíngue, cujo título é homônimo ao desta pesquisa, para jornalistas científicos, uma vez que cabe a esses profissionais a tarefa de transformar em inteligível, para o público leigo, a linguagem hermética da ciência. Essa iniciativa baseia-se no fato de ser o câncer de mama o que mais provoca mortes entre as mulheres no Brasil a cada ano, cerca de 22% de novos casos são constatados, segundo o Ministério da Saúde. A fim de partir da língua em uso, a Linguística de Corpus foi escolhida para aceder a essa linguagem de especialidade por meio da observação empírica dos dados, ou seja, numa perspectiva in vivo, a partir de um corpus de 563.482 palavras, segundo o programa WordSmith Tools 3.0. Para tanto, tendo em vista alguns dos programas computacionais disponíveis para processamento de corpus textual, estabeleci, como segundo objetivo, a verificação da acuidade de quatro dessas ferramentas (Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor) no que tange ao índice de acerto de termos, propriamente, isto é, almejei saber qual delas era mais eficiente na extração de candidatos verdadeiro-positivos. Conforme indicam os dados, o Corpógrafo 4.0 lidera esse ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que o total de dados obtidos com as listas geradas pelos programas abrangia milhares de palavras (mais de 10 mil), foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados, além de oferecer subsídios para obtenção dos resultados, propiciou o reconhecimento dessa metodologia como um recurso possivelmente viável, no sentido de otimizar a extração de conjuntos terminológicos a partir de listas processadas por dois ou mais programas, já que, como apontou a análise dos resultados, todos mostraram limitações. Dessa forma, 237 termos, obtidos por meio de unigramas (uma lexia), foram elencados, dentre os quais 104 foram eleitos para encabeçar os verbetes que integram o glossário devido à relevância conceitual que demonstraram comportar

Identiferoai:union.ndltd.org:IBICT/oai:leto:handle/13496
Date02 February 2011
CreatorsTeixeira, Rosana de Barros Silva e
ContributorsSardinha, Antonio Paulo Berber
PublisherPontifícia Universidade Católica de São Paulo, Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem, PUC-SP, BR, Lingüística
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da PUC_SP, instname:Pontifícia Universidade Católica de São Paulo, instacron:PUC_SP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds