Return to search

Proposta de ordem sequencial e criação de sistemas informáticos para extração terminológica bilíngue em corpora paralelos - inglês/português - com vistas à tradução de texto das ciências médicas

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2013. / Made available in DSpace on 2015-03-18T20:50:24Z (GMT). No. of bitstreams: 1
328193.pdf: 2042887 bytes, checksum: 70a4e00fd50976a9fae66369ed3816cd (MD5)
Previous issue date: 2013 / A extração terminológica bilíngue cada vez mais se firma como um campo de pesquisa explorado por pesquisadores no âmbito dos Estudos da Tradução. Parte considerável das investigações atualmente desenvolvidas volta-se à operacionalização das tarefas de extração terminológica por meio de ferramentas computacionais, produzindo glossários para servirem como ferramenta de apoio aos tradutores. Esta pesquisa de doutoramento desenvolve uma proposta sequencial para a extração terminológica na área das Ciências Médicas, centrando-se principalmente em uma lacuna detectada em estudos anteriores, a saber: a busca por correspondentes tradutórios dos candidatos a termos, geralmente realizada, de forma manual. Nesta perspectiva, o estudo emprega ferramentas fornecidas pelo Processamento da Linguagem Natural (PLN), evocando principalmente as seguintes disciplinas: Linguística de Corpus, Corpora nos Estudos da Tradução, Terminologia e Extração Terminológica, com o intuito de oferecer um processo sistemático que contemple o processo de extração terminológica. Na presente proposta, os dados obtidos evidenciam altos níveis de precisão, que levam a supor que por meio da referida abordagem a recuperação de candidatos a termos e a busca por seus correspondentes tradutórios pode efetivamente ser otimizadas, revelando-se tão eficiente quanto a extração terminológica realizada analogicamente por especialistas. Em uma escala numérica de 0 (zero) a 1 (um), a probabilidade de 0,822645962, 0.969518 e, em alguns casos, 1 (um), explicita a precisão dos correspondentes tradutórios. Os resultados ainda demonstraram que, embora os corpora utilizados para análise estejam expostos em português europeu, e circunscritos uma área especifica do conhecimento, os valores semânticos dos correspondentes tradutórios foram mantido. Na proposta de ordem sequencial e criação de sistemas informáticos para extração terminológica bilíngue em corpora paralelos, a ordem sequencial proposta, tal como os sistemas informáticos desenvolvidos para o processamento dos dados tratam do par de idiomas inglês-português, no entanto, poderão ser utilizados outros pares de línguas e corpora de outros campos do conhecimento.<br> / Abstract : Bilingual terminology extraction increasingly firm as a field of research explored by scholars in the context of Translation Studies. Considerable part of the researches currently carried back to the operationalization of terminology extraction tasks by using computational tools, producing glossaries to serve as a support tool for translators. The research developed in this PhD dissertation aims to develop a sequential proposal for terminology extraction in the field of Medical Sciences focusing mainly on a gap detected in previous studies, viz., searching for matching translation equivalents for terms candidates generally heldmanually. In this perspective, the study uses tools provided by Natural Language Processing (NLP), mostly evoking the following disciplines: Corpus Linguistics, Corpora in Translation Studies, Terminology and Terminology Extraction, in order to offer a systematic process that addresses the terminology extraction task. In the proposal, data gathered presented high levels of accuracy, leading us to believe that through this approach for retrieval of translation equivalents for the terms candidates can be optimized effectively, preserving as efficient in terminology extraction as performed by specialists. In a numerical scale from 0
(zero) to 1 (one), probabilities as in 0.822645962 , 0.969518 , and in some cases 1 (one) explicit translation equivalents retrieval accuracy. The results also showed that, although the corpora used for analysis are exposed in European Portuguese, and circumscribed a specific area of knowledge, the semantic value of the translation equivalents was maintained. In the sequential order proposal and creation of systems for bilingual terminology extraction in parallel corpora , the sequential order proposed, as well the computational systems developed for data processing dealing with the English-Portuguese language pair, however, it cloud be used to other languages pairs and corpora to other fields of knowledge.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/130892
Date January 2013
CreatorsBartholamei Junior, Lautenai Antonio
ContributorsUniversidade Federal de Santa Catarina, Lima, Ronaldo, Durand, Alain-Philippe
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format200 p.| il., grafs., tabs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0059 seconds