Return to search

Ampliando olhares sobre a tradução automática online : um estudo exploratório de categorias de erros de máquina de tradução gerados em documentos multimodais

Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-06-02T17:24:50Z
No. of bitstreams: 1
2017_ThiagoBlanchPires.pdf: 13273791 bytes, checksum: 745737c8c9d7de30e1f46c10eda12193 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2017-06-23T17:25:27Z (GMT) No. of bitstreams: 1
2017_ThiagoBlanchPires.pdf: 13273791 bytes, checksum: 745737c8c9d7de30e1f46c10eda12193 (MD5) / Made available in DSpace on 2017-06-23T17:25:27Z (GMT). No. of bitstreams: 1
2017_ThiagoBlanchPires.pdf: 13273791 bytes, checksum: 745737c8c9d7de30e1f46c10eda12193 (MD5)
Previous issue date: 2017-06-23 / Nas últimas décadas observa-se um crescente uso de sistemas de tradução automática para a tradução rápida e imediata de fragmentos de diversos documentos. Ao mesmo tempo, observase um frequente uso desses sistemas em documentos multimodais, originalmente criados de forma a relacionar semanticamente elementos linguísticos e visuais. Como as máquinas de tradução não são desenvolvidas com o propósito de reconhecer tais relações intersemióticas, mas apenas de reconhecer determinadas unidades linguísticas, pressupõe-se que parte do significado originalmente criado entre o componente linguístico e visual se modifica com a tradução. Um estudo piloto, produzido como parte do estágio metodológico deste trabalho, aponta para desvios léxico-semânticos de legendas que descrevem uma imagem ou parte dela, gerando uma nova configuração semântica, chamada de incompatibilidade intersemiótica. Por meio da interface teórico-metodológica da multimodalidade, mais especificamente do modelo de textura intersemiótica, e da linguística computacional, mais especificamente de tipologia de erro de tradução automática, esta tese tem como objetivo identificar relações semânticas entre texto e imagem em documentos multimodais traduzidos automaticamente para a avaliação de tradução automática. Os procedimentos metodológicos para se alcançar o objetivo de pesquisa são de natureza exploratória e qualitativa. A amostragem é constituída de 30 documentos compostos por artigos de páginas web, manuais, infográficos e artigos acadêmicos em inglês e suas respetivas traduções automáticas realizadas pela ferramenta Google Tradutor para o português. Para a captura das páginas web utilizou-se a ferramenta Fireshot, e para visualização e anotação manual escolheu-se as ferramentas Preview e Skitch. A análise revela um número proporcionalmente maior de incompatibilidades intersemióticas encontradas nas páginas web do que nos outros tipos de documentos. Encontrou-se os mesmo tipos de incompatibilidade intersemiótica que emergem no estudo piloto, quais sejam, de relação intersemiótica temporal e relação intersemiótica de ambiguidade. Porém identificou-se e categorizou-se outros níveis dessas relações, tais como as relações intersemióticas de correspondência e relações intersemióticas de contingência. Os achados também revelam um padrão de incompatibilidades intersemióticas advindas de problemas de palavras desconhecidas e palavras incorretas (VILAR et al., 2006). Ao final, os achados da análise demonstram a importância do modelo de textura intersemiótica proposto por Liu e O’Halloran (2009) para se elaborar uma base metodológica para novas tipologias de erros de tradução automática que identifiquem e categorizem relações de texto-imagem para a avaliação manual de tradução automática. / In the past decades there has been a growth in the use of automatic translation systems for the fast and immediate translation of diverse document fragments. At the same time, there has been a frequent use of such systems in multimodal documents, originally created to relate semantically linguistic and visual elements. As machine translation systems are not developed with the purpose of recognizing such intersemiotic relations - but to only recognize certain linguistic unities – this study assumes that part of the meaning originally created across the linguistic and visual components changes with the translation. A pilot study produced as part of the methodological stage of this work shows that lexico-semantic divergences of automatically translated captions which describes an image or part of it generates new semantic configuration, namely intersemiotic mismatch. By means of the theoretical and methodological interface of multimodality, more specifically the intersemiotic texture model proposed by Liu e O’Halloran (2009), and of computational linguistics, more specifically the typology of machine translation errors (VILAR et al., 2006), this dissertation has the objective of identifying semantic relations between text and image in multimodal documents automatically translated for automatic translation evaluation. The methodological procedures are based on exploratory and qualitative nature. The sampling consists of 30 documents made of webpages, manuals, infographics, and academic papers in English and their respective automatic translation output generated by means of Google Translator into Portuguese. To capture webpages this investigation employs the tool Fireshot, and to visualize and manually annotate the intersemiotic relations, it employed the tools Preview and Skitch. The analysis reveals a proportionally greater number of intersemiotic mismatches found on the webpages than on the other documents. The study found the same types of intersemiotic mismatches that emerged in the pilot study, though in more specific levels. Among the most relevant findings of these new levels of mismatches are the intersemiotic contingency relations and the intersemiotic relations of correspondence. The findings also have shown a profile of intersemiotic mismatches related to unknown words and incorrect words (VILAR et al., 2006). At the end, the findings of the analysis show the importance of the Intersemiotic texture model proposed by Liu and O’Halloran (2009) to elaborate a methodological ground for new typology of machine translation errors that informs the identification and categorization of text-image relations for manually evaluate automatic translation.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/23727
Date02 March 2017
CreatorsPires, Thiago Blanch
ContributorsDuque, Cláudio Gottschalg
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
RightsA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data., info:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds