Global ETD Search

1	Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil Martins, Débora Beatriz de Jesus 10 April 2014 (has links) Made available in DSpace on 2016-06-02T19:06:12Z (GMT). No. of bitstreams: 1 5932.pdf: 1110060 bytes, checksum: fe08b552e37f04451248c376cfc4454f (MD5) Previous issue date: 2014-04-10 / Universidade Federal de Minas Gerais / The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese. / O projeto de mestrado descrito neste documento tem como foco a pós-edição de textos traduzidos automaticamente. Tradução Automática (TA) é a tarefa de traduzir textos em língua natural desempenhada por um computador e faz parte da linha de pesquisa de Processamento de Línguas Naturais (PLN), vinculada à área de Inteligência Artificial (IA). As pesquisas em TA, utilizando desde abordagens linguísticas até modelos estatísticos, têm avançado muito desde seu início na década de 1950. Entretanto, os textos traduzidos automaticamente, exceto quando utilizados apenas para um entendimento geral do assunto, ainda precisam passar por pós-edição para que se tornem bem escritos na língua alvo. Atualmente, a forma mais comum de pós-edição é a executada por tradutores humanos, sejam eles profissionais ou os próprios usuários dos sistemas de TA. A pós-edição manual é mais precisa, mas traz custo e demanda tempo, especialmente quando envolve muitas alterações. Como uma tentativa para avançar o estado da arte das pesquisas em TA, principalmente envolvendo o português do Brasil, esta pesquisa visa verificar a efetividade do uso de um sistema de pós-edição automática (Automated Post-Editing ou APE) na tradução do inglês para o português. Utilizando um corpus de treinamento contendo traduções de referência (boas traduções produzidas por humanos) e traduções geradas por um sistema de TA estatística baseada em frases, técnicas de aprendizado de máquina foram aplicadas para o desenvolvimento do APE. O sistema de APE desenvolvido: (i) identifica automaticamente os erros de TA e (ii) realiza a correção automática da tradução com ou sem a identificação prévia dos erros. A avaliação foi realizada usando tanto medidas automáticas BLEU e NIST, calculadas para as sentenças sem e com a pós-edição; como analise manual. Apesar de resultados limitados pelo pequeno tamanho do corpus de treinamento, foi possível concluir que o APE desenvolvido melhora a qualidade da TA de inglês para português. Linguagem - tradução automática Aprendizado de computador Aprendizado de Máquina Pós-edição automática Machine translation Machine learning Automated Post-Editing
2	C2C: um chat bilíngue com apoio de senso comum / C2C: um chat bilíngue com apoio de senso comum Sugiyama, Bruno Akio 21 October 2011 (has links) Made available in DSpace on 2016-06-02T19:05:53Z (GMT). No. of bitstreams: 1 3952.pdf: 2039842 bytes, checksum: 13562902fbbd07a996facebf66d35dd7 (MD5) Previous issue date: 2011-10-21 / Financiadora de Estudos e Projetos / In this research, we describe how common sense knowledge with machine translation can help the communication among people with different cultural background. In order to evaluate this possibility, we developed a bilingual chat called Culture-to-Chat or C2C that provides a communication channel and has resources that help its user to create messages in a second language. In the computer-mediated communication field, it is possible to notice that people are crossing geographic borders and having opportunities to share experiences among different cultures. Sharing information in a non native language can be difficult to some users. Some computational tools that support communication uses machine translation to aid users that need to work with different language. C2C also uses this approach and adopts a semantic network of cultural knowledge, collaboratively built on the Web through the Open Mind Common Sense in Brazil project (OMCS-Br) to work with cultural expression, in other words, terms whose meaning depends on user‟s culture. Following a user-centered design approach that focuses on prototyping, we present the development of C2C passing by low, middle and high fidelity prototypes. In order to observe how this computational tool is used and collect the opinion of target users, we perform a pilot study involving Brazilian and Canadian users. This study showed some enhancements for the tool and pointed evidences that this chat contributes to the communication between people with different cultural backgrounds. / Neste trabalho é descrito como o conhecimento de senso comum em conjunto com a tradução automática pode apoiar a comunicação entre pessoas de diferentes culturas. Para verificar a viabilidade do senso comum foi desenvolvido um chat bilíngue chamado Culture-to-Chat ou C2C, que, além de prover um canal de comunicação, possui mecanismos que auxiliam o usuário na criação de mensagens em língua estrangeira. No campo da comunicação mediada por computador, percebe-se que as pessoas estão cruzando as fronteiras geográficas e tendo oportunidades de troca de experiências entre diferentes culturas. Para alguns usuários, essa troca de informações é feita em uma língua não nativa, o que pode ser uma tarefa difícil para eles. Algumas ferramentas computacionais que apoiam a comunicação propõem o uso de tradução automática para trabalhar com usuários falantes de diferentes línguas. O C2C, além de adotar tal estratégia, adota a rede semântica de conhecimento cultural construida colaborativamente via Web do projeto Open Mind Common Sense no Brasil (OMCS-Br) para trabalhar com expressões culturais, ou seja, termos cujo significado depende da cultura do usuário. Utilizando uma abordagem centrada no usuário focando-se em prototipação, o desenvolvimento do C2C e suas funcionalidades são apresentados por meio de protótipos de diferentes níveis de fidelidade (baixa, média e alta). Com o intuito de observar o uso dessa ferramenta computacional e coletar opiniões de usuários, foi realizado um estudo piloto envolvendo usuários brasileiros e canadenses. Tal estudo mostrou possíveis melhorias pra a ferramenta e apontou indícios de que este chat contribui na comunicação entre pessoas de diferentes culturas. Ciência da computação Interface e comunicação Linguagem - tradução automática OMCS (Open Mind Common Sense) Base de conhecimento Conhecimento cultural Comunicação mediada por computador Tradução cultural Denso comum Tradução automática OMCS-Br Cultural knowledge Computer-mediated communication Cultural translation Common sense Machine translation OMCS-Br
3	Tradução automática estatística baseada em sintaxe e linguagens de árvores Beck, Daniel Emilio 19 June 2012 (has links) Made available in DSpace on 2016-06-02T19:05:58Z (GMT). No. of bitstreams: 1 4541.pdf: 1339407 bytes, checksum: be0e2f3bb86e7d6b4c8d03f4f20214ef (MD5) Previous issue date: 2012-06-19 / Universidade Federal de Minas Gerais / Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications. / A Tradução Automática (Machine Translation - MT) é uma das aplicações clássicas dentro do Processamento da Língua Natural (Natural Language Processing - NLP). O estado-da-arte em MT é representado por métodos estatísticos, que buscam aprender o conhecimento linguístico necessário de forma automática por meio de grandes coleções de textos (os corpora). Entretanto, ainda que se tenha avançado bastante em relação à qualidade de sistemas estatísticos de MT, hoje em dia esses avanços não estão sendo significativos. Por conta disso, as pesquisas na área têm buscado formas de envolver mais conhecimento linguístico explícito nesses sistemas. Um dos problemas que não é bem resolvido por sistemas de MT puramente estatísticos é o correto tratamento de fenômenos sintáticos. Assim, uma das direções que as pesquisas tomam na hora de incorporar conhecimento linguístico a esses sistemas é através da adição de regras sintáticas. Para isso, uma série de métodos e formalismos foram e são estudados até hoje. Esse texto apresenta a investigação de métodos que se utilizam de informação sintática na tentativa de avançar no estado-da-arte da MT estatística. Foram utilizados métodos e formalismos que lidam com linguagens de a´rvores, em especial as Gramáticas de Substituição de Árvores (Tree Substitution Grammars - TSGs) e os Transdutores Árvore-para-String (Tree-to-String - TTS). Desta investigação, obteve-se maior entendimento sobre os formalismos estudados e seu comportamento em aplicações de NLP. Linguística - processamento de dados Linguagem - tradução automática Processamento da Língua Natural Linguística Computacional Tradução automática estatística Transdutores árvore-para-String Natural language processing Computational linguistics Statistical machine translation Tree substitution grammars Tree-to-string transducers

1

Page generated in 0.1028 seconds