• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 20
  • Tagged with
  • 20
  • 20
  • 15
  • 13
  • 10
  • 8
  • 8
  • 7
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Uma abordagem híbrida relacional para a desambiguação lexical de sentido na tradução automática / A hybrid relational approach for word sense disambiguation in machine translation

Specia, Lucia 28 September 2007 (has links)
A comunicação multilíngue é uma tarefa cada vez mais imperativa no cenário atual de grande disseminação de informações em diversas línguas. Nesse contexto, são de grande relevância os sistemas de tradução automática, que auxiliam tal comunicação, automatizando-a. Apesar de ser uma área de pesquisa bastante antiga, a Tradução Automática ainda apresenta muitos problemas. Um dos principais problemas é a ambigüidade lexical, ou seja, a necessidade de escolha de uma palavra, na língua alvo, para traduzir uma palavra da língua fonte quando há várias opções de tradução. Esse problema se mostra ainda mais complexo quando são identificadas apenas variações de sentido nas opções de tradução. Ele é denominado, nesse caso, \"ambigüidade lexical de sentido\". Várias abordagens têm sido propostas para a desambiguação lexical de sentido, mas elas são, em geral, monolíngues (para o inglês) e independentes de aplicação. Além disso, apresentam limitações no que diz respeito às fontes de conhecimento que podem ser exploradas. Em se tratando da língua portuguesa, em especial, não há pesquisas significativas voltadas para a resolução desse problema. O objetivo deste trabalho é a proposta e desenvolvimento de uma nova abordagem de desambiguação lexical de sentido, voltada especificamente para a tradução automática, que segue uma metodologia híbrida (baseada em conhecimento e em córpus) e utiliza um formalismo relacional para a representação de vários tipos de conhecimentos e de exemplos de desambiguação, por meio da técnica de Programação Lógica Indutiva. Experimentos diversos mostraram que a abordagem proposta supera abordagens alternativas para a desambiguação multilíngue e apresenta desempenho superior ou comparável ao do estado da arte em desambiguação monolíngue. Adicionalmente, tal abordagem se mostrou efetiva como mecanismo auxiliar para a escolha lexical na tradução automática estatística / Crosslingual communication has become a very imperative task in the current scenario with the increasing amount of information dissemination in several languages. In this context, machine translation systems, which can facilitate such communication by providing automatic translations, are of great importance. Although research in Machine Translation dates back to the 1950\'s, the area still has many problems. One of the main problems is that of lexical ambiguity, that is, the need for lexical choice when translating a source language word that has several translation options in the target language. This problem is even more complex when only sense variations are found in the translation options, a problem named \"sense ambiguity\". Several approaches have been proposed for word sense disambiguation, but they are in general monolingual (for English) and application-independent. Moreover, they have limitations regarding the types of knowledge sources that can be exploited. Particularly, there is no significant research aiming to word sense disambiguation involving Portuguese. The goal of this PhD work is the proposal and development of a novel approach for word sense disambiguation which is specifically designed for machine translation, follows a hybrid methodology (knowledge and corpus-based), and employs a relational formalism to represent various kinds of knowledge sources and disambiguation examples, by using Inductive Logic Programming. Several experiments have shown that the proposed approach overcomes alternative approaches in multilingual disambiguation and achieves higher or comparable results to the state of the art in monolingual disambiguation. Additionally, the approach has shown to effectively assist lexical choice in a statistical machine translation system
12

Enfrentamento do problema das divergências de tradução por um sistema de tradução automática: um exercício exploratório

Oliveira, Mirna Fernanda de [UNESP] 25 April 2006 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:32:47Z (GMT). No. of bitstreams: 0 Previous issue date: 2006-04-25Bitstream added on 2014-06-13T20:43:58Z : No. of bitstreams: 1 oliveira_mf_dr_ararafcl.pdf: 631650 bytes, checksum: fa4233637c661c5e993adcc08801d158 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O objetivo desta tese é desenvolver um estudo lingüístico-computacional exploratório de um problema específico que deve ser enfrentado por sistemas de tradução automática: o problema da divergências de tradução quer de natureza sintática quer de natureza léxico-semântica que se verificam entre pares de sentenças de línguas naturais diferentes. Para isso, fundamenta-se na metodologia de pesquisa interdisciplinar em PLN (Processamento Automático de Línguas Naturais) de Dias-da-Silva (1996, 1998 e 2003) e na teoria lingüístico-computacional subjacente ao sistema de tradução automática UNITRAN de Dorr (1993), que, por sua vez é subsidiado pela teoria sintática dos princípios e Parâmetros de Chomsky (1981) e pela teoria semântica das Estruturas conceituais de Jackendoff (1990). Como contribuição, a tese descreve a composição e o funcionamento do UNITRAN, desenhado para dar conta de parte do problema posto pelas divergências de tradução e ilustra a possibilidade de inclusão do português nesse sistema através do exame de alguns tipos de divergências que se verificam entre frases do inglês e do português. / This dissertation aims to develop an exploratory linguistic and computational study of an especific type of problem that must be faced by machine translation systems: the problem of translation divergences, whether syntactic or lexical-semantic ones that can be verified between distinct natural language sentence. In order to achieve this aim, this work is based on the interdisciplinary research metodology of the NLP (Natural Language Processing) field developed by Dias-da-Silva (1996, 1998 & 2003) and on the linguistic computacional theory behind UNITRAN, a machine translation systemdeveloped by Dorr (1993), a system that is on its turned based on Chomsky's syntactic theory of Government and Binding (1981) and Jackendoff's semantic theory of Conceptual Structures (1990). As a contribution to the field of NLP, this dissertation describes the machinery of UNITRAN, designed to deal with part of the problem of translation divergencies, and it illustrates the possibility of including Brazilian Portuguese language in the system through the investigation of certain kinds of divergences that can be found between English and Brazilian Portuguese senteces.
13

Sistemas de memórias de tradução e tecnologias de tradução automática: possíveis efeitos na produção de tradutores em formação / Translation memory systems and machine translation: possible effects on the production of translation trainees

Talhaferro, Lara Cristina Santos 26 February 2018 (has links)
Submitted by Lara Cristina Santos Talhaferro null (lara.talhaferro@hotmail.com) on 2018-03-07T01:06:11Z No. of bitstreams: 1 Dissertação_LaraCSTalhaferro_2018.pdf: 4550332 bytes, checksum: 634c0356d3f9c55e334ef6a26a877056 (MD5) / Approved for entry into archive by Elza Mitiko Sato null (elzasato@ibilce.unesp.br) on 2018-03-07T15:46:44Z (GMT) No. of bitstreams: 1 talhaferro_lcs_me_sjrp.pdf: 4550332 bytes, checksum: 634c0356d3f9c55e334ef6a26a877056 (MD5) / Made available in DSpace on 2018-03-07T15:46:44Z (GMT). No. of bitstreams: 1 talhaferro_lcs_me_sjrp.pdf: 4550332 bytes, checksum: 634c0356d3f9c55e334ef6a26a877056 (MD5) Previous issue date: 2018-02-26 / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / O processo da globalização, que tem promovido crescente circulação de informações multilíngues em escala mundial, tem proporcionado notáveis mudanças no mercado da tradução. No contexto globalizado, para manterem-se competitivos e atenderem à demanda de trabalho, a qual conta com frequentes atualizações de conteúdo e prazos reduzidos, os tradutores passaram a adotar ferramentas de tradução assistidas por computador em sua rotina de trabalho. Duas dessas ferramentas, utilizadas principalmente por tradutores das áreas técnica, científica e comercial, são os sistemas de memórias de tradução e as tecnologias de tradução automática. O emprego de tais recursos pode ter influências imprevisíveis nas traduções, sobre as quais os tradutores raramente têm oportunidade de ponderar. Se os profissionais são iniciantes ou se lhes falta experiência em determinada ferramenta, essa influência pode ser ainda maior. Considerando que os profissionais novatos tendem a utilizar cada vez mais as ferramentas disponíveis para aumentar sua eficiência, neste trabalho são investigados os possíveis efeitos do uso de sistemas de memórias de tradução e tecnologias de tradução automática, especificamente o sistema Wordfast Anywhere e um de seus tradutores automáticos, o Google Cloud Translate API, nas escolhas de graduandos em Tradução. Foi analisada a aplicação dessas ferramentas na tradução (inglês/português) de quatro abstracts designados a dez alunos do quarto ano do curso de Bacharelado em Letras com Habilitação de Tradutor da Unesp de São José do Rio Preto, divididos em três grupos: os que fizeram o uso do Wordfast Anywhere, os que utilizaram essa ferramenta para realizar a pós-edição da tradução feita pelo Google Cloud Translate API e os que não utilizaram nenhuma dessas ferramentas para traduzir os textos. Tal exame consistiu de uma análise numérica entre as traduções, com a ajuda do software Turnitin e uma análise contrastiva da produção dos alunos, em que foram considerados critérios como tempo de realização da tradução, emprego da terminologia específica, coesão e coerência textual, utilização da norma culta da língua portuguesa e adequação das traduções ao seu fim. As traduções também passaram pelo exame de profissionais das áreas sobre as quais tratam os abstracts, para avaliá-las do ponto de vista de um usuário do material traduzido. Além de realizarem as traduções, os alunos responderam a um questionário, em que esclarecem seus hábitos e suas percepções sobre as ferramentas computacionais de tradução. A análise desses trabalhos indica que a automação não influenciou significativamente na produção das traduções, confirmando nossa hipótese de que o tradutor tem papel central nas escolhas terminológicas e na adequação do texto traduzido a seu fim. / Globalization has promoted a growing flow of multilingual information worldwide, causing significant changes in translation market. In this scenario, translators have been employing computer-assisted translation tools (CAT Tools) in a proficient way to meet the demand for information translated into different languages in condensed turnarounds. Translation memory systems and machine translation are two of these tools, used especially when translating technical, scientific and commercial texts. This configuration may have inevitable influences in the production of translated texts. Nonetheless, translators seldom have the opportunity to ponder on how their production may be affected by the use of these tools, especially if they are novice in the profession or lack experience with the tools used. Seeking to examine how the work of translators in training may be influenced by translation memory systems and machine translation technologies they employ, this work investigates how a translation memory system, Wordfast Anywhere, and one of its machine translation tools, Google Cloud Translate API, may affect the choices of Translation trainees. To achieve this goal, we present an analysis of English-to-Portuguese translations of four abstracts assigned to ten students of the undergraduate Program in Languages with Major in Translation at São Paulo State University, divided into three groups: one aided by Wordfast Anywhere, one aided by Google Cloud Translate API, and one unassisted by any of these tools. This study consists of a numerical analysis, assisted by Turnitin, and a comparative analysis, whose aspects examined are the following: time spent to perform the translation, use of specific terminology, cohesion and coherence, use of standard Portuguese, and suitability for their purposes. Apart from this analysis, a group of four experts were consulted on the translations as users of their content. Finally, the students filled a questionnaire on their habits and perceptions on CAT Tools. The examination of their work suggests that automation did not influence the production of the translations significantly, confirming our hypothesis that human translators are at the core of decision-making when it comes to terminological choices and suitability of translated texts to their purpose. / 2016/07907-0
14

Tradução automática com adequação sintático-semântica para LIBRAS

Lima, Manuella Aschoff Cavalcanti Brandão 26 August 2015 (has links)
Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T21:36:06Z No. of bitstreams: 1 arquivototal.pdf: 2545614 bytes, checksum: d022fd3dbe168cb8f6486517b7db1286 (MD5) / Made available in DSpace on 2016-02-15T21:36:06Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2545614 bytes, checksum: d022fd3dbe168cb8f6486517b7db1286 (MD5) Previous issue date: 2015-08-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Deaf people communicate naturally using visual-spatial languages, called sign languages. The sign languages (SL) are recognized as official languages in many countries, but the problems faced by deaf people to access to information remains. As a result, they have difficult to exercise their citizenship and to access information in LS. In order to minimize this problem, some works have been developed related to the machine translation of spoken languages to sign languages. However, these solutions have some limitations, since they have to generate contents for deaf with the same quality to the listeners. Thus, this work aims to develop a solution for machine translation to Brazilian Sign Language (LIBRAS) addressing syntactic-semantic issues. This solution includes a LIBRAS machine translation component; a rule description language, modeled to describe morphosyntactic-semantic machine translation rules; the definition of a grammar exploring these aspects; and the integration of these elements with VLibras, a machine translation service of digital contents in Brazilian Portuguese to LIBRAS. To evaluate the solution, some computational tests were performed using WER and BLEU metrics, along with some tests with Brazilian deaf users and LIBRAS specialists. The results show that the proposed approach could improve the results of the current version of VLIBRAS. / Pessoas surdas se comunicam naturalmente usando linguagens viso-espaciais, denominadas línguas de sinais. No entanto, apesar das línguas de sinais (LS), em muitos países, serem reconhecidas como língua, os problemas enfrentados pelos surdos no tocante ao acesso a informação permanecem. Em consequência disso, observa-se uma grande dificuldade dos surdos exercerem a sua cidadania e terem acesso à informação através das LS, o que acaba geralmente implicando em atraso linguístico e de aquisição do conhecimento. Visando propor soluções alternativas para minimizar a marginalização dos surdos, alguns trabalhos vêm sendo desenvolvidos relacionados à tradução automática de línguas orais para línguas de sinais. No entanto, as soluções existentes apresentam muitas limitações, pois precisam garantir que o conteúdo disponibilizado aos surdos chegue com a mesma qualidade que aos ouvintes. Neste sentido, o presente trabalho tem como objetivo desenvolver uma solução para tradução automática para LIBRAS com adequação sintático-semântica. Essa solução envolve um componente de tradução automática para LIBRAS; uma linguagem formal de descrição de regras, modelada para criar regras de tradução sintático-semânticas; a definição de uma gramática explorando esses aspectos; e a integração desses elementos no serviço VLibras, um serviço de tradução automática de conteúdos digitais em Português para LIBRAS. Para avaliar a solução, alguns testes computacionais utilizando as métricas WER e BLEU e com usuários surdos e ouvintes da LIBRAS foram realizados para aferir a qualidade da saída gerada pela solução. Os resultados mostram que a abordagem proposta conseguiu melhorar os resultados da versão atual do VLibras.
15

Tradução grafema-fonema para a língua portuguesa baseada em autômatos adaptativos. / Grapheme-phoneme translation for portuguese based on adaptive automata.

Danilo Picagli Shibata 25 March 2008 (has links)
Este trabalho apresenta um estudo sobre a utilização de dispositivos adaptativos para realizar tradução texto-voz. O foco do trabalho é a criação de um método para a tradução grafema-fonema para a língua portuguesa baseado em autômatos adaptativos e seu uso em um software de tradução texto-voz. O método apresentado busca mimetizar o comportamento humano no tratamento de regras de tonicidade, separação de sílabas e as influências que as sílabas exercem sobre suas vizinhas. Essa característica torna o método facilmente utilizável para outras variações da língua portuguesa, considerando que essas características são invariantes em relação à localidade e a época da variedade escolhida. A variação contemporânea da língua falada na cidade de São Paulo foi escolhida como alvo de análise e testes neste trabalho. Para essa variação, o modelo apresenta resultados satisfatórios superando 95% de acerto na tradução grafema-fonema de palavras, chegando a 90% de acerto levando em consideração a resolução de dúvidas geradas por palavras que podem possuir duas representações sonoras e gerando uma saída sonora inteligível aos nativos da língua por meio da síntese por concatenação baseada em sílabas. Como resultado do trabalho, além do modelo para tradução grafema-fonema de palavras baseado em autômatos adaptativos, foi criado um método para escolha da representação fonética correta em caso de ambigüidade e foram criados dois softwares, um para simulação de autômatos adaptativos e outro para a tradução grafema-fonema de palavras utilizando o modelo de tradução criado e o método de escolha da representação correta. Esse último software foi unificado ao sintetizador desenvolvido por Koike et al. (2007) para a criação de um tradutor texto-voz para a língua portuguesa. O trabalho mostra a viabilidade da utilização de autômatos adaptativos como base ou como um elemento auxiliar para o processo de tradução texto-voz na língua portuguesa. / This work presents a study on the use of adaptive devices for text-to-speech translation. The work focuses on the development of a grapheme-phoneme translation method for Portuguese based on Adaptive Automata and the use of this method in a text-to-speech translation software. The presented method resembles human behavior when handling syllable separation rules, syllable stress definition and influences syllables have on each other. This feature makes the method easy to use with different variations of Portuguese, since these characteristics are invariants of the language. Portuguese spoken nowadays in São Paulo, Brazil has been chosen as the target for analysis and tests in this work. The method has good results for such variation of Portuguese, reaching 95% accuracy rate for grapheme-phoneme translation, clearing the 90% mark after resolution of ambiguous cases in which different representations are accepted for a grapheme and generating phonetic output intelligible for native speakers based on concatenation synthesis using syllables as concatenation units. As final results of this work, a model is presented for grapheme-phoneme translation for Portuguese words based on Adaptive Automata, a methodology to choose the correct phonetic representation for the grapheme in ambiguous cases, a software for Adaptive Automata simulation and a software for grapheme-phoneme translation of texts using both the model of translation and methodology for disambiguation. The latter software was unified with the speech synthesizer developed by Koike et al. (2007) to create a text-to-speech translator for Portuguese. This work evidences the feasibility of text-to-speech translation for Portuguese using Adaptive Automata as the main instrument for such task.
16

Uma abordagem híbrida relacional para a desambiguação lexical de sentido na tradução automática / A hybrid relational approach for word sense disambiguation in machine translation

Lucia Specia 28 September 2007 (has links)
A comunicação multilíngue é uma tarefa cada vez mais imperativa no cenário atual de grande disseminação de informações em diversas línguas. Nesse contexto, são de grande relevância os sistemas de tradução automática, que auxiliam tal comunicação, automatizando-a. Apesar de ser uma área de pesquisa bastante antiga, a Tradução Automática ainda apresenta muitos problemas. Um dos principais problemas é a ambigüidade lexical, ou seja, a necessidade de escolha de uma palavra, na língua alvo, para traduzir uma palavra da língua fonte quando há várias opções de tradução. Esse problema se mostra ainda mais complexo quando são identificadas apenas variações de sentido nas opções de tradução. Ele é denominado, nesse caso, \"ambigüidade lexical de sentido\". Várias abordagens têm sido propostas para a desambiguação lexical de sentido, mas elas são, em geral, monolíngues (para o inglês) e independentes de aplicação. Além disso, apresentam limitações no que diz respeito às fontes de conhecimento que podem ser exploradas. Em se tratando da língua portuguesa, em especial, não há pesquisas significativas voltadas para a resolução desse problema. O objetivo deste trabalho é a proposta e desenvolvimento de uma nova abordagem de desambiguação lexical de sentido, voltada especificamente para a tradução automática, que segue uma metodologia híbrida (baseada em conhecimento e em córpus) e utiliza um formalismo relacional para a representação de vários tipos de conhecimentos e de exemplos de desambiguação, por meio da técnica de Programação Lógica Indutiva. Experimentos diversos mostraram que a abordagem proposta supera abordagens alternativas para a desambiguação multilíngue e apresenta desempenho superior ou comparável ao do estado da arte em desambiguação monolíngue. Adicionalmente, tal abordagem se mostrou efetiva como mecanismo auxiliar para a escolha lexical na tradução automática estatística / Crosslingual communication has become a very imperative task in the current scenario with the increasing amount of information dissemination in several languages. In this context, machine translation systems, which can facilitate such communication by providing automatic translations, are of great importance. Although research in Machine Translation dates back to the 1950\'s, the area still has many problems. One of the main problems is that of lexical ambiguity, that is, the need for lexical choice when translating a source language word that has several translation options in the target language. This problem is even more complex when only sense variations are found in the translation options, a problem named \"sense ambiguity\". Several approaches have been proposed for word sense disambiguation, but they are in general monolingual (for English) and application-independent. Moreover, they have limitations regarding the types of knowledge sources that can be exploited. Particularly, there is no significant research aiming to word sense disambiguation involving Portuguese. The goal of this PhD work is the proposal and development of a novel approach for word sense disambiguation which is specifically designed for machine translation, follows a hybrid methodology (knowledge and corpus-based), and employs a relational formalism to represent various kinds of knowledge sources and disambiguation examples, by using Inductive Logic Programming. Several experiments have shown that the proposed approach overcomes alternative approaches in multilingual disambiguation and achieves higher or comparable results to the state of the art in monolingual disambiguation. Additionally, the approach has shown to effectively assist lexical choice in a statistical machine translation system
17

C2C: um chat bilíngue com apoio de senso comum / C2C: um chat bilíngue com apoio de senso comum

Sugiyama, Bruno Akio 21 October 2011 (has links)
Made available in DSpace on 2016-06-02T19:05:53Z (GMT). No. of bitstreams: 1 3952.pdf: 2039842 bytes, checksum: 13562902fbbd07a996facebf66d35dd7 (MD5) Previous issue date: 2011-10-21 / Financiadora de Estudos e Projetos / In this research, we describe how common sense knowledge with machine translation can help the communication among people with different cultural background. In order to evaluate this possibility, we developed a bilingual chat called Culture-to-Chat or C2C that provides a communication channel and has resources that help its user to create messages in a second language. In the computer-mediated communication field, it is possible to notice that people are crossing geographic borders and having opportunities to share experiences among different cultures. Sharing information in a non native language can be difficult to some users. Some computational tools that support communication uses machine translation to aid users that need to work with different language. C2C also uses this approach and adopts a semantic network of cultural knowledge, collaboratively built on the Web through the Open Mind Common Sense in Brazil project (OMCS-Br) to work with cultural expression, in other words, terms whose meaning depends on user‟s culture. Following a user-centered design approach that focuses on prototyping, we present the development of C2C passing by low, middle and high fidelity prototypes. In order to observe how this computational tool is used and collect the opinion of target users, we perform a pilot study involving Brazilian and Canadian users. This study showed some enhancements for the tool and pointed evidences that this chat contributes to the communication between people with different cultural backgrounds. / Neste trabalho é descrito como o conhecimento de senso comum em conjunto com a tradução automática pode apoiar a comunicação entre pessoas de diferentes culturas. Para verificar a viabilidade do senso comum foi desenvolvido um chat bilíngue chamado Culture-to-Chat ou C2C, que, além de prover um canal de comunicação, possui mecanismos que auxiliam o usuário na criação de mensagens em língua estrangeira. No campo da comunicação mediada por computador, percebe-se que as pessoas estão cruzando as fronteiras geográficas e tendo oportunidades de troca de experiências entre diferentes culturas. Para alguns usuários, essa troca de informações é feita em uma língua não nativa, o que pode ser uma tarefa difícil para eles. Algumas ferramentas computacionais que apoiam a comunicação propõem o uso de tradução automática para trabalhar com usuários falantes de diferentes línguas. O C2C, além de adotar tal estratégia, adota a rede semântica de conhecimento cultural construida colaborativamente via Web do projeto Open Mind Common Sense no Brasil (OMCS-Br) para trabalhar com expressões culturais, ou seja, termos cujo significado depende da cultura do usuário. Utilizando uma abordagem centrada no usuário focando-se em prototipação, o desenvolvimento do C2C e suas funcionalidades são apresentados por meio de protótipos de diferentes níveis de fidelidade (baixa, média e alta). Com o intuito de observar o uso dessa ferramenta computacional e coletar opiniões de usuários, foi realizado um estudo piloto envolvendo usuários brasileiros e canadenses. Tal estudo mostrou possíveis melhorias pra a ferramenta e apontou indícios de que este chat contribui na comunicação entre pessoas de diferentes culturas.
18

Tradução automática estatística baseada em sintaxe e linguagens de árvores

Beck, Daniel Emilio 19 June 2012 (has links)
Made available in DSpace on 2016-06-02T19:05:58Z (GMT). No. of bitstreams: 1 4541.pdf: 1339407 bytes, checksum: be0e2f3bb86e7d6b4c8d03f4f20214ef (MD5) Previous issue date: 2012-06-19 / Universidade Federal de Minas Gerais / Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications. / A Tradução Automática (Machine Translation - MT) é uma das aplicações clássicas dentro do Processamento da Língua Natural (Natural Language Processing - NLP). O estado-da-arte em MT é representado por métodos estatísticos, que buscam aprender o conhecimento linguístico necessário de forma automática por meio de grandes coleções de textos (os corpora). Entretanto, ainda que se tenha avançado bastante em relação à qualidade de sistemas estatísticos de MT, hoje em dia esses avanços não estão sendo significativos. Por conta disso, as pesquisas na área têm buscado formas de envolver mais conhecimento linguístico explícito nesses sistemas. Um dos problemas que não é bem resolvido por sistemas de MT puramente estatísticos é o correto tratamento de fenômenos sintáticos. Assim, uma das direções que as pesquisas tomam na hora de incorporar conhecimento linguístico a esses sistemas é através da adição de regras sintáticas. Para isso, uma série de métodos e formalismos foram e são estudados até hoje. Esse texto apresenta a investigação de métodos que se utilizam de informação sintática na tentativa de avançar no estado-da-arte da MT estatística. Foram utilizados métodos e formalismos que lidam com linguagens de a´rvores, em especial as Gramáticas de Substituição de Árvores (Tree Substitution Grammars - TSGs) e os Transdutores Árvore-para-String (Tree-to-String - TTS). Desta investigação, obteve-se maior entendimento sobre os formalismos estudados e seu comportamento em aplicações de NLP.
19

Aplicação do Word2vec e do Gradiente descendente dstocástico em tradução automática

Aguiar, Eliane Martins de 30 May 2016 (has links)
Submitted by Eliane Martins de Aguiar (elianemart@gmail.com) on 2016-08-01T21:03:09Z No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-08-03T20:29:34Z (GMT) No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-08-23T20:12:35Z (GMT) No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Made available in DSpace on 2016-08-23T20:12:54Z (GMT). No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) Previous issue date: 2016-05-30 / O word2vec é um sistema baseado em redes neurais que processa textos e representa pa- lavras como vetores, utilizando uma representação distribuída. Uma propriedade notável são as relações semânticas encontradas nos modelos gerados. Este trabalho tem como objetivo treinar dois modelos utilizando o word2vec, um para o Português e outro para o Inglês, e utilizar o gradiente descendente estocástico para encontrar uma matriz de tradução entre esses dois espaços.
20

Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil

Martins, Débora Beatriz de Jesus 10 April 2014 (has links)
Made available in DSpace on 2016-06-02T19:06:12Z (GMT). No. of bitstreams: 1 5932.pdf: 1110060 bytes, checksum: fe08b552e37f04451248c376cfc4454f (MD5) Previous issue date: 2014-04-10 / Universidade Federal de Minas Gerais / The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese. / O projeto de mestrado descrito neste documento tem como foco a pós-edição de textos traduzidos automaticamente. Tradução Automática (TA) é a tarefa de traduzir textos em língua natural desempenhada por um computador e faz parte da linha de pesquisa de Processamento de Línguas Naturais (PLN), vinculada à área de Inteligência Artificial (IA). As pesquisas em TA, utilizando desde abordagens linguísticas até modelos estatísticos, têm avançado muito desde seu início na década de 1950. Entretanto, os textos traduzidos automaticamente, exceto quando utilizados apenas para um entendimento geral do assunto, ainda precisam passar por pós-edição para que se tornem bem escritos na língua alvo. Atualmente, a forma mais comum de pós-edição é a executada por tradutores humanos, sejam eles profissionais ou os próprios usuários dos sistemas de TA. A pós-edição manual é mais precisa, mas traz custo e demanda tempo, especialmente quando envolve muitas alterações. Como uma tentativa para avançar o estado da arte das pesquisas em TA, principalmente envolvendo o português do Brasil, esta pesquisa visa verificar a efetividade do uso de um sistema de pós-edição automática (Automated Post-Editing ou APE) na tradução do inglês para o português. Utilizando um corpus de treinamento contendo traduções de referência (boas traduções produzidas por humanos) e traduções geradas por um sistema de TA estatística baseada em frases, técnicas de aprendizado de máquina foram aplicadas para o desenvolvimento do APE. O sistema de APE desenvolvido: (i) identifica automaticamente os erros de TA e (ii) realiza a correção automática da tradução com ou sem a identificação prévia dos erros. A avaliação foi realizada usando tanto medidas automáticas BLEU e NIST, calculadas para as sentenças sem e com a pós-edição; como analise manual. Apesar de resultados limitados pelo pequeno tamanho do corpus de treinamento, foi possível concluir que o APE desenvolvido melhora a qualidade da TA de inglês para português.

Page generated in 0.024 seconds