Spelling suggestions: "subject:"tradução automática"" "subject:"gradução automática""
1 |
Ampliando olhares sobre a tradução automática online : um estudo exploratório de categorias de erros de máquina de tradução gerados em documentos multimodaisPires, Thiago Blanch 02 March 2017 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-06-02T17:24:50Z
No. of bitstreams: 1
2017_ThiagoBlanchPires.pdf: 13273791 bytes, checksum: 745737c8c9d7de30e1f46c10eda12193 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2017-06-23T17:25:27Z (GMT) No. of bitstreams: 1
2017_ThiagoBlanchPires.pdf: 13273791 bytes, checksum: 745737c8c9d7de30e1f46c10eda12193 (MD5) / Made available in DSpace on 2017-06-23T17:25:27Z (GMT). No. of bitstreams: 1
2017_ThiagoBlanchPires.pdf: 13273791 bytes, checksum: 745737c8c9d7de30e1f46c10eda12193 (MD5)
Previous issue date: 2017-06-23 / Nas últimas décadas observa-se um crescente uso de sistemas de tradução automática para a tradução rápida e imediata de fragmentos de diversos documentos. Ao mesmo tempo, observase um frequente uso desses sistemas em documentos multimodais, originalmente criados de forma a relacionar semanticamente elementos linguísticos e visuais. Como as máquinas de tradução não são desenvolvidas com o propósito de reconhecer tais relações intersemióticas, mas apenas de reconhecer determinadas unidades linguísticas, pressupõe-se que parte do significado originalmente criado entre o componente linguístico e visual se modifica com a tradução. Um estudo piloto, produzido como parte do estágio metodológico deste trabalho, aponta para desvios léxico-semânticos de legendas que descrevem uma imagem ou parte dela, gerando uma nova configuração semântica, chamada de incompatibilidade intersemiótica. Por meio da interface teórico-metodológica da multimodalidade, mais especificamente do modelo de textura intersemiótica, e da linguística computacional, mais especificamente de tipologia de erro de tradução automática, esta tese tem como objetivo identificar relações semânticas entre texto e imagem em documentos multimodais traduzidos automaticamente para a avaliação de tradução automática. Os procedimentos metodológicos para se alcançar o objetivo de pesquisa são de natureza exploratória e qualitativa. A amostragem é constituída de 30 documentos compostos por artigos de páginas web, manuais, infográficos e artigos acadêmicos em inglês e suas respetivas traduções automáticas realizadas pela ferramenta Google Tradutor para o português. Para a captura das páginas web utilizou-se a ferramenta Fireshot, e para visualização e anotação manual escolheu-se as ferramentas Preview e Skitch. A análise revela um número proporcionalmente maior de incompatibilidades intersemióticas encontradas nas páginas web do que nos outros tipos de documentos. Encontrou-se os mesmo tipos de incompatibilidade intersemiótica que emergem no estudo piloto, quais sejam, de relação intersemiótica temporal e relação intersemiótica de ambiguidade. Porém identificou-se e categorizou-se outros níveis dessas relações, tais como as relações intersemióticas de correspondência e relações intersemióticas de contingência. Os achados também revelam um padrão de incompatibilidades intersemióticas advindas de problemas de palavras desconhecidas e palavras incorretas (VILAR et al., 2006). Ao final, os achados da análise demonstram a importância do modelo de textura intersemiótica proposto por Liu e O’Halloran (2009) para se elaborar uma base metodológica para novas tipologias de erros de tradução automática que identifiquem e categorizem relações de texto-imagem para a avaliação manual de tradução automática. / In the past decades there has been a growth in the use of automatic translation systems for the fast and immediate translation of diverse document fragments. At the same time, there has been a frequent use of such systems in multimodal documents, originally created to relate semantically linguistic and visual elements. As machine translation systems are not developed with the purpose of recognizing such intersemiotic relations - but to only recognize certain linguistic unities – this study assumes that part of the meaning originally created across the linguistic and visual components changes with the translation. A pilot study produced as part of the methodological stage of this work shows that lexico-semantic divergences of automatically translated captions which describes an image or part of it generates new semantic configuration, namely intersemiotic mismatch. By means of the theoretical and methodological interface of multimodality, more specifically the intersemiotic texture model proposed by Liu e O’Halloran (2009), and of computational linguistics, more specifically the typology of machine translation errors (VILAR et al., 2006), this dissertation has the objective of identifying semantic relations between text and image in multimodal documents automatically translated for automatic translation evaluation. The methodological procedures are based on exploratory and qualitative nature. The sampling consists of 30 documents made of webpages, manuals, infographics, and academic papers in English and their respective automatic translation output generated by means of Google Translator into Portuguese. To capture webpages this investigation employs the tool Fireshot, and to visualize and manually annotate the intersemiotic relations, it employed the tools Preview and Skitch. The analysis reveals a proportionally greater number of intersemiotic mismatches found on the webpages than on the other documents. The study found the same types of intersemiotic mismatches that emerged in the pilot study, though in more specific levels. Among the most relevant findings of these new levels of mismatches are the intersemiotic contingency relations and the intersemiotic relations of correspondence. The findings also have shown a profile of intersemiotic mismatches related to unknown words and incorrect words (VILAR et al., 2006). At the end, the findings of the analysis show the importance of the Intersemiotic texture model proposed by Liu and O’Halloran (2009) to elaborate a methodological ground for new typology of machine translation errors that informs the identification and categorization of text-image relations for manually evaluate automatic translation.
|
2 |
Extração de vocabulário multilíngue a partir de documentação de softwareHilgert, Lucas Welter January 2014 (has links)
Made available in DSpace on 2014-05-06T02:01:52Z (GMT). No. of bitstreams: 1
000457560-Texto+Completo-0.pdf: 1023326 bytes, checksum: f34cdce0dc99790d1770e8e63219e649 (MD5)
Previous issue date: 2014 / Real-time machine translation tools and services have been investigated as an alternative approach to the utilization of a common language (lingua franca) during distributed meetings involving teams with differet native languages. However, as presented by different research works, this kind of technologies presents a set of problems that difficults the communication. Among the solution proposed in the literature, the construction of domain specific vocabularies are highlited. This work propose a multilingual vocabulary extraction process for multilingual dicionary entries extraction from software user guides. The process here proposed follows a well stablished set of steps presenting as the main difference the way in wich the domain vocabulary is identified: through the utilization of terminology extraction softwares. A manual evaluation of the dictionaries generated by the process has shown a precision of 81% for simple world translation and 39% for multiword expressions. This values are consistent with the related work. / Ferramentas e serviços de tradução de máquina (automática) em tempo real têm sido investigadas como uma alternativa à utilização de idiomas comum (Lingua Franca) durante reuniões de equipes com diferentes idiomas nativos. No entanto, como demonstrado por diferentes pesquisadores, este tipo de tecnologia ainda apresenta alguns tipos problemas que dificultam a sua utilização neste contexto, dentre os quais destaca-se neste trabalho as traduções inconsistentes (diferentes traduções atribuídas a uma mesma palavra em um mesmo contexto). Dentre as soluções apontadas na literatura para melhorar a qualidade das traduções, destaca-se a construção de vocabulários multilíngues específicos de domínios. Sendo assim, neste trabalho é proposto um processo para a extração de vocabulário multilíngue a partir de documentos de software.O processo proposto seguiu um conjunto de etapas consolidadas na literatura, tendo apresentado, como principal diferencial a forma pela qual o vocabulário de domínio é identificado: mediante a utilização de softwares extratores de terminologia. Uma avaliação manual dos dicionários gerados pelo processo demonstrou uma precisão de 81% na tradução de palavras simples e 39% na tradução de expressões multipalavras. Estes valores demonstraram-se condizentes com os trabalhos relacionados.
|
3 |
Experiência de utilização do formalismo "gramáticas síncronas de adjunção de árvores" para construção de um módulo de transferência estruturalAgustini, Alexandre January 1997 (has links)
Made available in DSpace on 2013-08-07T18:43:32Z (GMT). No. of bitstreams: 1
000269167-Texto+Completo-0.pdf: 277056 bytes, checksum: 9e3251ef7a13982b4682b8987a5f0d07 (MD5)
Previous issue date: 1997 / Machine translation has been a challenge for linguists and computer scientists over the last decades. During this period, plenty of progress was accomplished, though the results are not the expected ones. In this investigation, we present a study on automatic translation, starting with a review of the main methods used for the construction of automated translation systems: direct methods and methods based on interlingua and transfer concepts. The work describes the use of the Synchronous Tree Adjoining Grammars (STAGs) formalism for the design of a structural transfer module, which is the main component of transfer-based systems. The transfer module establishes the correspondences between the structural representation of a sentence in the source-language and the one in the target-language. A study on a corpus on economics was developed in order to define structural divergences for the translation between the Portuguese and English languages. A prototype that performs the structural transformations found in the corpus, based on the STAGs concepts, was developed to validate the proposed model. / A automatização da tradução tem sido um desafio constante para lingüistas e cientistas da computação nas últimas décadas. Neste período, muitos avanços foram alcançados, porém os resultados ainda não são os esperados. É apresentado, neste trabalho, um estudo sobre a área de tradução automática, focalizando inicialmente os principais métodos utilizados na construção de sistemas automatizados de tradução: métodos diretos e métodos baseados nos conceitos de interlíngua e transfer. O trabalho descreve as Gramáticas Síncronas de Adjunção de Árvores como formalismo para projeto de um módulo de transferência estrutural, que é o componente principal de sistemas de tradução automática baseados no método transfer. O módulo de transferência realiza o mapeamento das discrepâncias existentes entre a representação estrutural do texto na língua-fonte e a representação correspondente na línguaalvo. Um estudo, a partir de um corpus da área econômica, é apresentado visando a definição de um conjunto de divergências estruturais existentes na tradução entre as línguas portuguesa e inglesa. Para validação do modelo proposto, é apresentado o protótipo de uma ferramenta que realiza as transformações estruturais observadas no corpus empregado, utilizando os conceitos de Gramáticas Síncronas de Adjunção de Árvores.
|
4 |
Máquinas de tradução aplicada à comunicação em tempo real para desenvolvimento distribuído de softwareDuarte, Tiago da Silveira January 2014 (has links)
Made available in DSpace on 2014-12-06T01:01:18Z (GMT). No. of bitstreams: 1
000463519-Texto+Completo-0.pdf: 1845086 bytes, checksum: dea8d1ebf4d1c816a35b958ede396328 (MD5)
Previous issue date: 2014 / The globalization allows companies to seek partnership for global project development in other countries. The domain of spoken English is considered one of the main reasons for the success of countries such as Ireland and India in global software development. However, A. T Kearney consultancy estimates that Brazil has only 5,4% of population fluent in English, and this is an important challenge that makes difficult the growth of geographically distributed software development in the country. In order to reduce the barriers posed by language differences, studies have been conducted to assess how machine translation can be used in the context of global software development in order to minimize or overcome such barriers. The goal of this research was in this context and aimed to study how speech translation can be used in global software development projects. In this research we first executed studies related to speech recognition and machine translation areas and identified available technologies for translation and speech recognition. After having identified these technologies, a simulation study was planned and executed in order to evaluate one of the identified technologies. The purpose of this study was to understand the feasibility of the available technology for speech recognition and translation for Brazilian Portuguese. The findings of the simulation indicate that Google technologies for speech recognition and translation for Brazilian Portuguese have adequate accuracy and could be used to create a complete machine translation in this language. / O aumento da globalização possibilita que mais empresas busquem parcerias para execução de projetos em outros países. O domínio do idioma inglês, por exemplo, é considerado um dos principais fatores para o sucesso de alguns países como Irlanda e Índia em desenvolvimento global de software. Entretanto, a consultoria A. T Kearney estima que o Brasil tem apenas 5,4% da população fluente em inglês, e isto acaba se tornando um desafio para o desenvolvimento de software com equipes distribuídas geograficamente com integrantes que não dominam o mesmo idioma. Com o objetivo de reduzir as barreiras impostas pela diferença de idioma, estudos têm sido conduzidos para avaliar de que forma máquinas de tradução podem ser utilizadas em um contexto de Desenvolvimento Distribuído de Software, a fim de minimizar ou transpor tais barreiras. O tema desta pesquisa está inserido neste contexto e teve como objetivo estudar como máquinas de tradução podem ser utilizadas em projetos de desenvolvimento distribuído de software. Inicialmente foram realizados estudos na área de reconhecimento de voz e máquina de tradução, visando identificar tecnologias de tradução e reconhecimento de voz disponíveis. As tecnologias foram estudadas e foi então proposto um estudo de simulação com uma destas tecnologias, para avaliar se ela poderia ser utilizada para compor um tradutor de voz para o idioma português brasileiro. Por fim, os resultados da simulação levantaram indícios de que as tecnologias do Google para reconhecimento de voz no idioma português e para tradução do português para o inglês possuem níveis adequados de precisão e poderiam ser utilizadas no desenvolvimento de uma máquina de tradução de voz para o idioma português.
|
5 |
Indução de léxicos bilíngües e regras para a tradução automática / Induction of translation lexicons and transfer rules for machine translationCaseli, Helena de Medeiros 21 May 2007 (has links)
A Tradução Automática (TA) -- tradução de uma língua natural (fonte) para outra (alvo) por meio de programas de computador -- é uma tarefa árdua devido, principalmente, à necessidade de um conhecimento lingüístico aprofundado das duas (ou mais) línguas envolvidas para a construção de recursos, como gramáticas de tradução, dicionários bilíngües etc. A escassez de recursos lingüísticos, e mesmo a dificuldade em produzi-los, geralmente são fatores limitantes na atuação dos sistemas de TA, restringindo-os, por exemplo, quanto ao domínio de aplicação. Neste contexto, diversos métodos vêm sendo propostos com o intuito de gerar, automaticamente, conhecimento lingüístico a partir dos recursos multilíngües e, assim, tornar a construção de tradutores automáticos menos trabalhosa. O projeto ReTraTos, apresentado neste documento, é uma dessas propostas e visa à indução automática de léxicos bilíngües e de regras de tradução a partir de corpora paralelos etiquetados morfossintaticamente e alinhados lexicalmente para os pares de idiomas português--espanhol e português--inglês. O sistema proposto para a indução de regras de tradução apresenta uma abordagem inovadora na qual os exemplos de tradução são divididos em blocos de alinhamento e a indução é realizada para cada bloco, separadamente. Outro fator inovador do sistema de indução é uma filtragem mais elaborada das regras induzidas. Além dos sistemas de indução de léxicos bilíngües e de regras de tradução, implementou-se também um módulo de tradução automática para permitir a validação dos recursos induzidos. Os léxicos bilíngües foram avaliados intrinsecamente e os resultados obtidos estão de acordo com os relatados na literatura para essa área. As regras de tradução foram avaliadas direta e indiretamente por meio do módulo de TA e sua utilização trouxe um ganho na tradução palavra-a-palavra em todos os sentidos (fonte--alvo e alvo--fonte) para a tradução dos idiomas em estudo. As traduções geradas com os recursos induzidos no ReTraTos também foram comparadas às geradas por sistemas comerciais, apresentando melhores resultados para o par de línguas português--espanhol do que para o par português--inglês. / Machine Translation (MT) -- the translation of a natural (source) language into another (target) by means of computer programs -- is a hard task, mainly due to the need of deep linguistic knowledge about the two (or more) languages required to build resources such as translation grammars, bilingual dictionaries, etc. The scarcity of linguistic resources or even the difficulty to build them often limits the use of MT systems, for example, to certain application domains. In this context, several methods have been proposed aiming at generating linguistic knowledge automatically from multilingual resources, so that building translation tools becomes less hard. The ReTraTos project presented in this document is one of these proposals and aims at inducing translation lexicons and transfer rules automatically from PoS-tagged and lexically aligned translation examples for Portuguese--Spanish and Portuguese--English language pairs. The rule induction system brings forth a new approach, in which translation examples are split into alignment blocks and induction is performed for each type of block separately. Another new feature of this system is a more elaborate strategy for filtering the induced rules. Besides the translation lexicon and the transfer rule induction systems, we also implemented a MT module for validating the induced resources. The induced translation lexicons were evaluated intrinsically and the results obtained agree with those reported on the literature. The induced translation rules were evaluated directly and indirectly by the MT module, and improved the word-by-word translation in both directions (source--target and target--source) for the languages under study. The target sentences obtained by the induced resources were also compared to those generated by commercial systems, showing better results for Portuguese--Spanish than for Portuguese--English.
|
6 |
Indução de léxicos bilíngües e regras para a tradução automática / Induction of translation lexicons and transfer rules for machine translationHelena de Medeiros Caseli 21 May 2007 (has links)
A Tradução Automática (TA) -- tradução de uma língua natural (fonte) para outra (alvo) por meio de programas de computador -- é uma tarefa árdua devido, principalmente, à necessidade de um conhecimento lingüístico aprofundado das duas (ou mais) línguas envolvidas para a construção de recursos, como gramáticas de tradução, dicionários bilíngües etc. A escassez de recursos lingüísticos, e mesmo a dificuldade em produzi-los, geralmente são fatores limitantes na atuação dos sistemas de TA, restringindo-os, por exemplo, quanto ao domínio de aplicação. Neste contexto, diversos métodos vêm sendo propostos com o intuito de gerar, automaticamente, conhecimento lingüístico a partir dos recursos multilíngües e, assim, tornar a construção de tradutores automáticos menos trabalhosa. O projeto ReTraTos, apresentado neste documento, é uma dessas propostas e visa à indução automática de léxicos bilíngües e de regras de tradução a partir de corpora paralelos etiquetados morfossintaticamente e alinhados lexicalmente para os pares de idiomas português--espanhol e português--inglês. O sistema proposto para a indução de regras de tradução apresenta uma abordagem inovadora na qual os exemplos de tradução são divididos em blocos de alinhamento e a indução é realizada para cada bloco, separadamente. Outro fator inovador do sistema de indução é uma filtragem mais elaborada das regras induzidas. Além dos sistemas de indução de léxicos bilíngües e de regras de tradução, implementou-se também um módulo de tradução automática para permitir a validação dos recursos induzidos. Os léxicos bilíngües foram avaliados intrinsecamente e os resultados obtidos estão de acordo com os relatados na literatura para essa área. As regras de tradução foram avaliadas direta e indiretamente por meio do módulo de TA e sua utilização trouxe um ganho na tradução palavra-a-palavra em todos os sentidos (fonte--alvo e alvo--fonte) para a tradução dos idiomas em estudo. As traduções geradas com os recursos induzidos no ReTraTos também foram comparadas às geradas por sistemas comerciais, apresentando melhores resultados para o par de línguas português--espanhol do que para o par português--inglês. / Machine Translation (MT) -- the translation of a natural (source) language into another (target) by means of computer programs -- is a hard task, mainly due to the need of deep linguistic knowledge about the two (or more) languages required to build resources such as translation grammars, bilingual dictionaries, etc. The scarcity of linguistic resources or even the difficulty to build them often limits the use of MT systems, for example, to certain application domains. In this context, several methods have been proposed aiming at generating linguistic knowledge automatically from multilingual resources, so that building translation tools becomes less hard. The ReTraTos project presented in this document is one of these proposals and aims at inducing translation lexicons and transfer rules automatically from PoS-tagged and lexically aligned translation examples for Portuguese--Spanish and Portuguese--English language pairs. The rule induction system brings forth a new approach, in which translation examples are split into alignment blocks and induction is performed for each type of block separately. Another new feature of this system is a more elaborate strategy for filtering the induced rules. Besides the translation lexicon and the transfer rule induction systems, we also implemented a MT module for validating the induced resources. The induced translation lexicons were evaluated intrinsically and the results obtained agree with those reported on the literature. The induced translation rules were evaluated directly and indirectly by the MT module, and improved the word-by-word translation in both directions (source--target and target--source) for the languages under study. The target sentences obtained by the induced resources were also compared to those generated by commercial systems, showing better results for Portuguese--Spanish than for Portuguese--English.
|
7 |
Relevância da tradução de textos de português para inglês no processo de classificação binária de sentimento de postagens rápidas em redes sociais online.FARIAS, Evelyn de Souza. 15 May 2018 (has links)
Submitted by Kilvya Braga (kilvyabraga@hotmail.com) on 2018-05-15T12:03:49Z
No. of bitstreams: 1
EVELYN DE SOUZA FARIAS - DISSERTAÇÃO (PPGCC) 2016.pdf: 2171903 bytes, checksum: c6d0f3ccb5ecf6ba4f906222cd163982 (MD5) / Made available in DSpace on 2018-05-15T12:03:49Z (GMT). No. of bitstreams: 1
EVELYN DE SOUZA FARIAS - DISSERTAÇÃO (PPGCC) 2016.pdf: 2171903 bytes, checksum: c6d0f3ccb5ecf6ba4f906222cd163982 (MD5)
Previous issue date: 2016 / CNPq / A análise e mineração de opinião em dados de texto extraídos de redes sociais online tem ganhado bastante força nos últimos anos, tornando-se uma área muito pesquisada e difundida em todo o mundo. Entretanto, esses processos são dependentes do idioma dos dados escritos, sendo o inglês o mais estudado e, consequentemente, o idioma que abrange uma maior quantidade de técnicas e soluções. Nesse contexto, a obtenção de resultados globais nessas áreas de pesquisa torna-se bastante custosa em tempo, sendo assim, com o avanço dos tradutores automáticos de texto e a tradução de dados para o inglês ser utilizada por alguns autores, julgamos necessário analisar o impacto dessas traduções no processo de classificação de sentimento. Os experimentos realizados em nosso trabalho mostraram resultados satisfatórios em métricas de avaliação e comparados aos resultados obtidos em trabalhos de outros autores em experimentos semelhantes de tradução de dados de texto e classificação de polaridade de sentimento. Os sistemas de tradução automática utilizados em nosso trabalho apresentaram uma tendência de traduções equiparadamente eficientes, mostrando que esses sistemas evoluíram bastante nos últimos anos. Quanto à classificação de dados de texto traduzidos automaticamente podemos dizer que, a partir dos resultados obtidos, a tradução automática de texto pode apresentar bons resultados para alguns casos. Porém, há a necessidade de experimentação com volumes de dados de treino mais abrangentes nas duas línguas estudadas neste documento. / The sentiment analysis and opinion mining in text data extracted from online social media services has gained enough strength in recent years, making it an area very researched and disseminated worldwide. However, these processes are language dependent and the english language is the most studied one, covering a larger amount of techniques and solutions in the field. In this context, obtaining overall results in these research areas becomes quite time consuming, so with the advancement of automatic text translators and that data automatic translated to english is used by some authors, it is necessary to analyze the impact these automatic translations cost in a text classification process. The experiments performed in our study showed satisfactory results in evaluation metrics and compared to the results obtained in works by other authors in similar experiments using automatic translations of text data and sentiment polarity classification. The machine translation systems used in our study showed a trend of equally efficient translations, showing that these systems have evolved considerably in recent years. As for the automatically translated text data classification we can say that from the results obtained, automatic text translation can present good results in some scenarios and case studies. However, there is a need for experimentation with more comprehensive training data volumes in the two languages studied in this document.
|
8 |
Aperfeiçoamento de um tradutor automático Português-Inglês: tempos verbais / Development of a Portuguese-to-English machine translation system: tensesSilva, Lucia Helena Rozario da 03 August 2010 (has links)
Esta dissertação apresenta o aperfeiçoamento de um sistema de tradução automática português-inglês. Nosso objetivo principal é criar regras de transferência estrutural entre o par de línguas português e inglês e avaliar, através do uso da métrica de avaliação METEOR, o desempenho do sistema. Para isto, utilizamos um corpus teste criado especialmente para esta pesquisa. Tendo como ponto de partida a relevância de uma correta tradução para os tempos verbais de uma sentença, este trabalho priorizou a criação de regras que tratassem a transferência entre os tempos verbais do português brasileiro para o inglês americano. Devido ao fato de os verbos em português estarem distribuídos por três conjugações, criamos um corpus para cada uma dessas conjugações. O objetivo da criação desses corpora é verificar a aplicação das regras de transferência estrutural entre os tempos verbais em todas as três classes de conjugação. Após a criação dos corpora, mapeamos os tempos verbais em português no modo indicativo, subjuntivo e imperativo para os tempos verbais do inglês. Em seguida, iniciamos a construção das regras de transferência estrutural entre os tempos verbais mapeados. Ao final da construção das regras, submetemos os corpora obedecendo as três classes de conjugação à métrica de avaliação automática METEOR. Os resultados da avaliação do sistema após a inserção das regras apresentaram uma regressão quando comparado a avaliação do sistema no estágio inicial da pesquisa. Detectamos, através de análises dos resultados, que a métrica de avaliação automática METEOR não foi sensível às modificações feitas no sistema, embora as regras criadas sigam a gramática tradicional da língua portuguesa e estejam sendo aplicadas a todas as três classes de conjugação. Apresentamos em detalhes o conjunto de regras sintáticas e os corpora utilizados neste estudo, e que acreditamos serem de utilidade geral para quaisquer sistemas de tradução automática entre o português brasileiro e o inglês americano. Outra contribuição deste trabalho está em discutir os valores apresentados pela métrica METEOR e sugerir que novos ajustes sejam feitos a esses parâmetros utilizados pela métrica. / This dissertation presents the development of a Portuguese-to-English Machine Translation system. Our main objective is creating structural transfer rules between this pair of languages, and evaluate the performance of the system using the METEOR evaluation metric. Therefore, we developed a corpus to enable this study. Taking translation relevance as a starting point, we focused on verbal tenses and developed rules that dealt with transfer between verbal tenses from the Brazilian Portuguese to US English. Due to the fact that verbs in Portuguese are distributed in three conjugations, we created one corpus for each of these conjugations. The objective was to verify the application of structural transfer rules between verbal tenses in each conjugation class in isolation. After creating these corpora, we mapped the Portuguese verbal tenses in the indicative, subjunctive and imperative modes to English. Next, we constructed structural transfer rules to these mapped verbal tenses. After constructing these rules, we evaluated our corpora using the METEOR evaluation metric. The results of this evaluation showed lack of improvement after the insertion of these transfer rules, when compared to the initial stage of the system. We detected that the METEOR evaluation metric was not sensible to these modi_cations made to the system, even though they were linguistically sound and were being applied correctly to the sentences. We introduce in details the set of transfer rules and corpora used in this study, and we believe they are general enough to be useful in any rule-based Portuguese-to-English Machine Translation system. Another contribution of this work lies in the discussion of the results presented by the METEOR metric. We suggest adjustments to be made to its parameters, in order to make it more sensible to sentences variation such as those introduced by our rules.
|
9 |
Aperfeiçoamento de um tradutor automático Português-Inglês: tempos verbais / Development of a Portuguese-to-English machine translation system: tensesLucia Helena Rozario da Silva 03 August 2010 (has links)
Esta dissertação apresenta o aperfeiçoamento de um sistema de tradução automática português-inglês. Nosso objetivo principal é criar regras de transferência estrutural entre o par de línguas português e inglês e avaliar, através do uso da métrica de avaliação METEOR, o desempenho do sistema. Para isto, utilizamos um corpus teste criado especialmente para esta pesquisa. Tendo como ponto de partida a relevância de uma correta tradução para os tempos verbais de uma sentença, este trabalho priorizou a criação de regras que tratassem a transferência entre os tempos verbais do português brasileiro para o inglês americano. Devido ao fato de os verbos em português estarem distribuídos por três conjugações, criamos um corpus para cada uma dessas conjugações. O objetivo da criação desses corpora é verificar a aplicação das regras de transferência estrutural entre os tempos verbais em todas as três classes de conjugação. Após a criação dos corpora, mapeamos os tempos verbais em português no modo indicativo, subjuntivo e imperativo para os tempos verbais do inglês. Em seguida, iniciamos a construção das regras de transferência estrutural entre os tempos verbais mapeados. Ao final da construção das regras, submetemos os corpora obedecendo as três classes de conjugação à métrica de avaliação automática METEOR. Os resultados da avaliação do sistema após a inserção das regras apresentaram uma regressão quando comparado a avaliação do sistema no estágio inicial da pesquisa. Detectamos, através de análises dos resultados, que a métrica de avaliação automática METEOR não foi sensível às modificações feitas no sistema, embora as regras criadas sigam a gramática tradicional da língua portuguesa e estejam sendo aplicadas a todas as três classes de conjugação. Apresentamos em detalhes o conjunto de regras sintáticas e os corpora utilizados neste estudo, e que acreditamos serem de utilidade geral para quaisquer sistemas de tradução automática entre o português brasileiro e o inglês americano. Outra contribuição deste trabalho está em discutir os valores apresentados pela métrica METEOR e sugerir que novos ajustes sejam feitos a esses parâmetros utilizados pela métrica. / This dissertation presents the development of a Portuguese-to-English Machine Translation system. Our main objective is creating structural transfer rules between this pair of languages, and evaluate the performance of the system using the METEOR evaluation metric. Therefore, we developed a corpus to enable this study. Taking translation relevance as a starting point, we focused on verbal tenses and developed rules that dealt with transfer between verbal tenses from the Brazilian Portuguese to US English. Due to the fact that verbs in Portuguese are distributed in three conjugations, we created one corpus for each of these conjugations. The objective was to verify the application of structural transfer rules between verbal tenses in each conjugation class in isolation. After creating these corpora, we mapped the Portuguese verbal tenses in the indicative, subjunctive and imperative modes to English. Next, we constructed structural transfer rules to these mapped verbal tenses. After constructing these rules, we evaluated our corpora using the METEOR evaluation metric. The results of this evaluation showed lack of improvement after the insertion of these transfer rules, when compared to the initial stage of the system. We detected that the METEOR evaluation metric was not sensible to these modi_cations made to the system, even though they were linguistically sound and were being applied correctly to the sentences. We introduce in details the set of transfer rules and corpora used in this study, and we believe they are general enough to be useful in any rule-based Portuguese-to-English Machine Translation system. Another contribution of this work lies in the discussion of the results presented by the METEOR metric. We suggest adjustments to be made to its parameters, in order to make it more sensible to sentences variation such as those introduced by our rules.
|
10 |
Tradução grafema-fonema para a língua portuguesa baseada em autômatos adaptativos. / Grapheme-phoneme translation for portuguese based on adaptive automata.Shibata, Danilo Picagli 25 March 2008 (has links)
Este trabalho apresenta um estudo sobre a utilização de dispositivos adaptativos para realizar tradução texto-voz. O foco do trabalho é a criação de um método para a tradução grafema-fonema para a língua portuguesa baseado em autômatos adaptativos e seu uso em um software de tradução texto-voz. O método apresentado busca mimetizar o comportamento humano no tratamento de regras de tonicidade, separação de sílabas e as influências que as sílabas exercem sobre suas vizinhas. Essa característica torna o método facilmente utilizável para outras variações da língua portuguesa, considerando que essas características são invariantes em relação à localidade e a época da variedade escolhida. A variação contemporânea da língua falada na cidade de São Paulo foi escolhida como alvo de análise e testes neste trabalho. Para essa variação, o modelo apresenta resultados satisfatórios superando 95% de acerto na tradução grafema-fonema de palavras, chegando a 90% de acerto levando em consideração a resolução de dúvidas geradas por palavras que podem possuir duas representações sonoras e gerando uma saída sonora inteligível aos nativos da língua por meio da síntese por concatenação baseada em sílabas. Como resultado do trabalho, além do modelo para tradução grafema-fonema de palavras baseado em autômatos adaptativos, foi criado um método para escolha da representação fonética correta em caso de ambigüidade e foram criados dois softwares, um para simulação de autômatos adaptativos e outro para a tradução grafema-fonema de palavras utilizando o modelo de tradução criado e o método de escolha da representação correta. Esse último software foi unificado ao sintetizador desenvolvido por Koike et al. (2007) para a criação de um tradutor texto-voz para a língua portuguesa. O trabalho mostra a viabilidade da utilização de autômatos adaptativos como base ou como um elemento auxiliar para o processo de tradução texto-voz na língua portuguesa. / This work presents a study on the use of adaptive devices for text-to-speech translation. The work focuses on the development of a grapheme-phoneme translation method for Portuguese based on Adaptive Automata and the use of this method in a text-to-speech translation software. The presented method resembles human behavior when handling syllable separation rules, syllable stress definition and influences syllables have on each other. This feature makes the method easy to use with different variations of Portuguese, since these characteristics are invariants of the language. Portuguese spoken nowadays in São Paulo, Brazil has been chosen as the target for analysis and tests in this work. The method has good results for such variation of Portuguese, reaching 95% accuracy rate for grapheme-phoneme translation, clearing the 90% mark after resolution of ambiguous cases in which different representations are accepted for a grapheme and generating phonetic output intelligible for native speakers based on concatenation synthesis using syllables as concatenation units. As final results of this work, a model is presented for grapheme-phoneme translation for Portuguese words based on Adaptive Automata, a methodology to choose the correct phonetic representation for the grapheme in ambiguous cases, a software for Adaptive Automata simulation and a software for grapheme-phoneme translation of texts using both the model of translation and methodology for disambiguation. The latter software was unified with the speech synthesizer developed by Koike et al. (2007) to create a text-to-speech translator for Portuguese. This work evidences the feasibility of text-to-speech translation for Portuguese using Adaptive Automata as the main instrument for such task.
|
Page generated in 0.0902 seconds