Esta dissertação relata o primeiro trabalho de pesquisa em alinhamento automático de textos paralelos envolvendo o português brasileiro (PB). Neste trabalho foram implementados cinco métodos de alinhamento sentencial automático bastante referenciados na literatura, incluindo métodos empíricos, lingüísticos e híbridos, avaliados com textos paralelos PB-inglês. Os resultados mostraram-se compatíveis com os relatados para outros pares de línguas, sendo que as maiores precisões (acima de 94%) foram obtidas em corpora sem ruídos (sem erros gramaticais e de tradução), conforme era esperado. Além disso, os resultados apontam muita semelhança no desempenho de todos os métodos, o que impossibilita a eleição de um deles como o melhor. Além da implementação dos métodos de alinhamento sentencial e dos corpora paralelos construídos para avaliá-los, outros recursos lingüísticos e computacionais de grande valor para as pesquisas em PLN foram gerados durante este trabalho. / As the first attempt at automatic parallel text alignment involving Brazilian Portuguese, in this research we implemented five well-known automatic sentence alignment methods, including empirical, linguistic and hybrid techniques, and evaluated them as applied to Brazilian Portuguese-English parallel texts. The results are in accordance with those reported for other pairs of languages, even in that highest precisions (above 94%) were obtained for corpora without noise (i.e. grammatical or translation errors), as expected. Furthermore, the results point to a virtual tie between the methods, it being impossible to elect one as the best. In addition to the implementations of those methods and the parallel corpora built to evaluate them, other linguistic and computational resources were built during this work which are of great value to PLN research.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-24112005-114727 |
Date | 10 April 2003 |
Creators | Helena de Medeiros Caseli |
Contributors | Maria das Graças Volpe Nunes, Sandra Maria Aluisio, Ariadne Maria Brito Rizzoni Carvalho |
Publisher | Universidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds