Generación de corpus paralelos para la implementación de un traductor automático estadístico entre shipibo-konibo y español

Actualmente, existe información que debe estar disponible para todos los habitantes de
nuestro país, tales como textos educativos, leyes y noticias. Sin embargo, a pesar que el Perú es un
país multilingüe, la mayoría de textos se encuentran redactados únicamente en español. Una de las
razones por las que no se traducen estos textos a otras lenguas habladas en nuestro país es porque
el proceso es costoso y requiere de mucho tiempo. Por este motivo se propone desarrollar un
traductor automático basado en colecciones de textos, también llamados corpus, que utilice
métodos estadísticos y pueda servir de apoyo una plataforma de software de traducción automática
de texto entre el español y el shipibo-konibo.
Para implementar un método estadístico, es necesario contar con corpus paralelos en los
idiomas a traducir. Esto representa un problema, pues existen muy pocos textos escritos en shipibokonibo,
y la mayoría de estos no cuenta con una traducción al español. Por este motivo es necesario
construir corpus paralelos en base a dos procesos: la traducción de textos del shipibo-konibo al
español (y viceversa) y la alineación semi-automática de los textos bilingües disponibles. Con los
corpus paralelos obtenidos, se puede entrenar y validar un traductor automático, a fin de encontrar
los parámetros que generan las mejores traducciones. Además, en base a los resultados obtenidos,
se determinará la etapa en la que el traductor estadístico se integrará a la plataforma de software de
traducción automática que será implementada por investigadores del Grupo de Reconocimiento de
Patrones e Inteligencia Artificial Aplicada (GRPIAA) y el departamento de lingüística de la PUCP. / Tesis

Identiferoai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:123456789/8325
Date31 March 2017
CreatorsGalarreta Asian, Ana Paula
ContributorsMelgar Sasieta, Héctor Andrés, Oncevay Marcos, Félix Arturo
PublisherPontificia Universidad Católica del Perú
Source SetsPontificia Universidad Católica del Perú
LanguageSpanish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/masterThesis
Formatapplication/pdf
SourcePontificia Universidad Católica del Perú, Repositorio de Tesis - PUCP
Rightsinfo:eu-repo/semantics/embargoedAccess, Atribución-NoComercial-SinDerivadas 2.5 Perú, http://creativecommons.org/licenses/by-nc-nd/2.5/pe/

Page generated in 0.0027 seconds