Global ETD Search

Return to search

Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia

De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica. / Tesis

http://hdl.handle.net/20.500.12404/16265

Lingüística computacional

Lenguas indígenas--Perú

Redes neuronales

Ortografía

Identifer	oai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:20.500.12404/16265
Date	26 May 2020
Creators	Lara Avila, César Jesús
Contributors	Oncevay Marcos, Félix Arturo
Publisher	Pontificia Universidad Católica del Perú, PE
Source Sets	Pontificia Universidad Católica del Perú
Language	Spanish
Detected Language	Spanish
Type	info:eu-repo/semantics/masterThesis
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess, http://creativecommons.org/licenses/by-nc-sa/2.5/pe/

Page generated in 0.0019 seconds

Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia

Description

Links & Downloads

Tags

Additional Fields