Global ETD Search

Return to search

Data augmentation and subword segmentation for spell-checking in amazonian languages

En el Perú se han identificado 48 lenguas originarias, según la información extraída
de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de
tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El
Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas
[Faust, 1973], como un primer intento para tener un documento formal para la
enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su
estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la
enseñanza de las lenguas originarias en su intento de normalizar el uso de estas
lenguas [Jara Males, Gonzales Acer, 2015].
Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite
obtener una normalidad, incremento de literatura, estandarización y mayor
visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos
[Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017],
enfocados en las lenguas originarias de escasos recursos computacionales que
pretenden apoyar el esfuerzo de revitalización, la educación indígena y la
documentación de las lenguas [Zariquiey et al., 2019].
Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes
neuronales para desarrollar un corrector ortográfico enfocado en las lenguas
originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al
disponer de poca cantidad de datos se generaron datos sintéticos con un método
aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016]
y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las
lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es
difícil representar palabras fuera del vocabulario, por lo que es recomendable usar
sub-palabras como término medio [Wu, Zhao, 2018].
El presente proyecto desarrolla distintos métodos de generación de datos, diferentes
al aleatorio, que son más robustos al considerar errores que son más cercanos a la
realidad. A su vez, para reducir el costo computacional y mantener la capacidad de
generar un vocabulario abierto, adicionalmente se entrena redes neuronales que
reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte
pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras
con los métodos y la segmentación propuesta y se tienen más recursos
computacionales para nuestras lenguas amazónicas.

http://hdl.handle.net/20.500.12404/20422

Lingüística computacional

Ortografía

Lenguas indígenas--Perú

Identifer	oai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:20.500.12404/20422
Date	24 September 2021
Creators	Alva Cohello, Carlo André
Contributors	Oncevay Marcos, Félix Arturo
Publisher	Pontificia Universidad Católica del Perú, PE
Source Sets	Pontificia Universidad Católica del Perú
Language	Spanish
Detected Language	Spanish
Type	info:eu-repo/semantics/masterThesis
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess, Atribución-CompartirIgual 2.5 Perú, http://creativecommons.org/licenses/by-sa/2.5/pe/

Page generated in 0.0014 seconds

Data augmentation and subword segmentation for spell-checking in amazonian languages

Description

Links & Downloads

Tags

Additional Fields