Global ETD Search

Return to search

Desarrollo de recursos léxicos multi-dialécticos para el quechua

Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de
ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas
de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este
tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación
es construir una WordNet (base de datos léxica) para las variedades quechua sureño,
central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS
tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló
información de los diccionarios y se creó corpus paralelo quechua - español, se implementó
un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado
en español para cada variedad de la lengua quechua y finalmente se creó un modelo de
etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de
la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.

http://hdl.handle.net/20.500.12404/24477

Algoritmos computacionales

Quechua--Estudio y enseñanza

Identifer	oai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:20.500.12404/24477
Date	13 March 2023
Creators	Melgarejo Vergara, Nelsi Belly
Contributors	Gómez Montoya, Héctor Erasmo
Publisher	Pontificia Universidad Católica del Perú, PE
Source Sets	Pontificia Universidad Católica del Perú
Language	Spanish
Detected Language	Spanish
Type	info:eu-repo/semantics/masterThesis
Format	application/pdf, application/pdf
Rights	info:eu-repo/semantics/openAccess, http://creativecommons.org/licenses/by-nc-sa/2.5/pe/

Page generated in 0.0021 seconds

Desarrollo de recursos léxicos multi-dialécticos para el quechua

Description

Links & Downloads

Tags

Additional Fields