Este proyecto tiene como objetivo el desarrollo de una base de datos léxica basada en
sinonimia (mejor conocida como WordNet) para la lengua Shipibo-Konibo. Se trabajó
con el fin de generar recursos electrónicos para esta lengua que a pesar de ser la segunda
más hablada en la amazonia posee escasos recursos lingüísticos. Se contó con el apoyo
de lingüistas y un hablante nativo de Shipibo-Konibo durante el proceso de desarrollo y
para la validación del mismo.
Como base se usó un diccionario escaneado en Shipibo-Konibo y la WordNet en
español disponible a través de Internet. Para que la lectura del diccionario fuera posible,
se desarrolló un algoritmo con este fin, el cual separaba las palabras del diccionario y
las guardaba de forma ordenada en una base de datos. Entre los datos guardados por
cada término se encuentran sentidos, glosa en español, categoría gramatical y ejemplos
de uso.
Una vez que ya se disponía de la base de datos del diccionario, este se usó como entrada
para el algoritmo de creación de la WordNet en Shipibo-Konibo. Este algoritmo
consiste en tomar la glosa y ejemplos de uso de cada sentido de cada término del
diccionario y compararla con todos los synsets de la WordNet en español para
determinar con cual se encuentra más relacionado. Esto se calcula en base al modelo
Word2Vec el cual es usado para agrupar palabras detectando similitudes en los vectores
que las representan matemáticamente. Realizado el cálculo, está relación es guardada en
una base de datos, una vez que se completa el algoritmo la base de datos resultante es la
WordNet.
También se implementó una interfaz web de consulta así hacer posible el acceso a
cualquier usuario. Este recurso es muy útil para facilitar tareas como la desambiguación,
extracción de información y traducción automática gracias a la flexibilidad en las
búsquedas. Al tener un carácter multilingüe, la WordNet ayudará no solo a preservar
sino también expandir el alcance y la posibilidad de integrar a la lengua con otras
personas interesadas
Identifer | oai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:20.500.12404/20956 |
Date | 24 November 2021 |
Creators | Maguiño Valencia, Diego Arturo |
Contributors | Oncevay Marcos, Félix Arturo |
Publisher | Pontificia Universidad Católica del Perú, PE |
Source Sets | Pontificia Universidad Católica del Perú |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/bachelorThesis |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess, Atribución-NoComercial 2.5 Perú, http://creativecommons.org/licenses/by-nc/2.5/pe/ |
Page generated in 0.032 seconds