Return to search

Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares

Esta tesis propone una aproximación para la búsqueda e integración de datos en formato tabular. La novedad de la propuesta radica en el uso de modelos de lenguaje contextuales. Estos modelos han revolucionado el campo del procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, son pocas las aproximaciones que han utilizado estos modelos para trabajar con datos estructurados como son las tablas. Si bien existe alguna aproximación para la tarea de búsqueda de tablas, no existen en la actualidad aproximaciones que usen estos modelos en todo el proceso de búsqueda e integración a nivel de unión y combinación de datos. En este trabajo se hace una propuesta de adaptación de estos modelos de lenguaje, originalmente usados sobre datos no estructurados, para ser aplicados sobre datos estructurados. Durante el proceso se evaluará la efectividad de diferentes modelos existentes y se ajustarán sus parámetros de entrada para determinar la configuración más efectiva en la tarea. Además, se contrastarán los modelos contextuales con otros no contextuales, analizando el papel que tiene el contexto en el rendimiento del sistema. El trabajo incluye también un estudio para la mejora del rendimiento de estos sistemas mediante la eliminación de contenido. Para ello, se estudia cómo reducir el número de filas de las tablas afecta a la representación vectorial (word embedding) generada por el modelo de lenguaje. De esta manera se busca determinar la posibilidad de reducir tablas de gran tamaño sin perder representatividad en el espacio semántico que genera el modelo. Por último, la tesis concluye haciendo una propuesta de anotación de datos tabulares para conseguir un conjunto de datos que permita entrenar mejor este tipo de sistemas basado en técnicas de aprendizaje automático. Este apartado incluye un estudio piloto de anotación en el que se desarrolla un corpus inicial de tablas para el propósito indicado.

Identiferoai:union.ndltd.org:ua.es/oai:rua.ua.es:10045/133342
Date19 January 2023
CreatorsPilaluisa, José
ContributorsTomás, David, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
PublisherUniversidad de Alicante
Source SetsUniversidad de Alicante
LanguageSpanish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis
RightsLicencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, info:eu-repo/semantics/openAccess

Page generated in 0.0016 seconds