Global ETD Search

Return to search

Ecosistema para el Descubrimiento de Conocimiento en Lenguaje Natural

La creciente cantidad de información publicada en línea presenta un reto significativo para la comunidad científica. La disponibilidad de estos recursos permite acelerar las investigaciones en múltiples ramas de la ciencia, al conectar resultados de diferentes grupos de investigadores. Sin embargo, el volumen de información producido es imposible de procesar por humanos en su totalidad, por lo que la comunidad científica desperdicia tiempo y recursos en redescubrir los mismos resultados, debido a la falta de comunicación. La aplicación de técnicas de inteligencia artificial permite construir sistemas computacionales que ayuden a los investigadores a buscar, analizar y conectar la información existente en grandes volúmenes de datos. Este proceso se denomina descubrimiento automático de conocimiento y es una rama de investigación con un creciente interés. El dominio de la salud es uno de los escenarios en los que el descubrimiento de conocimiento automático puede producir un mayor impacto en beneficio de la sociedad. La reciente pandemia de COVID-19 es un ejemplo donde la producción de artículos científicos ha superado con creces la capacidad de la comunidad científica para asimilarlos. Para mitigar este fenómeno se han publicado recursos lingüísticos que permitan construir sistemas de descubrimiento automático de conocimiento. Sin embargo, el descubrimiento de conocimiento requiere no solo de recursos lingüísticos, sino que necesita recursos computacionales e infraestructura disponibles para evaluar los resultados sistemáticamente y comparar objetivamente enfoques alternativos. Este trabajo describe un ecosistema que facilita la investigación y el desarrollo en el descubrimiento de conocimiento en el dominio biomédico, específicamente en idioma español, aunque puede ser extendido a otros dominios e idiomas. Con este fin, se desarrollan y comparten varios recursos con la comunidad investigadora, incluido un nuevo modelo de anotación semántica, cuatro corpus con más de 3000 oraciones y 40,000 anotaciones semánticas realizadas manualmente, así como recursos computacionales para construir y evaluar técnicas de descubrimiento automático de conocimiento. Entre estos recursos se ofrecen implementaciones baseline de algoritmos de descubrimiento de conocimiento que sirvan de base para construir soluciones más avanzadas. Además, se define una tarea de investigación con criterios de evaluación objetivos y se configura y mantiene un entorno de evaluación en línea que permite a los investigadores interesados en esta tarea obtener retroalimentación inmediata y comparar sus resultados con el estado del arte. Como caso de estudio, se analizan los resultados de varios equipos de investigadores en cuatro ediciones consecutivas de un desafío competitivo organizado en base a estos recursos. A partir de las experiencias obtenidas durante el proceso de anotación manual se diseña una estrategia de anotación asistida que permite reducir considerablemente el tiempo de anotación humano. El enfoque ayuda a los anotadores humanos seleccionando inteligentemente las oraciones más informativas para anotar y luego pre-anotarlas con algunas entidades y relaciones semánticas altamente precisas. Esta estrategia se evalúa en los corpus desarrollados en esta investigación, y se publica en forma de una herramienta computacional disponible para la comunidad científica. El ecosistema construido proporciona un entorno de aprendizaje y evaluación eficaz para fomentar la investigación en el descubrimiento de conocimientos tanto en documentos de contenido biomédico como en otros dominios. Los corpus anotados pueden ser utilizados para entrenar y evaluar sistemas computacionales de descubrimiento de conocimiento, y compararse con el estado del arte de forma automática. Así mismo, las herramientas computacionales desarrolladas pueden servir para construir nuevos sistemas y para crear nuevos recursos lingüísticos en otros idiomas o dominios. Todos los recursos desarrollados en esta investigación están disponibles públicamente para su uso por la comunidad científica (https://ehealthkd.github.io).

http://hdl.handle.net/10045/121570

Procesamiento de Lenguaje Natural

Corpus

Ontologías

Aprendizaje Automático

Descubrimiento de Conocimiento

Lenguajes y Sistemas Informáticos

Identifer	oai:union.ndltd.org:ua.es/oai:rua.ua.es:10045/121570
Date	16 December 2021
Creators	Piad-Morffis, Alejandro
Contributors	Gutiérrez, Yoan, Almeida-Cruz, Yudivian, Muñoz, Rafael, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Instituto Universitario de Investigación Informática
Publisher	Universidad de Alicante
Source Sets	Universidad de Alicante
Language	Spanish
Detected Language	Spanish
Type	info:eu-repo/semantics/doctoralThesis
Rights	Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, info:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds

Ecosistema para el Descubrimiento de Conocimiento en Lenguaje Natural

Description

Links & Downloads

Tags

Additional Fields