Return to search

Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos

El objetivo general de todo sistema de Procesamiento del Lenguaje Natural (PLN) es el de obtener alguna representación del mensaje contenido de las frases. el tratamiento automático de una lengua es un problema de gran complejidad en el que intervienen diversas y complejas fuentes de conocimiento: fonética, morfología, sintaxis, semántica, pragmática, conocimiento del mundo, etc. Aunque en algunos casos estas fuentes de información se pueden considerar independientes, en general, presentan una interrelación, sin la cual, no se puede conseguir una correcta interprestación del significado y de la función de las palabras de una oración.
Debido a esta complejidad, para abordar el problema de comprensión de una lengua se suele seguir una de las siguientes vias: 1) Se resuelven ciertos subproblemas más sencillos que, en algunos casos, deben aportar simplificaciones para poder ser tratados de manera automática, tales como:análisis morfológico, etiquetado léxico de textos, análisis sintáctico superficial de oraciones ligamiento preposicional, sesambiguación del sentido de las palabras, tratamiento de fenómenos lingüistícos especificos como la anáfora, elipsis, etc. 2) se simplifica el lenguaje considerando tareas restringidasm en la talla del vocabulario, la complejidad de las estructuras sintácticas utilizadas o el dominio semántico de la aplicación.
Durante los últimos años podemos encontrar una gran cantidad de ejemplos que toman alguna de las vías comentadas. En reconocimiento del habla hay aplicaciones que se restringen a vocabularios acotados, sonsultas a bases de datos específicas, sistemas de diálogo sobre tareas concretas, etc. En otros campos, más directamente relacionados con el PLN, encontramos aplicaciones de traducción automática, extracción y recuperación de información, resúmenes de textos, etc, en las que, en mayor o menor medida, se restringen a dominios específicos para sonseguir resultados aceptables.
Por otra parte, el echo de disponer de grandes corpus de datos, textuales u orales, anotados con información lingüística de diferente naturaleza- información morfosintáctica, análisis sintáctico total o parcial, información semantica - junto con operativos, ha proporcionado la aparición y uso de aproximaciones inductivas o métodos basados en corpus, dentro del campo de la Lingüística Computacional, que aplicamos a diferentes tareas de PLN obtienen un alto grado de prestaciones.
Las aproximaciones inductivas, con o sin información estadística, resultan de gran interés para conseguir la desambiguación del Lenguaje Natural (LN) ya que, además de proporcionar resultados aceptables, utilizan modelos relativamente sencillos y sus parámetros se pueden estimar a partir de datos. Esto las hace especialmente atractivas, puesto que en el cambio de una tarea a otra, o incluso de lengua, se reduce substancialmente la intervención humana. No obstante, algunos casos de ambigüedad no pueden ser resueltos de esta forma y se debe recurrir a un experto humano para introducir, por ejemplo, ciertas reglas o restricciones que ayuden a su resolución. / Pla Santamaría, F. (2000). Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/5646

Identiferoai:union.ndltd.org:upv.es/oai:riunet.upv.es:10251/5646
Date23 June 2009
CreatorsPla Santamaría, Ferran
ContributorsPrieto Saez, Natividad, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació
PublisherUniversitat Politècnica de València
Source SetsUniversitat Politècnica de València
LanguageSpanish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/acceptedVersion
SourceRiunet
Rightshttp://rightsstatements.org/vocab/InC/1.0/, info:eu-repo/semantics/openAccess

Page generated in 0.0027 seconds