Spelling suggestions: "subject:"lenguaje natural"" "subject:"lenguajes natural""
1 |
A Discourse-Aware Macroplanning Approach for Text Generation and BeyondVicente, Marta 16 December 2021 (has links)
El trabajo presentado en esta tesis se ha desarrollado dentro del área de generación de lenguaje natural (GLN), disciplina dedicada a investigar e implementar aplicaciones capaces de producir textos coherentes y comprensibles. Al estudiar el contexto de la disciplina, detectamos una carencia de enfoques que, sin requerir excesivos recursos, incorporasen mecanismos apropiados tanto para aprehender mejor el significado de la entrada, como para proporcionar un resultado más consistente y coherente, cuando la entrada del proceso es un texto conformado como discurso. Nuestra investigación se planteó como una propuesta orientada a subsanar este déficit, de modo que la idea de contribuir a la creación de sistemas de generación más adaptables ha constituido el motor del presente trabajo que, estando profundamente arraigado en el ámbito de la GLN, pretende también beneficiar a otras tareas más orientadas a la comprensión del lenguaje. Dado que el campo de GLN es extremadamente amplio, decidimos abordar un aspecto específico del proceso de generación. Nos centramos principalmente en una parte del proceso responsable de seleccionar y organizar el contenido que debe aparecer en la salida del sistema. Esta fase se conoce generalmente como macroplanificación. El núcleo de esta investigación se basa en la idea de que el proceso de generación debe estar estrechamente ligado, condicionado por el significado que emerge del texto como discurso. Así pues nuestro objetivo principal se centró en la definición de una metodología para la etapa de macroplanificación que, en primer lugar, aprovechara la información semántica y estructural del texto concebido como discurso y, en segundo lugar, permitiera su adaptación a múltiples escenarios (aplicaciones, dominios) sin un requisito elevado de recursos. Siguiendo este planteamiento, la hipótesis inicial de esta investigación establece que la explotación de la información semántica, también determinada por la estructura del discurso, tomada como base para diseñar una metodología de macroplanificación basada en datos (esto es, aprovechando las técnicas estadísticas), puede conducir a sistemas más flexibles, adaptables, equipados adecuadamente para proporcionar textos más coherentes y significativos. Nos alineamos en este sentido con una corriente de investigación que defiende que la incorporación del conocimiento estructural que procede del discurso deviene en una representación del discurso más completa y efectiva. Para lograr nuestro propósito, estudiamos y aplicamos una metodología basada en un tipo de modelos de lenguaje designados como modelos de lenguaje posicionales, capaces de capturar tanto información relevante como posicional. Mediante una serie de experimentos, analizamos su comportamiento y estudiamos cómo variaciones en su configuración nos permitían ejercer cierto control sobre la complejidad estructural de los resultados. Adaptamos la metodología a diferentes dominios y tareas dentro del campo de la GLN: generación de cuentos, creación de resúmenes extractivos y producción de titulares de noticias desde un enfoque abstractivo, con resultados positivos considerando tanto evaluaciones intrínsecas como extrínsecas, humanas y automáticas. Más aún, alejándonos del ámbito de la GLN, en línea con nuestros objetivos iniciales, quisimos comprobar que nuestro enfoque puede contribuir también a otras tareas del ámbito del procesamiento de lenguaje natural. Para ello, adaptamos nuestra metodología a un sistema destinado a detectar y clasificar titulares engañosos, con resultados que demuestran la conveniencia de emplear los principios establecidos a lo largo de la tesis para la resolución de la tarea de detección de postura o posicionamiento. Las posibilidades de aplicación de nuestro planteamiento son muy diversas y entrañan diferentes niveles de complejidad. Y si bien en el transcurso de nuestra investigación hemos detectado un número de limitaciones, también hemos identificado potenciales desarrollos. Ambos aspectos constituyen el núcleo de esta tesis y conforman la semilla de nuestros planes futuros, pues señalan nuevas fronteras para nuestro trabajo incluyendo, entre otras, la aplicación del enfoque presentado a diferentes lenguajes, la profundización en la dimensión pragmática del discurso y su incorporación, la hibridación de los modelos de lenguaje empleados con técnicas basadas en aprendizaje profundo o la incorporación de la metodología a otras tareas de comprensión del lenguaje, como la inferencia, la implicación textual o la búsqueda de respuestas. / Esta tesis ha sido financiada por la Generalitat Valenciana a través del contrato ACIF/2016/501 y la ayuda BEFPI/2018/070, así como los proyectos PROMETEOII/2014/001 y PROMETEO/2018/089. También ha participado en su financiación el Gobierno de España a través de los proyectos TIN2015-65100-R y RTI2018-094649-B-I00.
|
2 |
Revisión sistemática sobre la aplicación de ontologías de dominio en el análisis de sentimientoOlivares Poggi, César Augusto 26 November 2016 (has links)
El análisis de sentimiento es un área de creciente investigación en los campos
del procesamiento de lenguaje natural y la recuperación de información. En
los últimos años ha habido un aumento en la aplicación de técnicas semánticas
en el análisis de sentimiento, en particular con el apoyo de la aplicación de
ontologías de dominio. Sin embargo, en la literatura actual no se cuenta con
un estudio que reporte de manera sistemática los beneficios alcanzados con la
aplicación de ontologías de dominio al análisis de sentimiento. Esta revisión
sistemática tiene por objetivos realizar dicha síntesis, reportar el grado de
generalización de las investigaciones realizadas, verificar el aprovechamiento
de la riqueza expresiva de las ontologías de dominio y señalar el estado del
arte actual en la representación de las emociones humanas por medio de
ontologías de dominio en su aplicación al análisis de sentimiento.
Se identificó 9 distintos problemas del análisis del sentimiento a los que se
aplicó ontologías de dominio y un total de 22 beneficios de dicha aplicación.
Los beneficios más reportados son: (1) el soporte para una representación
estructurada de las opiniones y la vinculación de datos; (2) mayor precisión
y exhaustividad en la clasificación de la polaridad; y (3) soporte para la
representación de modelos emocionales.
Como investigación futura se sugiere profundizar en el empleo de ontologías
de dominios para analizar el sentimiento a nivel de conceptos, modelar el
proceso de análisis de sentimiento, estandarizar la elaboración de ontologías
de productos e integrar diversos modelos emocionales, así como aprovechar
mejor la expresividad semántica y capacidad de razonamiento de las ontologías
de dominio. / Tesis
|
3 |
Método de extracción e identificación de lugares del mundo real en textos en español del género literarioZevallos Franco, Melissa 04 June 2015 (has links)
En este proyecto de fin de carrera se ha escogido abarcar el tema de Turismo
Literario, resaltando principalmente la integración de una herramienta que ha existido
durante años, el libro, con las nuevas tecnologías de Reconocimiento de Entidades
Mencionadas (REM). Se propone implementar un método de extracción de lugares
que se encargue de procesar las obras literarias con la finalidad de identificar los
nombres de los lugares mencionados en dichos textos; para que éstos, finalmente,
sean validados en el mundo real con el apoyo de una librería de información
geográfica. Con el método implementado se va a obtener información, la cual puede
ser utilizada para la construcción de herramientas que permitan difundir y aprovechar
el Turismo Literario. Esta clase de turismo busca difundir los lugares reales que son
mencionados en las obras literarias Estos escenarios pueden ser parques,
restaurantes, pasajes, avenidas, entre otros lugares. / Tesis
|
4 |
Minado de Relaciones de Conflicto en la Cámara de DiputadosUribe Buzeta, Francisco Javier January 2008 (has links)
No description available.
|
5 |
Estudiando obras literarias con herramientas de procesamiento de lenguaje naturalGouron, Romain Víctor Olivier January 2017 (has links)
Ingeniero Civil Matemático / En los últimos años, el procesamiento de lenguaje natural (Natural Language Proces-sing, o NLP) ha experimentado importantes avances. Específicamente, en 2013, Google lanzó "word2vec", un algoritmo que propone, a partir de un corpus dado, una representación vecto-rial de las palabras que lo componen. Dicho algoritmo ha tenido un gran éxito principalmentepor dos razones: La primera es el bajo costo computacional de su entrenamiento que permitióun uso masivo, mientras que la segunda es la intuitiva topología inducida por la representación vectorial ilustrada por el popular ejemplo: word2vec("king") - word2vec("man") + word2vec("woman") = word2vec("queen")
En esta memoria, presentamos en un primer lugar un ejemplo ilustrativo del algoritmo "word2vec" mediante su implementación para determinar preguntas duplicadas en Quora, una competencia propuesta por el sitio Kaggle.com. Una vez familiarizados con el algoritmo, nos enfocamos en un problema más abierto que considera el análisis de 45 obras de literatura francesa. En particular, queremos atacar la siguiente pregunta: ¿cómo se puede definir una distancia entre dos libros? Después de haber preparado los libros con el propósito de poder usar el algoritmo, propondremos varios métodos originales para comparar pares de libros. Luego, nos interesará representar estas obras en un espacio, y determinar si dicha representación revela propiedades literarias de las obras consideradas tales como la paternidad o el estilo literario.
|
6 |
Selección de variables y descubrimiento causal a partir de textos de artículos periodísticosMaisonnave, Mariano 22 October 2021 (has links)
La existencia de relaciones o dependencias estadísticas en los datos (correlaciones) se puede estudiar mediante herramientas estadísticas que se han desarrollado en los últimos dos siglos. Sin embargo, una pregunta tan simple de formular como: “¿Existe un vínculo causal entre estas dos variables correlacionadas?'' presenta un desafío diferente que escapa a las respuestas que pueden brindar herramientas estadísticas clásicas, ya que, como se suele enseñar en todos los cursos de estadística: “correlación no es causalidad''. La necesidad por parte de la comunidad científica de responder preguntas causales (¿El fumar causa cáncer? ¿Este medicamento es efectivo para tratar esta enfermedad?, etc.) generó un esfuerzo para la creación de herramientas formales que permitan descubrir y cuantificar efectos causales. Algunos ejemplos son la técnica basada en la Causalidad de Granger (GC por sus siglas en inglés) y la técnica de descubrimiento de estructuras causales PC (que recibe el nombre por las iniciales de sus autores).
Por otro lado, existe un gran interés por parte de la comunidad de procesamiento de lenguaje natural (NLP por sus siglas en inglés) en el descubrimiento de relaciones causales a partir de textos. Sin embargo, la mayoría de los esfuerzos están enfocados en recuperar información causal ya explícita en el texto. Por ejemplo, en la siguiente frase sobre la crisis argentina del 2001: “Sucedió en el marco de una crisis mayor que se extendió entre 1998 y 2002, causada por una larga recesión que disparó una crisis humanitaria'' se tendría por objetivo extraer los dos vínculos causales que relacionan los tres eventos descritos (la recesión, una crisis económica y otra humanitaria). Estos trabajos, si bien tienen por objetivo el descubrimiento causal, utilizan herramientas más cercanas al área de NLP que a las herramientas usuales en la literatura sobre descubrimiento causal (tales como GC o PC).
Esta tesis propone un marco de trabajo (framework) en el que, a través de la utilización de herramientas como GC o PC, se plantea como objetivo el descubrimiento causal entre variables extraídas de textos de artículos periodísticos cuya relación causal no necesariamente está explícita en el texto. De este modo se obtiene una red causal, donde cada nodo es una variable relevante y cada arco un vínculo causal. Para alcanzar este objetivo primero se proponen soluciones al desafío de extraer y filtrar variables relevantes a partir de textos. Este problema se resuelve mediante el uso de dos enfoques tomados de NLP: (1) una técnica de pesaje de términos y (2) un modelo de detección de menciones de eventos en curso a partir de textos de artículos periodísticos. Se crea un conjunto de datos utilizando las variables extraídas usando estas herramientas de NLP ((1) y (2)). Este conjunto de datos es usado en el paso posterior de extracción de relaciones causales. Se estudian nueve técnicas de descubrimiento causal, y se lleva a cabo un estudio comparativo de la aplicación de las técnicas en más de sesenta conjuntos de datos sintéticos y en un conjunto de datos real de demanda de energía eléctrica. Finalmente, un caso de uso es presentado donde se aplican las mejores técnicas de descubrimiento causal sobre los conjuntos de datos de variables extraídas de los textos de artículos periodísticos, dando lugar así a una demostración completa de la funcionalidad del framework (extracción de variables de textos y descubrimiento causal a partir de las mismas).
Los resultados obtenidos muestran la gran flexibilidad del framework, permitiendo la combinación de variables de diferentes tipos, con diferentes procesos de construcción, posibilitando la extracción causal posterior. Más aún, dando evidencia que información no textual podría ser incorporada al framework (por ejemplo, precios de materias primas, precios de acciones de la bolsa, indicadores socioeconómicos, entre otros). Este framework permitiría a un experto partir de un dominio, que puede ser un conjunto de textos periodísticos sobre algún episodio del mundo real, y obtener de manera automática un conjunto de variables relevantes a ese dominio (de las cuales puede elegir visualizar solo algunas, o todas). Posteriormente, se le mostraría al experto un conjunto de vínculos causales extraídos de manera automática, que vincularía a las diferentes variables relevantes al dominio. El grafo causal resultante (variables y vínculos relevantes a un dominio) puede representar una herramienta de gran interés para permitir a un experto tener una visión procesada y resumida de las interdependencias, permitiéndole un mejor entendimiento del dominio o posibilitando sacar conclusiones o explicaciones sobre eventos que se sucedieron o están sucediendo.
Las primeras dos contribuciones de esta tesis están enfocadas en la propuesta de técnicas novedosas de NLP para la etapa de extracción de variables. En esta etapa se propone, primero, una herramienta nueva para pesaje de términos y estimación de puntajes de relevancia de términos asignados por usuarios. Segundo, se propone una tarea de NLP, de detección de eventos en curso (OED por sus siglas en inglés) para ser usados como variables en el framework. Se muestran los resultados de diferentes modelos para la tarea de OED, alcanzando un modelo superador con respecto a modelos existentes para tareas similares. Estas dos contribuciones permitieron la extracción de variables relevantes para ser usadas como nodos del grafo. Finalmente, la tercera contribución principal es la presentación de un análisis comparativo de nueve técnicas de extracción de causalidad y la posterior aplicación de las mejores para un ejemplo de un caso de uso del framework completo. / The existence of statistical relationships or dependencies in the data (correlations) can be studied using well-known statistical tools that have been developed over the last two centuries. However, a question as simple to pose as “Is there a causal link between these two correlated variables?'' entails a whole set of different challenges that escape from the answer that classical statistical tools can provide, since, as is usually taught in statistical courses: “correlation is not causation''.
The need by the scientific community to answers to causal questions (such as: “does smoking cause cancer?'' or “is this drug effective in treating this disease?'') generated an effort to create formal tools for detecting and quantifying causal effects. Some examples are the methods based on the Granger Causality (GC) test and the PC causal structure learning algorithm.
On the other hand, there is great interest from the natural language processing (NLP) community in discovering causal relationships from texts.
However, most efforts are focused on recovering causal information already explicit in the text.
For example, in the following sentence about the Argentine crisis of 2001: “It happened in the context of a bigger crisis that lasted between 1998 and 2002, caused by a long recession that triggered a humanitarian crisis'' the goal would be to extract the two causal links that relate the three events described (the recession, an economic crisis, and a humanitarian crisis).
In that literature, although the goal is also to detect causal relations, tools closer to the NLP field are used, instead of the usual tools in the literature of causal discovery (such as GC-based techniques or PC).
This thesis proposes a framework that aims at performing causal discovery between variables extracted from texts of newspaper articles using tools like GC and PC. In contrast to other approaches, the causal relationships do not need to be explicit in the texts.
Using this framework, a causal network is obtained, where each node is a relevant variable and each edge is a causal link.
To achieve this goal, the first challenge addressed is to extract and select relevant variables from texts.
This is achieved by the use of two NLP approaches: (1) a term weighting technique and (2) a model for detecting ongoing event mentions in news articles.
A data set is built using these two types of variables extracted from texts using these two NLP approaches ((1) and (2)).
This data set is used in the following stage of causal discovery.
Nine causal discovery techniques are analyzed, and a comparative study of the application of these techniques is carried out in sixty-four synthetic data sets and in one real-world electricity demand data set.
Finally, a use case is presented where the best causal discovery techniques are applied to the data sets of variables extracted from the texts of newspaper articles, thus giving rise to a complete demonstration of the functionality of the framework (extraction of text variables and causal discovery from them).
The results obtained show the great flexibility of the framework, which allows the combination of variables of different types (potentially with different generative processes), enabling the subsequent causal extraction.
Furthermore, they provide evidence that non-textual information could be incorporated into the framework (for example, commodity prices, stock prices, and socioeconomic indicators, among others).
This framework would allow an expert to start from a domain, which can be defined as a set of newspaper texts about some real-world episode, and automatically obtain a set of variables relevant to that domain (from which the expert could choose to visualize either a subset or the entire set).
Subsequently, the expert would be shown a set of causal links extracted automatically, linking the relevant variables of the domain.
The resulting causal graph (variables and edges relevant to a domain) can become a tool of great interest for an expert to process and summarize the variables and interdependencies in a domain, allowing a better understanding and making it possible to draw conclusions or find explanations for events that happened or are happening in the domain.
The first two contributions of this thesis are focused on the proposal of novel NLP techniques to be applied at the variable extraction stage.
First, a new tool for weighing terms and estimating relevance scores of terms assigned by users is proposed.
Secondly, an NLP task consisting of the detection of ongoing events (OED) from texts is proposed to use those events as variables in the framework.
The results for different instances of the OED task are shown, indicating that the model outperforms state-of-the-art models for similar tasks.
These two contributions allow the extraction of relevant variables to be used as nodes of the graph.
Finally, the third main contribution is the presentation of a comparative analysis of nine causality extraction techniques and the subsequent application of the best ones on a use case of the complete framework.
|
7 |
Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticosPla Santamaría, Ferran 23 June 2009 (has links)
El objetivo general de todo sistema de Procesamiento del Lenguaje Natural (PLN) es el de obtener alguna representación del mensaje contenido de las frases. el tratamiento automático de una lengua es un problema de gran complejidad en el que intervienen diversas y complejas fuentes de conocimiento: fonética, morfología, sintaxis, semántica, pragmática, conocimiento del mundo, etc. Aunque en algunos casos estas fuentes de información se pueden considerar independientes, en general, presentan una interrelación, sin la cual, no se puede conseguir una correcta interprestación del significado y de la función de las palabras de una oración.
Debido a esta complejidad, para abordar el problema de comprensión de una lengua se suele seguir una de las siguientes vias: 1) Se resuelven ciertos subproblemas más sencillos que, en algunos casos, deben aportar simplificaciones para poder ser tratados de manera automática, tales como:análisis morfológico, etiquetado léxico de textos, análisis sintáctico superficial de oraciones ligamiento preposicional, sesambiguación del sentido de las palabras, tratamiento de fenómenos lingüistícos especificos como la anáfora, elipsis, etc. 2) se simplifica el lenguaje considerando tareas restringidasm en la talla del vocabulario, la complejidad de las estructuras sintácticas utilizadas o el dominio semántico de la aplicación.
Durante los últimos años podemos encontrar una gran cantidad de ejemplos que toman alguna de las vías comentadas. En reconocimiento del habla hay aplicaciones que se restringen a vocabularios acotados, sonsultas a bases de datos específicas, sistemas de diálogo sobre tareas concretas, etc. En otros campos, más directamente relacionados con el PLN, encontramos aplicaciones de traducción automática, extracción y recuperación de información, resúmenes de textos, etc, en las que, en mayor o menor medida, se restringen a dominios específicos para sonseguir resultados aceptables.
Por otra parte, el echo de disponer de grandes corpus de datos, textuales u orales, anotados con información lingüística de diferente naturaleza- información morfosintáctica, análisis sintáctico total o parcial, información semantica - junto con operativos, ha proporcionado la aparición y uso de aproximaciones inductivas o métodos basados en corpus, dentro del campo de la Lingüística Computacional, que aplicamos a diferentes tareas de PLN obtienen un alto grado de prestaciones.
Las aproximaciones inductivas, con o sin información estadística, resultan de gran interés para conseguir la desambiguación del Lenguaje Natural (LN) ya que, además de proporcionar resultados aceptables, utilizan modelos relativamente sencillos y sus parámetros se pueden estimar a partir de datos. Esto las hace especialmente atractivas, puesto que en el cambio de una tarea a otra, o incluso de lengua, se reduce substancialmente la intervención humana. No obstante, algunos casos de ambigüedad no pueden ser resueltos de esta forma y se debe recurrir a un experto humano para introducir, por ejemplo, ciertas reglas o restricciones que ayuden a su resolución. / Pla Santamaría, F. (2000). Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/5646
|
8 |
Proposal of a Hybrid Approach for Natural Language Generation and its Application to Human Language TechnologiesBarros, Cristina 20 September 2019 (has links)
Actualmente, con el aumento y avance de las nuevas tecnologías, se está creando y promoviendo una simbiosis entre humanos y máquinas a través de la inteligencia colectiva y la fuerza de trabajo colaborativa. Esto está dando lugar a la nueva era de los ecosistemas digitales, donde la comunicación y la interacción hombre-máquina tiene que ser tan precisa y natural como sea posible. Dada la necesidad existente para facilitar este tipo de interacciones, queda patente que las tecnologías de lenguaje humano, encargadas de procesar el lenguaje humano de forma automática, tienen un papel clave. De entre las diversas subdisciplinas de las tecnologías de lenguaje humano, el área de la generación del lenguaje natural es capaz de producir lenguaje natural a partir de una entrada no lingüística y gracias a las características que ofrece, puede emplearse en diversos ámbitos como la meteorología, medicina etc. La tarea de la generación del lenguaje natural se divide en varias etapas, entre ellas las fases de macro planificación, micro planificación y realización. En la fase de macro planificación el objetivo es determinar qué queremos decir, para luego decidir cómo queremos decirlo en la fase de realización. Tradicionalmente una de las limitaciones de los sistemas de generación del lenguaje natural es que se han diseñado para dominios muy concretos y para un fin determinado, siendo el desarrollo de enfoques de dominio abierto y flexibles todavía un reto para la comunidad investigadora. En base a esto, esta tesis doctoral plantea una aproximación híbrida para la generación del lenguaje natural, la cual permitirá mejorar la calidad del texto producido, favoreciendo la independencia del dominio, del género textual y de la aplicación final donde se utilice. Con el fin de lograr este objetivo, se ha implementado HanaNLG, un enfoque flexible de generación centrado en la fase de realización, el cual, apoyándose en conocimientos estadísticos e información semántica, permite generar textos para diferentes dominios, géneros e idiomas guiados por la entrada.
|
9 |
Especificación de un sistema de aprendizaje de patrones de navegación web utilizando gramáticas libres de contexto probabilísticas de hipertextoCortez Vasquéz, Augusto Parcemón, Cortez Vasquéz, Augusto Parcemón January 2016 (has links)
Publicación a texto completo no autorizada por el autor / Presenta los fundamentos metodológicos del uso de lenguajes probabilistas para identificar sitios web más relevantes o visitados. Representa las sesiones web mediante grafos y gramáticas libres de contexto probabilísticos, de tal forma que las sesiones que tengan mayor probabilidad son consideradas las más visitadas o más preferidas, por tanto las más relevantes en relación a un tópico determinado. Realiza la especificación de una herramienta para el procesamiento de sesiones web obtenidas a partir del log de servidor representado mediante gramáticas probabilistas libres de contexto. / Tesis
|
10 |
Metodología, construcción y explotación de corpus anotados semántica y anafóricamenteNavarro Colorado, Borja 03 September 2007 (has links)
D.L. A 230-2008
|
Page generated in 0.0622 seconds