Global ETD Search

1	Revisión sistemática sobre la aplicación de ontologías de dominio en el análisis de sentimiento Olivares Poggi, César Augusto 26 November 2016 (has links) El análisis de sentimiento es un área de creciente investigación en los campos del procesamiento de lenguaje natural y la recuperación de información. En los últimos años ha habido un aumento en la aplicación de técnicas semánticas en el análisis de sentimiento, en particular con el apoyo de la aplicación de ontologías de dominio. Sin embargo, en la literatura actual no se cuenta con un estudio que reporte de manera sistemática los beneficios alcanzados con la aplicación de ontologías de dominio al análisis de sentimiento. Esta revisión sistemática tiene por objetivos realizar dicha síntesis, reportar el grado de generalización de las investigaciones realizadas, verificar el aprovechamiento de la riqueza expresiva de las ontologías de dominio y señalar el estado del arte actual en la representación de las emociones humanas por medio de ontologías de dominio en su aplicación al análisis de sentimiento. Se identificó 9 distintos problemas del análisis del sentimiento a los que se aplicó ontologías de dominio y un total de 22 beneficios de dicha aplicación. Los beneficios más reportados son: (1) el soporte para una representación estructurada de las opiniones y la vinculación de datos; (2) mayor precisión y exhaustividad en la clasificación de la polaridad; y (3) soporte para la representación de modelos emocionales. Como investigación futura se sugiere profundizar en el empleo de ontologías de dominios para analizar el sentimiento a nivel de conceptos, modelar el proceso de análisis de sentimiento, estandarizar la elaboración de ontologías de productos e integrar diversos modelos emocionales, así como aprovechar mejor la expresividad semántica y capacidad de razonamiento de las ontologías de dominio. / Tesis Ontología Emociones--Ontología Minería de datos
2	Método de extracción e identificación de lugares del mundo real en textos en español del género literario Zevallos Franco, Melissa 04 June 2015 (has links) En este proyecto de fin de carrera se ha escogido abarcar el tema de Turismo Literario, resaltando principalmente la integración de una herramienta que ha existido durante años, el libro, con las nuevas tecnologías de Reconocimiento de Entidades Mencionadas (REM). Se propone implementar un método de extracción de lugares que se encargue de procesar las obras literarias con la finalidad de identificar los nombres de los lugares mencionados en dichos textos; para que éstos, finalmente, sean validados en el mundo real con el apoyo de una librería de información geográfica. Con el método implementado se va a obtener información, la cual puede ser utilizada para la construcción de herramientas que permitan difundir y aprovechar el Turismo Literario. Esta clase de turismo busca difundir los lugares reales que son mencionados en las obras literarias Estos escenarios pueden ser parques, restaurantes, pasajes, avenidas, entre otros lugares. / Tesis Computación semántica Sistemas de información geográfica
3	Estudiando obras literarias con herramientas de procesamiento de lenguaje natural Gouron, Romain Víctor Olivier January 2017 (has links) Ingeniero Civil Matemático / En los últimos años, el procesamiento de lenguaje natural (Natural Language Proces-sing, o NLP) ha experimentado importantes avances. Específicamente, en 2013, Google lanzó "word2vec", un algoritmo que propone, a partir de un corpus dado, una representación vecto-rial de las palabras que lo componen. Dicho algoritmo ha tenido un gran éxito principalmentepor dos razones: La primera es el bajo costo computacional de su entrenamiento que permitióun uso masivo, mientras que la segunda es la intuitiva topología inducida por la representación vectorial ilustrada por el popular ejemplo: word2vec("king") - word2vec("man") + word2vec("woman") = word2vec("queen") En esta memoria, presentamos en un primer lugar un ejemplo ilustrativo del algoritmo "word2vec" mediante su implementación para determinar preguntas duplicadas en Quora, una competencia propuesta por el sitio Kaggle.com. Una vez familiarizados con el algoritmo, nos enfocamos en un problema más abierto que considera el análisis de 45 obras de literatura francesa. En particular, queremos atacar la siguiente pregunta: ¿cómo se puede definir una distancia entre dos libros? Después de haber preparado los libros con el propósito de poder usar el algoritmo, propondremos varios métodos originales para comparar pares de libros. Luego, nos interesará representar estas obras en un espacio, y determinar si dicha representación revela propiedades literarias de las obras consideradas tales como la paternidad o el estilo literario. Algoritmos computacionales Aprendizaje de máquina Word2vec
4	Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos Maisonnave, Mariano 22 October 2021 (has links) La existencia de relaciones o dependencias estadísticas en los datos (correlaciones) se puede estudiar mediante herramientas estadísticas que se han desarrollado en los últimos dos siglos. Sin embargo, una pregunta tan simple de formular como: “¿Existe un vínculo causal entre estas dos variables correlacionadas?'' presenta un desafío diferente que escapa a las respuestas que pueden brindar herramientas estadísticas clásicas, ya que, como se suele enseñar en todos los cursos de estadística: “correlación no es causalidad''. La necesidad por parte de la comunidad científica de responder preguntas causales (¿El fumar causa cáncer? ¿Este medicamento es efectivo para tratar esta enfermedad?, etc.) generó un esfuerzo para la creación de herramientas formales que permitan descubrir y cuantificar efectos causales. Algunos ejemplos son la técnica basada en la Causalidad de Granger (GC por sus siglas en inglés) y la técnica de descubrimiento de estructuras causales PC (que recibe el nombre por las iniciales de sus autores). Por otro lado, existe un gran interés por parte de la comunidad de procesamiento de lenguaje natural (NLP por sus siglas en inglés) en el descubrimiento de relaciones causales a partir de textos. Sin embargo, la mayoría de los esfuerzos están enfocados en recuperar información causal ya explícita en el texto. Por ejemplo, en la siguiente frase sobre la crisis argentina del 2001: “Sucedió en el marco de una crisis mayor que se extendió entre 1998 y 2002, causada por una larga recesión que disparó una crisis humanitaria'' se tendría por objetivo extraer los dos vínculos causales que relacionan los tres eventos descritos (la recesión, una crisis económica y otra humanitaria). Estos trabajos, si bien tienen por objetivo el descubrimiento causal, utilizan herramientas más cercanas al área de NLP que a las herramientas usuales en la literatura sobre descubrimiento causal (tales como GC o PC). Esta tesis propone un marco de trabajo (framework) en el que, a través de la utilización de herramientas como GC o PC, se plantea como objetivo el descubrimiento causal entre variables extraídas de textos de artículos periodísticos cuya relación causal no necesariamente está explícita en el texto. De este modo se obtiene una red causal, donde cada nodo es una variable relevante y cada arco un vínculo causal. Para alcanzar este objetivo primero se proponen soluciones al desafío de extraer y filtrar variables relevantes a partir de textos. Este problema se resuelve mediante el uso de dos enfoques tomados de NLP: (1) una técnica de pesaje de términos y (2) un modelo de detección de menciones de eventos en curso a partir de textos de artículos periodísticos. Se crea un conjunto de datos utilizando las variables extraídas usando estas herramientas de NLP ((1) y (2)). Este conjunto de datos es usado en el paso posterior de extracción de relaciones causales. Se estudian nueve técnicas de descubrimiento causal, y se lleva a cabo un estudio comparativo de la aplicación de las técnicas en más de sesenta conjuntos de datos sintéticos y en un conjunto de datos real de demanda de energía eléctrica. Finalmente, un caso de uso es presentado donde se aplican las mejores técnicas de descubrimiento causal sobre los conjuntos de datos de variables extraídas de los textos de artículos periodísticos, dando lugar así a una demostración completa de la funcionalidad del framework (extracción de variables de textos y descubrimiento causal a partir de las mismas). Los resultados obtenidos muestran la gran flexibilidad del framework, permitiendo la combinación de variables de diferentes tipos, con diferentes procesos de construcción, posibilitando la extracción causal posterior. Más aún, dando evidencia que información no textual podría ser incorporada al framework (por ejemplo, precios de materias primas, precios de acciones de la bolsa, indicadores socioeconómicos, entre otros). Este framework permitiría a un experto partir de un dominio, que puede ser un conjunto de textos periodísticos sobre algún episodio del mundo real, y obtener de manera automática un conjunto de variables relevantes a ese dominio (de las cuales puede elegir visualizar solo algunas, o todas). Posteriormente, se le mostraría al experto un conjunto de vínculos causales extraídos de manera automática, que vincularía a las diferentes variables relevantes al dominio. El grafo causal resultante (variables y vínculos relevantes a un dominio) puede representar una herramienta de gran interés para permitir a un experto tener una visión procesada y resumida de las interdependencias, permitiéndole un mejor entendimiento del dominio o posibilitando sacar conclusiones o explicaciones sobre eventos que se sucedieron o están sucediendo. Las primeras dos contribuciones de esta tesis están enfocadas en la propuesta de técnicas novedosas de NLP para la etapa de extracción de variables. En esta etapa se propone, primero, una herramienta nueva para pesaje de términos y estimación de puntajes de relevancia de términos asignados por usuarios. Segundo, se propone una tarea de NLP, de detección de eventos en curso (OED por sus siglas en inglés) para ser usados como variables en el framework. Se muestran los resultados de diferentes modelos para la tarea de OED, alcanzando un modelo superador con respecto a modelos existentes para tareas similares. Estas dos contribuciones permitieron la extracción de variables relevantes para ser usadas como nodos del grafo. Finalmente, la tercera contribución principal es la presentación de un análisis comparativo de nueve técnicas de extracción de causalidad y la posterior aplicación de las mejores para un ejemplo de un caso de uso del framework completo. / The existence of statistical relationships or dependencies in the data (correlations) can be studied using well-known statistical tools that have been developed over the last two centuries. However, a question as simple to pose as “Is there a causal link between these two correlated variables?'' entails a whole set of different challenges that escape from the answer that classical statistical tools can provide, since, as is usually taught in statistical courses: “correlation is not causation''. The need by the scientific community to answers to causal questions (such as: “does smoking cause cancer?'' or “is this drug effective in treating this disease?'') generated an effort to create formal tools for detecting and quantifying causal effects. Some examples are the methods based on the Granger Causality (GC) test and the PC causal structure learning algorithm. On the other hand, there is great interest from the natural language processing (NLP) community in discovering causal relationships from texts. However, most efforts are focused on recovering causal information already explicit in the text. For example, in the following sentence about the Argentine crisis of 2001: “It happened in the context of a bigger crisis that lasted between 1998 and 2002, caused by a long recession that triggered a humanitarian crisis'' the goal would be to extract the two causal links that relate the three events described (the recession, an economic crisis, and a humanitarian crisis). In that literature, although the goal is also to detect causal relations, tools closer to the NLP field are used, instead of the usual tools in the literature of causal discovery (such as GC-based techniques or PC). This thesis proposes a framework that aims at performing causal discovery between variables extracted from texts of newspaper articles using tools like GC and PC. In contrast to other approaches, the causal relationships do not need to be explicit in the texts. Using this framework, a causal network is obtained, where each node is a relevant variable and each edge is a causal link. To achieve this goal, the first challenge addressed is to extract and select relevant variables from texts. This is achieved by the use of two NLP approaches: (1) a term weighting technique and (2) a model for detecting ongoing event mentions in news articles. A data set is built using these two types of variables extracted from texts using these two NLP approaches ((1) and (2)). This data set is used in the following stage of causal discovery. Nine causal discovery techniques are analyzed, and a comparative study of the application of these techniques is carried out in sixty-four synthetic data sets and in one real-world electricity demand data set. Finally, a use case is presented where the best causal discovery techniques are applied to the data sets of variables extracted from the texts of newspaper articles, thus giving rise to a complete demonstration of the functionality of the framework (extraction of text variables and causal discovery from them). The results obtained show the great flexibility of the framework, which allows the combination of variables of different types (potentially with different generative processes), enabling the subsequent causal extraction. Furthermore, they provide evidence that non-textual information could be incorporated into the framework (for example, commodity prices, stock prices, and socioeconomic indicators, among others). This framework would allow an expert to start from a domain, which can be defined as a set of newspaper texts about some real-world episode, and automatically obtain a set of variables relevant to that domain (from which the expert could choose to visualize either a subset or the entire set). Subsequently, the expert would be shown a set of causal links extracted automatically, linking the relevant variables of the domain. The resulting causal graph (variables and edges relevant to a domain) can become a tool of great interest for an expert to process and summarize the variables and interdependencies in a domain, allowing a better understanding and making it possible to draw conclusions or find explanations for events that happened or are happening in the domain. The first two contributions of this thesis are focused on the proposal of novel NLP techniques to be applied at the variable extraction stage. First, a new tool for weighing terms and estimating relevance scores of terms assigned by users is proposed. Secondly, an NLP task consisting of the detection of ongoing events (OED) from texts is proposed to use those events as variables in the framework. The results for different instances of the OED task are shown, indicating that the model outperforms state-of-the-art models for similar tasks. These two contributions allow the extraction of relevant variables to be used as nodes of the graph. Finally, the third main contribution is the presentation of a comparative analysis of nine causality extraction techniques and the subsequent application of the best ones on a use case of the complete framework. Causalidad Ciencias de la computación Procesamiento de lenguaje natural Pesaje de términos Detección de eventos
5	Especificación de un sistema de aprendizaje de patrones de navegación web utilizando gramáticas libres de contexto probabilísticas de hipertexto Cortez Vasquéz, Augusto Parcemón, Cortez Vasquéz, Augusto Parcemón January 2016 (has links) Publicación a texto completo no autorizada por el autor / Presenta los fundamentos metodológicos del uso de lenguajes probabilistas para identificar sitios web más relevantes o visitados. Representa las sesiones web mediante grafos y gramáticas libres de contexto probabilísticos, de tal forma que las sesiones que tengan mayor probabilidad son consideradas las más visitadas o más preferidas, por tanto las más relevantes en relación a un tópico determinado. Realiza la especificación de una herramienta para el procesamiento de sesiones web obtenidas a partir del log de servidor representado mediante gramáticas probabilistas libres de contexto. / Tesis Lingüística computacional Procesamiento del lenguaje natural Páginas Web Buscadores en sitios Web
6	Metodología, construcción y explotación de corpus anotados semántica y anafóricamente Navarro Colorado, Borja 03 September 2007 (has links) D.L. A 230-2008 Procesamiento del lenguaje natural Corpus anotado Semántica léxica Anáfora Resolución de la ambigüedad semántica Lenguajes y Sistemas Informáticos
7	Modelo computacional de minería de microblogs para el análisis del comportamiento del consumidor de telefonía celular Apaza Delgado, Santiago Hernán 26 November 2016 (has links) Los mensajes de Twitter están siendo cada vez más usados para determinar el sentimiento de los consumidores de servicios o productos. Para ello se hacen uso de diversas técnicas computacionales, desde las tradicionales adaptadas de problemas de clasificación de textos y las recientes que usan modelos de aprendizaje de máquina. En ambos enfoques se debe desarrollar una serie de etapas que van desde el pre–procesamiento hasta la evaluación. El presente documento muestra el resultado del proceso de aplicación de diversas técnicas de Análisis de Sentimiento para poder asignar una polaridad positiva, negativa o neutral a los tweets de los consumidores de telefonía celular en el Perú, con la finalidad de poder identificar cual es el comportamiento que presentan los clientes de las empresas de telefonía celular representado en opiniones vertidas en la red social Twitter. Para ello se extrajeron 26,917,539 publicaciones de la red social Twiter durante 2 periodos, cada uno de 30 días. Estas publicaciones corresponden a los tweets de los seguidores de tres empresas de telefonía celular en el Perú, incluyendo una relativamente nueva en el mercado peruano. El procedimiento seguido comprendió las siguientes tareas: a) Recolección de tweets de los seguidores de las empresas de telefonía celular; b) Pre–procesamiento de la data obtenida para poder identificar elementos importantes de cada tweet; c) Filtrado de elementos poco relevantes, o ruido; y d) Clasificación de cada publicación basado en las características obtenidas en etapas previas. Los resultados obtenidos nos muestran que la introducción de un diccionario de lexicones incrementó el número de términos que pueden ser considerados para la clasificación. Así mismo, el uso de este diccionario al cual se le aumento nuevos términos permitió incrementar la tasa de clasificación en un 0,75%. Finalmente, gracias a estas técnicas de análisis de sentimiento, es posible explotar el contenido de redes sociales de manera que puedan servir a las corporaciones para la toma de decisiones, especialmente de servicio a sus usuarios. / Tesis Emociones--Ontología Telefonía celular--Redes sociales Redes sociales--Minería de datos
8	Comprensión y generación de lenguaje natural en un sistema de diálogo usando inteligencia artificial para servicios telefónicos de información de cines Mesones Barrón, Carlos Enrique 09 May 2011 (has links) El presente documento es resultado de la investigación sobre automatización inteligente - comprensión y generación de lenguaje natural- en un Sistema de Diálogo, para optimar el servicio de atención al cliente actualmente brindado por un operador vía telefónica. / Tesis Inteligencia artificial Lingüística computacional Servicios al cliente
9	Resolución de la ambigüedad semántica mediante métodos basados en conocimiento y su aportación a tareas de PLN Vázquez, Sonia 27 April 2009 (has links) No description available. Procesamiento del lenguaje natural Desambiguación automática Lexicografía computacional Tecnologías del lenguaje humano Lenguajes y Sistemas Informáticos
10	Resolución de información temporal y su aplicación a la búsqueda de respuestas Saquete Boró, Estela 14 June 2005 (has links) Cofinanciado por el Gobierno de España (CICyT) con los proyectos número TIC2000-0664-C02-02 y número TIC2003-07158-C04-01, y el Gobierno de la Comunidad Valenciana (OCyT) con el proyecto número CTIDIB-2002-151. Procesamiento del lenguaje natural Sistema automático Expresiones temporales Búsqueda de respuestas Lenguajes y Sistemas Informáticos

Search results