Global ETD Search

21	Advances in Fully-Automatic and Interactive Phrase-Based Statistical Machine Translation Ortiz Martínez, Daniel 14 October 2011 (has links) This thesis presents different contributions in the fields of fully-automatic statistical machine translation and interactive statistical machine translation. In the field of statistical machine translation there are three problems that are to be addressed, namely, the modelling problem, the training problem and the search problem. In this thesis we present contributions regarding these three problems. Regarding the modelling problem, an alternative derivation of phrase-based statistical translation models is proposed. Such derivation introduces a set of statistical submodels governing different aspects of the translation process. In addition to this, the resulting submodels can be introduced as components of a log-linear model. Regarding the training problem, an alternative estimation technique for phrase-based models that tries to reduce the strong heuristic component of the standard estimation technique is proposed. The proposed estimation technique considers the phrase pairs that compose the phrase model as part of complete bisegmentations of the source and target sentences. We theoretically and empirically demonstrate that the proposed estimation technique can be efficiently executed. Experimental results obtained with the open-source THOT toolkit also presented in this thesis, show that the alternative estimation technique obtains phrase models with lower perplexity than those obtained by means of the standard estimation technique. However, the reduction in the perplexity of the model did not allow us to obtain improvements in the translation quality. To deal with the search problem, we propose a search algorithm which is based on the branch-and-bound search paradigm. The proposed algorithm generalises different search strategies that can be accessed bymodifying the input parameters. We carried out experiments to evaluate the performance of the proposed search algorithm. / Ortiz Martínez, D. (2011). Advances in Fully-Automatic and Interactive Phrase-Based Statistical Machine Translation [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/12127 / Palancia Informática Traducción automática Reconocimiento de formas Procesamiento de lenguaje natural LENGUAJES Y SISTEMAS INFORMATICOS
22	Análisis de sentimiento en información de medios periodísticos y redes sociales mediante redes neuronales recurrentes Zarate Calderon, Gabriel Helard 06 February 2022 (has links) El análisis de sentimiento es un área de investigación importante en el procesamiento de lenguaje natural, la cual está en constante crecimiento especialmente por la generación de grandes volúmenes de información textual, y el avance tecnológico en lo que se refiere al almacenamiento y los algoritmos inteligentes para el análisis de esta. Esta tarea cada vez va tomando más fuerza su uso en diferentes aplicaciones computacionales dado el crecimiento exponencial del uso de medios digitales y redes sociales, las cuales, gracias a la información debidamente procesada, pueden ser muy valiosas para los negocios. Actualmente existen procedimientos ambiguos para la realización de dicha tarea y sobre todo para textos en español y de manera específica para notas periodísticas y publicaciones realizadas en redes sociales, todo ello por el hecho de la escasa cantidad de herramientas existentes para la presente tarea, por ende el proceso de clasificación de las polaridades de los sentimientos expresadas en los textos se realiza de manera manual por expertos en el tema, generándose así resultados ambiguos y sesgados según la experiencia del encargado, lo cual generaba resultados que no eran del todo fiables retándole valor a dicha tarea, además del hecho de que realizarlo de manera totalmente manual resultaba muy pesado y se realizaba en un periodo largo de tiempo. Para la realización de dicha tarea existen múltiples técnicas de aprendizaje de máquina y de aprendizaje profundo que son adecuadas para este, pero en el último año uno de los modelos que va siendo reconocido cada vez más para ser aplicado a resolver problemas de procesamiento de lenguaje natural son los modelos basados en transformers dadas sus buenas capacidades y los resultados que se obtienen con estos. Ante dicha problemática surge la necesidad de investigar más acerca de cómo se vienen implementando soluciones para la realización de análisis de sentimiento para hacer una comparativa sobre los modelos usados y además dadas las buenas capacidades de los modelos basados en transformers investigar más a fondo la utilidad de estos y las aplicaciones que tiene para así comprobar sus buenas capacidades. Aprendizaje profundo Emociones--Ontología
23	Tackling the Challenge of Emotion Annotation in Text Canales Zaragoza, Lea 19 July 2018 (has links) La creación de un conjunto de datos etiquetas para el Reconocimiento de Emociones (RE) en texto no es trivial, ya que la detección de emociones en texto puede ser difícil incluso para los seres humanos, porque los contextos personales de cada persona pueden influir en la interpretación de las emociones. Muchas de las investigaciones llevadas a cabo hasta el momento, han mostrado las dificultades relacionadas con esta tarea, como: la detección de un buen acuerdo entre anotadores o el tiempo necesario para su desarrollo. Teniendo en cuenta estas dificultades y con el fin de disminuir y contrarrestar el desafío de la anotación de emociones, esta disertación abarca el análisis de diferentes aproximaciones semiautomáticas con el objetivo de mejorar la anotación de emociones en texto escrito. Más específicamente, se han investigado dos técnicas cuya usabilidad y efectividad has sido demostrada en otras tareas de Procesamiento del Lenguaje Natural (PLN): bootstrapping basado en Intensional Learning y un proceso de pre-anotación. Nos centramos en la anotación de emociones en texto escrito en Inglés para cualquier género textual, a nivel de oraciones y empleando un conjunto de categorías emocionales como etiquetas. Procesamiento del Lenguaje Natural Tecnologías del Lenguaje Humano Análisis de Sentimientos Lenguajes y Sistemas Informáticos
24	Ecosistema para el Descubrimiento de Conocimiento en Lenguaje Natural Piad-Morffis, Alejandro 16 December 2021 (has links) La creciente cantidad de información publicada en línea presenta un reto significativo para la comunidad científica. La disponibilidad de estos recursos permite acelerar las investigaciones en múltiples ramas de la ciencia, al conectar resultados de diferentes grupos de investigadores. Sin embargo, el volumen de información producido es imposible de procesar por humanos en su totalidad, por lo que la comunidad científica desperdicia tiempo y recursos en redescubrir los mismos resultados, debido a la falta de comunicación. La aplicación de técnicas de inteligencia artificial permite construir sistemas computacionales que ayuden a los investigadores a buscar, analizar y conectar la información existente en grandes volúmenes de datos. Este proceso se denomina descubrimiento automático de conocimiento y es una rama de investigación con un creciente interés. El dominio de la salud es uno de los escenarios en los que el descubrimiento de conocimiento automático puede producir un mayor impacto en beneficio de la sociedad. La reciente pandemia de COVID-19 es un ejemplo donde la producción de artículos científicos ha superado con creces la capacidad de la comunidad científica para asimilarlos. Para mitigar este fenómeno se han publicado recursos lingüísticos que permitan construir sistemas de descubrimiento automático de conocimiento. Sin embargo, el descubrimiento de conocimiento requiere no solo de recursos lingüísticos, sino que necesita recursos computacionales e infraestructura disponibles para evaluar los resultados sistemáticamente y comparar objetivamente enfoques alternativos. Este trabajo describe un ecosistema que facilita la investigación y el desarrollo en el descubrimiento de conocimiento en el dominio biomédico, específicamente en idioma español, aunque puede ser extendido a otros dominios e idiomas. Con este fin, se desarrollan y comparten varios recursos con la comunidad investigadora, incluido un nuevo modelo de anotación semántica, cuatro corpus con más de 3000 oraciones y 40,000 anotaciones semánticas realizadas manualmente, así como recursos computacionales para construir y evaluar técnicas de descubrimiento automático de conocimiento. Entre estos recursos se ofrecen implementaciones baseline de algoritmos de descubrimiento de conocimiento que sirvan de base para construir soluciones más avanzadas. Además, se define una tarea de investigación con criterios de evaluación objetivos y se configura y mantiene un entorno de evaluación en línea que permite a los investigadores interesados en esta tarea obtener retroalimentación inmediata y comparar sus resultados con el estado del arte. Como caso de estudio, se analizan los resultados de varios equipos de investigadores en cuatro ediciones consecutivas de un desafío competitivo organizado en base a estos recursos. A partir de las experiencias obtenidas durante el proceso de anotación manual se diseña una estrategia de anotación asistida que permite reducir considerablemente el tiempo de anotación humano. El enfoque ayuda a los anotadores humanos seleccionando inteligentemente las oraciones más informativas para anotar y luego pre-anotarlas con algunas entidades y relaciones semánticas altamente precisas. Esta estrategia se evalúa en los corpus desarrollados en esta investigación, y se publica en forma de una herramienta computacional disponible para la comunidad científica. El ecosistema construido proporciona un entorno de aprendizaje y evaluación eficaz para fomentar la investigación en el descubrimiento de conocimientos tanto en documentos de contenido biomédico como en otros dominios. Los corpus anotados pueden ser utilizados para entrenar y evaluar sistemas computacionales de descubrimiento de conocimiento, y compararse con el estado del arte de forma automática. Así mismo, las herramientas computacionales desarrolladas pueden servir para construir nuevos sistemas y para crear nuevos recursos lingüísticos en otros idiomas o dominios. Todos los recursos desarrollados en esta investigación están disponibles públicamente para su uso por la comunidad científica (https://ehealthkd.github.io). Procesamiento de Lenguaje Natural Corpus Ontologías Aprendizaje Automático Descubrimiento de Conocimiento Lenguajes y Sistemas Informáticos
25	Modelo computacional de minería de microblogs para el análisis del comportamiento del consumidor de telefonía celular Apaza Delgado, Santiago Hernán 26 November 2016 (has links) Los mensajes de Twitter están siendo cada vez más usados para determinar el sentimiento de los consumidores de servicios o productos. Para ello se hacen uso de diversas técnicas computacionales, desde las tradicionales adaptadas de problemas de clasificación de textos y las recientes que usan modelos de aprendizaje de máquina. En ambos enfoques se debe desarrollar una serie de etapas que van desde el pre–procesamiento hasta la evaluación. El presente documento muestra el resultado del proceso de aplicación de diversas técnicas de Análisis de Sentimiento para poder asignar una polaridad positiva, negativa o neutral a los tweets de los consumidores de telefonía celular en el Perú, con la finalidad de poder identificar cual es el comportamiento que presentan los clientes de las empresas de telefonía celular representado en opiniones vertidas en la red social Twitter. Para ello se extrajeron 26,917,539 publicaciones de la red social Twiter durante 2 periodos, cada uno de 30 días. Estas publicaciones corresponden a los tweets de los seguidores de tres empresas de telefonía celular en el Perú, incluyendo una relativamente nueva en el mercado peruano. El procedimiento seguido comprendió las siguientes tareas: a) Recolección de tweets de los seguidores de las empresas de telefonía celular; b) Pre–procesamiento de la data obtenida para poder identificar elementos importantes de cada tweet; c) Filtrado de elementos poco relevantes, o ruido; y d) Clasificación de cada publicación basado en las características obtenidas en etapas previas. Los resultados obtenidos nos muestran que la introducción de un diccionario de lexicones incrementó el número de términos que pueden ser considerados para la clasificación. Así mismo, el uso de este diccionario al cual se le aumento nuevos términos permitió incrementar la tasa de clasificación en un 0,75%. Finalmente, gracias a estas técnicas de análisis de sentimiento, es posible explotar el contenido de redes sociales de manera que puedan servir a las corporaciones para la toma de decisiones, especialmente de servicio a sus usuarios. / Tesis Emociones--Ontología Telefonía celular--Redes sociales Redes sociales--Minería de datos
26	Propuesta metodológica para el desarrollo de sistemas automáticos de evaluación cualitativa en el dominio educativo Herrera-Flores, Boris 26 October 2020 (has links) Esta tesis discute la importancia de la evaluación educativa y propone una metodología para la captura de opiniones de manera no tradicional, planteando un marco de trabajo que permita obtener de manera más rápida el sentir del estudiante hacia la oferta académica que le brinda la institución educativa, bajo un conjunto más amplio de matices emocionales que las encuestas tradicionales no arrojan. Esta metodología para la obtención de datos cuantitativos y cualitativos está basada en la aplicación de técnicas de Procesamiento del Lenguaje Natural (PLN), proponiendo la captura y recogida de datos utilizando técnicas automáticas para el análisis para evaluar el desempeño de los datos obtenidos, que alimentaron un sistema de análisis de sentimientos basado en aprendizaje automático. Como se ha mencionado, la metodología propuesta permite adquirir un corpus formado por opiniones de estudiantes en el dominio específico de la educación, para de esta manera entrenar un sistema de análisis de sentimientos para la captura precisa de opiniones sobre diferentes aspectos relacionados con el ámbito educativo. Este tipo de propuesta metodológica resulta especialmente relevante en los países de Latinoamérica, donde la evaluación del profesorado es un proceso reciente que necesita de un tiempo de prueba para determinar su alcance. Los resultados de aplicar la metodología propuesta ayudan a la toma de decisiones en la institución educativa donde se utilice, provocando una gobernanza asistida con técnicas computacionales, coherentes con la exigencia de calidad en la educación. Procesamiento del lenguaje natural Análisis de sentimientos Evaluación cualitativa Corpus educativo Lenguajes y Sistemas Informáticos
27	Analítica de datos en información pública de medios periodísticos y redes sociales para el análisis de sentimiento: una revisión de literatura Zárate Calderón, Gabriel Hélard 02 February 2021 (has links) El análisis de sentimiento es un área de investigación importante en el procesamiento de lenguaje natural, la cual está en constante crecimiento especialmente por la generación de grandes volúmenes de información textual, y el avance tecnológico en lo que se refiere al almacenamiento y los algoritmos inteligentes para el análisis de esta. Esta tarea cada vez va tomando más fuerza su uso en diferentes aplicaciones computacionales dado el crecimiento exponencial del uso de medios digitales y redes sociales, las cuales, gracias a la información debidamente procesada, pueden ser muy valiosas para los negocios. Actualmente existen procedimientos ambiguos para la realización de dicha tarea y sobre todo para textos en español y de manera específica para notas periodísticas y publicaciones realizadas en redes sociales, todo ello por el hecho de la escasa cantidad de herramientas existentes para la presente tarea, por ende el proceso de clasificación de las polaridades de los sentimientos expresadas en los textos se realiza de manera manual por expertos en el tema, generándose así resultados ambiguos y sesgados según la experiencia del encargado, lo cual generaba resultados que no eran del todo fiables retándole valor a dicha tarea, además del hecho de que realizarlo de manera totalmente manual resultaba muy pesado y se realizaba en un periodo largo de tiempo. Para la realización de dicha tarea existen múltiples técnicas de aprendizaje de máquina y de aprendizaje profundo que son adecuadas para este, pero en el último año uno de los modelos que va siendo reconocido cada vez más para ser aplicado a resolver problemas de procesamiento de lenguaje natural son los modelos basados en transformers dadas sus buenas capacidades y los resultados que se obtienen con estos. Ante dicha problemática surge la necesidad de investigar más acerca de cómo se vienen implementando soluciones para la realización de análisis de sentimiento para hacer una comparativa sobre los modelos usados y además dadas las buenas capacidades de los modelos basados en transformers investigar más a fondo la utilidad de estos y las aplicaciones que tiene para así comprobar sus buenas capacidades. Emociones--Ontología Minería de datos
28	Método de extracción e identificación de lugares del mundo real en textos en español del género literario Zevallos Franco, Melissa 04 June 2015 (has links) En este proyecto de fin de carrera se ha escogido abarcar el tema de Turismo Literario, resaltando principalmente la integración de una herramienta que ha existido durante años, el libro, con las nuevas tecnologías de Reconocimiento de Entidades Mencionadas (REM). Se propone implementar un método de extracción de lugares que se encargue de procesar las obras literarias con la finalidad de identificar los nombres de los lugares mencionados en dichos textos; para que éstos, finalmente, sean validados en el mundo real con el apoyo de una librería de información geográfica. Con el método implementado se va a obtener información, la cual puede ser utilizada para la construcción de herramientas que permitan difundir y aprovechar el Turismo Literario. Esta clase de turismo busca difundir los lugares reales que son mencionados en las obras literarias Estos escenarios pueden ser parques, restaurantes, pasajes, avenidas, entre otros lugares. Computación semántica Sistemas de información geográfica
29	Identificación del sentimiento de entidades en notas periodísticas basado en técnicas de procesamiento de lenguaje natural: una revisión de literatura Lau Li, Julio Ka Jau 15 March 2021 (has links) El análisis de sentimiento a nivel de entidades sobre notas periodísticas es una tarea de una complejidad no trivial, lo que genera interés por parte de diferentes sectores, ya que esos tipos de fuentes de datos causa que los sentimientos identificados no convergen hacia un objetivo por su longitud extensa y variedad de temas. Sin embargo, no se sabe a ciencia cierta su dificultad, por lo que el objetivo principal es poder identificar los conocimientos e información disponible y existente en la actualidad para responder las preguntas formuladas. Por eso, se define una revisión de literatura tomando en consideración la base de datos Scopus y el empleo de palabras claves definidas por el método PICOC, donde se obtuvieron en total siete documentos, cuatro artículos y tres revisiones sistemáticas que evidencian una disponibilidad de espacio para experimentar y explorar, dado que principalmente se ha trabajado en medios con mayor cantidad de datos y menor complejidad como las redes sociales o encuestas de servicios. Esto se reafirmó al revisar los documentos de tesis asociados a este tema, donde inclusive su demanda ha superado a paradigmas de análisis de sentimientos más clásicos. Es por ello, que se concluye la necesidad de explotar esta área de conocimientos para poder satisfacer la demanda de información cada vez más granulada, relevante y compleja, aprovechando los recursos lingüísticos más óptimos para facilitar las labores que puedan presentarse. Minería de datos Emociones--Ontología
30	Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares Pilaluisa, José 19 January 2023 (has links) Esta tesis propone una aproximación para la búsqueda e integración de datos en formato tabular. La novedad de la propuesta radica en el uso de modelos de lenguaje contextuales. Estos modelos han revolucionado el campo del procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, son pocas las aproximaciones que han utilizado estos modelos para trabajar con datos estructurados como son las tablas. Si bien existe alguna aproximación para la tarea de búsqueda de tablas, no existen en la actualidad aproximaciones que usen estos modelos en todo el proceso de búsqueda e integración a nivel de unión y combinación de datos. En este trabajo se hace una propuesta de adaptación de estos modelos de lenguaje, originalmente usados sobre datos no estructurados, para ser aplicados sobre datos estructurados. Durante el proceso se evaluará la efectividad de diferentes modelos existentes y se ajustarán sus parámetros de entrada para determinar la configuración más efectiva en la tarea. Además, se contrastarán los modelos contextuales con otros no contextuales, analizando el papel que tiene el contexto en el rendimiento del sistema. El trabajo incluye también un estudio para la mejora del rendimiento de estos sistemas mediante la eliminación de contenido. Para ello, se estudia cómo reducir el número de filas de las tablas afecta a la representación vectorial (word embedding) generada por el modelo de lenguaje. De esta manera se busca determinar la posibilidad de reducir tablas de gran tamaño sin perder representatividad en el espacio semántico que genera el modelo. Por último, la tesis concluye haciendo una propuesta de anotación de datos tabulares para conseguir un conjunto de datos que permita entrenar mejor este tipo de sistemas basado en técnicas de aprendizaje automático. Este apartado incluye un estudio piloto de anotación en el que se desarrolla un corpus inicial de tablas para el propósito indicado. Procesamiento del lenguaje natural Modelos de lenguaje Recuperación de información Integración de datos Creación de corpus

Search results