Global ETD Search

11	Análisis semántico multidimensional aplicado a la desambiguación del lenguaje natural Gutiérrez, Yoan 30 January 2012 (has links) No description available. WordNet Desambiguación Recursos semánticos Minería de opiniones Procesamiento del lenguaje natural Lenguajes y Sistemas Informáticos
12	Identificación del diagnóstico de patología crítica en los informes radiológicos mediante procesamiento de lenguaje natural : aplicación en Chile Ortiz Calvo, Guillermo Javier January 2016 (has links) Grado de magíster en informática médica / Actualmente los informes radiológicos se redactan en texto libre sin un campo específico que los categorice según diagnóstico. Por este motivo, la identificación de los diagnósticos clasificados como patología crítica debe hacerse de forma manual, acarreando consigo problemas como el submuestreo y gran tiempo invertido. Este trabajo propone como solución desarrollar una herramienta utilizando métodos de procesamiento de lenguaje natural para analizar los texto de forma masiva. En esta tesis se plantea como hipótesis que es posible identificar más del 80% de los diagnósticos existentes en SNOMED-CT (una terminología médica) presentes en las impresiones de los informes radiológicos, identificando la patología crítica con más de un 90% de sensibilidad mediante algoritmos de procesamiento de lenguaje natural (NLP). Para clasificar los informes se utilizó SNOMED-CT por su amplio manejo de conceptos médicos y sinónimos. La tarea se realizó con 3 algoritmos: 1) un motor de búsqueda para encontrar los términos de SNOMED-CT contenidos en los informes utilizando indexación reversa, 2) un detector de negación basado en expresiones regulares y 3) se combinó ambas herramientas para identificar patología crítica. Los algoritmos propuestos fueron evaluados en muestra representativa (n=219) de 1973 informes de Angiografía Pulmonar por Tomografía Computada, etiquetada por 2 médicos. Como resultados se obtuvo un valor kappa de acuerdo entre etiquetadores de 85.5%, IC95%[80.8-90.3%], p < 0.001. Por otra parte el motor de búsqueda presentó un rendimiento con medida F (F) de 0.94, sensibilidad (S) de 91.2% y valor predictivo positivo (VPP) de 98%. El detector de negación obtuvo una F de 0.99, S de 98.7% y VPP de 99.3%. Para medir el rendimiento en la detección de patología crítica se utilizó como referencia el diagnóstico de tromboembolismo pulmonar (TEP), obteniendo valores F de 0.94, S de 96.3% y VPP de 92.86% Como conclusión, el presente trabajo de tesis muestra que es posible construir una herramienta para identificar la patología crítica basada en NLP utilizando la regularidad de los patrones de expresión en el texto, lo que permitirá en futuros trabajos crear herramientas de soporte para la toma de decisiones. / Currently radiology reports are written in free text without a specific field to categorize according to diagnosis. Therefore, identification of diagnostics listed as critical result, group characterized by having a high risk of harm to the patient, must be done manually. As a solution is proposed the use of natural language processing tools to analyze big volume of texts. This thesis pose the hypothesis that it is possible to identify more than 80% of existing diagnostics from impressions of radiology reports on SNOMED-CT, a clinical terminology, identifying critical results with more than 90% sensitivity, using natural language processing (NLP) algorithms. To identify reports, SNOMED was used because of its wide management of medical terms and synonyms. Identification was built as a 3 steps algorithm: 1) A search engine was built to find terms of SNOMED contained in reports using reverse indexing, 2) a negation detector based on regular expressions, and 3) both tools were combined to identify critical results. The proposed algorithms were tested against a representative sample (n = 219) of 1973 Computed Tomography Pulmonary Angiography (CTPA) reports, which were tagged by 2 medical doctors. The obtained results were an inter-rater reliability kappa value of 85.5% for taggers, was obtained IC95% [80.8-90.3%]. Moreover, search engine had a performance of measure F (F) of 0.94, sensitivity (S) of 91.2% and positive predictive value (PPV) of 98%. The negation detector had a F of 0.99, S of 98.7% and VPP of 99.3%. The measurement of performance for critical results detection was made using pulmonary embolism as reference, obtaining values; F of 0.94, S of 96.3% and VPP of 92.86% In conclusion, this thesis shows that it is possible to build a tool to identify critical results using NLP by making use of the specific regularity of text expressions in the case of radiology reports, allowing in future researchs to create decision support tools. / 2021 Registros electrónicos de salud Procesamiento de lenguaje natural Systematized nomenclature of medicine Sistemas de información radiológica
13	Análisis de publicaciones en una red social de microblogging para la detección automática de sucesos violentos durante manifestaciones públicas Oncevay Marcos, Félix Arturo 04 May 2017 (has links) El activismo social en el Perú se encuentra en crecimiento, principalmente en las zonas urbanas y en los sectores de ingresos medios, donde las redes sociales han llegado a influir en las diversas acciones de la población, y en el modo de informar, influir y convocar a las personas. Es por ello que se han observado casos recientes como las marchas contra la Ley Laboral Juvenil o ‘Ley Pulpín’, donde se movilizó una gran cantidad de personas, y se podían observar dos manifestaciones en paralelo pero afines: en la calle y en las redes sociales, principalmente en Twitter. Sin embargo, a pesar de ser convocada como marcha pacífica, sucedieron actos de violencia y enfrentamientos, los cuales lamentablemente son frecuentes en la realidad peruana. En este contexto, se propone el desarrollo de un mecanismo para analizar los mensajes publicados en Twitter durante una manifestación real. El objetivo principal es identificar y caracterizar automáticamente los diferentes sucesos de violencia que pueden ocurrir durante la protesta. Para esto, luego de recolectar publicaciones de Twitter durante manifestaciones reales, se analizarán cuáles son las mejores técnicas a aplicar para el tratamiento y transformación de estos mensajes a información relevante para nuestro objetivo. El enfoque de esta investigación se plantea desde las áreas de la ingeniería del conocimiento (análisis del dominio del conocimiento sobre violencia), la minería de textos (detección, resumen y descripción de eventos a partir de textos) y el procesamiento de lenguaje natural. Finalmente, se calcularán métricas de evaluación sobre los sucesos violentos identificados, para validar la eficacia del procedimiento propuesto. / Tesis Minería de datos Redes sociales
14	ExpertTI : an knowledge system for intelligent service desks using free text Bello Ruiz, Alejandro Toribio, Melgar, Andrés, Pizarro, Daniel 17 April 2017 (has links) When many users consult service desks simultaneously, these typically saturate. This causes the customer attention is delayed more than usual. The service is perceived as lousy from the point of view of the customer. Increase the amount of human agents is a costly process for organizations. In addition, the amount of sta turnover in this type of service is very high, which means make frequent training. All this has motivated the design of a knowledge-based system that automatically assists both customers and human agents at the service desk. Web technology was used to enable clients to communicate with a software agent via chat. Techniques of Natural Language Processing were used in order the software agent understands the customer requests. The domain knowledge used by the software agent to understand customer requests has been codi ed in an ontology. A rule-based expert system was designed to perform the diagnostic task. This paper presents a knowledge-based system allowing client to communicate with the service desk through a chat system using free text. A software agent automatically executes the customer request. The agent software attempts to reach a conclusion using expert system and ontology. If achieved success, returns the response to the customer, otherwise the request is redirected to a human agent. Evaluations conducted with users have shown an improvement in the attention of service desks when the software developed is used. On the other hand, since the most frequent requests are handled automatically, the workload of human agents decreases considerably. The software has also been used to train new human agents which facilitates and reduces the cost of training. / Tesis Sistemas expertos (Computación) Sistemas de información Computación--Soporte técnico
15	Interactive Pattern Recognition applied to Natural Language Processing Rodríguez Ruiz, Luis 26 July 2010 (has links) This thesis is about Pattern Recognition. In the last decades, huge efforts have been made to develop automatic systems able to rival human capabilities in this field. Although these systems achieve high productivity rates, they are not precise enough in most situations. Humans, on the contrary, are very accurate but comparatively quite slower. This poses an interesting question: the possibility of benefiting from both worlds by constructing cooperative systems. This thesis presents diverse contributions to this kind of collaborative approach. The point is to improve the Pattern Recognition systems by properly introducing a human operator into the system. We call this Interactive Pattern Recognition (IPR). Firstly, a general proposal for IPR will be stated. The aim is to develop a framework to easily derive new applications in this area. Some interesting IPR issues are also introduced. Multi-modality or adaptive learning are examples of extensions that can naturally fit into IPR. In the second place, we will focus on a specific application. A novel method to obtain high quality speech transcriptions (CAST, Computer Assisted Speech Transcription). We will start by proposing a CAST formalization and, next, we will cope with different implementation alternatives. Practical issues, as the system response time, will be also taken into account, in order to allow for a practical implementation of CAST. Word graphs and probabilistic error correcting parsing are tools that will be used to reach an alternative formulation that allows for the use of CAST in a real scenario. Afterwards, a special application within the general IPR framework will be discussed. This is intended to test the IPR capabilities in an extreme environment, where no input pattern is available and the system only has access to the user actions to produce a hypothesis. Specifically, we will focus here on providing assistance in the problem of text generation. / Rodríguez Ruiz, L. (2010). Interactive Pattern Recognition applied to Natural Language Processing [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/8479 / Palancia Procesamiento del lenguaje natural Procesamiento del lenguaje interactivo
16	Advances in Fully-Automatic and Interactive Phrase-Based Statistical Machine Translation Ortiz Martínez, Daniel 14 October 2011 (has links) This thesis presents different contributions in the fields of fully-automatic statistical machine translation and interactive statistical machine translation. In the field of statistical machine translation there are three problems that are to be addressed, namely, the modelling problem, the training problem and the search problem. In this thesis we present contributions regarding these three problems. Regarding the modelling problem, an alternative derivation of phrase-based statistical translation models is proposed. Such derivation introduces a set of statistical submodels governing different aspects of the translation process. In addition to this, the resulting submodels can be introduced as components of a log-linear model. Regarding the training problem, an alternative estimation technique for phrase-based models that tries to reduce the strong heuristic component of the standard estimation technique is proposed. The proposed estimation technique considers the phrase pairs that compose the phrase model as part of complete bisegmentations of the source and target sentences. We theoretically and empirically demonstrate that the proposed estimation technique can be efficiently executed. Experimental results obtained with the open-source THOT toolkit also presented in this thesis, show that the alternative estimation technique obtains phrase models with lower perplexity than those obtained by means of the standard estimation technique. However, the reduction in the perplexity of the model did not allow us to obtain improvements in the translation quality. To deal with the search problem, we propose a search algorithm which is based on the branch-and-bound search paradigm. The proposed algorithm generalises different search strategies that can be accessed bymodifying the input parameters. We carried out experiments to evaluate the performance of the proposed search algorithm. / Ortiz Martínez, D. (2011). Advances in Fully-Automatic and Interactive Phrase-Based Statistical Machine Translation [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/12127 / Palancia Informática Traducción automática Reconocimiento de formas Procesamiento de lenguaje natural LENGUAJES Y SISTEMAS INFORMATICOS
17	Análisis de sentimiento en información de medios periodísticos y redes sociales mediante redes neuronales recurrentes Zarate Calderon, Gabriel Helard 06 February 2022 (has links) El análisis de sentimiento es un área de investigación importante en el procesamiento de lenguaje natural, la cual está en constante crecimiento especialmente por la generación de grandes volúmenes de información textual, y el avance tecnológico en lo que se refiere al almacenamiento y los algoritmos inteligentes para el análisis de esta. Esta tarea cada vez va tomando más fuerza su uso en diferentes aplicaciones computacionales dado el crecimiento exponencial del uso de medios digitales y redes sociales, las cuales, gracias a la información debidamente procesada, pueden ser muy valiosas para los negocios. Actualmente existen procedimientos ambiguos para la realización de dicha tarea y sobre todo para textos en español y de manera específica para notas periodísticas y publicaciones realizadas en redes sociales, todo ello por el hecho de la escasa cantidad de herramientas existentes para la presente tarea, por ende el proceso de clasificación de las polaridades de los sentimientos expresadas en los textos se realiza de manera manual por expertos en el tema, generándose así resultados ambiguos y sesgados según la experiencia del encargado, lo cual generaba resultados que no eran del todo fiables retándole valor a dicha tarea, además del hecho de que realizarlo de manera totalmente manual resultaba muy pesado y se realizaba en un periodo largo de tiempo. Para la realización de dicha tarea existen múltiples técnicas de aprendizaje de máquina y de aprendizaje profundo que son adecuadas para este, pero en el último año uno de los modelos que va siendo reconocido cada vez más para ser aplicado a resolver problemas de procesamiento de lenguaje natural son los modelos basados en transformers dadas sus buenas capacidades y los resultados que se obtienen con estos. Ante dicha problemática surge la necesidad de investigar más acerca de cómo se vienen implementando soluciones para la realización de análisis de sentimiento para hacer una comparativa sobre los modelos usados y además dadas las buenas capacidades de los modelos basados en transformers investigar más a fondo la utilidad de estos y las aplicaciones que tiene para así comprobar sus buenas capacidades. Aprendizaje profundo Emociones--Ontología
18	Tackling the Challenge of Emotion Annotation in Text Canales Zaragoza, Lea 19 July 2018 (has links) La creación de un conjunto de datos etiquetas para el Reconocimiento de Emociones (RE) en texto no es trivial, ya que la detección de emociones en texto puede ser difícil incluso para los seres humanos, porque los contextos personales de cada persona pueden influir en la interpretación de las emociones. Muchas de las investigaciones llevadas a cabo hasta el momento, han mostrado las dificultades relacionadas con esta tarea, como: la detección de un buen acuerdo entre anotadores o el tiempo necesario para su desarrollo. Teniendo en cuenta estas dificultades y con el fin de disminuir y contrarrestar el desafío de la anotación de emociones, esta disertación abarca el análisis de diferentes aproximaciones semiautomáticas con el objetivo de mejorar la anotación de emociones en texto escrito. Más específicamente, se han investigado dos técnicas cuya usabilidad y efectividad has sido demostrada en otras tareas de Procesamiento del Lenguaje Natural (PLN): bootstrapping basado en Intensional Learning y un proceso de pre-anotación. Nos centramos en la anotación de emociones en texto escrito en Inglés para cualquier género textual, a nivel de oraciones y empleando un conjunto de categorías emocionales como etiquetas. Procesamiento del Lenguaje Natural Tecnologías del Lenguaje Humano Análisis de Sentimientos Lenguajes y Sistemas Informáticos
19	A Discourse-Aware Macroplanning Approach for Text Generation and Beyond Vicente, Marta 16 December 2021 (has links) El trabajo presentado en esta tesis se ha desarrollado dentro del área de generación de lenguaje natural (GLN), disciplina dedicada a investigar e implementar aplicaciones capaces de producir textos coherentes y comprensibles. Al estudiar el contexto de la disciplina, detectamos una carencia de enfoques que, sin requerir excesivos recursos, incorporasen mecanismos apropiados tanto para aprehender mejor el significado de la entrada, como para proporcionar un resultado más consistente y coherente, cuando la entrada del proceso es un texto conformado como discurso. Nuestra investigación se planteó como una propuesta orientada a subsanar este déficit, de modo que la idea de contribuir a la creación de sistemas de generación más adaptables ha constituido el motor del presente trabajo que, estando profundamente arraigado en el ámbito de la GLN, pretende también beneficiar a otras tareas más orientadas a la comprensión del lenguaje. Dado que el campo de GLN es extremadamente amplio, decidimos abordar un aspecto específico del proceso de generación. Nos centramos principalmente en una parte del proceso responsable de seleccionar y organizar el contenido que debe aparecer en la salida del sistema. Esta fase se conoce generalmente como macroplanificación. El núcleo de esta investigación se basa en la idea de que el proceso de generación debe estar estrechamente ligado, condicionado por el significado que emerge del texto como discurso. Así pues nuestro objetivo principal se centró en la definición de una metodología para la etapa de macroplanificación que, en primer lugar, aprovechara la información semántica y estructural del texto concebido como discurso y, en segundo lugar, permitiera su adaptación a múltiples escenarios (aplicaciones, dominios) sin un requisito elevado de recursos. Siguiendo este planteamiento, la hipótesis inicial de esta investigación establece que la explotación de la información semántica, también determinada por la estructura del discurso, tomada como base para diseñar una metodología de macroplanificación basada en datos (esto es, aprovechando las técnicas estadísticas), puede conducir a sistemas más flexibles, adaptables, equipados adecuadamente para proporcionar textos más coherentes y significativos. Nos alineamos en este sentido con una corriente de investigación que defiende que la incorporación del conocimiento estructural que procede del discurso deviene en una representación del discurso más completa y efectiva. Para lograr nuestro propósito, estudiamos y aplicamos una metodología basada en un tipo de modelos de lenguaje designados como modelos de lenguaje posicionales, capaces de capturar tanto información relevante como posicional. Mediante una serie de experimentos, analizamos su comportamiento y estudiamos cómo variaciones en su configuración nos permitían ejercer cierto control sobre la complejidad estructural de los resultados. Adaptamos la metodología a diferentes dominios y tareas dentro del campo de la GLN: generación de cuentos, creación de resúmenes extractivos y producción de titulares de noticias desde un enfoque abstractivo, con resultados positivos considerando tanto evaluaciones intrínsecas como extrínsecas, humanas y automáticas. Más aún, alejándonos del ámbito de la GLN, en línea con nuestros objetivos iniciales, quisimos comprobar que nuestro enfoque puede contribuir también a otras tareas del ámbito del procesamiento de lenguaje natural. Para ello, adaptamos nuestra metodología a un sistema destinado a detectar y clasificar titulares engañosos, con resultados que demuestran la conveniencia de emplear los principios establecidos a lo largo de la tesis para la resolución de la tarea de detección de postura o posicionamiento. Las posibilidades de aplicación de nuestro planteamiento son muy diversas y entrañan diferentes niveles de complejidad. Y si bien en el transcurso de nuestra investigación hemos detectado un número de limitaciones, también hemos identificado potenciales desarrollos. Ambos aspectos constituyen el núcleo de esta tesis y conforman la semilla de nuestros planes futuros, pues señalan nuevas fronteras para nuestro trabajo incluyendo, entre otras, la aplicación del enfoque presentado a diferentes lenguajes, la profundización en la dimensión pragmática del discurso y su incorporación, la hibridación de los modelos de lenguaje empleados con técnicas basadas en aprendizaje profundo o la incorporación de la metodología a otras tareas de comprensión del lenguaje, como la inferencia, la implicación textual o la búsqueda de respuestas. / Esta tesis ha sido financiada por la Generalitat Valenciana a través del contrato ACIF/2016/501 y la ayuda BEFPI/2018/070, así como los proyectos PROMETEOII/2014/001 y PROMETEO/2018/089. También ha participado en su financiación el Gobierno de España a través de los proyectos TIN2015-65100-R y RTI2018-094649-B-I00. Procesamiento de lenguaje natural Generación de lenguaje natural Discurso Semántica Macroplanificación Resúmenes automáticos Lenguajes y Sistemas Informáticos
20	Ecosistema para el Descubrimiento de Conocimiento en Lenguaje Natural Piad-Morffis, Alejandro 16 December 2021 (has links) La creciente cantidad de información publicada en línea presenta un reto significativo para la comunidad científica. La disponibilidad de estos recursos permite acelerar las investigaciones en múltiples ramas de la ciencia, al conectar resultados de diferentes grupos de investigadores. Sin embargo, el volumen de información producido es imposible de procesar por humanos en su totalidad, por lo que la comunidad científica desperdicia tiempo y recursos en redescubrir los mismos resultados, debido a la falta de comunicación. La aplicación de técnicas de inteligencia artificial permite construir sistemas computacionales que ayuden a los investigadores a buscar, analizar y conectar la información existente en grandes volúmenes de datos. Este proceso se denomina descubrimiento automático de conocimiento y es una rama de investigación con un creciente interés. El dominio de la salud es uno de los escenarios en los que el descubrimiento de conocimiento automático puede producir un mayor impacto en beneficio de la sociedad. La reciente pandemia de COVID-19 es un ejemplo donde la producción de artículos científicos ha superado con creces la capacidad de la comunidad científica para asimilarlos. Para mitigar este fenómeno se han publicado recursos lingüísticos que permitan construir sistemas de descubrimiento automático de conocimiento. Sin embargo, el descubrimiento de conocimiento requiere no solo de recursos lingüísticos, sino que necesita recursos computacionales e infraestructura disponibles para evaluar los resultados sistemáticamente y comparar objetivamente enfoques alternativos. Este trabajo describe un ecosistema que facilita la investigación y el desarrollo en el descubrimiento de conocimiento en el dominio biomédico, específicamente en idioma español, aunque puede ser extendido a otros dominios e idiomas. Con este fin, se desarrollan y comparten varios recursos con la comunidad investigadora, incluido un nuevo modelo de anotación semántica, cuatro corpus con más de 3000 oraciones y 40,000 anotaciones semánticas realizadas manualmente, así como recursos computacionales para construir y evaluar técnicas de descubrimiento automático de conocimiento. Entre estos recursos se ofrecen implementaciones baseline de algoritmos de descubrimiento de conocimiento que sirvan de base para construir soluciones más avanzadas. Además, se define una tarea de investigación con criterios de evaluación objetivos y se configura y mantiene un entorno de evaluación en línea que permite a los investigadores interesados en esta tarea obtener retroalimentación inmediata y comparar sus resultados con el estado del arte. Como caso de estudio, se analizan los resultados de varios equipos de investigadores en cuatro ediciones consecutivas de un desafío competitivo organizado en base a estos recursos. A partir de las experiencias obtenidas durante el proceso de anotación manual se diseña una estrategia de anotación asistida que permite reducir considerablemente el tiempo de anotación humano. El enfoque ayuda a los anotadores humanos seleccionando inteligentemente las oraciones más informativas para anotar y luego pre-anotarlas con algunas entidades y relaciones semánticas altamente precisas. Esta estrategia se evalúa en los corpus desarrollados en esta investigación, y se publica en forma de una herramienta computacional disponible para la comunidad científica. El ecosistema construido proporciona un entorno de aprendizaje y evaluación eficaz para fomentar la investigación en el descubrimiento de conocimientos tanto en documentos de contenido biomédico como en otros dominios. Los corpus anotados pueden ser utilizados para entrenar y evaluar sistemas computacionales de descubrimiento de conocimiento, y compararse con el estado del arte de forma automática. Así mismo, las herramientas computacionales desarrolladas pueden servir para construir nuevos sistemas y para crear nuevos recursos lingüísticos en otros idiomas o dominios. Todos los recursos desarrollados en esta investigación están disponibles públicamente para su uso por la comunidad científica (https://ehealthkd.github.io). Procesamiento de Lenguaje Natural Corpus Ontologías Aprendizaje Automático Descubrimiento de Conocimiento Lenguajes y Sistemas Informáticos

Search results