Global ETD Search

1	Resolución de la ambigüedad semántica mediante métodos basados en conocimiento y su aportación a tareas de PLN Vázquez, Sonia 27 April 2009 (has links) No description available. Procesamiento del lenguaje natural Desambiguación automática Lexicografía computacional Tecnologías del lenguaje humano Lenguajes y Sistemas Informáticos
2	Text summarisation based on human language technologies and its applications Lloret, Elena 26 June 2011 (has links) No description available. Precesamiento del lenguaje natural Tecnologías del lenguaje humano Generación automática de resúmenes Lenguajes y Sistemas Informáticos
3	Tackling the Challenge of Emotion Annotation in Text Canales Zaragoza, Lea 19 July 2018 (has links) La creación de un conjunto de datos etiquetas para el Reconocimiento de Emociones (RE) en texto no es trivial, ya que la detección de emociones en texto puede ser difícil incluso para los seres humanos, porque los contextos personales de cada persona pueden influir en la interpretación de las emociones. Muchas de las investigaciones llevadas a cabo hasta el momento, han mostrado las dificultades relacionadas con esta tarea, como: la detección de un buen acuerdo entre anotadores o el tiempo necesario para su desarrollo. Teniendo en cuenta estas dificultades y con el fin de disminuir y contrarrestar el desafío de la anotación de emociones, esta disertación abarca el análisis de diferentes aproximaciones semiautomáticas con el objetivo de mejorar la anotación de emociones en texto escrito. Más específicamente, se han investigado dos técnicas cuya usabilidad y efectividad has sido demostrada en otras tareas de Procesamiento del Lenguaje Natural (PLN): bootstrapping basado en Intensional Learning y un proceso de pre-anotación. Nos centramos en la anotación de emociones en texto escrito en Inglés para cualquier género textual, a nivel de oraciones y empleando un conjunto de categorías emocionales como etiquetas. Procesamiento del Lenguaje Natural Tecnologías del Lenguaje Humano Análisis de Sentimientos Lenguajes y Sistemas Informáticos
4	Descubrimiento Automático de Flujos de Aprendizaje de Máquina basado en Gramáticas Probabilı́sticas Estévez-Velarde, Suilan 02 December 2021 (has links) El aprendizaje de máquinas ha ganado terreno utilizándose en casi todas las áreas de la vida cotidiana, ayudando a tomar decisiones en las finanzas, la medicina, el comercio y el entretenimiento. El desarrollo continuo de nuevos algoritmos y técnicas de aprendizaje automático, y la amplia gama de herramientas y conjuntos de datos disponibles han traído nuevas oportunidades y desafíos para investigadores y profesionales tanto del mundo académico como de la industria. Seleccionar la mejor estrategia posible para resolver un problema de aprendizaje automático es cada vez más difícil, en parte porque requiere largos tiempos de experimentación y profundos conocimientos técnicos. En este escenario, el campo de investigación Automated Machine Learning (AutoML) ha ganado protagonismo, proponiendo estrategias para automatizar progresivamente tareas usuales durante el desarrollo de aplicaciones de aprendizaje de máquina. Las herramientas de AutoML más comunes permiten seleccionar automáticamente dentro de un conjunto restringido de algoritmos y parámetros la mejor estrategia para cierto conjunto de datos. Sin embargo, los problemas prácticos a menudo requieren combinar y comparar algoritmos heterogéneos implementados con diferentes tecnologías subyacentes. Un ejemplo es el procesamiento del lenguaje natural, un escenario donde varía el espacio de posibles técnicas a aplicar ampliamente entre diferentes tareas, desde el preprocesamiento hasta la representación y clasificación de textos. Realizar AutoML en un escenario heterogéneo como este es complejo porque la solución necesaria podría incluir herramientas y bibliotecas no compatibles entre sí. Esto requeriría que todos los algoritmos acuerden un protocolo común que permita la salida de un algoritmo para ser compartida como entradas a cualquier otro. En esta investigación se diseña e implementa un sistema de AutoML que utiliza técnicas heterogéneas. A diferencia de los enfoques de AutoML existentes, nuestra contribución puede combinar técnicas y algoritmos de diferentes bibliotecas y tecnologías, incluidos algoritmos de aprendizaje de máquina clásicos, extracción de características, herramientas de procesamiento de lenguaje natural y diversas arquitecturas de redes neuronales. Definimos el problema heterogéneo de optimización de AutoML como la búsqueda de la mejor secuencia de algoritmos que transforme datos de entrada específicos en la salida deseada. Esto proporciona un enfoque teórico y práctico novedoso para AutoML. Nuestra propuesta se evalúa experimentalmente en diversos problemas de aprendizaje automático y se compara con enfoques alternativos, lo que demuestra que es competitiva con otras alternativas de AutoML en los puntos de referencia estándar. Además, se puede aplicar a escenarios novedosos, como varias tareas de procesamiento de lenguaje natural, donde las alternativas existentes no se pueden implementar directamente. El sistema está disponible de forma gratuita e incluye compatibilidad incorporada con una gran cantidad de marcos de aprendizaje automático populares, lo que hace que nuestro enfoque sea útil para resolver problemas prácticos con relativa facilidad y esfuerzo. El uso de la herramienta propuesta en esta investigación permite a los investigadores y profesionales desarrollar rápidamente algoritmos de referencia optimizados en diversos problemas de aprendizaje automático. En algunos escenarios, la solución proporcionada por nuestro sistema podría ser suficiente. Sin embargo, los sistemas AutoML no deben intentar reemplazar a los expertos humanos, sino servir como herramientas complementarias que permitan a los investigadores obtener rápidamente mejores prototipos y conocimientos sobre las estrategias más prometedoras en un problema concreto. Las técnicas de AutoML abren las puertas a revolucionar la forma en que se realiza la investigación y el desarrollo del aprendizaje automático en la academia y la industria. AutoML Aprendizaje Automático Algoritmos evolutivos Gramática Tecnologías del Lenguaje Humano Lenguajes y Sistemas Informáticos
5	Fuzzy-Match Repair in Computer-Aided Translation Using Black-Box Machine Translation Ortega, John E. 01 March 2021 (has links) La traducción asistida por ordenador (TAO) basada en memorias de traducción (MT) es ampliamente utilizado para ayudar a traductores profesionales. Una MT es un repositorio que contiene unidades de traducción (UT), esto es, pares de segmentos paralelos (s,t) en lengua origen y lengua meta. Para la traducción de un nuevo segmento en lengua origen s', las herramientas TAO buscan en la MT y recuperan las UT(s,t) cuyo segmento en lengua origen s sea más similar as'. Luego, el traductor elige una UT y edita el segmento en lengua meta t para convertirlo en una traducción adecuada des'. La reparación de concordancias parciales (RCP) se puede utilizar como una técnica para modificar automáticamente las partes de t que necesitan ser editadas. Esta tesis describe un método de RCP, el cual es independiente del idioma y capaz de utilizar cualquier fuente disponible de información bilingüe para generar, dado el segmento a ser traducido s' y una UT (s, t), un conjunto de segmentos reparados y luego elegir el mejor segmento reparado utilizando un método de estimación de la calidad. Una evaluación de nuestro método de RCP muestra que, utilizando un sistema de traducción automática (TA) como fuente de información bilingüe, el segmento reparado elegido usando técnicas de estimación de la calidad es una buena aproximación al mejor candidato (oráculo) producido. Además, con un único modelo de estimación de la calidad de segmentos reparados, nuestro método funciona bien con cualquiera de los idiomas probados. Adicionalmente, describimos un método para elegir el sistema de TA a usar por el sistema de RCP para cada segmento automáticamente, a-priori, sin tener que traducir el segmento en lengua origen s'. Los resultados muestran que mediante el uso de este método nuestro método de RCP genera mejores segmentos reparados que utilizando cualquiera de los sistemas de TA de forma aislada. Finalmente, mostramos que la integración de nuestro método de RCP con un sistema de posedición automática también mejora la calidad de segmentos reparados por nuestro método de RCP. Reparación de concordancias parciales Memorias de traducción Tecnologías de la traducción Tecnologías del lenguaje humano Traducción asistida por ordenador Lenguajes y Sistemas Informáticos
6	Las Tecnologías del Lenguaje Humano como herramienta de mitigación de la violencia en redes sociales Botella-Gil, Beatriz 16 February 2024 (has links) La irrupción de Internet ha transformado radicalmente la forma en que nos relacionamos y comunicamos. Esta revolución ha trascendido las barreras físicas y temporales, permitiéndonos conectar con personas de todo el mundo sin importar la distancia o las diferencias horarias. Las redes sociales, en particular, han forjado un espacio virtual que replica gran parte de nuestras actividades cotidianas, dando forma a un mundo digital que ha impactado incluso en el ámbito laboral. El fenómeno de las redes sociales ha creado un paralelismo entre nuestra vida real y la virtual. La facilidad con la que podemos acceder a este universo virtual ha redefinido la naturaleza misma de nuestras relaciones interpersonales. Estas plataformas de comunicación representan un avance significativo para las relaciones personales; sin embargo, nos enfrentamos a un problema que aún necesitamos gestionar. La publicación de mensajes violentos son manifestaciones perjudiciales que, en muchos casos, encuentran su origen en la relativa impunidad que ofrece el anonimato digital. Este fenómeno plantea desafíos significativos para la sociedad y requiere respuestas efectivas a nivel individual, comunitario y legislativo. El anonimato en línea otorga a los individuos una máscara virtual detrás de la cual pueden ocultarse mientras participan en comportamientos violentos. Esta falta de responsabilidad personal puede exacerbar la agresividad en las interacciones, ya que las consecuencias directas parecen menos tangibles. La ausencia de empatía, a menudo atribuida a la despersonalización facilitada por las pantallas, contribuye al aumento de comportamientos irrespetuosos y violentos. La impunidad de los actos en el entorno virtual presenta un desafío adicional. La dificultad para rastrear y atribuir responsabilidad a los perpetradores de actos violentos en línea puede disuadir la acción disciplinaria. Esto crea un ambiente donde los límites éticos y sociales pueden traspasarse sin consecuencias visibles. El control de la violencia en línea requiere una respuesta colectiva y multidimensional. Educación, concienciación, políticas efectivas y tecnologías avanzadas son herramientas fundamentales para abordar este desafío y construir un entorno digital que fomente la empatía, el respeto y la seguridad. El Procesamiento del Lenguaje Natural (PLN) emerge como un pilar esencial en la lucha contra la violencia en línea. En un entorno digital saturado de información, el PLN permite analizar y comprender el lenguaje humano de manera automatizada, desempeñando un papel fundamental en la detección y prevención de comportamientos violentos. La creación de recursos específicos, como lexicones que contienen términos relacionados con la violencia, se convierte en una herramienta valiosa. Estos recursos actúan como indicadores para los algoritmos, permitiéndoles identificar patrones lingüísticos asociados con mensajes agresivos o dañinos. Además, contar con guías de anotación para la creación de corpus que proporcionen ejemplos específicos, sirve como base para el entrenamiento de los sistemas, mejorando su capacidad para reconocer contextos y matices. La capacidad del PLN para procesar grandes volúmenes de datos de texto de manera rápida y eficiente permite una detección temprana de la violencia en línea. Los algoritmos entrenados pueden analizar conversaciones en tiempo real, identificando posibles amenazas y comportamientos problemáticos antes de que escalen. Además, la adaptabilidad del PLN lo convierte en una herramienta crucial para abordar la evolución constante de las formas de violencia en línea. A medida que las tácticas y los patrones de comportamiento cambian, los sistemas de PLN pueden ajustarse y aprender de nuevas manifestaciones de violencia, manteniéndose relevantes y efectivos. Para contribuir con la detección de mensajes violentos en redes sociales, esta investigación presenta un recurso para la obtención de insultos y expresiones negativas (Fiero) resultando en un lexicón (SHARE), una guía de anotación (VIL) detallada para la elaboración de un corpus y un corpus con 6211 tuits (VILLANOS). Además, se desarrolla la propuesta de una metodología de anotación semiautomática (HITL) que agiliza la tarea del experto anotador reduciendo el tiempo empleado y se expone la evaluación extrínseca de nuestras suposiciones fundamentales. Esta validación se materializó a través de una serie de experimentos que se detallan en este trabajo. El trabajo realizado presenta valiosas aportaciones para enfrentar el desafío de la detección de mensajes violentos en redes sociales, utilizando técnicas de PLN desde una perspectiva multidisciplinaria. Este enfoque implica la integración de conocimientos y metodologías provenientes de diferentes campos, como la psicología, la sociología, la lingüística y la informática. Esta sinergia de perspectivas enriquece la comprensión del fenómeno de la violencia en redes sociales, considerando no sólo los aspectos lingüísticos sino también los sociales, psicológicos y culturales que influyen en su manifestación. / El trabajo de investigación desarrollado en esta tesis forma parte de los proyectos I+D+i COOLANG.TRIVIAL: “Recursos tecnológicos para análisis viral inteligente mediante PLN” (PID2021-122263OB-C22) financiado por MCIN/AEI/10.13039/501100011033/ y “FEDER Una manera de hacer Europa”, así como del proyecto I+D+i SOCIALFAIRNESS.SOCIALTRUST: “Análisis de la confiabilidad en medios digitales” (PDC2022-133146-C22) financiado por MCIN/AEI/10.13039/501100011033/ y por la “Unión Europea NextGenerationEU/PRTR”. Este trabajo también ha sido financiado por la Generalitat Valenciana (Conselleria d’Educació, Investigació, Cultura i Esport) a través del Proyecto: NL4DISMIS: TLHs para una Sociedad Inclusiva Igualitaria y Accesible (CIPROM/2021/021). Tecnologías del Lenguaje Humano Esquema de Anotación Procesamiento del Lenguaje Natural Anotación de Corpus Construcción Corpus Lexicón
7	Abordando el tratamiento automático de la desinformación: modelado de la confiabilidad en noticias mediante Procesamiento del Lenguaje Natural Bonet-Jover, Alba 20 March 2023 (has links) La llegada de Internet y de las nuevas tecnologías dio lugar al nacimiento de la era de la información, una era que ha conectado a la sociedad de forma global y le ha permitido acceder libremente a la información digital. Con esta facilidad de acceso, cualquier persona, aún sin ser experta en la materia, puede publicar y acceder a la información sin ningún coste, lo que ha ocasionado un exceso de información no contrastada que muchas veces oculta intenciones como el engaño, la manipulación o los fines económicos. De esa forma, la era de la información se ha transformado en la era de la desinformación. La incesante necesidad de estar informados ha motivado que el consumo de la información se convierta en una rutina, ya sea siguiendo las últimas noticias en portales digitales o leyendo a diario publicaciones de personas afines. Antes, la información viajaba en forma de sonido a través de la radio o en forma de tinta a través de los periódicos, pero ahora una desmedida cantidad de información se propaga a través de algoritmos. Las tecnologías han propiciado la sobreabundancia de información, así como la propagación de noticias falsas y bulos, hasta tal punto que resulta imposible contrastar y procesar manualmente tales volúmenes de desinformación en tiempo real. No obstante, lo que se considera un problema puede convertirse en una solución, pues igual que los algoritmos y el entorno digital son los causantes de la viralización de la información falsa, estos pueden ser a su vez los detectores de la desinformación. Es aquí donde el Procesamiento del Lenguaje Natural desempeña un papel clave en la relación humano-máquina, modelando el lenguaje humano a través de la comprensión y generación automática del lenguaje, y entrenando modelos a través de la retroalimentación del experto. El trabajo coordinado entre la ingeniería computacional y la lingüística es decisivo a la hora de frenar el fenómeno de la desinformación. Son necesarias las dos perspectivas para abordar la detección automática de la forma más completa y precisa posible, pues el análisis lingüístico permite detectar y estudiar patrones textuales que hacen que la información de una noticia sea o no sea confiable, mientras que el entorno tecnológico se encarga de automatizar la detección de los patrones anotados mediante el entrenamiento de algoritmos de aprendizaje automático. Específicamente para esta tarea, donde la noticia es el objeto de estudio, el análisis a nivel periodístico también es fundamental. La noticia suele presentar una estructura determinada, técnica conocida como la Pirámide Invertida, donde la información sigue un orden de relevancia concreto con el fin de captar la atención del lector. Además, suele organizar el contenido de forma precisa y completa respondiendo a seis preguntas clave, conocidas como las 5W1H. Estas dos técnicas periodísticas permiten construir una noticia siguiendo unos estándares de calidad y son la base de la anotación de la presente investigación. Para contribuir a la tarea de la detección de desinformación, la presente investigación presenta dos guías de anotación de grano fino diseñadas para anotar tanto la veracidad (guía FNDeepML) como la confiabilidad (guía RUN- AS) de las noticias. Además, se presentan los dos corpus obtenidos y anotados con las guías de anotación, uno de ellos compuesto por 200 noticias verdaderas y falsas (corpus FNDeep) y otro que incluye 170 noticias confiables y no confiables (corpus RUN), ambos en español. Un extenso marco de evaluación se lleva a cabo para validar tanto la calidad de la anotación como la de los recursos, obteniendo resultados prometedores que muestran que el entrenamiento con las características de la anotación mejoran notablemente los modelos de predicción. Asimismo, otras dos aportaciones de la tesis relacionadas más bien con el proceso de anotación y de detección son, por un lado, la propuesta de una metodología semiautomática de anotación que agiliza la tarea del experto anotador y, por otro lado, una arquitectura para la detección de desinformación basada en una capa de estructura y otra de predicción. Las aportaciones de este trabajo permiten abordar una parte del problema de la detección de la desinformación aplicando técnicas de Procesamiento del Lenguaje Natural, pero desde un enfoque lingüístico, lo que permite profundizar en el estudio del problema desde su raíz. El conocimiento profundo del lenguaje de las noticias, y específicamente el modelado de un lenguaje propio de la desinformación, permite no solo dar un paso más en su detección, sino además justificar la confiabilidad de la noticia. / Tesis financiada por la Generalitat Valenciana a través del Programa para la promoción de la investigación científica, el desarrollo tecnológico y la innovación en la Comunitat Valenciana (ACIF/2020/177). Procesamiento del Lenguaje Natural Tecnologías del Lenguaje Humano Anotación Desinformación Esquema Anotación Anotación Asistida Construcción Corpus Detección Confiabilidad Detección Veracidad Detección Desinformación Detección Noticias Falsas

1

Page generated in 0.1109 seconds