Spelling suggestions: "subject:"processamento del lenguaje natural"" "subject:"procedimiento del lenguaje natural""
11 |
EMOTIBLOG: a model to learn subjetive information detection in the new textual genres of the web 2.0 -a multilingual and multi-genre approachBoldrini, Ester 23 January 2012 (has links)
No description available.
|
12 |
Las Tecnologías del Lenguaje Humano como herramienta de mitigación de la violencia en redes socialesBotella-Gil, Beatriz 16 February 2024 (has links)
La irrupción de Internet ha transformado radicalmente la forma en que nos relacionamos y comunicamos. Esta revolución ha trascendido las barreras físicas y temporales, permitiéndonos conectar con personas de todo el mundo sin importar la distancia o las diferencias horarias. Las redes sociales, en particular, han forjado un espacio virtual que replica gran parte de nuestras actividades cotidianas, dando forma a un mundo digital que ha impactado incluso en el ámbito laboral. El fenómeno de las redes sociales ha creado un paralelismo entre nuestra vida real y la virtual. La facilidad con la que podemos acceder a este universo virtual ha redefinido la naturaleza misma de nuestras relaciones interpersonales. Estas plataformas de comunicación representan un avance significativo para las relaciones personales; sin embargo, nos enfrentamos a un problema que aún necesitamos gestionar. La publicación de mensajes violentos son manifestaciones perjudiciales que, en muchos casos, encuentran su origen en la relativa impunidad que ofrece el anonimato digital. Este fenómeno plantea desafíos significativos para la sociedad y requiere respuestas efectivas a nivel individual, comunitario y legislativo. El anonimato en línea otorga a los individuos una máscara virtual detrás de la cual pueden ocultarse mientras participan en comportamientos violentos. Esta falta de responsabilidad personal puede exacerbar la agresividad en las interacciones, ya que las consecuencias directas parecen menos tangibles. La ausencia de empatía, a menudo atribuida a la despersonalización facilitada por las pantallas, contribuye al aumento de comportamientos irrespetuosos y violentos. La impunidad de los actos en el entorno virtual presenta un desafío adicional. La dificultad para rastrear y atribuir responsabilidad a los perpetradores de actos violentos en línea puede disuadir la acción disciplinaria. Esto crea un ambiente donde los límites éticos y sociales pueden traspasarse sin consecuencias visibles. El control de la violencia en línea requiere una respuesta colectiva y multidimensional. Educación, concienciación, políticas efectivas y tecnologías avanzadas son herramientas fundamentales para abordar este desafío y construir un entorno digital que fomente la empatía, el respeto y la seguridad. El Procesamiento del Lenguaje Natural (PLN) emerge como un pilar esencial en la lucha contra la violencia en línea. En un entorno digital saturado de información, el PLN permite analizar y comprender el lenguaje humano de manera automatizada, desempeñando un papel fundamental en la detección y prevención de comportamientos violentos. La creación de recursos específicos, como lexicones que contienen términos relacionados con la violencia, se convierte en una herramienta valiosa. Estos recursos actúan como indicadores para los algoritmos, permitiéndoles identificar patrones lingüísticos asociados con mensajes agresivos o dañinos. Además, contar con guías de anotación para la creación de corpus que proporcionen ejemplos específicos, sirve como base para el entrenamiento de los sistemas, mejorando su capacidad para reconocer contextos y matices. La capacidad del PLN para procesar grandes volúmenes de datos de texto de manera rápida y eficiente permite una detección temprana de la violencia en línea. Los algoritmos entrenados pueden analizar conversaciones en tiempo real, identificando posibles amenazas y comportamientos problemáticos antes de que escalen. Además, la adaptabilidad del PLN lo convierte en una herramienta crucial para abordar la evolución constante de las formas de violencia en línea. A medida que las tácticas y los patrones de comportamiento cambian, los sistemas de PLN pueden ajustarse y aprender de nuevas manifestaciones de violencia, manteniéndose relevantes y efectivos. Para contribuir con la detección de mensajes violentos en redes sociales, esta investigación presenta un recurso para la obtención de insultos y expresiones negativas (Fiero) resultando en un lexicón (SHARE), una guía de anotación (VIL) detallada para la elaboración de un corpus y un corpus con 6211 tuits (VILLANOS). Además, se desarrolla la propuesta de una metodología de anotación semiautomática (HITL) que agiliza la tarea del experto anotador reduciendo el tiempo empleado y se expone la evaluación extrínseca de nuestras suposiciones fundamentales. Esta validación se materializó a través de una serie de experimentos que se detallan en este trabajo. El trabajo realizado presenta valiosas aportaciones para enfrentar el desafío de la detección de mensajes violentos en redes sociales, utilizando técnicas de PLN desde una perspectiva multidisciplinaria. Este enfoque implica la integración de conocimientos y metodologías provenientes de diferentes campos, como la psicología, la sociología, la lingüística y la informática. Esta sinergia de perspectivas enriquece la comprensión del fenómeno de la violencia en redes sociales, considerando no sólo los aspectos lingüísticos sino también los sociales, psicológicos y culturales que influyen en su manifestación. / El trabajo de investigación desarrollado en esta tesis forma parte de los proyectos I+D+i COOLANG.TRIVIAL: “Recursos tecnológicos para análisis viral inteligente mediante PLN” (PID2021-122263OB-C22) financiado por MCIN/AEI/10.13039/501100011033/ y “FEDER Una manera de hacer Europa”, así como del proyecto I+D+i SOCIALFAIRNESS.SOCIALTRUST: “Análisis de la confiabilidad en medios digitales” (PDC2022-133146-C22) financiado por MCIN/AEI/10.13039/501100011033/ y por la “Unión Europea NextGenerationEU/PRTR”. Este trabajo también ha sido financiado por la Generalitat Valenciana (Conselleria d’Educació, Investigació, Cultura i Esport) a través del Proyecto: NL4DISMIS: TLHs para una Sociedad Inclusiva Igualitaria y Accesible (CIPROM/2021/021).
|
13 |
OntoFIS: tecnología ontológica en el dominio farmacoterapéuticoRomá-Ferri, María Teresa 13 November 2009 (has links)
En la actualidad, en el ámbito sanitario y, en concreto, en el dominio farmacoterapéutico existen múltiples sistemas de información (SI). Cada uno de estos SI representan el conocimiento sobre los medicamentos de formas diversas. Pero, en la práctica, para poder utilizarlos, los profesionales de la salud (médicos, enfermeras y farmacéuticos) deben de conocer el contenido y la forma de acceder a cada uno de estos SI, para obtener la información que apoye su toma de decisión sobre la terapéutica farmacológica. Para ello, los profesionales deben de invertir un tiempo, del que muchas veces no disponen, y demorar la atención directa. El reto está en que los SI sean capaces de compartir la información entre ellos, es decir, en resolver los problemas de interoperabilidad semántica. Para conseguir la interoperabilidad entre SI se han propuesto, como una opción, las tecnologías semánticas y, entre ellas, las ontologías. Las ontologías son un tipo de representación del conocimiento, basado en conceptos, que facilita la compresión del significado y del contexto de la información. A partir de estas premisas y del vacío detectado en la representación de los medicamentos, el trabajo presentado, en esta Tesis doctoral, aborda la definición de una propuesta metodológica y tecnológica para la construcción de la Ontología Farmacoterapéutica e Información para el Seguimiento, OntoFIS. La propuesta metodológica aplicada emplea el modelo de datos UML y OWL DL para el modelado de OntoFIS. La propuesta tecnológica se fundamenta en el uso de un plug-in para las transformaciones directas entre el diagrama de clases UML y el modelo de datos OWL DL. Estas propuestas pueden ser aplicadas a cualquier otro escenario y facilitan la reutilización de los diseños de aplicaciones Web para la obtención de ontologías. La aportación más significativa es que, la ontología construida, contribuye a resolver el problema de la carencia de una fuente de conocimiento específica en lengua castellana. La ontología OntoFIS está poblada con casi 55.000 instancias. Entre éstas destacan, por su valor terminológico, las correspondientes a las denominaciones de los medicamentos comercializados en España (17.204), los componentes farmacológicos (19.627), los nombres genéricos de principios activos (4.456), las denominaciones de grupos químicos (3.200) y las denominaciones de uso terapéutico (1.380). Asimismo, el modelo de conocimiento representado en OntoFIS, a partir de los resultados de la evaluación obtenidos, permite hacer inferencias, respecto al conocimiento del dominio farmacoterapéutico, válidas, consistentes y ajustadas a las necesidades de los profesionales de la salud.
|
14 |
Un entorno para la extracción incremental de conocimiento desde texto en lenguaje naturalValencia García, Rafael 22 April 2005 (has links)
La creciente necesidad de enriquecer la Web con grandes cantidades de ontologías que capturen el conocimiento del dominio ha generado multitud de estudios e investigaciones en metodologías para poder salvar el cuello de botella que supone la construcción manual de ontologías. Esta necesidad ha conducido a definir una nueva línea de investigación denominada Ontology Learning. La solución que proponemos en este trabajo se basa en el desarrollo de un nuevo entorno para extracción incremental de conocimiento desde texto en lenguaje natural. Se ha adoptado el punto de vista de la ingeniería ontológica, de modo que el conocimiento adquirido se representa por medio de ontologías. Este trabajo aporta un nuevo método para la construcción semiautomática de ontologías a partir de textos en lenguaje natural que no sólo se centra en la obtención de jerarquías de conceptos, sino que tiene en cuenta también un amplio conjunto de relaciones semánticas entre conceptos. / The need for enriching fue Web with large amounts of ontologies has increased. This need for domain models has generated several studies and research on methodologies capable of overcoming the bottleneck provoked by fue manual construction of ontologies. This need has led towards a new research area to obtain semiautomatic methods to build ontologies, which is called, Ontology Learning. The solution proposed in this work is based on the development of a new environment for incremental knowledge extraction from naturallanguage texts. F or this purpose, an ontological engineering perspective has been adopted. Hence, fue knowledge acquired through fue developed environment is represented by means of ontologies. This work presents a new method for fue semiautomatic construction of ontologies from naturallanguage texts. This method is not only based on obtaining hierarchies of concepts, but it uses a set of semantic relations between concepts.
|
15 |
Proposal of a Hybrid Approach for Natural Language Generation and its Application to Human Language TechnologiesBarros, Cristina 20 September 2019 (has links)
Actualmente, con el aumento y avance de las nuevas tecnologías, se está creando y promoviendo una simbiosis entre humanos y máquinas a través de la inteligencia colectiva y la fuerza de trabajo colaborativa. Esto está dando lugar a la nueva era de los ecosistemas digitales, donde la comunicación y la interacción hombre-máquina tiene que ser tan precisa y natural como sea posible. Dada la necesidad existente para facilitar este tipo de interacciones, queda patente que las tecnologías de lenguaje humano, encargadas de procesar el lenguaje humano de forma automática, tienen un papel clave. De entre las diversas subdisciplinas de las tecnologías de lenguaje humano, el área de la generación del lenguaje natural es capaz de producir lenguaje natural a partir de una entrada no lingüística y gracias a las características que ofrece, puede emplearse en diversos ámbitos como la meteorología, medicina etc. La tarea de la generación del lenguaje natural se divide en varias etapas, entre ellas las fases de macro planificación, micro planificación y realización. En la fase de macro planificación el objetivo es determinar qué queremos decir, para luego decidir cómo queremos decirlo en la fase de realización. Tradicionalmente una de las limitaciones de los sistemas de generación del lenguaje natural es que se han diseñado para dominios muy concretos y para un fin determinado, siendo el desarrollo de enfoques de dominio abierto y flexibles todavía un reto para la comunidad investigadora. En base a esto, esta tesis doctoral plantea una aproximación híbrida para la generación del lenguaje natural, la cual permitirá mejorar la calidad del texto producido, favoreciendo la independencia del dominio, del género textual y de la aplicación final donde se utilice. Con el fin de lograr este objetivo, se ha implementado HanaNLG, un enfoque flexible de generación centrado en la fase de realización, el cual, apoyándose en conocimientos estadísticos e información semántica, permite generar textos para diferentes dominios, géneros e idiomas guiados por la entrada.
|
16 |
Abordando el tratamiento automático de la desinformación: modelado de la confiabilidad en noticias mediante Procesamiento del Lenguaje NaturalBonet-Jover, Alba 20 March 2023 (has links)
La llegada de Internet y de las nuevas tecnologías dio lugar al nacimiento de la era de la información, una era que ha conectado a la sociedad de forma global y le ha permitido acceder libremente a la información digital. Con esta facilidad de acceso, cualquier persona, aún sin ser experta en la materia, puede publicar y acceder a la información sin ningún coste, lo que ha ocasionado un exceso de información no contrastada que muchas veces oculta intenciones como el engaño, la manipulación o los fines económicos. De esa forma, la era de la información se ha transformado en la era de la desinformación. La incesante necesidad de estar informados ha motivado que el consumo de la información se convierta en una rutina, ya sea siguiendo las últimas noticias en portales digitales o leyendo a diario publicaciones de personas afines. Antes, la información viajaba en forma de sonido a través de la radio o en forma de tinta a través de los periódicos, pero ahora una desmedida cantidad de información se propaga a través de algoritmos. Las tecnologías han propiciado la sobreabundancia de información, así como la propagación de noticias falsas y bulos, hasta tal punto que resulta imposible contrastar y procesar manualmente tales volúmenes de desinformación en tiempo real. No obstante, lo que se considera un problema puede convertirse en una solución, pues igual que los algoritmos y el entorno digital son los causantes de la viralización de la información falsa, estos pueden ser a su vez los detectores de la desinformación. Es aquí donde el Procesamiento del Lenguaje Natural desempeña un papel clave en la relación humano-máquina, modelando el lenguaje humano a través de la comprensión y generación automática del lenguaje, y entrenando modelos a través de la retroalimentación del experto. El trabajo coordinado entre la ingeniería computacional y la lingüística es decisivo a la hora de frenar el fenómeno de la desinformación. Son necesarias las dos perspectivas para abordar la detección automática de la forma más completa y precisa posible, pues el análisis lingüístico permite detectar y estudiar patrones textuales que hacen que la información de una noticia sea o no sea confiable, mientras que el entorno tecnológico se encarga de automatizar la detección de los patrones anotados mediante el entrenamiento de algoritmos de aprendizaje automático. Específicamente para esta tarea, donde la noticia es el objeto de estudio, el análisis a nivel periodístico también es fundamental. La noticia suele presentar una estructura determinada, técnica conocida como la Pirámide Invertida, donde la información sigue un orden de relevancia concreto con el fin de captar la atención del lector. Además, suele organizar el contenido de forma precisa y completa respondiendo a seis preguntas clave, conocidas como las 5W1H. Estas dos técnicas periodísticas permiten construir una noticia siguiendo unos estándares de calidad y son la base de la anotación de la presente investigación. Para contribuir a la tarea de la detección de desinformación, la presente investigación presenta dos guías de anotación de grano fino diseñadas para anotar tanto la veracidad (guía FNDeepML) como la confiabilidad (guía RUN- AS) de las noticias. Además, se presentan los dos corpus obtenidos y anotados con las guías de anotación, uno de ellos compuesto por 200 noticias verdaderas y falsas (corpus FNDeep) y otro que incluye 170 noticias confiables y no confiables (corpus RUN), ambos en español. Un extenso marco de evaluación se lleva a cabo para validar tanto la calidad de la anotación como la de los recursos, obteniendo resultados prometedores que muestran que el entrenamiento con las características de la anotación mejoran notablemente los modelos de predicción. Asimismo, otras dos aportaciones de la tesis relacionadas más bien con el proceso de anotación y de detección son, por un lado, la propuesta de una metodología semiautomática de anotación que agiliza la tarea del experto anotador y, por otro lado, una arquitectura para la detección de desinformación basada en una capa de estructura y otra de predicción. Las aportaciones de este trabajo permiten abordar una parte del problema de la detección de la desinformación aplicando técnicas de Procesamiento del Lenguaje Natural, pero desde un enfoque lingüístico, lo que permite profundizar en el estudio del problema desde su raíz. El conocimiento profundo del lenguaje de las noticias, y específicamente el modelado de un lenguaje propio de la desinformación, permite no solo dar un paso más en su detección, sino además justificar la confiabilidad de la noticia. / Tesis financiada por la Generalitat Valenciana a través del Programa para la promoción de la investigación científica, el desarrollo tecnológico y la innovación en la Comunitat Valenciana (ACIF/2020/177).
|
17 |
Natural Language Processing using Deep Learning in Social MediaGiménez Fayos, María Teresa 02 September 2021 (has links)
[ES] En los últimos años, los modelos de aprendizaje automático profundo (AP) han revolucionado los sistemas de procesamiento de lenguaje natural (PLN).
Hemos sido testigos de un avance formidable en las capacidades de estos sistemas y actualmente podemos encontrar sistemas que integran modelos PLN de manera ubicua.
Algunos ejemplos de estos modelos con los que interaccionamos a diario incluyen modelos que determinan la intención de la persona que escribió un texto, el sentimiento que pretende comunicar un tweet o nuestra ideología política a partir de lo que compartimos en redes sociales.
En esta tesis se han propuestos distintos modelos de PNL que abordan tareas que estudian el texto que se comparte en redes sociales. En concreto, este trabajo se centra en dos tareas fundamentalmente: el análisis de sentimientos y el reconocimiento de la personalidad de la persona autora de un texto.
La tarea de analizar el sentimiento expresado en un texto es uno de los problemas principales en el PNL y consiste en determinar la polaridad que un texto pretende comunicar. Se trata por lo tanto de una tarea estudiada en profundidad de la cual disponemos de una vasta cantidad de recursos y modelos.
Por el contrario, el problema del reconocimiento de personalidad es una tarea revolucionaria que tiene como objetivo determinar la personalidad de los usuarios considerando su estilo de escritura. El estudio de esta tarea es más marginal por lo que disponemos de menos recursos para abordarla pero que no obstante presenta un gran potencial.
A pesar de que el enfoque principal de este trabajo fue el desarrollo de modelos de aprendizaje profundo, también hemos propuesto modelos basados en recursos lingüísticos y modelos clásicos del aprendizaje automático. Estos últimos modelos nos han permitido explorar las sutilezas de distintos elementos lingüísticos como por ejemplo el impacto que tienen las emociones en la clasificación correcta del sentimiento expresado en un texto.
Posteriormente, tras estos trabajos iniciales se desarrollaron modelos AP, en particular, Redes neuronales convolucionales (RNC) que fueron aplicadas a las tareas previamente citadas. En el caso del reconocimiento de la personalidad, se han comparado modelos clásicos del aprendizaje automático con modelos de aprendizaje profundo, pudiendo establecer una comparativa bajo las mismas premisas.
Cabe destacar que el PNL ha evolucionado drásticamente en los últimos años gracias al desarrollo de campañas de evaluación pública, donde múltiples equipos de investigación comparan las capacidades de los modelos que proponen en las mismas condiciones. La mayoría de los modelos presentados en esta tesis fueron o bien evaluados mediante campañas de evaluación públicas, o bien emplearon la configuración de una campaña pública previamente celebrada. Siendo conscientes, por lo tanto, de la importancia de estas campañas para el avance del PNL, desarrollamos una campaña de evaluación pública cuyo objetivo era clasificar el tema tratado en un tweet, para lo cual recogimos y etiquetamos un nuevo conjunto de datos.
A medida que avanzabamos en el desarrollo del trabajo de esta tesis, decidimos estudiar en profundidad como las RNC se aplicaban a las tareas de PNL.
En este sentido, se exploraron dos líneas de trabajo.
En primer lugar, propusimos un método de relleno semántico para RNC, que plantea una nueva manera de representar el texto para resolver tareas de PNL. Y en segundo lugar, se introdujo un marco teórico para abordar una de las críticas más frecuentes del aprendizaje profundo, el cual es la falta de interpretabilidad. Este marco busca visualizar qué patrones léxicos, si los hay, han sido aprendidos por la red para clasificar un texto. / [CA] En els últims anys, els models d'aprenentatge automàtic profund (AP) han revolucionat els sistemes de processament de llenguatge natural (PLN).
Hem estat testimonis d'un avanç formidable en les capacitats d'aquests sistemes i actualment podem trobar sistemes que integren models PLN de manera ubiqua.
Alguns exemples d'aquests models amb els quals interaccionem diàriament inclouen models que determinen la intenció de la persona que va escriure un text, el sentiment que pretén comunicar un tweet o la nostra ideologia política a partir del que compartim en xarxes socials.
En aquesta tesi s'han proposats diferents models de PNL que aborden tasques que estudien el text que es comparteix en xarxes socials. En concret, aquest treball se centra en dues tasques fonamentalment: l'anàlisi de sentiments i el reconeixement de la personalitat de la persona autora d'un text.
La tasca d'analitzar el sentiment expressat en un text és un dels problemes principals en el PNL i consisteix a determinar la polaritat que un text pretén comunicar. Es tracta per tant d'una tasca estudiada en profunditat de la qual disposem d'una vasta quantitat de recursos i models.
Per contra, el problema del reconeixement de la personalitat és una tasca revolucionària que té com a objectiu determinar la personalitat dels usuaris considerant el seu estil d'escriptura. L'estudi d'aquesta tasca és més marginal i en conseqüència disposem de menys recursos per abordar-la però no obstant i això presenta un gran potencial.
Tot i que el fouc principal d'aquest treball va ser el desenvolupament de models d'aprenentatge profund, també hem proposat models basats en recursos lingüístics i models clàssics de l'aprenentatge automàtic. Aquests últims models ens han permès explorar les subtileses de diferents elements lingüístics com ara l'impacte que tenen les emocions en la classificació correcta del sentiment expressat en un text.
Posteriorment, després d'aquests treballs inicials es van desenvolupar models AP, en particular, Xarxes neuronals convolucionals (XNC) que van ser aplicades a les tasques prèviament esmentades. En el cas de el reconeixement de la personalitat, s'han comparat models clàssics de l'aprenentatge automàtic amb models d'aprenentatge profund la qual cosa a permet establir una comparativa de les dos aproximacions sota les mateixes premisses.
Cal remarcar que el PNL ha evolucionat dràsticament en els últims anys gràcies a el desenvolupament de campanyes d'avaluació pública on múltiples equips d'investigació comparen les capacitats dels models que proposen sota les mateixes condicions. La majoria dels models presentats en aquesta tesi van ser o bé avaluats mitjançant campanyes d'avaluació públiques, o bé s'ha emprat la configuració d'una campanya pública prèviament celebrada. Sent conscients, per tant, de la importància d'aquestes campanyes per a l'avanç del PNL, vam desenvolupar una campanya d'avaluació pública on l'objectiu era classificar el tema tractat en un tweet, per a la qual cosa vam recollir i etiquetar un nou conjunt de dades.
A mesura que avançàvem en el desenvolupament del treball d'aquesta tesi, vam decidir estudiar en profunditat com les XNC s'apliquen a les tasques de PNL. En aquest sentit, es van explorar dues línies de treball.En primer lloc, vam proposar un mètode d'emplenament semàntic per RNC, que planteja una nova manera de representar el text per resoldre tasques de PNL. I en segon lloc, es va introduir un marc teòric per abordar una de les crítiques més freqüents de l'aprenentatge profund, el qual és la falta de interpretabilitat. Aquest marc cerca visualitzar quins patrons lèxics, si n'hi han, han estat apresos per la xarxa per classificar un text. / [EN] In the last years, Deep Learning (DL) has revolutionised the potential of automatic systems that handle Natural Language Processing (NLP) tasks.
We have witnessed a tremendous advance in the performance of these systems. Nowadays, we found embedded systems ubiquitously, determining the intent of the text we write, the sentiment of our tweets or our political views, for citing some examples.
In this thesis, we proposed several NLP models for addressing tasks that deal with social media text. Concretely, this work is focused mainly on Sentiment Analysis and Personality Recognition tasks.
Sentiment Analysis is one of the leading problems in NLP, consists of determining the polarity of a text, and it is a well-known task where the number of resources and models proposed is vast.
In contrast, Personality Recognition is a breakthrough task that aims to determine the users' personality using their writing style, but it is more a niche task with fewer resources designed ad-hoc but with great potential.
Despite the fact that the principal focus of this work was on the development of Deep Learning models, we have also proposed models based on linguistic resources and classical Machine Learning models. Moreover, in this more straightforward setup, we have explored the nuances of different language devices, such as the impact of emotions in the correct classification of the sentiment expressed in a text.
Afterwards, DL models were developed, particularly Convolutional Neural Networks (CNNs), to address previously described tasks. In the case of Personality Recognition, we explored the two approaches, which allowed us to compare the models under the same circumstances.
Noteworthy, NLP has evolved dramatically in the last years through the development of public evaluation campaigns, where multiple research teams compare the performance of their approaches under the same conditions. Most of the models here presented were either assessed in an evaluation task or either used their setup. Recognising the importance of this effort, we curated and developed an evaluation campaign for classifying political tweets.
In addition, as we advanced in the development of this work, we decided to study in-depth CNNs applied to NLP tasks.
Two lines of work were explored in this regard.
Firstly, we proposed a semantic-based padding method for CNNs, which addresses how to represent text more appropriately for solving NLP tasks. Secondly, a theoretical framework was introduced for tackling one of the most frequent critics of Deep Learning: interpretability. This framework seeks to visualise what lexical patterns, if any, the CNN is learning in order to classify a sentence.
In summary, the main achievements presented in this thesis are:
- The organisation of an evaluation campaign for Topic Classification from texts gathered from social media.
- The proposal of several Machine Learning models tackling the Sentiment Analysis task from social media. Besides, a study of the impact of linguistic devices such as figurative language in the task is presented.
- The development of a model for inferring the personality of a developer provided the source code that they have written.
- The study of Personality Recognition tasks from social media following two different approaches, models based on machine learning algorithms and handcrafted features, and models based on CNNs were proposed and compared both approaches.
- The introduction of new semantic-based paddings for optimising how the text was represented in CNNs.
- The definition of a theoretical framework to provide interpretable information to what CNNs were learning internally. / Giménez Fayos, MT. (2021). Natural Language Processing using Deep Learning in Social Media [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172164
|
18 |
Dependency Syntax in the Automatic Detection of Irony and StanceCignarella, Alessandra Teresa 29 November 2021 (has links)
[ES] The present thesis is part of the broad panorama of studies of Natural Language Processing (NLP). In particular, it is a work of Computational Linguistics (CL) designed to study in depth the contribution of syntax in the field of sentiment analysis and, therefore, to study texts extracted from social media or, more generally, online content.
Furthermore, given the recent interest of the scientific community in the Universal Dependencies (UD) project, which proposes a morphosyntactic annotation format aimed at creating a "universal" representation of the phenomena of morphology and syntax in a manifold of languages, in this work we made use of this format, thinking of a study in a multilingual perspective (Italian, English, French and Spanish).
In this work we will provide an exhaustive presentation of the morphosyntactic annotation format of UD, in particular underlining the most relevant issues regarding their application to UGC.
Two tasks will be presented, and used as case studies, in order to test the research hypotheses: the first case study will be in the field of automatic Irony Detection and the second in the area of Stance Detection.
In both cases, historical notes will be provided that can serve as a context for the reader, an introduction to the problems faced will be outlined and the activities proposed in the computational linguistics community will be described. Furthermore, particular attention will be paid to the resources currently available as well as to those developed specifically for the study of the aforementioned phenomena. Finally, through the description of a series of experiments, both within evaluation campaigns and within independent studies, I will try to describe the contribution that syntax can provide to the resolution of such tasks.
This thesis is a revised collection of my three-year PhD career and collocates within the growing trend of studies devoted to make Artificial Intelligence results more explainable, going beyond the achievement of highest scores in performing tasks, but rather making their motivations understandable and comprehensible for experts in the domain.
The novel contribution of this work mainly consists in the exploitation of features that are based on morphology and dependency syntax, which were used in order to create vectorial representations of social media texts in various languages and for two different tasks. Such features have then been paired with a manifold of machine learning classifiers, with some neural networks and also with the language model BERT.
Results suggest that fine-grained dependency-based syntactic information is highly informative for the detection of irony, and less informative for what concerns stance detection. Nonetheless, dependency syntax might still prove useful in the task of stance detection if firstly irony detection is considered as a preprocessing step. I also believe that the dependency syntax approach that I propose could shed some light on the explainability of a difficult pragmatic phenomenon such as irony. / [CA] La presente tesis se enmarca dentro del amplio panorama de estudios relacionados con el Procesamiento del Lenguaje Natural (NLP). En concreto, se trata de un trabajo de Lingüística Computacional (CL) cuyo objetivo principal es estudiar en profundidad la contribución de la sintaxis en el campo del análisis de sentimientos y, en concreto, aplicado a estudiar textos extraídos de las redes sociales o, más en general, de contenidos online.
Además, dado el reciente interés de la comunidad científica por el proyecto Universal Dependencies (UD), en el que se propone un formato de anotación morfosintáctica destinado a crear una representación "universal" de la morfología y sintaxis aplicable a diferentes idiomas, en este trabajo se utiliza este formato con el propósito de realizar un estudio desde una perspectiva multilingüe (italiano, inglés, francés y español).
En este trabajo se presenta una descripción exhaustiva del formato de anotación morfosintáctica de UD, en particular, subrayando las cuestiones más relevantes en cuanto a su aplicación a los UGC generados en las redes sociales. El objetivo final es analizar y comprobar si estas anotaciones morfosintácticas sirven para obtener información útil para los modelos de detección de la ironía y del stance o posicionamiento.
Se presentarán dos tareas y se utilizarán como ejemplos de estudio para probar las hipótesis de la investigación: el primer caso se centra en el área de la detección automática de la ironía y el segundo en el área de la detección del stance o posicionamiento.
En ambos casos, se proporcionan los antecendentes y trabajos relacionados notas históricas que pueden servir de contexto para el lector, se plantean los problemas encontrados y se describen las distintas actividades propuestas para resolver estos problemas en la comunidad de la lingüística computacional. Se presta especial atención a los recursos actualmente disponibles, así como a los desarrollados específicamente para el estudio de los fenómenos antes mencionados. Finalmente, a través de la descripción de una serie de experimentos, llevados a cabo tanto en campañas de evaluación como en estudios independientes, se describe la contribución que la sintaxis puede brindar a la resolución de esas tareas.
Esta tesis es el resultado de toda la investigación que he llevado a cabo durante mi doctorado en una colección revisada de mi carrera de doctorado de los últimos tres años y medio, y se ubica dentro de la tendencia creciente de estudios dedicados a hacer que los resultados de la Inteligencia Artificial sean más explicables, yendo más allá del logro de puntajes más altos en la realización de tareas, sino más bien haciendo comprensibles sus motivaciones y qué los procesos sean más comprensibles para los expertos en el dominio.
La contribución principal y más novedosa de este trabajo consiste en la explotación de características (o rasgos) basadas en la morfología y la sintaxis de dependencias, que se utilizaron para crear las representaciones vectoriales de textos procedentes de redes sociales en varios idiomas y para dos tareas diferentes. A continuación, estas características se han combinado con una variedad de clasificadores de aprendizaje automático, con algunas redes neuronales y también con el modelo de lenguaje BERT.
Los resultados sugieren que la información sintáctica basada en dependencias utilizada es muy informativa para la detección de la ironía y menos informativa en lo que respecta a la detección del posicionamiento. No obstante, la sintaxis basada en dependencias podría resultar útil en la tarea de detección del posicionamiento si, en primer lugar, la detección de ironía se considera un paso previo al procesamiento en la detección del posicionamiento. También creo que el enfoque basado casi completamente en sintaxis de dependencias que propongo en esta tesis podría ayudar a explicar mejor un fenómeno prag / [EN] La present tesi s'emmarca dins de l'ampli panorama d'estudis relacionats amb el Processament del Llenguatge Natural (NLP). En concret, es tracta d'un treball de Lingüística Computacional (CL), l'objectiu principal del qual és estudiar en profunditat la contribució de la sintaxi en el camp de l'anàlisi de sentiments i, en concret, aplicat a l'estudi de textos extrets de les xarxes socials o, més en general, de continguts online.
A més, el recent interès de la comunitat científica pel projecte Universal Dependències (UD), en el qual es proposa un format d'anotació morfosintàctica destinat a crear una representació "universal" de la morfologia i sintaxi aplicable a diferents idiomes, en aquest treball s'utilitza aquest format amb el propòsit de realitzar un estudi des d'una perspectiva multilingüe (italià, anglès, francès i espanyol).
En aquest treball es presenta una descripció exhaustiva del format d'anotació morfosintàctica d'UD, en particular, posant més èmfasi en les qüestions més rellevants pel que fa a la seva aplicació als UGC generats a les xarxes socials. L'objectiu final és analitzar i comprovar si aquestes anotacions morfosintàctiques serveixen per obtenir informació útil per als sistemes de detecció de la ironia i del stance o posicionament.
Es presentaran dues tasques i s'utilitzaran com a exemples d'estudi per provar les hipòtesis de la investigació: el primer cas se centra en l'àrea de la detecció automàtica de la ironia i el segon en l'àrea de la detecció del stance o posicionament.
En tots dos casos es proporcionen els antecedents i treballs relacionats que poden servir de context per al lector, es plantegen els problemes trobats i es descriuen les diferents activitats proposades per resoldre aquests problemes en la comunitat de la lingüística computacional. Es fa especialment referència als recursos actualment disponibles, així com als desenvolupats específicament per a l'estudi dels fenòmens abans esmentats. Finalment, a través de la descripció d'una sèrie d'experiments, duts a terme tant en campanyes d'avaluació com en estudis independents, es descriu la contribució que la sintaxi pot oferir a la resolució d'aquestes tasques.
Aquesta tesi és el resultat de tota la investigació que he dut a terme durant el meu doctorat els últims tres anys i mig, i se situa dins de la tendència creixent d'estudis dedicats a fer que els resultats de la Intel·ligència Artificial siguin més explicables, que vagin més enllà de l'assoliment de puntuacions més altes en la realització de tasques, sinó més aviat fent comprensibles les seves motivacions i què els processos siguin més comprensibles per als experts en el domini.
La contribució principal i més nova d'aquest treball consisteix en l'explotació de característiques (o trets) basades en la morfologia i la sintaxi de dependències, que s'utilitzen per crear les representacions vectorials de textos procedents de xarxes socials en diversos idiomes i per a dues tasques diferents. A continuació, aquestes característiques s'han combinat amb una varietat de classificadors d'aprenentatge automàtic, amb algunes xarxes neuronals i també amb el model de llenguatge BERT.
Els resultats suggereixen que la informació sintàctica utilitzada basada en dependències és molt informativa per a la detecció de la ironia i menys informativa pel que fa a la detecció del posicionament. Malgrat això, la sintaxi basada en dependències podria ser útil en la tasca de detecció del posicionament si, en primer lloc, la detecció d'ironia es considera un pas previ al processament en la detecció del posicionament. També crec que l'enfocament basat gairebé completament en sintaxi de dependències que proposo en aquesta tesi podria ajudar a explicar millor un fenomen pragmàtic tan difícil de detectar i d'interpretar com la ironia. / Cignarella, AT. (2021). Dependency Syntax in the Automatic Detection of Irony and Stance [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/177639
|
19 |
Modelling of a System for the Detection of Weak Signals Through Text Mining and NLP. Proposal of Improvement by a Quantum Variational CircuitGriol Barres, Israel 30 May 2022 (has links)
Tesis por compendio / [ES] En esta tesis doctoral se propone y evalúa un sistema para detectar señales débiles (weak signals) relacionadas con cambios futuros trascendentales. Si bien la mayoría de las soluciones conocidas se basan en el uso de datos estructurados, el sistema propuesto detecta cuantitativamente estas señales utilizando información heterogénea y no estructurada de fuentes científicas, periodísticas y de redes sociales.
La predicción de nuevas tendencias en un medio tiene muchas aplicaciones. Por ejemplo, empresas y startups se enfrentan a cambios constantes en sus mercados que son muy difíciles de predecir. Por esta razón, el desarrollo de sistemas para detectar automáticamente cambios futuros significativos en una etapa temprana es relevante para que cualquier organización tome decisiones acertadas a tiempo.
Este trabajo ha sido diseñado para obtener señales débiles del futuro en cualquier campo dependiendo únicamente del conjunto de datos de entrada de documentos. Se aplican técnicas de minería de textos y procesamiento del lenguaje natural para procesar todos estos documentos. Como resultado, se obtiene un mapa con un ranking de términos, una lista de palabras clave clasificadas automáticamente y una lista de expresiones formadas por múltiples palabras.
El sistema completo se ha probado en cuatro sectores diferentes: paneles solares, inteligencia artificial, sensores remotos e imágenes médicas. Este trabajo ha obtenido resultados prometedores, evaluados con dos metodologías diferentes. Como resultado, el sistema ha sido capaz de detectar de forma satisfactoria nuevas tendencias en etapas muy tempranas que se han vuelto cada vez más importantes en la actualidad.
La computación cuántica es un nuevo paradigma para una multitud de aplicaciones informáticas. En esta tesis doctoral también se presenta un estudio de las tecnologías disponibles en la actualidad para la implementación física de qubits y puertas cuánticas, estableciendo sus principales ventajas y desventajas, y los marcos disponibles para la programación e implementación de circuitos cuánticos.
Con el fin de mejorar la efectividad del sistema, se describe un diseño de un circuito cuántico basado en máquinas de vectores de soporte (SVM) para la resolución de problemas de clasificación. Este circuito está especialmente diseñado para los ruidosos procesadores cuánticos de escala intermedia (NISQ) que están disponibles actualmente. Como experimento, el circuito ha sido probado en un computador cuántico real basado en qubits superconductores por IBM como una mejora para el subsistema de minería de texto en la detección de señales débiles.
Los resultados obtenidos con el experimento cuántico muestran también conclusiones interesantes y una mejora en el rendimiento de cerca del 20% sobre los sistemas convencionales, pero a su vez confirman que aún se requiere un desarrollo tecnológico continuo para aprovechar al máximo la computación cuántica. / [CA] En aquesta tesi doctoral es proposa i avalua un sistema per detectar senyals febles (weak signals) relacionats amb canvis futurs transcendentals. Si bé la majoria de solucions conegudes es basen en l'ús de dades estructurades, el sistema proposat detecta quantitativament aquests senyals utilitzant informació heterogènia i no estructurada de fonts científiques, periodístiques i de xarxes socials.
La predicció de noves tendències en un medi té moltes aplicacions. Per exemple, empreses i startups s'enfronten a canvis constants als seus mercats que són molt difícils de predir. Per això, el desenvolupament de sistemes per detectar automàticament canvis futurs significatius en una etapa primerenca és rellevant perquè les organitzacions prenguen decisions encertades a temps.
Aquest treball ha estat dissenyat per obtenir senyals febles del futur a qualsevol camp depenent únicament del conjunt de dades d'entrada de documents. S'hi apliquen tècniques de mineria de textos i processament del llenguatge natural per processar tots aquests documents. Com a resultat, s'obté un mapa amb un rànquing de termes, un llistat de paraules clau classificades automàticament i un llistat d'expressions formades per múltiples paraules.
El sistema complet s'ha provat en quatre sectors diferents: panells solars, intel·ligència artificial, sensors remots i imatges mèdiques. Aquest treball ha obtingut resultats prometedors, avaluats amb dues metodologies diferents. Com a resultat, el sistema ha estat capaç de detectar de manera satisfactòria noves tendències en etapes molt primerenques que s'han tornat cada cop més importants actualment.
La computació quàntica és un paradigma nou per a una multitud d'aplicacions informàtiques. En aquesta tesi doctoral també es presenta un estudi de les tecnologies disponibles actualment per a la implementació física de qubits i portes quàntiques, establint-ne els principals avantatges i desavantatges, i els marcs disponibles per a la programació i implementació de circuits quàntics.
Per tal de millorar l'efectivitat del sistema, es descriu un disseny d'un circuit quàntic basat en màquines de vectors de suport (SVM) per resoldre problemes de classificació. Aquest circuit està dissenyat especialment per als sorollosos processadors quàntics d'escala intermèdia (NISQ) que estan disponibles actualment. Com a experiment, el circuit ha estat provat en un ordinador quàntic real basat en qubits superconductors per IBM com una millora per al subsistema de mineria de text.
Els resultats obtinguts amb l'experiment quàntic també mostren conclusions interessants i una millora en el rendiment de prop del 20% sobre els sistemes convencionals, però a la vegada confirmen que encara es requereix un desenvolupament tecnològic continu per aprofitar al màxim la computació quàntica. / [EN] In this doctoral thesis, a system to detect weak signals related to future transcendental changes is proposed and tested. While most known solutions are based on the use of structured data, the proposed system quantitatively detects these signals using heterogeneous and unstructured information from scientific, journalistic, and social sources.
Predicting new trends in an environment has many applications. For instance, companies and startups face constant changes in their markets that are very difficult to predict. For this reason, developing systems to automatically detect significant future changes at an early stage is relevant for any organization to make right decisions on time.
This work has been designed to obtain weak signals of the future in any field depending only on the input dataset of documents. Text mining and natural language processing techniques are applied to process all these documents. As a result, a map of ranked terms, a list of automatically classified keywords and a list of multi-word expressions are obtained.
The overall system has been tested in four different sectors: solar panels, artificial intelligence, remote sensing, and medical imaging. This work has obtained promising results that have been evaluated with two different methodologies. As a result, the system was able to successfully detect new trends at a very early stage that have become more and more important today.
Quantum computing is a new paradigm for a multitude of computing applications. This doctoral thesis also presents a study of the technologies that are currently available for the physical implementation of qubits and quantum gates, establishing their main advantages and disadvantages and the available frameworks for programming and implementing quantum circuits.
In order to improve the effectiveness of the system, a design of a quantum circuit based on support vector machines (SVMs) is described for the resolution of classification problems. This circuit is specially designed for the noisy intermediate-scale quantum (NISQ) computers that are currently available. As an experiment, the circuit has been tested on a real quantum computer based on superconducting qubits by IBM as an improvement for the text mining subsystem in the detection of weak signals.
The results obtained with the quantum experiment show interesting outcomes with an improvement of close to 20% better performance than conventional systems, but also confirm that ongoing technological development is still required to take full advantage of quantum computing. / Griol Barres, I. (2022). Modelling of a System for the Detection of Weak Signals Through Text Mining and NLP. Proposal of Improvement by a Quantum Variational Circuit [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/183029 / Compendio
|
20 |
Computational Argumentation for the Automatic Analysis of Argumentative Discourse and Human PersuasionRuiz Dolz, Ramon 10 July 2023 (has links)
Tesis por compendio / [ES] La argumentación computacional es el área de investigación que estudia y analiza el uso de distintas técnicas y algoritmos que aproximan el razonamiento argumentativo humano desde un punto de vista computacional. En esta tesis doctoral se estudia el uso de distintas técnicas propuestas bajo el marco de la argumentación computacional para realizar un análisis automático del discurso argumentativo, y para desarrollar técnicas de persuasión computacional basadas en argumentos. Con estos objetivos, en primer lugar se presenta una completa revisión del estado del arte y se propone una clasificación de los trabajos existentes en el área de la argumentación computacional. Esta revisión nos permite contextualizar y entender la investigación previa de forma más clara desde la perspectiva humana del razonamiento argumentativo, así como identificar las principales limitaciones y futuras tendencias de la investigación realizada en argumentación computacional. En segundo lugar, con el objetivo de solucionar algunas de estas limitaciones, se ha creado y descrito un nuevo conjunto de datos que permite abordar nuevos retos y investigar problemas previamente inabordables (e.g., evaluación automática de debates orales). Conjuntamente con estos datos, se propone un nuevo sistema para la extracción automática de argumentos y se realiza el análisis comparativo de distintas técnicas para esta misma tarea. Además, se propone un nuevo algoritmo para la evaluación automática de debates argumentativos y se prueba con debates humanos reales. Finalmente, en tercer lugar se presentan una serie de estudios y propuestas para mejorar la capacidad persuasiva de sistemas de argumentación computacionales en la interacción con usuarios humanos. De esta forma, en esta tesis se presentan avances en cada una de las partes principales del proceso de argumentación computacional (i.e., extracción automática de argumentos, representación del conocimiento y razonamiento basados en argumentos, e interacción humano-computador basada en argumentos), así como se proponen algunos de los cimientos esenciales para el análisis automático completo de discursos argumentativos en lenguaje natural. / [CA] L'argumentació computacional és l'àrea de recerca que estudia i analitza l'ús de distintes tècniques i algoritmes que aproximen el raonament argumentatiu humà des d'un punt de vista computacional. En aquesta tesi doctoral s'estudia l'ús de distintes tècniques proposades sota el marc de l'argumentació computacional per a realitzar una anàlisi automàtic del discurs argumentatiu, i per a desenvolupar tècniques de persuasió computacional basades en arguments. Amb aquestos objectius, en primer lloc es presenta una completa revisió de l'estat de l'art i es proposa una classificació dels treballs existents en l'àrea de l'argumentació computacional. Aquesta revisió permet contextualitzar i entendre la investigació previa de forma més clara des de la perspectiva humana del raonament argumentatiu, així com identificar les principals limitacions i futures tendències de la investigació realitzada en argumentació computacional. En segon lloc, amb l'objectiu de sol$\cdot$lucionar algunes d'aquestes limitacions, hem creat i descrit un nou conjunt de dades que ens permet abordar nous reptes i investigar problemes prèviament inabordables (e.g., avaluació automàtica de debats orals). Conjuntament amb aquestes dades, es proposa un nou sistema per a l'extracció d'arguments i es realitza l'anàlisi comparativa de distintes tècniques per a aquesta mateixa tasca. A més a més, es proposa un nou algoritme per a l'avaluació automàtica de debats argumentatius i es prova amb debats humans reals. Finalment, en tercer lloc es presenten una sèrie d'estudis i propostes per a millorar la capacitat persuasiva de sistemes d'argumentació computacionals en la interacció amb usuaris humans. D'aquesta forma, en aquesta tesi es presenten avanços en cada una de les parts principals del procés d'argumentació computacional (i.e., l'extracció automàtica d'arguments, la representació del coneixement i raonament basats en arguments, i la interacció humà-computador basada en arguments), així com es proposen alguns dels fonaments essencials per a l'anàlisi automàtica completa de discursos argumentatius en llenguatge natural. / [EN] Computational argumentation is the area of research that studies and analyses the use of different techniques and algorithms that approximate human argumentative reasoning from a computational viewpoint. In this doctoral thesis we study the use of different techniques proposed under the framework of computational argumentation to perform an automatic analysis of argumentative discourse, and to develop argument-based computational persuasion techniques. With these objectives in mind, we first present a complete review of the state of the art and propose a classification of existing works in the area of computational argumentation. This review allows us to contextualise and understand the previous research more clearly from the human perspective of argumentative reasoning, and to identify the main limitations and future trends of the research done in computational argumentation. Secondly, to overcome some of these limitations, we create and describe a new corpus that allows us to address new challenges and investigate on previously unexplored problems (e.g., automatic evaluation of spoken debates). In conjunction with this data, a new system for argument mining is proposed and a comparative analysis of different techniques for this same task is carried out. In addition, we propose a new algorithm for the automatic evaluation of argumentative debates and we evaluate it with real human debates. Thirdly, a series of studies and proposals are presented to improve the persuasiveness of computational argumentation systems in the interaction with human users. In this way, this thesis presents advances in each of the main parts of the computational argumentation process (i.e., argument mining, argument-based knowledge representation and reasoning, and argument-based human-computer interaction), and proposes some of the essential foundations for the complete automatic analysis of natural language argumentative discourses. / This thesis has been partially supported by the Generalitat Valenciana project PROMETEO/2018/002 and by the Spanish Government projects TIN2017-89156-R and PID2020-113416RB-I00 / Ruiz Dolz, R. (2023). Computational Argumentation for the Automatic Analysis of Argumentative Discourse and Human Persuasion [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/194806 / Compendio
|
Page generated in 0.1373 seconds