31 |
Desarrollo de una base de datos léxica basada en sinonimia para Shipibo-KoniboMaguiño Valencia, Diego Arturo 24 November 2021 (has links)
Este proyecto tiene como objetivo el desarrollo de una base de datos léxica basada en
sinonimia (mejor conocida como WordNet) para la lengua Shipibo-Konibo. Se trabajó
con el fin de generar recursos electrónicos para esta lengua que a pesar de ser la segunda
más hablada en la amazonia posee escasos recursos lingüísticos. Se contó con el apoyo
de lingüistas y un hablante nativo de Shipibo-Konibo durante el proceso de desarrollo y
para la validación del mismo.
Como base se usó un diccionario escaneado en Shipibo-Konibo y la WordNet en
español disponible a través de Internet. Para que la lectura del diccionario fuera posible,
se desarrolló un algoritmo con este fin, el cual separaba las palabras del diccionario y
las guardaba de forma ordenada en una base de datos. Entre los datos guardados por
cada término se encuentran sentidos, glosa en español, categoría gramatical y ejemplos
de uso.
Una vez que ya se disponía de la base de datos del diccionario, este se usó como entrada
para el algoritmo de creación de la WordNet en Shipibo-Konibo. Este algoritmo
consiste en tomar la glosa y ejemplos de uso de cada sentido de cada término del
diccionario y compararla con todos los synsets de la WordNet en español para
determinar con cual se encuentra más relacionado. Esto se calcula en base al modelo
Word2Vec el cual es usado para agrupar palabras detectando similitudes en los vectores
que las representan matemáticamente. Realizado el cálculo, está relación es guardada en
una base de datos, una vez que se completa el algoritmo la base de datos resultante es la
WordNet.
También se implementó una interfaz web de consulta así hacer posible el acceso a
cualquier usuario. Este recurso es muy útil para facilitar tareas como la desambiguación,
extracción de información y traducción automática gracias a la flexibilidad en las
búsquedas. Al tener un carácter multilingüe, la WordNet ayudará no solo a preservar
sino también expandir el alcance y la posibilidad de integrar a la lengua con otras
personas interesadas
|
32 |
Comprensión y generación de lenguaje natural en un sistema de diálogo usando inteligencia artificial para servicios telefónicos de información de cinesMesones Barrón, Carlos Enrique 09 May 2011 (has links)
El presente documento es resultado de la investigación sobre automatización inteligente - comprensión y generación de lenguaje natural- en un Sistema de Diálogo, para optimar el servicio de atención al cliente actualmente brindado por un operador vía telefónica.
|
33 |
Towards automatic detection of lexical borrowings in wordlists - with application to Latin American languagesMiller, John Edward 18 November 2024 (has links)
Knowing what words of a language are inherited from the ancestor language,
which are borrowed from contact languages, which are recently created, and
the timing of critical events in the culture, enables modeling of language history
including language phylogeny, language contact, and other novel influences on
the culture. However, determining which words or forms are borrowed and
from whom is a difficult, time consuming, and often fascinating task, usually
performed by historical linguists, which is limited by the time and expertise
available. While there are semi-automated methods available to identify borrowed words and their word donors, there is still substantial opportunity for
improvement.
We construct a new language model based monolingual method, competing
cross-entropies, based on word source groupings within monolingual wordlists;
improve existing multilingual sequence comparison methods, closest match on
language pairs and cognate-based on multiple languages; and construct a classifier based meta-method, combining closest match and cross-entropy functions.
We also define an alternative goal of borrowing detection for dominant donor
languages, which allows determination of both borrowing and source. We apply
monolingual methods to a global dataset of 41 languages, and multilingual and
meta methods to a newly constituted dataset of seven Latin American languages.
We also initiate work on a dataset of 21 Pano-Tacanan and regional languages
with added Spanish, Portuguese, and Quechua donor languages for subsequent
application of borrowing detection methods.
The competing cross-entropies method establishes a benchmark for automatic
borrowing detection for the world online loan database, the dominant donor
multiple sequence comparison method improves over the competing cross-entropies
method, and the classifier meta-method with sequence comparison and crossentropy functions performs substantially better overall. / Conocer qué palabras de una lengua son heredadas, cuáles son prestadas, cuáles
son de reciente creación y el momento de los eventos culturales críticos permite modelar la historia de la lengua, incluyendo su filogenia, el contacto entre
lenguas y otras influencias culturales novedosas. Sin embargo, determinar qué
palabras o formas son prestadas y de qué lengua provienen es una tarea compleja y laboriosa, realizada generalmente por lingüistas históricos, que se ven
limitados por el tiempo y la experiencia disponibles. Aunque existen métodos
semiautomáticos para identificar préstamos y sus lenguas de origen, aún hay
margen de mejora.
Construimos un nuevo modelo de lenguaje basado en un método monolingüe,
entropías cruzadas competitivas, basado en agrupaciones de fuentes de palabras dentro de listas de palabras monolingües; mejoramos los métodos existentes de comparación de secuencias multilingües, la coincidencia más cercana
en pares de idiomas y afines basados en múltiples idiomas; y construimos un
meta-método basado en clasificadores, combinando funciones de coincidencia
más cercana y de entropía cruzada. También definimos un objetivo alternativo
de detección de préstamos para idiomas donantes dominantes, que permite determinar tanto el préstamo como la fuente. Aplicamos métodos monolingües a
un conjunto de datos global de 41 idiomas (WOLD), y métodos multilingües y
meta-métodos a un conjunto de datos recién constituido de siete idiomas latinoamericanos. También iniciamos el trabajo en un conjunto de datos de 21 idiomas pano-tacana y regionales con idiomas donantes agregados de español,
portugués y quechua para la posterior aplicación de métodos de detección de
préstamos.
El método de entropías cruzadas competitivas establece un punto de referencia para la detección automática de préstamos en la base de datos mundial de
préstamos en línea (WOLD). El método de comparación de secuencias múltiples
del donante dominante mejora los resultados del método de entropías cruzadas
competitivas. Finalmente, el meta-método clasificador, que combina la comparación de secuencias y las funciones de entropía cruzada, ofrece el mejor
rendimiento general.
|
34 |
A semântica dos adjetivos: como e por que incluí-la em uma ontologia de domínio jurídicoBertoldi, Anderson 26 February 2007 (has links)
Made available in DSpace on 2015-03-05T18:10:48Z (GMT). No. of bitstreams: 0
Previous issue date: 26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A meta principal desta pesquisa é realizar um estudo da semântica dos adjetivos objetivando a sua representação em uma ontologia jurídica. O fato motivador desse interesse foi o estudo de ontologias e léxicos computacionais jurídicos e a constatação de que os adjetivos não recebem um tratamento sistemático nessas ferramentas computacionais de conhecimento especializado. A partir dessa constatação, partiu-se para o estudo de ontologias e léxicos computacionais de linguagem não-especializada, buscando elementos práticos e teóricos para a inclusão sistemática, e não ocasional, de adjetivos em uma ontologia jurídica. Esta pesquisa defende que a eficiência no tratamento computacional da linguagem requer uma combinação de teorias. Assim, a metodologia adotada combina diferentes abordagens teóricas. Através do estudo do corpus e construção da ontologia jurídica, percebe-se a importância dos adjetivos para a organização do conhecimento especializado. Nos domínios de conhecimento especializados, os adjetivos têm a fu / The main goal of this research is to study the semantics of the adjectives in order to codify them into a legal ontology. Through a search for legal ontologies and lexicons one verifies that adjectives are not codified systematically into specialized lexicons and ontologies. Taking the codification of adjectives into a legal ontology as the target of this work, one analyzes non-specialized language ontologies and lexicons. The purpose of such analysis is to find practical and theoretical elements for including adjectives systematically into a legal ontology. This research defends the position that integrating linguistic approaches is more fruitful to natural language processing. Therefore, the methodology applied here combines different theoretical approaches. The corpus analysis and legal ontology construction shows the importance of adjectives in organizing the specialized knowledge. In the specialized domains, adjectives have the main function of classifying entities
|
35 |
Dependency Syntax in the Automatic Detection of Irony and StanceCignarella, Alessandra Teresa 29 November 2021 (has links)
[ES] The present thesis is part of the broad panorama of studies of Natural Language Processing (NLP). In particular, it is a work of Computational Linguistics (CL) designed to study in depth the contribution of syntax in the field of sentiment analysis and, therefore, to study texts extracted from social media or, more generally, online content.
Furthermore, given the recent interest of the scientific community in the Universal Dependencies (UD) project, which proposes a morphosyntactic annotation format aimed at creating a "universal" representation of the phenomena of morphology and syntax in a manifold of languages, in this work we made use of this format, thinking of a study in a multilingual perspective (Italian, English, French and Spanish).
In this work we will provide an exhaustive presentation of the morphosyntactic annotation format of UD, in particular underlining the most relevant issues regarding their application to UGC.
Two tasks will be presented, and used as case studies, in order to test the research hypotheses: the first case study will be in the field of automatic Irony Detection and the second in the area of Stance Detection.
In both cases, historical notes will be provided that can serve as a context for the reader, an introduction to the problems faced will be outlined and the activities proposed in the computational linguistics community will be described. Furthermore, particular attention will be paid to the resources currently available as well as to those developed specifically for the study of the aforementioned phenomena. Finally, through the description of a series of experiments, both within evaluation campaigns and within independent studies, I will try to describe the contribution that syntax can provide to the resolution of such tasks.
This thesis is a revised collection of my three-year PhD career and collocates within the growing trend of studies devoted to make Artificial Intelligence results more explainable, going beyond the achievement of highest scores in performing tasks, but rather making their motivations understandable and comprehensible for experts in the domain.
The novel contribution of this work mainly consists in the exploitation of features that are based on morphology and dependency syntax, which were used in order to create vectorial representations of social media texts in various languages and for two different tasks. Such features have then been paired with a manifold of machine learning classifiers, with some neural networks and also with the language model BERT.
Results suggest that fine-grained dependency-based syntactic information is highly informative for the detection of irony, and less informative for what concerns stance detection. Nonetheless, dependency syntax might still prove useful in the task of stance detection if firstly irony detection is considered as a preprocessing step. I also believe that the dependency syntax approach that I propose could shed some light on the explainability of a difficult pragmatic phenomenon such as irony. / [CA] La presente tesis se enmarca dentro del amplio panorama de estudios relacionados con el Procesamiento del Lenguaje Natural (NLP). En concreto, se trata de un trabajo de Lingüística Computacional (CL) cuyo objetivo principal es estudiar en profundidad la contribución de la sintaxis en el campo del análisis de sentimientos y, en concreto, aplicado a estudiar textos extraídos de las redes sociales o, más en general, de contenidos online.
Además, dado el reciente interés de la comunidad científica por el proyecto Universal Dependencies (UD), en el que se propone un formato de anotación morfosintáctica destinado a crear una representación "universal" de la morfología y sintaxis aplicable a diferentes idiomas, en este trabajo se utiliza este formato con el propósito de realizar un estudio desde una perspectiva multilingüe (italiano, inglés, francés y español).
En este trabajo se presenta una descripción exhaustiva del formato de anotación morfosintáctica de UD, en particular, subrayando las cuestiones más relevantes en cuanto a su aplicación a los UGC generados en las redes sociales. El objetivo final es analizar y comprobar si estas anotaciones morfosintácticas sirven para obtener información útil para los modelos de detección de la ironía y del stance o posicionamiento.
Se presentarán dos tareas y se utilizarán como ejemplos de estudio para probar las hipótesis de la investigación: el primer caso se centra en el área de la detección automática de la ironía y el segundo en el área de la detección del stance o posicionamiento.
En ambos casos, se proporcionan los antecendentes y trabajos relacionados notas históricas que pueden servir de contexto para el lector, se plantean los problemas encontrados y se describen las distintas actividades propuestas para resolver estos problemas en la comunidad de la lingüística computacional. Se presta especial atención a los recursos actualmente disponibles, así como a los desarrollados específicamente para el estudio de los fenómenos antes mencionados. Finalmente, a través de la descripción de una serie de experimentos, llevados a cabo tanto en campañas de evaluación como en estudios independientes, se describe la contribución que la sintaxis puede brindar a la resolución de esas tareas.
Esta tesis es el resultado de toda la investigación que he llevado a cabo durante mi doctorado en una colección revisada de mi carrera de doctorado de los últimos tres años y medio, y se ubica dentro de la tendencia creciente de estudios dedicados a hacer que los resultados de la Inteligencia Artificial sean más explicables, yendo más allá del logro de puntajes más altos en la realización de tareas, sino más bien haciendo comprensibles sus motivaciones y qué los procesos sean más comprensibles para los expertos en el dominio.
La contribución principal y más novedosa de este trabajo consiste en la explotación de características (o rasgos) basadas en la morfología y la sintaxis de dependencias, que se utilizaron para crear las representaciones vectoriales de textos procedentes de redes sociales en varios idiomas y para dos tareas diferentes. A continuación, estas características se han combinado con una variedad de clasificadores de aprendizaje automático, con algunas redes neuronales y también con el modelo de lenguaje BERT.
Los resultados sugieren que la información sintáctica basada en dependencias utilizada es muy informativa para la detección de la ironía y menos informativa en lo que respecta a la detección del posicionamiento. No obstante, la sintaxis basada en dependencias podría resultar útil en la tarea de detección del posicionamiento si, en primer lugar, la detección de ironía se considera un paso previo al procesamiento en la detección del posicionamiento. También creo que el enfoque basado casi completamente en sintaxis de dependencias que propongo en esta tesis podría ayudar a explicar mejor un fenómeno prag / [EN] La present tesi s'emmarca dins de l'ampli panorama d'estudis relacionats amb el Processament del Llenguatge Natural (NLP). En concret, es tracta d'un treball de Lingüística Computacional (CL), l'objectiu principal del qual és estudiar en profunditat la contribució de la sintaxi en el camp de l'anàlisi de sentiments i, en concret, aplicat a l'estudi de textos extrets de les xarxes socials o, més en general, de continguts online.
A més, el recent interès de la comunitat científica pel projecte Universal Dependències (UD), en el qual es proposa un format d'anotació morfosintàctica destinat a crear una representació "universal" de la morfologia i sintaxi aplicable a diferents idiomes, en aquest treball s'utilitza aquest format amb el propòsit de realitzar un estudi des d'una perspectiva multilingüe (italià, anglès, francès i espanyol).
En aquest treball es presenta una descripció exhaustiva del format d'anotació morfosintàctica d'UD, en particular, posant més èmfasi en les qüestions més rellevants pel que fa a la seva aplicació als UGC generats a les xarxes socials. L'objectiu final és analitzar i comprovar si aquestes anotacions morfosintàctiques serveixen per obtenir informació útil per als sistemes de detecció de la ironia i del stance o posicionament.
Es presentaran dues tasques i s'utilitzaran com a exemples d'estudi per provar les hipòtesis de la investigació: el primer cas se centra en l'àrea de la detecció automàtica de la ironia i el segon en l'àrea de la detecció del stance o posicionament.
En tots dos casos es proporcionen els antecedents i treballs relacionats que poden servir de context per al lector, es plantegen els problemes trobats i es descriuen les diferents activitats proposades per resoldre aquests problemes en la comunitat de la lingüística computacional. Es fa especialment referència als recursos actualment disponibles, així com als desenvolupats específicament per a l'estudi dels fenòmens abans esmentats. Finalment, a través de la descripció d'una sèrie d'experiments, duts a terme tant en campanyes d'avaluació com en estudis independents, es descriu la contribució que la sintaxi pot oferir a la resolució d'aquestes tasques.
Aquesta tesi és el resultat de tota la investigació que he dut a terme durant el meu doctorat els últims tres anys i mig, i se situa dins de la tendència creixent d'estudis dedicats a fer que els resultats de la Intel·ligència Artificial siguin més explicables, que vagin més enllà de l'assoliment de puntuacions més altes en la realització de tasques, sinó més aviat fent comprensibles les seves motivacions i què els processos siguin més comprensibles per als experts en el domini.
La contribució principal i més nova d'aquest treball consisteix en l'explotació de característiques (o trets) basades en la morfologia i la sintaxi de dependències, que s'utilitzen per crear les representacions vectorials de textos procedents de xarxes socials en diversos idiomes i per a dues tasques diferents. A continuació, aquestes característiques s'han combinat amb una varietat de classificadors d'aprenentatge automàtic, amb algunes xarxes neuronals i també amb el model de llenguatge BERT.
Els resultats suggereixen que la informació sintàctica utilitzada basada en dependències és molt informativa per a la detecció de la ironia i menys informativa pel que fa a la detecció del posicionament. Malgrat això, la sintaxi basada en dependències podria ser útil en la tasca de detecció del posicionament si, en primer lloc, la detecció d'ironia es considera un pas previ al processament en la detecció del posicionament. També crec que l'enfocament basat gairebé completament en sintaxi de dependències que proposo en aquesta tesi podria ajudar a explicar millor un fenomen pragmàtic tan difícil de detectar i d'interpretar com la ironia. / Cignarella, AT. (2021). Dependency Syntax in the Automatic Detection of Irony and Stance [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/177639
|
36 |
Sarcasm and Implicitness in Abusive Language Detection: A Multilingual PerspectiveFrenda, Simona 12 July 2022 (has links)
[ES] La posibilidad de monitorear el contenido de odio en línea a partir de lo que escribe la gente se está convirtiendo en un asunto muy importante para varios actores, como gobiernos, empresas de TIC y profesionales de ONG's que implementan campañas de sensibilización en respuesta al preocupante aumento de los abusos y de la incitación al odio en línea. El abusive language es un término genérico que se utiliza para definir los contenidos hostiles generados por usuarios, que intimidan o incitan a la violencia y al desprecio, dirigiéndose a grupos vulnerables en las redes sociales. Hoy en día, estos contenidos están muy extendidos, y se encuentran también en otros tipos de textos como los artículos y títulos de periódicos online.
Se han implementado varios enfoques en los últimos años para apoyar la identificación y el monitoreo de estos fenómenos, lamentablemente estos están lejos de resolver el problema debido a la complejidad interna del lenguaje abusivo y las dificultades para detectar sus formas más implícitas.
En nuestra investigación de doctorado, hemos examinado las cuestiones relacionadas con la identificación automática del lenguaje abusivo en línea, investigando las diferentes maneras de hostilidad contra las mujeres, los inmigrantes y las comunidades culturales minoritarias, en idiomas como el italiano, el inglés y el español. El marco multilingüe nos ha permitido tener un enfoque comparativo para reflexionar sobre cómo se expresa el discurso de odio en varios idiomas, y cómo dichas expresiones se deben representar en el proceso automático del texto. El análisis de los resultados de los distintos métodos de clasificación de los mensajes en relación con la presencia del lenguaje abusivo, ha sacado a la luz algunas dificultades principalmente vinculadas a sus manifestaciones más implícitas. Por ejemplo, en los casos en que se utilizan figuras retóricas (como la ironía y el sarcasmo), cuando se fortalecen ideologías (como la ideología sexista) o esquemas cognitivos (como los estereotipos), o cuando se postulan contrarias a un tema de discusión.
Para abordar estas dificultades, hemos propuesto distintas soluciones que también se pueden aplicar a diferentes géneros textuales. En particular, hemos observado que los aspectos cognitivos y creativos del discurso del odio son más difíciles de deducir automáticamente de los textos. Al mismo tiempo, también son elementos muy recurrentes como el caso del sarcasmo un recurso retórico que tiende a socavar la precisión de los sistemas. De hecho, por sus peculiaridades, el sarcasmo es adecuado para enmascarar mensajes ofensivos, especialmente en textos muy breves e informales. Nuestra hipótesis es que al informar al sistema sobre la presencia del sarcasmo, se mejoraría la identificación de los mensajes de odio, incluso cuando estos están disfrazados de sarcásticos. Para ello, es interesante estudiar cómo la introducción de conocimientos lingüísticos en modelos de detección puede ser útil para capturar los niveles de significado más implícitos.
En concreto, hemos creado nuevos recursos que nos permitieron profundizar en nuestra hipótesis y desarrollar diversos enfoques para identificar dos maneras de lenguaje abusivo en tuits y títulos de periódicos: los discursos de odio y los estereotipos. Nuestra idea es combinar de manera fructífera el conocimiento general de los modelos lingüísticos y la información lingüística obtenida mediante la extracción de elementos lingüísticos específicos o entrenando simultáneamente el sistema al reconocimiento del lenguaje irónico en una arquitectura multitarea. Los resultados experimentales confirman que hacer que los sistemas sean conscientes del sarcasmo mejora el reconocimiento del discurso de odio y los estereotipos en los textos de las redes sociales, como los tuits. Al informarles de elementos lingüísticos específicos, se vuelven más sensibles a la identificación de estereotipos tanto en los tuits como en los títulos de periódicos. / [CA] La possibilitat de monitorar el contingut d'odi en línia a partir del que escriu la gent s'està convertint en un assumpte molt important per a diversos actors, com ara governs, empreses de TIC i professionals d'ONGs que implementen campanyes de sensibilització en resposta al preocupant augment dels abusos i de la incitació a l'odi en línia. L'abusive language és un terme genèric que s'utilitza per definir els continguts hostils generats per usuaris, que intimiden o inciten a la violència i al menyspreu, adreçant-se a grups vulnerables a les xarxes socials. Avui dia, aquests continguts estan molt estesos, i es troben també en altres tipus de textos com els articles i títols de diaris en línia.
S'han implementat diversos enfocaments en els darrers anys per donar suport a la identificació i monitoratge d'aquests fenòmens, lamentablement aquests estan lluny de resoldre el problema a causa de la complexitat interna del llenguatge abusiu i les dificultats per detectar-ne les formes més implícites.
A la nostra investigació de doctorat, hem examinat les qüestions relacionades amb la identificació automàtica del llenguatge abusiu en línia, investigant les diferents maneres d'hostilitat contra les dones, els immigrants i les comunitats culturals minoritàries, en idiomes com l'italià, l'anglès i l'espanyol. El marc multilingüe ens ha permès tenir un enfocament comparatiu per reflexionar sobre com s'expressa el discurs d'odi en diversos idiomes, i com s'han de representar aquestes expressions en el procés automàtic del text. L'anàlisi dels resultats dels diferents mètodes de classificació dels missatges en relació amb la presència del llenguatge abusiu ha tret a la llum algunes dificultats principalment vinculades a les manifestacions més implícites. Per exemple, en els casos en què es fan servir figures retòriques (com la ironia i el sarcasme), quan s'enforteixen ideologies (com la ideologia sexista) o esquemes cognitius (com els estereotips), o quan es postulen contràries a un tema de discussió.
Per abordar aquestes dificultats, hem proposat diferents solucions que també es poden aplicar a diferents gèneres textuals. En particular, hem observat que els aspectes cognitius i creatius del discurs de l'odi són més difícils de deduir automàticament dels textos. Alhora, també són elements molt recurrents com el cas del sarcasme un recurs retòric que tendeix a soscavar la precisió dels sistemes. De fet, per les seves peculiaritats, el sarcasme és adequat per emmascarar missatges ofensius, especialment en textos molt breus i informals com els publicats a Twitter. La nostra hipòtesi és que en informar el sistema sobre la presència del sarcasme, es milloraria la identificació dels missatges d'odi, fins i tot quan aquests estan disfressats de sarcàstics. Per això, és interessant estudiar com la introducció de coneixements lingüístics en models de detecció pot ser útil per capturar els nivells de significat més implícits.
En concret, hem creat nous recursos que ens han permès aprofundir en la nostra hipòtesi i desenvolupar diversos enfocaments per identificar dues maneres de llenguatge abusiu en tuits i títols de diaris: el discurs d'odi (o hate speech) i els estereotips. La nostra idea és combinar de manera fructífera el coneixement general dels models lingüístics i la informació lingüística obtinguda mitjançant l'extracció d'elements lingüístics específics o entrenant simultàniament el sistema al reconeixement del llenguatge irònic en una arquitectura multitasca. Els resultats experimentals confirmen que fer que els sistemes siguin conscients del sarcasme millora el reconeixement del discurs d'odi i els estereotips als textos de les xarxes socials, com els tuits. En informar-los d'elements lingüístics específics, esdevenen més sensibles a la identificació d'estereotips tant als tuits com als títols de diaris. / [EN] The possibility to monitor hateful content online on the basis of what people write is becoming an important topic for several actors such as governments, ICT companies, and NGO's operators conducting active campaigns in response to the worrying rise of online abuse and hate speech. Abusive language is a broad umbrella term which is commonly used for denoting different kinds of hostile user-generated contents that intimidate or incite to violence and hatred, targeting many vulnerable groups in social platforms. Such hateful contents are pervasive nowadays and can also be detected even in other kinds of texts, such as online newspapers.
Various approaches have been proposed in the last years to support the identification and monitoring of these phenomena, but unfortunately, they are far from solving the problem due to the inner complexity of abusive language, and to the difficulties to detect its implicit forms.
In our doctoral investigation, we have studied the issues related to automatic identification of abusive language online, investigating various forms of hostility against women, immigrants and cultural minority communities in languages such as Italian, English, and Spanish. The multilingual frame allowed us to have a comparative setting to reflect on how hateful contents are expressed in distinct languages and how these different ways are transposed in the automated processing of the text. The analysis of the results of different methods of classification of hateful and non-hateful messages revealed important challenges that lie principally on the implicitness of some manifestations of abusive language expressed through the use of figurative devices (i.e., irony and sarcasm), recall of inner ideologies (i.e., sexist ideology) or cognitive schemas (i.e., stereotypes), and expression of unfavorable stance.
To face these challenges, in this work, we have proposed distinct solutions applicable also to different textual genres. We observed that, in particular, cognitive and creative aspects of abusive language are harder to infer automatically from texts. At the same time they are often recurrent elements, such in the case of sarcasm, a figurative device that tends to affect the accuracy of the systems. Indeed, for its peculiarities, sarcasm is apt to disguise hurtful messages, especially in short and informal texts such as the ones posted on Twitter. Our hypothesis is that information about the presence of sarcasm could help to improve the detection of hateful messages, even when they are camouflaged as sarcastic. In this perspective, it is interesting to study how the injection of linguistic knowledge into detection models can be useful to capture implicit levels of meaning.
In particular, we created novel resources that allowed us to examine deeply our hypothesis and develop specific approaches for the detection of two forms of abusive language in tweets and headlines: hate speech and stereotypes. Our idea was to fruitfully combine general knowledge from language models and linguistic information, obtained with specific linguistic features and the injection of ironic language recognition within a multi-task learning framework. The experimental results confirm that the awareness of sarcasm helps systems to retrieve correctly hate speech and stereotypes in social media texts, such as tweets. Moreover, linguistic features make the system sensible to stereotypes in both tweets and news headlines. / This work was partially supported by various financial projects. Among them: the Spanish research project SomEMBED funded by Ministerio de Economía y Sostenibilidad (MINECO), the NII International Internship Program funded by JSPS KAKENHI, the Italian project M.EMO.RAI funded by RAI - Radiotelevisione Italiana Spa, the Italian project IhatePrejudice funded by Compagnia di San Paolo, and the European project “STERHEOTYPES” funded by Compagnia di San Paolo Foundation, Volkswagen Stiftung and Carlsberg Fondation. / Frenda, S. (2022). Sarcasm and Implicitness in Abusive Language Detection: A Multilingual Perspective [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184015
|
Page generated in 0.1077 seconds