• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 42
  • 2
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 49
  • 13
  • 8
  • 8
  • 7
  • 6
  • 6
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Palabras, caridad y creación: "Un camino a través de un tiempo" en tres novelas de Ana María Matute

McBride, Nathaniel James January 2020 (has links)
No description available.
42

Más allá de la vulgaridad : Percepción de palabras malsonantes en personas con estudios superiores desde una perspectiva de género

Lopez Al Sutari, Bassam January 2024 (has links)
No description available.
43

A Contrastive Structural and Lexical Study of Shakespeare's Hamlet and Sumarokov's Gamlet: A Corpus-Based Approach to Literature. Estudio contrastivo de la estructura y del léxico en Hamlet de Shakespeare versus Gamlet de Sumarokov: una aproximación a la literatura desde la perspectiva basada en corpus

Keshabyan Ivanova, Irina 29 June 2010 (has links)
La presente Tesis Doctoral se encuadra dentro la línea de investigación del lenguaje mediante los métodos basados en corpus, es decir, mediante análisis computacional y cuantitativo. El esencial objetivo ha sido llevar a cabo una comparación y análisis cuantitativo estructural y del léxico de dos textos específicos del género dramático: la cuarta edición en el infolio de Hamlet (1685) de Shakespeare, y la traducción al inglés de Gamlet (1787) [1748], del dramaturgo ruso Aleksandr Sumarokov, traducida del ruso por Richard Fortune en 1970. El análisis, comparación e interpretación de los resultados de los patrones estructurales y temáticos se ha dispuesto por actos, tanto en aquello que se refiere a la intra-obra (en Hamlet y Gamlet, separado), como inter-obras (entre Hamlet y Gamlet) a lo largo de los Capítulos 3º, 4º, 5º y 6º. Para desvelar los propósitos reales de Shakespeare y Sumarokov, especialmente en lo referido a las configuraciones sociales y organizativas estructurales de Hamlet y Gamlet, se utilizaron diversas aplicaciones informáticas e estadísticas. Para ello se administró el análisis cuantitativo de la distribución de los patrones de la presencia, intervención e interacción de todos los personajes, tanto los principales, como los secundarios. Para analizar y comparar las alteraciones temáticas, es decir, las diferencias cualitativas, no simplemente cuantitativas, con respecto a la conceptualización sociopolítica, religiosa, moral, familiar, filosófica y artística, entre Shakespeare y Sumarokov, se aplicaron los métodos cuantitativos y analíticos basados en la lingüística del corpus. A tal fin, se implantó la investigación de los patrones de distribución de las palabras de contenido (open-class ítems), es decir, las palabras con significado léxico, tales como sustantivos, verbos, adjetivos y adverbios, más frecuentes entre ambas obras. Los principales resultados obtenidos revelan importantes disimilitudes entre las estructuras de las obras por actos, es decir, percepciones marcadamente distintas de todos los personajes, de su relevancia en las obras y de complejidad de las relaciones sociales entre ellos. Los resultados de los patrones temáticos señalan las divergencias significativas en los contenidos básicos de ambos textos en relación con los temas más prominentes. Así pues, los resultados confirman diferencias sustanciales en los patrones estructurales y temáticos entre versión original de Hamlet y Gamlet. Resumen: / The main area of research of this PhD dissertation is the study of language by means of corpus-based techniques -in other words, by means of a computational and quantitative analysis. The aim was to carry out quantitative and qualitative structural and lexical analysis and comparison of two specific texts in the genre of drama -The Fourth Folio Edition of The Tragedy of Hamlet Prince of Denmark (1685) by Shakespeare and the English translation of Gamlet (1787) [1748] by the Russian playwright Sumarokov, translated from Russian by Richard Fortune in 1970. The analysis, comparison and interpretation of data related to the structural and thematic patterns were carried out per act: intra-play (in each play, separately) and inter-plays (between Hamlet and Gamlet). Accordingly, various computational tools were applied to reveal the differences in the social and organisational structures of the plays through quantitative and qualitative analysis of the distribution patterns of the presence, intervention and interaction variables of all the characters, both main and secondary. Quantitative and analytical corpus-based methodologies were used to analyse and compare thematic alterations between the two plays -in other words, the (dis)similarities in the authors' religious, socio-political, family, moral, philosophical and artistic conceptions- identified on the basis of the most frequent content words (open-class items), particularly nouns, verbs, adjectives and adverbs. The key findings indicate important differences between the structures of the plays per acts, that is, significant divergences in the authors' perceptions of the characters and the complexity of their relationships. Another essential finding suggests obvious distinctions between both texts' basic contents per act: intra-play and inter-plays. In general, the findings uncover wide-ranging dissimilarities in the structural and thematic patterns in Hamlet versus Gamlet.
44

Análisis de la imagen del pueblo colombiano en la prensa nacional española a través del léxico

Quijano Urreste, John Freddy 01 September 2016 (has links)
[EN] The image of the Colombian people has been built up in the Spanish press over the past decades. The atmosphere creating the image and the lexical universe is limited to certain themes and this has meant that the discourse used in the Spanish newspapers follows concrete patterns, mainly related to immigration, crime, hired killers and drug trafficking.. The continuous publication of these themes highlights characteristics and manifestations with a clearly negative tendency, where as the argumentation is based on political instability and delinquency. Thus, the national Spanish newspapers focus their publications mainly on criminal activities carried out by Colombians in Spain, from theft to murder, and on the situation in Colombia, relating topics like poverty and extreme violence, generating a direct reaction in the imagination of the readers and spreading the representation of Columbians as delinquents, poor people and outcast victims of an internal conflict and as criminals and drug traffickers. This link has made it possible to have a clear concept with concrete characteristics. That image, embedded in their way of thinking, allows for a specific concept about the Colombians, even in news topics where the nationality of the person concerned has not been specified. The governmental politics concerning immigration, concealed in the media, has managed to establish a sense of fear and rejection towards Colombians. Therefore, the transmission of information focused mainly on criminal activities, in combination with the arguments of the Spanish government, has dominated national public opinion. Within this framework, the present study examines the image of the Colombian people, recreated in the Spanish press through the lexical and thematic content in their publications during the year 2011. The study centers on the keywords that represent the focus group, abbreviated here as C5: Colombia, colombiano, colombiana, colombianos and colombianas, and that conjure up a specific idea in the imagination of the readers. The objective of the present study is to identify, by means of a quantitative and qualitative analysis of the discourse, the patterns that lead to the creation of a partial image of the Colombian people, as well as to highlight the continuity of the same patterns, contrasting with the results of previous investigation about the C5. To achieve this goal, the corpus of the news articles (821,321 words) was compiled, extracted from the digital newspaper archives, these being amongst the diaries with the highest circulation in the Spanish territory. All the news articles were published between the 1st of January and the 31st of December of the year 2011. This corpus allowed us to analyze the contents of 1491 articles that mentioned in some way or another the variants of the C5. The analysis used methods appropriate in corpus linguistics as well as tools and approaches of content analysis (quantitative) and critical discourse analysis (qualitative). The theoretic framework is based mainly on studies about the role of journalism, the principal theories of Agenda Setting, Frame Theory, Relevance Theory, Language and Power, persuasion tools, control and manipulation, discourses that form ideologies, Operation LUDECO, stereotypes and critical discourse analysis. According to the study of the basic systems of shared beliefs, the organization of the representation of the Colombian people, with the connotation as mentioned before, in the imagination of the readers is still going on. In this sense, this may indicate the power the mass media exerts, the control and authority that are reflected in a discursive manner in the products of communication, and that this represents a way of direct reproduction of the power of the elite, of its control and abuse of power. / [ES] Desde hace más de dos décadas la imagen del pueblo colombiano se ha venido construyendo gota a gota. La atmosfera que ha encerrado su imagen y el universo léxico delimitado a temáticas especificas, han dictado el referente discursivo en los diarios españoles con patrones concretos, vinculados principalmente a la inmigración, crimen, sicariato y narcotráfico. Las constantes publicaciones de estas temáticas tendieron a resaltar características y manifestaciones de referente claramente negativo, donde la argumentación se elaboró desde la inestabilidad y la delincuencia. De esta forma, los diarios nacionales españoles centraron sus publicaciones, en su mayoría, a sucesos delictivos de colombianos en España que iban desde el robo hasta el asesinato, y de Colombia desde la pobreza hasta la violencia extrema, provocando una reacción directa en los imaginarios de los lectores y diseminando la representación de este colectivo como delincuentes, pobres y marginados víctimas de la guerra interna y victimarios por ser los narcotraficantes. La adjetivación y el señalamiento posibilitaron tener un referente claro con características concretas. Esta imagen acuñada en sus pensamientos permitió tener un referente de este colectivo, incluso en noticias donde no se señaló la nacionalidad del implicado. Las políticas de gobierno con referente a la inmigración, disimuladas a través de los medios, lograron instaurar un sentido de miedo y rechazo hacia el colectivo colombiano. De esta manera, la transmisión de información enfocada principalmente en hechos delictivos y bajo el argumento de los organismos de estado, se transformó en opinión pública nacional. Desde este marco referencial, el presente trabajo de investigación examina la imagen del pueblo colombiano recreado en los diarios españoles a través del uso léxico y temático de sus publicaciones en el 2011. El estudio se centra en palabras clave que representan a este pueblo (C5: Colombia, colombiano, colombiana, colombianos y colombianas) que concretan la idea en los imaginarios de los receptores. El análisis tiene como meta identificar, mediante el análisis discursivo cuantitativo y cualitativo, patrones que ayudan a la creación de una imagen parcializada del colombiano, como también resaltar la continuidad de los mismos patrones contrastando los resultados de los análisis con anteriores investigaciones realizadas hacia el C5. Para lograr este objetivo, el corpus de noticias periodísticas está constituído con unas 821,321 palabras, extraídas de las hemerotecas digitales de éstos dos diarios que están entre los de mayor tirada en el territorio español. Todas las noticias fueron publicadas entre el 1 enero y el 31 de diciembre de 2011. Este corpus nos permitió analizar las publicaciones de 1491 artículos donde se mencionó de alguna forma a las variantes de C5. Para concretar el fin, el método de análisis utilizó elementos de la lingüística del corpus, así como herramientas y enfoques propios del análisis de contenido (cuantitativo) y del análisis crítico del discurso (discursivo). El marco teórico se basó principalmente en estudios sobre el papel del periodismo, ideas principales de la Agenda setting, Teoría del encuadre (Frame), Teoría de la relevancia, Lengua y poder, Herramientas de persuasión, control y manipulación, Discurso formador de ideología, Operación LUDECO, Estereotipo, y del Análisis crítico del discurso. Conforme al estudio de los sistemas básicos de creencias compartidas, todavía se continúan organizando en el imaginario de los receptores la representación del colombiano enmarcado dentro de la connotación descrita anteriormente. En este sentido, esto sería solo una forma de indicar que el poder de los medios de comunicación ejerce un control y dominio que se refleja en lo discursivo en el trabajo de los productos comunicativos, y que podría representar una forma de reproducción directa del poder de la / [CAT] Des de fa més de dos dècades la imatge del poble colombià s'ha construït gota a gota. L'atmosfera que ha tancat la seua imatge i l'univers lèxic delimitat a temàtiques específiques, han dictat el referent discursiu en els diaris espanyols amb patrons concrets, vinculats principalment a la immigració, crim, sicariat i narcotràfic. Les constants publicacions d'estes temàtiques van tendir a ressaltar característiques i manifestacions de referent clarament negatiu, on l'argumentació es va elaborar des de la inestabilitat i la delinqüència. D'esta manera, els diaris nacionals espanyols van centrar les seues publicacions, majoritàriament, a successos delictius de colombians a Espanya que anaven des del robatori fins a l'assassinat, i de Colòmbia des dela pobresa fins a la violència extrema, provocant una reacció directa en els imaginaris dels lectors i disseminant la representació d'este col.lectiu com a delinqüents, pobres i marginats víctimes de la guerra interna i victimaris per ser els narcotraficants. L'adjectivació i l'assenyalament van possibilitar tindre un referent clar amb característiques concretes. Estaimatge encunyada en els seus pensaments va permetre tindre un referent d'este col.lectiu, fins i tot en notícies on no es va assenyalar la nacionalitat de l'implicat. Les polítiques de govern amb referent a la immigració, dissimulades a través dels mitjans, van aconseguir instaurar un sentit de por i rebuig cap al col.lectiu colombià. D'aquesta manera, la transmissió d'informació enfocada principalment en fets delictius i sota l'argument dels organismes d'estat, es va transformar en opinió pública nacional. Des d'este marc referencial, el present treball d'investigació examina la imatge del poble colombià recreat als diaris espanyols a través de lús lèxic i temàtic deles seues publicacions en el 2011. L'estudi es centra en paraules clau que representen a este poble (C5: Colòmbia, colombià, colombiana, colombians i colombianes) que concreten la idea en els imaginaris dels receptors. L'anàlisi té com a meta identificar, mitjançant l'anàlisi discursiu quantitatiu i qualitatiu, patrons que ajuden a la creació d'una imatge parcialitzada del colombià, com tambéressaltar la continuïtat dels mateixos patrons contrastant els resultats de les anàlisis amb anteriors investigacions realitzades cap al C5. Per a aconseguir este objectiu, el corpus de notícies periodístiques està constituït amb unes 821,321 paraules, extretes de les hemeroteques digitals d'estos dos diaris que estan entre els de major tirada al territori espanyol. Totes les notícies van ser publicades entre l'1 de gener i el 31 de desembre de 2011. Este corpus ens va permetre analitzarles publicacions de 1491 articles on es va mencionar d'alguna manera a les variants de C5. Per a concretar el fi, el mètode d'anàlisi va utilitzar elements de la lingüística del corpus, així com ferramentes i enfocaments propis de l'anàlisi de contingut (quantitatiu) ide l'anàlisi crític del discurs (qualitatiu). El marc teòric es va basar principalment en estudis sobre el paper del periodisme, idees principals de l'Agenda setting, Teoria de l'enquadre (Frame), Teoria de la relevància, LLengua i poder, Ferramentes de persuasió, control i manipulació, Discurs formador de ideologia, Operació LUDECO, Estereotipus, i de l'Anàlisi crític del discurs. Conforme a l'estudi dels sistemes bàsics de creences compartides, encara es continuen organitzant en l'imaginari dels receptors la representació del colombià emmarcat dins de la connotació descrita anteriorment. En este sentit, açò seria només una forma d'indicar que el poder dels mitjans de comunicació exercix un controli domini que es reflexa en allò que és discursiu en el treball dels productes comunicatius, i que podria representar una forma de reproducció directa del poder de les elits, de domini i abús de poder. / Quijano Urreste, JF. (2016). Análisis de la imagen del pueblo colombiano en la prensa nacional española a través del léxico [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/68504 / TESIS
45

La distinción entre préstamo y cambio de código en un discurso electrónico

Bergman, Sofia January 2009 (has links)
En el presente estudio se pretende investigar la posibilidad de distinguir los préstamos de los elementos de cambio de código en un discurso electrónico entre jovenes bilingües de sueco-español, a través de un modelo de frecuencia elaborado por Myers-Scotton. También la posible co-existencia de las palabras analizadas en ambas lenguas será averiguada. El material bajo estudio consiste en conversaciones entre bilingües jóvenes de sueco/español en el foro facebook. En dichas conversaciones la alternancia entre las dos lenguas es muy frecuente, con el uso de cambio de código y préstamos. La hipotesis consiste en la convicción de que sí será posible encontrar préstamos a través de la aplicación del modelo, dado que el discurso electrónico probablemente no se distinguirá tanto de un discurso oral o escrito. Además, creemos que los préstamos encontrados con alta probabilidad serán co-existentes con las palabras en la lengua original. El análisis muestra que existe una cantidad de préstamos en el discurso investigado, y además que son co-existentes en todos los casos estudiados menos uno. El estudio también da indicios de que el modelo no es completamente fiable; el límite mínimo de frecuencia debería ser aumentado.
46

Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español

Rodríguez Luna, Manuela 29 July 2013 (has links)
Se desarrolla e implementa un Sistema de Indización y Segmentación Automática para textos largos en español, contribuyendo a su categorización textual e indización automática. Para su desarrollo, se estudian y perfeccionan los métodos cuantitativos y leyes clásicas en Recuperación de Información, como son los modelos relativos al proceso de repetición de palabras (Zipf, 1949), (Mandelbrot, 1953) y al proceso de creación de vocabulario (Heaps, 1978). Se realiza una crítica de las circunstancias de aplicación de los modelos y se estudia la estabilidad de los parámetros de manera experimental mediante recuentos en textos y sus fragmentos. Se establecen recomendaciones a priori para los valores de sus parámetros, dependiendo de las circunstancias de aplicación y del tipo de texto analizado. Se observa el comportamiento de los parámetros de las fórmulas para vislumbrar una relación directa con la tipología de texto analizado. Se propone un nuevo modelo (Log-%) para la visualización de la distribución de frecuencias de las palabras de un texto. El objetivo final es detectar los cambios temáticos que se producen en un documento, para establecer su estructura temática y obtener la indización automática de cada una de sus partes. De este modo, se obtiene la categorización del texto o documento utilizando la enumeración de sus partes temáticas a modo de niveles o estructura arbórea. Una vez constituidas las partes temáticas del texto en sus niveles correspondientes con los términos indizados, estos se agrupan en bloques distribuidos jerárquicamente según se desglose el documento en cuestión. El bloque inicial describe el contenido global de todo el documento con una cantidad inicial de palabras o descriptores. Seguidamente este bloque inicial se subdivide en varios bloques, los cuales corresponden a distintas partes del documento total, cada uno de estos también contiene una serie de palabras que describe el contenido y así sucesivamente hasta poder formar las div.... / Rodríguez Luna, M. (2013). Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/31517 / Palancia
47

On the Keyword Extraction and Bias Analysis, Graph-based Exploration and Data Augmentation for Abusive Language Detection in Low-Resource Settings

Peña Sarracén, Gretel Liz de la 07 April 2024 (has links)
Tesis por compendio / [ES] La detección del lenguaje abusivo es una tarea que se ha vuelto cada vez más importante en la era digital moderna, donde la comunicación se produce a través de diversas plataformas en línea. El aumento de las interacciones en estas plataformas ha provocado un aumento de la aparición del lenguaje abusivo. Abordar dicho contenido es crucial para mantener un entorno en línea seguro e inclusivo. Sin embargo, esta tarea enfrenta varios desafíos que la convierten en un área compleja y que demanda de continua investigación y desarrollo. En particular, detectar lenguaje abusivo en entornos con escasez de datos presenta desafíos adicionales debido a que el desarrollo de sistemas automáticos precisos a menudo requiere de grandes conjuntos de datos anotados. En esta tesis investigamos diferentes aspectos de la detección del lenguaje abusivo, prestando especial atención a entornos con datos limitados. Primero, estudiamos el sesgo hacia palabras clave abusivas en modelos entrenados para la detección del lenguaje abusivo. Con este propósito, proponemos dos métodos para extraer palabras clave potencialmente abusivas de colecciones de textos. Luego evaluamos el sesgo hacia las palabras clave extraídas y cómo se puede modificar este sesgo para influir en el rendimiento de la detección del lenguaje abusivo. El análisis y las conclusiones de este trabajo revelan evidencia de que es posible mitigar el sesgo y que dicha reducción puede afectar positivamente el desempeño de los modelos. Sin embargo, notamos que no es posible establecer una correspondencia similar entre la variación del sesgo y el desempeño de los modelos cuando hay escasez datos con las técnicas de reducción del sesgo estudiadas. En segundo lugar, investigamos el uso de redes neuronales basadas en grafos para detectar lenguaje abusivo. Por un lado, proponemos una estrategia de representación de textos diseñada con el objetivo de obtener un espacio de representación en el que los textos abusivos puedan distinguirse fácilmente de otros textos. Por otro lado, evaluamos la capacidad de redes neuronales convolucionales basadas en grafos para clasificar textos abusivos. La siguiente parte de nuestra investigación se centra en analizar cómo el aumento de datos puede influir en el rendimiento de la detección del lenguaje abusivo. Para ello, investigamos dos técnicas bien conocidas basadas en el principio de minimización del riesgo en la vecindad de instancias originales y proponemos una variante para una de ellas. Además, evaluamos técnicas simples basadas en el reemplazo de sinónimos, inserción aleatoria, intercambio aleatorio y eliminación aleatoria de palabras. Las contribuciones de esta tesis ponen de manifiesto el potencial de las redes neuronales basadas en grafos y de las técnicas de aumento de datos para mejorar la detección del lenguaje abusivo, especialmente cuando hay limitación de datos. Estas contribuciones han sido publicadas en conferencias y revistas internacionales. / [CA] La detecció del llenguatge abusiu és una tasca que s'ha tornat cada vegada més important en l'era digital moderna, on la comunicació es produïx a través de diverses plataformes en línia. L'augment de les interaccions en estes plataformes ha provocat un augment de l'aparició de llenguatge abusiu. Abordar este contingut és crucial per a mantindre un entorn en línia segur i inclusiu. No obstant això, esta tasca enfronta diversos desafiaments que la convertixen en una àrea complexa i contínua de recerca i desenvolupament. En particular, detectar llenguatge abusiu en entorns amb escassetat de dades presenta desafiaments addicionals pel fet que el desenvolupament de sistemes automàtics precisos sovint requerix de grans conjunts de dades anotades. En esta tesi investiguem diferents aspectes de la detecció del llenguatge abusiu, prestant especial atenció a entorns amb dades limitades. Primer, estudiem el biaix cap a paraules clau abusives en models entrenats per a la detecció de llenguatge abusiu. Amb este propòsit, proposem dos mètodes per a extraure paraules clau potencialment abusives de col·leccions de textos. Després avaluem el biaix cap a les paraules clau extretes i com es pot modificar este biaix per a influir en el rendiment de la detecció de llenguatge abusiu. L'anàlisi i les conclusions d'este treball revelen evidència que és possible mitigar el biaix i que esta reducció pot afectar positivament l'acompliment dels models. No obstant això, notem que no és possible establir una correspondència similar entre la variació del biaix i l'acompliment dels models quan hi ha escassetat dades amb les tècniques de reducció del biaix estudiades. En segon lloc, investiguem l'ús de xarxes neuronals basades en grafs per a detectar llenguatge abusiu. D'una banda, proposem una estratègia de representació textual dissenyada amb l'objectiu d'obtindre un espai de representació en el qual els textos abusius puguen distingir-se fàcilment d'altres textos. D'altra banda, avaluem la capacitat de models basats en xarxes neuronals convolucionals basades en grafs per a classificar textos abusius. La següent part de la nostra investigació se centra en analitzar com l'augment de dades pot influir en el rendiment de la detecció del llenguatge abusiu. Per a això, investiguem dues tècniques ben conegudes basades en el principi de minimització del risc en el veïnatge d'instàncies originals i proposem una variant per a una d'elles. A més, avaluem tècniques simples basades en el reemplaçament de sinònims, inserció aleatòria, intercanvi aleatori i eliminació aleatòria de paraules. Les contribucions d'esta tesi destaquen el potencial de les xarxes neuronals basades en grafs i de les tècniques d'augment de dades per a millorar la detecció del llenguatge abusiu, especialment quan hi ha limitació de dades. Estes contribucions han sigut publicades en revistes i conferències internacionals. / [EN] Abusive language detection is a task that has become increasingly important in the modern digital age, where communication takes place via various online platforms. The increase in online interactions has led to an increase in the occurrence of abusive language. Addressing such content is crucial to maintaining a safe and inclusive online environment. However, this task faces several challenges that make it a complex and ongoing area of research and development. In particular, detecting abusive language in environments with sparse data poses an additional challenge, since the development of accurate automated systems often requires large annotated datasets. In this thesis we investigate different aspects of abusive language detection, paying particular attention to environments with limited data. First, we study the bias toward abusive keywords in models trained for abusive language detection. To this end, we propose two methods for extracting potentially abusive keywords from datasets. We then evaluate the bias toward the extracted keywords and how this bias can be modified in order to influence abusive language detection performance. The analysis and conclusions of this work reveal evidence that it is possible to mitigate the bias and that such a reduction can positively affect the performance of the models. However, we notice that it is not possible to establish a similar correspondence between bias mitigation and model performance in low-resource settings with the studied bias mitigation techniques. Second, we investigate the use of models based on graph neural networks to detect abusive language. On the one hand, we propose a text representation framework designed with the aim of obtaining a representation space in which abusive texts can be easily distinguished from other texts. On the other hand, we evaluate the ability of models based on convolutional graph neural networks to classify abusive texts. The next part of our research focuses on analyzing how data augmentation can influence the performance of abusive language detection. To this end, we investigate two well-known techniques based on the principle of vicinal risk minimization and propose a variant for one of them. In addition, we evaluate simple techniques based on the operations of synonym replacement, random insertion, random swap, and random deletion. The contributions of this thesis highlight the potential of models based on graph neural networks and data augmentation techniques to improve abusive language detection, especially in low-resource settings. These contributions have been published in several international conferences and journals. / This research work was partially funded by the Spanish Ministry of Science and Innovation under the research project MISMIS-FAKEnHATE on Misinformation and Miscommunication in social media: FAKE news and HATE speech (PGC2018-096212-B-C31). The authors thank also the EU-FEDER Comunitat Valenciana 2014-2020 grant IDIFEDER/2018/025. This work was done in the framework of the research project on Fairness and Transparency for equitable NLP applications in social media, funded by MCIN/AEI/10.13039/501100011033 and by ERDF, EU A way of making EuropePI. FairTransNLP research project (PID2021-124361OB-C31) funded by MCIN/AEI/10.13039/501100011033 and by ERDF, EU A way of making Europe. Part of the work presented in this article was performed during the first author’s research visit to the University of Mannheim, supported through a Contact Fellowship awarded by the DAAD scholarship program “STIBET Doktoranden”. / Peña Sarracén, GLDL. (2024). On the Keyword Extraction and Bias Analysis, Graph-based Exploration and Data Augmentation for Abusive Language Detection in Low-Resource Settings [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203266 / Compendio
48

Diccionarios del espan?ol de Chile en su fase precient?fica : un estudio metalexicogr?fico

Ch?vez Fajardo, Soledad January 2009 (has links)
Tesis para optar al grado de Mag?ster en Ling??stica menci?n Lengua Espa?ola
49

Le participe dans les grammaires des langues romanes (XVe-XVIIIe siècles). Histoire comparée d'une classe grammaticale / The participle in the Romance Languages' grammars (15th-18th centuries). A compared history of a grammar category / El participio en las gramáticas de las lenguas románicas (siglos XV-XVIII). Historia comparada de una clase gramatical

Diaz Villalba, Alejandro 13 September 2017 (has links)
L’étude présente l’histoire de la classe du participe à travers un corpus de grammaires del’espagnol, du français, de l’italien et du portugais parues entre le XVe et le XVIIIe siècle.La démarche comparative s’appuie sur le principe méthodologique de la mise en série d’une centaine d’ouvrages regroupés et confrontés selon des paramètres variables : la chronologie, le thème ou la tradition grammaticale de la langue-objet.La première partie aborde la question de la catégorisation en linguistique et s’interroge sur la nature des formes non finies du verbe, tout particulièrement du participe et de son emploi dans les formes verbales analytiques. La deuxième partie traite de l’histoire du participe sous un angle général. Ainsi, après avoir donné un aperçu des aspects problématiques qui intéressent les grammairiens grecs et latins, l’analyse se centre sur le traitement de la classe dans les grammaires des langues romanes. La troisième partie s’attache à étudier les approches et les concepts dont se servent les grammairiens de la Renaissance pour traiter les temps composés ainsi que la façon dont ils décrivent et (re)catégorisent les formes participiales de ces temps verbaux. / The study investigates the history of the word-class of participle through a close study of a corpus of French, Spanish, Portuguese and Italian grammars which were published between the 15th and 18th centuries. The comparative approach is based on the methodological principle of “series of texts”, by grouping and collating a hundred works according to several variable parameters: the chronology, the theme or the grammatical tradition of the language in question.The first part of the study deals with the linguistic categorization and questions the nature of the non-finite verbal forms, especially the participle and its use in an analytical verbal form. The second part deals with the history of the participle from a more general point of view. Thus, after an overview of the problematic aspects of Greek and Latin grammarians, the analysis focuses on the treatment of the word-class in the grammars of the Romance languages. The third part focuses on the approaches and concepts used by the Renaissance grammarians to deal with compound tenses and on how they described and (re)-categorized the participle forms of these verbal tenses. / El estudio presenta la historia de la clase del participio a través de un corpus de gramáticas de español, francés, italiano y portugués publicadas entre los siglos XV y XVIII. El enfoque comparativo se basa en el principio metodológico de la constitución de series textuales, que nos permite agrupar y cotejar un centenar de textos en función de parámetros variables: la cronología, el tema o la tradición gramatical de la lengua objeto.La primera parte aborda el asunto de la categorización en lingüística e indaga la naturaleza de las formas no finitas del verbo, especialmente la del participio y su utilización en las formas analíticas del verbo. La segunda parte propone una aproximacióna la historia del participio desde una perspectiva más general. Así pues, tras una cala en los aspectos problemáticos relacionados con el participio tratados por los gramáticos griegos y latinos, el análisis se centra en el tratamiento de la clase en las gramáticas de las lenguas romances. La tercera parte investiga sobre los enfoques y los conceptos que emplean los gramáticos del Renacimiento para tratar los tiempos compuestos, y sobre el modo en que describen y (re)categorizan las formas participiales de esos tiempos verbales.

Page generated in 0.0242 seconds