Spelling suggestions: "subject:"detección""
21 |
Consensus and analia: new challenges in detection and management of security vulnerabilities in data networksCorral Torruella, Guiomar 10 September 2009 (has links)
A mesura que les xarxes passen a ser un element integral de les corporacions, les tecnologies de seguretat de xarxa es desenvolupen per protegir dades i preservar la privacitat. El test de seguretat en una xarxa permet identificar vulnerabilitats i assegurar els requisits de seguretat de qualsevol empresa. L'anàlisi de la seguretat permet reconèixer informació maliciosa, tràfic no autoritzat, vulnerabilitats de dispositius o de la xarxa, patrons d'intrusió, i extreure conclusions de la informació recopilada en el test. Llavors, on està el problema? No existeix un estàndard de codi obert ni un marc integral que segueixi una metodologia de codi obert per a tests de seguretat, la informació recopilada després d'un test inclou moltes dades, no existeix un patró exacte i objectiu sobre el comportament dels dispositius de xarxa ni sobre les xarxes i, finalment, el nombre de vulnerabilitats potencials és molt extens. El desafiament d'aquest domini resideix a tenir un gran volum de dades complexes, on poden aparèixer diagnòstics inconsistents. A més, és un domini no supervisat on no s'han aplicat tècniques d'aprenentatge automàtic anteriorment. Per això cal una completa caracterització del domini. Consensus és l'aportació principal d'aquesta tesi: un marc integrat que inclou un sistema automatitzat per millorar la realització de tests en una xarxa i l'anàlisi de la informació recollida. El sistema automatitza els mecanismes associats a un test de seguretat i minimitza la durada de l'esmentat test, seguint la metodologia OSSTMM. Pot ser usat en xarxes cablejades i sense fils. La seguretat es pot avaluar des d'una perspectiva interna, o bé externa a la pròpia xarxa. Es recopilen dades d'ordinadors, routers, firewalls i detectors d'intrusions. Consensus gestionarà les dades a processar per analistes de seguretat. Informació general i específica sobre els seus serveis, sistema operatiu, la detecció de vulnerabilitats, regles d'encaminament i de filtrat, la resposta dels detectors d'intrusions, la debilitat de les contrasenyes, i la resposta a codi maliciós o a atacs de denegació de servei són un exemple de les dades a emmagatzemar per cada dispositiu. Aquestes dades són recopilades per les eines de test incloses a Consensus.La gran quantitat de dades per cada dispositiu i el diferent número i tipus d'atributs que els caracteritzen, compliquen l'extracció manual d'un patró de comportament. Les eines de test automatitzades poden obtenir diferents resultats sobre el mateix dispositiu i la informació recopilada pot arribar a ser incompleta o inconsistent. En aquest entorn sorgeix la segona principal aportació d'aquesta tesi: Analia, el mòdul d'anàlisi de Consensus. Mentre que Consensus s'encarrega de recopilar dades sobre la seguretat dels dispositius, Analia inclou tècniques d'Intel·ligència Artificial per ajudar als analistes després d'un test de seguretat. Diferents mètodes d 'aprenentatge no supervisat s'han analitzat per ser adaptats a aquest domini. Analia troba semblances dins dels dispositius analitzats i l'agrupació dels esmentats dispositius ajuda als analistes en l'extracció de conclusions. Les millors agrupacions són seleccionades mitjançant l'aplicació d'índexs de validació. A continuació, el sistema genera explicacions sobre cada agrupació per donar una resposta més detallada als analistes de seguretat.La combinació de tècniques d'aprenentatge automàtic en el domini de la seguretat de xarxes proporciona beneficis i millores en la realització de tests de seguretat mitjançant la utilització del marc integrat Consensus i el seu sistema d'anàlisi de resultats Analia. / A medida que las redes pasan a ser un elemento integral de las corporaciones, las tecnologías de seguridad de red se desarrollan para proteger datos y preservar la privacidad. El test de seguridad en una red permite identificar vulnerabilidades y asegurar los requisitos de seguridad de cualquier empresa. El análisis de la seguridad permite reconocer información maliciosa, tráfico no autorizado, vulnerabilidades de dispositivos o de la red, patrones de intrusión, y extraer conclusiones de la información recopilada en el test. Entonces, ¿dónde está el problema? No existe un estándar de código abierto ni un marco integral que siga una metodología de código abierto para tests de seguridad, la información recopilada después de un test incluye muchos datos, no existe un patrón exacto y objetivo sobre el comportamiento de los dispositivos de red ni sobre las redes y, finalmente, el número de vulnerabilidades potenciales es muy extenso. El desafío de este dominio reside en tener un gran volumen de datos complejos, donde pueden aparecer diagnósticos inconsistentes. Además, es un dominio no supervisado donde no se han aplicado técnicas de aprendizaje automático anteriormente. Por ello es necesaria una completa caracterización del dominio.Consensus es la aportación principal de esta tesis: un marco integrado que incluye un sistema automatizado para mejorar la realización de tests en una red y el análisis de la información recogida. El sistema automatiza los mecanismos asociados a un test de seguridad y minimiza la duración de dicho test, siguiendo la metodología OSSTMM. Puede ser usado en redes cableadas e inalámbricas. La seguridad se puede evaluar desde una perspectiva interna, o bien externa a la propia red. Se recopilan datos de ordenadores, routers, firewalls y detectores de intrusiones. Consensus gestionará los datos a procesar por analistas de seguridad. Información general y específica sobre sus servicios, sistema operativo, la detección de vulnerabilidades, reglas de encaminamiento y de filtrado, la respuesta de los detectores de intrusiones, la debilidad de las contraseñas, y la respuesta a código malicioso o a ataques de denegación de servicio son un ejemplo de los datos a almacenar por cada dispositivo. Estos datos son recopilados por las herramientas de test incluidas en Consensus. La gran cantidad de datos por cada dispositivo y el diferente número y tipo de atributos que les caracterizan, complican la extracción manual de un patrón de comportamiento. Las herramientas de test automatizadas pueden obtener diferentes resultados sobre el mismo dispositivo y la información recopilada puede llegar a ser incompleta o inconsistente. En este entorno surge la segunda principal aportación de esta tesis: Analia, el módulo de análisis de Consensus. Mientras que Consensus se encarga de recopilar datos sobre la seguridad de los dispositivos, Analia incluye técnicas de Inteligencia Artificial para ayudar a los analistas después de un test de seguridad. Distintos métodos de aprendizaje no supervisado se han analizado para ser adaptados a este dominio. Analia encuentra semejanzas dentro de los dispositivos analizados y la agrupación de dichos dispositivos ayuda a los analistas en la extracción de conclusiones. Las mejores agrupaciones son seleccionadas mediante la aplicación de índices de validación. A continuación, el sistema genera explicaciones sobre cada agrupación para dar una respuesta más detallada a los analistas de seguridad.La combinación de técnicas de aprendizaje automático en el dominio de la seguridad de redes proporciona beneficios y mejoras en la realización de tests de seguridad mediante la utilización del marco integrado Consensus y su sistema de análisis de resultados Analia. / As networks become an integral part of corporations and everyone's lives, advanced network security technologies are being developed to protect data and preserve privacy. Network security testing is necessary to identify and report vulnerabilities, and also to assure enterprise security requirements. Security analysis is necessary to recognize malicious data, unauthorized traffic, detected vulnerabilities, intrusion data patterns, and also to extract conclusions from the information gathered in the security test. Then, where is the problem? There is no open-source standard for security testing, there is no integral framework that follows an open-source methodology for security testing, information gathered after a security test includes large data sets, there is not an exact and objective pattern of behavior among network devices or, furthermore, among data networks and, finally, there are too many potentially vulnerabilities. The challenge of this domain resides in having a great volume of data; data are complex and can appear inconsistent diagnostics. It is also an unsupervised domain where no machine learning techniques have been applied before. Thus a complete characterization of the domain is needed.Consensus is the main contribution of this thesis. Consensus is an integrated framework that includes a computer-aided system developed to help security experts during network testing and analysis. The system automates mechanisms related to a security assessment in order to minimize the time needed to perform an OSSTMM security test. This framework can be used in wired and wireless networks. Network security can be evaluated from inside or from outside the system. It gathers data of different network devices, not only computers but also routers, firewalls and Intrusion Detection Systems (IDS). Consensus manages many data to be processed by security analysts after an exhaustive test. General information, port scanning data, operating system fingerprinting, vulnerability scanning data, routing and filtering rules, IDS response, answer to malicious code, weak passwords reporting, and response to denial of service attacks can be stored for each tested device. This data is gathered by the automated testing tools that have been included in Consensus.The great amount of data for every device and the different number and type of attributes complicates a manually traffic pattern finding. The automated testing tools can obtain different results, incomplete or inconsistent information. Then data obtained from a security test can be uncertain, approximate, complex and partial true. In this environment arises the second main contribution of this thesis: Analia, the data analysis module of Consensus. Whereas Consensus gathers security data, Analia includes Artificial Intelligence to help analysts after a vulnerability assessment. Unsupervised learning has been analyzed to be adapted to this domain. Analia finds resemblances within tested devices and clustering aids analysts in the extraction of conclusions. Afterwards, the best results are selected by applying cluster validity indices. Then explanations of clustering results are included to give a more comprehensive response to security analysts.The combination of machine learning techniques in the network security domain provides benefits and improvements when performing security assessments with the Consensus framework and processing its results with Analia.
|
22 |
Disseny de seqüències PN usant algoritmes genètics, ajust del control difús i optimització de l'estructura multiresolutiva per a la sincronització d'un receptor DS-SS en canal ionosfèric de llarga distànciaAlsina Pagès, Rosa Maria 16 July 2012 (has links)
L'estructura multiresolutiva proposada per Moran [1] té com a objectiu obtenir l'equilibri entre el cost computacional de l'adquisició sèrie i l'eficiència de l'adquisició paral•lela en sistemes d'espectre eixamplat de seqüència directa. L'adquisició i el posterior tracking són dos processos clau en la desmodulació del senyal d'espectre eixamplat, puix que sense una correcta sincronització aquesta és inviable. L'estructura multiresolutiva mostrà en la seva primera proposta un bon comportament en un canal ionosfèric de 800km [2], però el problema al que s'enfronta ara és més complex. Un canal ionosfèric des de l'Antàrtida a Catalunya, d'una longitud de 12700km, amb unes condicions de canal més agreujades per la distància i la variabilitat horària de la ionosfera en el trajecte de les ones. És amb aquest objectiu que aquest treball de tesi presenta millores a aquest algorisme d'adquisició i de seguiment amb els ulls posats en el problema a resoldre. S'han dissenyat seqüències PN adaptades a les necessitats de l'estructura multiresolutiva usant estratègies evolutives [3,4] i algorismes genètics [5], demanant a les seqüències pseudoaleatòries l'acompliment de més requisits que els originals de les seqüències PN. D'altra banda, també s'ha dissenyat un sistema d'estimació de la qualitat de l'adquisició i de control basat en lògica difusa [6], que permeti donar garanties de la robustesa de l'adquisició i alhora, millorar les prestacions de l'estructura reduint-ne el cost computacional. Finalment, s'ha realitzat un refinament del funcionament de l'estructura multiresolutiva, ajustant-ne els paràmetres d'aprenentatge dels filtres adaptatius de la mateixa per al canal ionosfèric i afegint-li la prestació de funcionar com a detector RAKE, que millora la qualitat de les dades desmodulades. Aquests nous dissenys i millores han estat contrastats amb l'estructura multiresolutiva original [1] i amb d'altres algorismes d'adquisició adaptatius basats en filtres LMS [7,8] i s'ha demostrat que les aportacions realitzades en aquest treball permeten obtenir un millor rendiment en les condicions de transmissió abordades.
[1] J. A. Morán. Sistema ràpid d’adquisició per transmissió DS-SS sobre canal ionosfèric. Tesi Doctoral, Enginyeria i Arquitectura La Salle. Universitat Ramon Llull, Barcelona (Espanya), 2001.
[2] J.A. Morán, J.C. Socoró, X. Jové, J.L. Pijoan i F. Tarrés. Multiresolution Adaptive Structure for acquisition in DS-SS receivers. International Conference on Acoustics, Speech and Signal Processing (ICASSP). Salt Lake City (EUA), 2001.
[3] I. Rechenberg. Evolutionsstrategie: Optimierung technischer Systeme nach Prinzipiender biologischen Evolution. Frommann-Holzboog, Alemanya, 1973.
[4] H.P. Schwefel. Evoluitonsstrategie und numerische Optimierung. Tesi Doctoral, Technische Universitat Berlin, Berlin (Alemanya), 1975.
[5] D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley, 1989.
[6] L.A. Zadeh. Fuzzy Sets. IEEE Trans. on Information and Control, 8:338–353, 1965.
[7] M.G. El-Tarhuni. Application of Adaptive Filtering to Direct-Sequence Spread-Spectrum Code Synchronization. Tesi Doctoral, Carleton University, 1997.
[8] M. Han, T. Yu, C. Kang i D. Hong. A New Adaptive Code-Acquisition Algorithm Using Parallel Subfilter Structure. IEEE Transactions on Vehicular Technology, 55(6):1790–1796, Novembre 2006. / La estructura multiresolutiva propuesta por Moran [1] tiene como objetivo obtener el equilibrio entre el coste computacional de la adquisición serie y la eficiencia de la adquisición paralela en sistemas de espectro ensanchado de secuencia directa. La adquisición y el posterior tracking son dos procesos clave en la demodulación de la señal de espectro ensanchado, puesto que sin una correcta sincronización ésta es inviable. La estructura multiresolutiva mostró en su primera propuesta un buen comportamiento en un canal ionosférico de 800km [2], pero el problema al que se enfronta ahora es más complejo. Un canal ionosférico desde la Antártida a Catalunya, con una longitud de 12700km, con unas condiciones de canal más agravadas por la distancia y la variabilidad horaria de la ionosfera en el trayecto de las ondas. Con este objetivo, este trabajo de tesis presenta mejoras a este algoritmo de adquisición y de seguimiento con la mirada puesta en el problema a resolver. Se han diseñado secuencias PN adaptadas a las necesidades de la estructura multiresolutiva usando estrategias evolutivas [3,4] y algoritmos genéticos [5], pidiendo a las secuencias pseudoaleatorias más requisitos que los habituales en las secuencias PN. Por otro lado, también se ha diseñado un sistema de estimación de la calidad en la adquisición y de control basado en lógica difusa [6], que permita dar garantías de la robustez en la adquisición y a su vez, mejorar las prestaciones de la estructura reduciendo el coste computacional. Finalmente, se ha realizado un ajuste del funcionamiento de la estructura multiresolutiva, ajustándose los parámetros de aprendizaje de los filtros adaptativos para el canal ionosférico y añadiendo la prestación de funcionar como detector RAKE, que mejora la calidad de los datos demodulados. Estos nuevos diseños y mejoras se han contrastado con la estructura multiresolutiva original [1] y con otros algoritmos de adquisición adaptativos basados en filtros LMS [7,8] y se ha demostrado que las aportaciones realizadas en este trabajo permiten obtener un mejor rendimiento en las condiciones de transmisión abordadas.
[1] J. A. Morán. Sistema ràpid d’adquisició per transmissió DS-SS sobre canal ionosfèric. Tesis Doctoral, Enginyeria i Arquitectura La Salle. Universitat Ramon Llull, Barcelona (España), 2001.
[2] J.A. Morán, J.C. Socoró, X. Jové, J.L. Pijoan i F. Tarrés. Multiresolution Adaptive Structure for acquisition in DS-SS receivers. International Conference on Acoustics, Speech and Signal Processing (ICASSP). Salt Lake City (EUA), 2001.
[3] I. Rechenberg. Evolutionsstrategie: Optimierung technischer Systeme nach Prinzipiender biologischen Evolution. Frommann-Holzboog, Alemanya, 1973.
[4] H.P. Schwefel. Evoluitonsstrategie und numerische Optimierung. Tesis Doctoral, Technische Universitat Berlin, Berlin (Alemanya), 1975.
[5] D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley, 1989.
[6] L.A. Zadeh. Fuzzy Sets. IEEE Trans. on Information and Control, 8:338–353, 1965.
[7] M.G. El-Tarhuni. Application of Adaptive Filtering to Direct-Sequence Spread-Spectrum Code Synchronization. Tesis Doctoral, Carleton University, 1997.
[8] M. Han, T. Yu, C. Kang i D. Hong. A New Adaptive Code-Acquisition Algorithm Using Parallel Subfilter Structure. IEEE Transactions on Vehicular Technology, 55(6):1790–1796, Noviembre 2006. / The multiresolutive structure proposed by Moran [1] attempts to reach a compromise between the computational cost of serial acquisition schemes and acquisition efficiency of parallel systems in direct-sequence spread spectrum acquisition. Acquisition and subsequent tracking are two key processes in the signal demodulation, since without proper synchronization demodulation is impossible. The multiresolutive structure in Moran’s first proposal showed a good performance on an ionospheric channel of 800km [2], but the problem we face now is more complex. A ionospheric radio channel from the Antarctica to Catalonia, 12700km in length, with worsen channel conditions due to distance and time variability of the ionosphere along the paths of the radio waves. This thesis presents improvements to this algorithm acquisition and tracking system in the aim of facing those hard channel conditions. PN sequences are designed to satisfy the needs of the multiresolutive structure [ABM05, AFSB07] using evolutionary strategies [3, 4] and genetic algorithms [5], through adding more requirements than is usually demanded. On the other hand, a fuzzy logic [6] control block has been implemented to estimate the quality of acquisition and control, evaluate the robustness of the acquisition and improve the performance of the structure by reducing its computational load. Finally, the multiresolutive structure has been adjusted, setting new values for the adaptive filter convergence parameters that refer to the ionospheric radio channel and improving the demodulated data using a RAKE detector. The new multiresolutive structure has been compared to the original multiresolutive structure [1] and to other LMS-based adaptive acquisition algorithms [7,8]. The results show that the new multiresolutive structure is competitive when comparing the original structure and also in relation to other adaptive acquisition algorithms found in state-of-the-art.
[1] J. A. Morán. Sistema ràpid d’adquisició per transmissió DS-SS sobre canal ionosfèric. PhD Thesis, Enginyeria i Arquitectura La Salle. Universitat Ramon Llull, Barcelona (Espanya), 2001.
[2] J.A. Morán, J.C. Socoró, X. Jové, J.L. Pijoan i F. Tarrés. Multiresolution Adaptive Structure for acquisition in DS-SS receivers. International Conference on Acoustics, Speech and Signal Processing (ICASSP). Salt Lake City (EUA), 2001.
[3] I. Rechenberg. Evolutionsstrategie: Optimierung technischer Systeme nach Prinzipiender biologischen Evolution. Frommann-Holzboog, Alemanya, 1973.
[4] H.P. Schwefel. Evoluitonsstrategie und numerische Optimierung. Tesi Doctoral, Technische Universitat Berlin, Berlin (Alemanya), 1975.
[5] D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley, 1989.
[6] L.A. Zadeh. Fuzzy Sets. IEEE Trans. on Information and Control, 8:338–353, 1965.
[7] M.G. El-Tarhuni. Application of Adaptive Filtering to Direct-Sequence Spread-Spectrum Code Synchronization. PhD Thesis, Carleton University, 1997.
[8] M. Han, T. Yu, C. Kang i D. Hong. A New Adaptive Code-Acquisition Algorithm Using Parallel Subfilter Structure. IEEE Transactions on Vehicular Technology, 55(6):1790–1796, November 2006.
|
23 |
Detecting Deception, Partisan, and Social BiasesSánchez Junquera, Juan Javier 06 September 2022 (has links)
Tesis por compendio / [ES] En la actualidad, el mundo político tiene tanto o más impacto en la sociedad que ésta en el mundo político. Los líderes o representantes de partidos políticos hacen uso de su poder en los medios de comunicación, para modificar posiciones ideológicas y llegar al pueblo con el objetivo de ganar popularidad en las elecciones gubernamentales.A través de un lenguaje engañoso, los textos políticos pueden contener sesgos partidistas y sociales que minan la percepción de la realidad. Como resultado, los seguidores de una ideología, o miembros de una categoría social, se sienten amenazados por otros grupos sociales o ideológicos, o los perciben como competencia, derivándose así una polarización política con agresiones físicas y verbales.
La comunidad científica del Procesamiento del Lenguaje Natural (NLP, según sus siglas en inglés) contribuye cada día a detectar discursos de odio, insultos, mensajes ofensivos, e información falsa entre otras tareas computacionales que colindan con ciencias sociales. Sin embargo, para abordar tales tareas, es necesario hacer frente a diversos problemas entre los que se encuentran la dificultad de tener textos etiquetados, las limitaciones de no trabajar con un equipo interdisciplinario, y los desafíos que entraña la necesidad de soluciones interpretables por el ser humano.
Esta tesis se enfoca en la detección de sesgos partidistas y sesgos sociales, tomando como casos de estudio el hiperpartidismo y los estereotipos sobre inmigrantes. Para ello, se propone un modelo basado en una técnica de enmascaramiento de textos capaz de detectar lenguaje engañoso incluso en temas controversiales, siendo capaz de capturar patrones del contenido y el estilo de escritura. Además, abordamos el problema usando modelos basados en BERT, conocidos por su efectividad al capturar patrones sintácticos y semánticos sobre las mismas representaciones de textos. Ambos enfoques, la técnica de enmascaramiento y los modelos basados en BERT, se comparan en términos de desempeño y explicabilidad en la detección de hiperpartidismo en noticias políticas y estereotipos sobre inmigrantes. Para la identificación de estos últimos, se propone una nueva taxonomía con fundamentos teóricos en sicología social, y con la que se etiquetan textos extraídos de intervenciones partidistas llevadas a cabo en el Parlamento español. Los resultados muestran que los enfoques propuestos contribuyen al estudio del hiperpartidismo, así como a identif i car cuándo los ciudadanos y políticos enmarcan a los inmigrantes en una imagen de víctima, recurso económico, o amenaza. Finalmente, en esta investigación interdisciplinaria se demuestra que los estereotipos sobre inmigrantes son usados como estrategia retórica en contextos políticos. / [CA] Avui, el món polític té tant o més impacte en la societat que la societat en el món polític. Els líders polítics, o representants dels partits polítics, fan servir el seu poder als mitjans de comunicació per modif i car posicions ideològiques i arribar al poble per tal de guanyar popularitat a les eleccions governamentals. Mitjançant un llenguatge enganyós, els textos polítics poden contenir biaixos partidistes i socials que soscaven la percepció de la realitat. Com a resultat, augmenta la polarització política nociva perquè els seguidors d'una ideologia, o els membres d'una categoria social, veuen els altres grups com una amenaça o competència, que acaba en agressions verbals i físiques amb resultats desafortunats.
La comunitat de Processament del llenguatge natural (PNL) té cada dia noves aportacions amb enfocaments que ajuden a detectar discursos d'odi, insults, missatges ofensius i informació falsa, entre altres tasques computacionals relacionades amb les ciències socials. No obstant això, molts obstacles impedeixen eradicar aquests problemes, com ara la dif i cultat de tenir textos anotats, les limitacions dels enfocaments no interdisciplinaris i el repte afegit per la necessitat de solucions interpretables.
Aquesta tesi se centra en la detecció de biaixos partidistes i socials, prenent com a cas pràctic l'hiperpartidisme i els estereotips sobre els immigrants.
Proposem un model basat en una tècnica d'emmascarament que permet detectar llenguatge enganyós en temes polèmics i no polèmics, capturant pa-trons relacionats amb l'estil i el contingut. A més, abordem el problema avaluant models basats en BERT, coneguts per ser efectius per capturar patrons semàntics i sintàctics en la mateixa representació. Comparem aquests dos enfocaments (la tècnica d'emmascarament i els models basats en BERT) en termes de rendiment i les seves solucions explicables en la detecció de l'hiperpartidisme en les notícies polítiques i els estereotips d'immigrants.
Per tal d'identificar els estereotips dels immigrants, proposem una nova tax-onomia recolzada per la teoria de la psicologia social i anotem un conjunt de dades de les intervencions partidistes al Parlament espanyol. Els resultats mostren que els nostres models poden ajudar a estudiar l'hiperpartidisme i identif i car diferents marcs en què els ciutadans i els polítics perceben els immigrants com a víctimes, recursos econòmics o amenaces. Finalment, aquesta investigació interdisciplinària demostra que els estereotips dels immigrants s'utilitzen com a estratègia retòrica en contextos polítics. / [EN] Today, the political world has as much or more impact on society than society has on the political world. Political leaders, or representatives of political parties, use their power in the media to modify ideological positions and reach the people in order to gain popularity in government elections.
Through deceptive language, political texts may contain partisan and social biases that undermine the perception of reality. As a result, harmful political polarization increases because the followers of an ideology, or members of a social category, see other groups as a threat or competition, ending in verbal and physical aggression with unfortunate outcomes.
The Natural Language Processing (NLP) community has new contri-butions every day with approaches that help detect hate speech, insults, of f ensive messages, and false information, among other computational tasks related to social sciences. However, many obstacles prevent eradicating these problems, such as the dif f i culty of having annotated texts, the limitations of non-interdisciplinary approaches, and the challenge added by the necessity of interpretable solutions.
This thesis focuses on the detection of partisan and social biases, tak-ing hyperpartisanship and stereotypes about immigrants as case studies. We propose a model based on a masking technique that can detect deceptive language in controversial and non-controversial topics, capturing patterns related to style and content. Moreover, we address the problem by evalu-ating BERT-based models, known to be ef f ective at capturing semantic and syntactic patterns in the same representation. We compare these two approaches (the masking technique and the BERT-based models) in terms of their performance and the explainability of their decisions in the detection of hyperpartisanship in political news and immigrant stereotypes. In order to identify immigrant stereotypes, we propose a new taxonomy supported by social psychology theory and annotate a dataset from partisan interventions in the Spanish parliament. Results show that our models can help study hyperpartisanship and identify dif f erent frames in which citizens and politicians perceive immigrants as victims, economic resources, or threat. Finally, this interdisciplinary research proves that immigrant stereotypes are used as a rhetorical strategy in political contexts. / This PhD thesis was funded by the MISMIS-FAKEnHATE research project
(PGC2018-096212-B-C31) of the Spanish Ministry of Science and Innovation. / Sánchez Junquera, JJ. (2022). Detecting Deception, Partisan, and Social Biases [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/185784 / Compendio
|
Page generated in 0.0413 seconds