Esta tesis se enfoca en el estudio de sistemas para la generación automatizada de
hipótesis contextualizadas en la detección de comportamiento malicioso en plataformas
sociales. Como primer aporte de esta tesis, se presenta una aproximación inicial para
un sistema como el mencionado anteriormente y se consideran dos enfoques ligeramente
diferentes acotando la detección de comportamiento malicioso a un tipo de problema
específi co bautizado como deduplicación adversarial. Para el primer enfoque, se pone
mayor énfasis en la generación de hipótesis a partir de la utilización de reglas lógicas
bien de finidas, aunque la esencia de su funcionamiento está apoyada en los resultados que
puedan ser obtenidos de aplicar técnicas de aprendizaje automatizado con anterioridad.
Luego para el segundo enfoque, se realiza mayor hincapié en la utilización de técnicas de
aprendizaje automatizado, específi camente clasi ficadores, como estrategia para atacar el
problema y la generación de hipótesis es llevada a cabo por reglas más simples que son
activadas cuando el resultado de los clasifi cadores supera cierto umbral.
Sin embargo, el objetivo general de esta tesis es avanzar hacia el desarrollo de sistemas
más robustos que no se encuentran acotados a un solo problema de comportamiento
malicioso en plataformas sociales, sino que considere la multiplicidad de los mismos y
aproveche la relación que pueda haber entre ellos. Por esta razón, el principal aporte de
esta tesis es la presentación de la arquitectura NetDER para razonar sobre comportamiento
malicioso en plataformas sociales, la cual en principio, busca servir de guía para
la implementación de software en dicho dominio. Asimismo, en esta misma dirección,
otro aporte realizado es el estudio de los fundamentos teóricos involucrados en la implementación de una versión particular de NetDER. Más específicamente, la generación
de hipótesis está apoyada en un proceso conocido como de respuesta a consultas, por lo
cual fue necesario investigar su incidencia en este modelo, y a partir de dicho estudio
se llega a un interesante conjunto de resultados que varían de la tratabilidad del tiempo
polinomial a la indecidibilidad, dependiendo de las características que estén disponibles.
Adicionalmente, se desarrolla un caso de uso para ilustrar cómo el enfoque puede ser aplicado
en un dominio de ciberseguridad para razonar sobre productos en riesgo basados en
publicaciones de foros de la Darknet.
Finalmente, como último aporte se realiza una evaluación experimental de la arquitectura
NetDER, considerando las cuestiones de diseño y fundamentos teóricos estudiados
a lo largo de esta tesis. Asimismo, debido a la difi cultad de obtener datasets adecuados
con ground truth, lo cual es necesario para llevar adelante evaluaciones de desempeño,
fue necesario desarrollar un testbed general (dejando disponible públicamente su código)
diseñado con el propósito de generar trazas completas de actividades de publicación involucrando
potencialmente todo tipo de contenido malicioso como lo pueden ser noticias
falsas, actores maliciosos, botnets, enlaces a malware, discursos de odio, etc. Los resultados
obtenidos fueron satisfactorios, debido a que en general son estadísticamente signifi cativos
y constituyen un paso importante para avanzar al logro del objetivo general que es disponer
de sistemas robustos de generación automatizada de hipótesis que puedan utilizarse para resolver problemas de comportamiento malicioso en plataformas sociales. / In this thesis we focus on the study of systems for the automated generation of hypotheses
in order to detect malicious behavior on social media. The rst contribution of
this thesis is the development of an initial approach for a system such as the one we mentioned
above, where two slightly di erent approaches are considered, limiting the detection
of malicious behavior to a speci c kind of problem called adversarial deduplication. For
the rst approach, greater emphasis is placed on the generation of hypotheses from the
use of well-de ned logical rules, although they are essentially based on the results that
can be obtained from the prior application of machine learning techniques. Then, for the
second approach, greater emphasis is placed on the use of machine learning techniques,
speci cally classi ers, as a strategy to attack the problem and the generation of hypotheses
is carried out by simpler rules that are activated when the result of the classi ers
exceeds a certain threshold.
The general objective of this thesis is however to advance towards the development
of more robust systems that are not limited to a single problem of malicious behavior on
social media, but rather consider their multiplicity and take advantage of the relationship
that may exist between them. For this reason, the main contribution of this thesis is the
presentation of the NetDER architecture to reason about malicious behavior on social
media, which in principle seeks to serve as a guide for the implementation of software
in this domain. Also, in this same direction, another contribution is the study of the
theoretical foundations involved in the implementation of a particular version of Net-
DER. More speci cally, the generation of hypotheses is supported by a process known as
query answering; therefore, we need to research its incidence in this model, and from this
study an interesting set of results is reached that vary from polynomial-time tractability
to undecidability, depending on the features that are available. Additionally, a use case
is developed to illustrate how the approach can be applied in a cybersecurity domain to
reason about at-risk products based on Darknet forum posts.
Finally, as a last contribution, an experimental evaluation of the NetDER architecture
is carried out, considering the design issues and theoretical foundations studied
throughout this thesis. Also, due to the di culty of obtaining adequate datasets with
ground truth, which is necessary to carry out performance evaluations, it was necessary
to develop a general testbed (making its code publicly available) designed with the purpose
of generating complete traces of posting activities potentially involving all types of
malicious content, such as fake news, malicious actors, botnets, links to malware, hate
speech, etc. The results obtained were satisfactory, because in general they are statistically
signi cant and constitute an important step to advance towards the achievement
of the general objective, which is to have robust systems for the automated generation
of hypotheses that can be used to solve problems related to malicious behavior on social
media.
Identifer | oai:union.ndltd.org:uns.edu.ar/oai:repositorio.bc.uns.edu.ar:123456789/5672 |
Date | 05 March 2021 |
Creators | Paredes, José Nicolás |
Contributors | Falappa, Marcelo Alejandro, Simari, Gerardo Ignacio |
Publisher | Universidad Nacional del Sur |
Source Sets | Universidad Nacional del Sur |
Language | Spanish |
Detected Language | Spanish |
Type | Electronic Thesis or Dissertation, Text |
Format | application/pdf |
Rights | 2 |
Page generated in 0.0022 seconds