Global ETD Search

Return to search

Identification and characterization of high impact news events on twitter

Magíster en Ciencias, Mención Computación / Motivación: El problema de manejar grandes cantidades de datos producidos por usuarios de los llamados sitios de social media ya no parece ser nuevo. Por ejemplo, en la red social online Twitter cada día se publica más de 400 millones de mensajes. Y este diluvio de datos está afectando a cada vez más escenarios. En particular, el problema de comprender qué está pasando en el mundo se vuelve un problema cada vez más difícil, debido a la gran cantidad de fuentes de noticias. Breaking News corresponde a noticias que interrumpen el flujo normal de radio y televisión. En las redes sociales son un fenómeno más complicado de estudiar, debido a un paradigma distinto: la producción y el consumo descentralizado de datos en modo streaming. Comprender el impacto de las noticias en las redes sociales online es un problema difícil e interesante de investigar.
Propósito: El objetivo principal de este proyecto es responder a la pregunta: ¿Es posible predecir si un evento noticioso causará impacto en las redes sociales online, poco después de su publicación? Se utiliza Twitter como la fuente de datos.
Contribuciones: Se define la noción de impacto, basado en la tasa de llegada de los tweets que discuten los eventos. Luego, se predice el impacto de los eventos usando características de los mensajes, como el número de veces que son compartidos, el puntaje de sentimiento, etc. La tarea de predicción tiene buenos resultados de clasificación incluso usando el primer 5% de los datos, y aunque mejora al agregar más datos, F-score y accuracy decrecen al usar el 100%. Además, se caracterizan los eventos en Twitter, encontrando propiedades distintivas entre eventos de alto y bajo impacto. En los eventos de alto impacto la información se propaga a una mayor velocidad y escala. Además, son más focalizados en términos de vocabulario, y muestran mayor puntaje de sentimiento. Eventos de bajo impacto son más conversacionales: los usuarios que hablan acerca de esos eventos usan un vocabulario más extenso y comparten más recursos, como URLs o hashtags.
Metodología: Se propone y desarrolla una metodología de recolección de datos e identificación de eventos. El conjunto de datos final contiene 9,000 eventos y 45 millones de tweets, aproximadamente. Para asignar la categoría de impacto de un evento, se usan métodos de clustering para aprender una representación multidimensional de éstos. Luego, se distingue entre eventos de alto y bajo impacto. Usando un clasificador de regresión logística sobre porciones de los datos, se clasifican eventos para predecir su categoría de impacto, usando la representación multidimensional como base para la evaluación.
Valor: El valor de este trabajo yace en sus posibles aplicaciones: puede apoyar el trabajo periodístico, sirve para generar resúmenes automáticos valiosos, desarrollar sistemas de recomendación, publicidad focalizada, encontrar contenido relevante, entre otras.

http://repositorio.uchile.cl/handle/2250/131427

Minería de datos

Redes sociales

Twitter

Identifer	oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/131427
Date	January 2014
Creators	Quezada Veas, Mauricio Daniel
Contributors	Poblete Labra, Bárbara, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ciencias de la Computación, Simmonds Wagemann, Jocelyn, Hogan, Aidan, Mendoza Rocha, Marcelo
Publisher	Universidad de Chile
Source Sets	Universidad de Chile
Language	English
Detected Language	Spanish
Type	Tesis
Rights	Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0026 seconds

Identification and characterization of high impact news events on twitter

Description

Links & Downloads

Tags

Additional Fields