Return to search

Impact of caricature-based datasets on demographic inference

The widespread adoption of social networking platforms has generated interest in studying groups of users. Interest in the composition of groups has led to the development of methods to infer demographic attributes of participants such as such as age, ethnicity, and political orientation. While all demographic inference methods report excellent performance, there is a concern that this is the product of the way the dataset was constructed and not just the methods accuracy. In our research we observed an overemphasis on classifying users that exhibit easy-to-classify traits ; we call such users caricatures. In this thesis, we establish the extent to which caricatures introduce a bias that leads to results that give an overoptimistic characterization of the inference engine's abilities. We further continued our research and introduced a simple and effective method to create non-caricature-based datasets. In this work we focus on political caricatures in Twitter, although we consider our results representa- tive of the effect of caricatures in Twitter demographic inference datasets, regardless of the attribute of interest. Therefore our research should serve as a warning call to researchers using caricature-based datasets to do demographic inference. / La déduction démographique est devenue une force motrice derrire certaines des plus grandes techniques en analyse de données. Sa multitude d'utilisations et d'applications rendues possibles l'aide de données démographiques augmente de jour en jour. Alors que toutes les méthodes de déduction démographique aboutissent d'excellentes performances, on craint que ce soit le produit de la faon dont le groupe de données a été construit et pas seulement l'exactitude des méthodes. Dans notre recherche, nous avons observé une insistance exagérée sur le classement des utilisateurs qui présentent des caractéristiques faciles classer, on appelle ces caractéristiques des caricatures. Ces caricatures introduisent un biais qui son tour conduit des résultats qui donnent une caricaturization trop optimiste des capacités de déduction. Poursuivant notre recherche, nous avons introduit et présenté une méthode simple et efficace pour créer des ensembles de données non-caricaturistes. Notre travail suggre qu'en effet un tel biais existe et motive davantage notre introduction une telle méthode. En outre, notre recherche adresse un appel de mise en garde l'utilisation des ensembles de données axées sur la caricature dans la recherche de la déduction démographique.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.117195
Date January 2013
CreatorsCohen, Raviv
ContributorsDerek Ruths (Internal/Supervisor)
PublisherMcGill University
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formatapplication/pdf
CoverageMaster of Science (School of Computer Science)
RightsAll items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
RelationElectronically-submitted theses.

Page generated in 0.002 seconds