Dans cette thèse, j'étudie des jeux de données concernant des liens sociaux entre personnes (appels et SMS), leur mobilité ainsi que des informations économiques sur ces personnes, comme leur revenu et leurs dépenses. Les sept travaux couvrent un spectre assez large et apportent des contributions en informatique des réseaux mais aussi en sociologie, économie et géographie. Les questions posées sont très diverses. Comment quantifier la perte d'information causée par une agrégation de flot de liens en série de graphe ? Comment inférer les mouvements des utilisateurs quand on ne connaît que les localisations des utilisateurs aux moments des appels, et que l'on ne détecte donc que les mouvements qui ont eu lieu entre deux appels consécutifs, sans connaître leur nombre ni les instants auxquels ils ont lieu ? Est-il possible de transmettre des SMS dans une région dense en utilisant la densité des téléphones, la mobilité des utilisateurs ainsi que la localité des messages échangés ? Est-il possible de comprendre les inégalités sociales avec une approche Big Data ? Cette dernière question fait l'objet d'une première étude socio-économique approfondie au prisme du Big Data. Il a été possible d'étudier à grande échelle la stratification de la société, l'existence de clubs de riches, la ségrégation spatiale et la structure des dépenses par classe sociale.Au delà de la variété de ces études et de ces nombreuses applications, cette thèse montre que l'analyse de données individuelles riches à l'échelle d'une population permettent de répondre à de nouvelles questions et à d'anciennes hypothèses avec une approche Big Data. Cette thèse tient à mettre l'accent sur la potentialité d'une approche Big Data mais aussi de sa complémentarité avec les approches classiques (modélisation, sociologie avec enquêtes, …). Un effort particulier a été mis dans l'explication des étapes qui amènent aux résultats et dans la prise en compte des biais ce qui est trop souvent négligé. / In this thesis, I have carried out data-driven studies based on rich, large-scale combined data sets including social links between users (calls and SMS), their demographic parameters (age and gender), their mobility and their economic information such as income and spendings. These seven studies bring insights in network science but also in sociology, economy and geography. The questions asked are very diversified. How can one quantify the loss of temporal information caused by the aggregation of link streams into series of graphs? How can one infer mobility of a user from his or her localisations of calls? Is it possible to transmit SMS in a dense region by using the density of phones, the mobility of users and the locality of the messages? How can one quantify and prove empirically the social stratification of the society at a large population scale? I present, for this last question, a first socio-economic study with a data-driven approach. It has been possible to study, at a very large scale, the stratification of the society, the existence of "rich-clubs", the spatial segregation and purchase patterns for each social class. Beyond the variety of studies and their numerous applications, this thesis shows that the analysis of individual rich combined datasets at a large population scale gives the opportunity to answer long-standing hypotheses and to address novel questions. This work not only points out the potentiality of Big Data approach but also its complementarity to classical approaches (modelization, surveys, …). Particular attention was given in order to explain each steps that lead to results and to take into account biases which is too often neglected.
Identifer | oai:union.ndltd.org:theses.fr/2016LYSEN066 |
Date | 16 December 2016 |
Creators | Leo, Yannick |
Contributors | Lyon, Fleury, Éric |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0024 seconds