Twitter est un réseau social très répandu en Amérique du Nord, offrant aux autorités policières une opportunité pour détecter les événements d’intérêt public. Les messages Twitter liés à un événement contiennent souvent les noms de rue où se déroule l’événement, ce qui permet la géolocalisation en temps réel.
Plusieurs logiciels commerciaux sont offerts pour effectuer la vigie des réseaux sociaux. L’efficacité de ces outils pour les autorités policières pourrait être grandement améliorée avec un accès à un plus grand échantillon de messages Twitter, avec un tri préalable pour dégager les événements pertinents en moins de temps et avec une mesure de la fiabilité des événements détectés.
Ce mémoire vise à proposer une démarche afin de détecter, à partir du flux de messages Twitter, les événements de sécurité publique d’un territoire, automatiquement et avec un niveau de fiabilité acceptable. Pour atteindre cet objectif, un modèle informatisé a été conçu, basé sur les quatre composantes suivantes: a) la cueillette de tweets à partir de mots clés avec un filtrage géographique, b) l’analyse linguistique et l’utilisation d’un répertoire de rues pour déceler les tweets localisables et pour trouver leurs coordonnées à partir des noms de rue et de leur intersection, c) une méthode spatio-temporelle pour former des grappes de tweets, et d) la détection des événements en identifiant les grappes contenant au moins deux (2) tweets communs touchant le même sujet.
Ce travail de recherche diffère des articles scientifiques recensés car il combine l’analyse textuelle, la recherche et le géocodage de toponymes à partir d’un répertoire de noms de rue, la formation de grappes avec la géomatique et l’identification de grappes contenant des tweets communs pour détecter localement des événements de sécurité publique.
L’application du modèle aux 90 347 tweets cueillis dans la région de Toronto-Niagara au Canada a résulté en l’identification et la géolocalisation de 1 614 tweets ainsi qu’en la formation de 172 grappes dont 79 grappes d’événements contenant au moins deux (2) tweets touchant le même sujet, soit un taux de fiabilité de 45,9 %. / Abstract : Twitter is a social media that is very popular in North America, giving law enforcement
agencies an opportunity to detect events of public interest. Twitter messages (tweets) tied
to an event often contain street names, indicating where this event takes place, which can
be used to infer the event's geographical coordinates in real time.
Many commercial software tools are available to monitor social media. The performance
of these tools could be greatly improved with a larger sample of tweets, a sorting
mechanism to identify pertinent events more quickly and to measure the reliability of the
detected events.
The goal of this master‟s thesis is to detect, from a public Twitter stream, events relative
to public safety of a territory, automatically and with an acceptable level of reliability. To
achieve this objective, a computer model based on four components has been developed:
a) capture of public tweets based on keywords with the application of a geographic filter,
b) natural language processing of the text of these tweets, use of a street gazetteer to
identify tweets that can be localized and geocoding of tweets based on street names and
intersections, c) a spatio-temporal method to form tweet clusters and, d) event detection
by isolating clusters containing at least two tweets treating the same subject.
This research project differs from existing scientific research as it combines natural
language processing, search and geocoding of toponyms based on a street gazetteer, the
creation of clusters using geomatics and identification of event clusters based on common
tweets to detect public safety events in a Twitter public stream.
The application of the model to the 90,347 tweets collected for the Toronto-Niagara
region in Ontario, Canada has resulted in the identification and geocoding of 1,614 tweets
and the creation of 172 clusters from which 79 event clusters contain at least two tweets
having the same subject showing a reliability rate of 45.9 %.
Identifer | oai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/10241 |
Date | January 2017 |
Creators | Boileau, Donald |
Contributors | Benie, Goze Bertin, Fortin, Francis |
Publisher | Université de Sherbrooke |
Source Sets | Université de Sherbrooke |
Language | French |
Detected Language | French |
Type | Mémoire |
Rights | © Donald Roger Boileau |
Page generated in 0.003 seconds