Global ETD Search

1	Sélection automatisée d'informations crédibles sur la santé en ligne Bayani, Azadeh 01 1900 (has links) Introduction : Le contenu en ligne est une source significative et primordiale pour les utilisateurs à la recherche d'informations liées à la santé. Pour éviter la désinformation, il est crucial d'automatiser l'évaluation de la fiabilité des sources et de vérification de la véracité des informations. Objectif : Cette étude visait à d’automatiser l'identification de la qualité des sources de santé en ligne. Pour cela, deux éléments complémentaires de qualité ont été automatisés : (1) L'évaluation de la fiabilité des sources d’information liée à la santé, en tenant compte des critères de la HONcode, et (2) L’appréciation de la véracité des informations, avec la base de données PubMed comme source de vérité. Méthodes : Dans cette étude, nous avons analysé 538 pages Web en englais provenant de 43 sites Web. Dans la première phase d’évaluation de la fiabilité des sources, nous avons classé les critères HONcode en deux niveaux : le "niveau pages Web" (autorité, complémentarité, justifiabilité, et attribution) et le "niveau sites Web" (confidentialité, transparence, divulgation financière et politique publicitaire). Pour le niveau pages Web, nous avons annoté 200 pages manuellement et appliqué trois modèles d’apprentissage machine (ML) : Forêt aléatoire (RF), machines à vecteurs de support (SVM) et le transformateur BERT. Pour le niveau sites Web, nous avons identifié des sacs de mots et utilisé un modèle basé sur des règles. Dans la deuxième phase de l’appréciation de la véracité des informations, les contenus des pages Web ont été catégorisées en trois catégories de contenu (séméiologie, épidémiologie et gestion) avec BERT. Enfin, l’automatisation de l’extraction des requêtes PubMed basée sur les termes MeSH a permis d’extraire et de comparer automatiquement les 20 articles les plus pertinents avec le contenu des pages Web. Résultats : Pour le niveau page Web, le modèle BERT a obtenu une meilleure aire sous la courbe (AUC) de 96 %, 98 % et 100 % pour les phrases neutres, la justifiabilité et l'attribution respectivement. SVM a présenté une meilleure performance pour la classification de la complémentarité (AUC de 98 %). Enfin, SVM et BERT ont obtenu une AUC de 98 % pour le critère d'autorité. Pour le niveau sites Web, le modèle basé sur des règles a récupéré les pages Web avec une précision de 97 % pour la confidentialité, 82 % pour la transparence, 51 % pour la divulgation financière et la politique publicitaire. Finalement, pour l’appréciation de la véracité des informations, en moyenne, 23 % des phrases ont été automatiquement vérifiées par le modèle pour chaque page Web. Conclusion : Cette étude souligne l'importance des modèles transformateurs et l'emploi de PubMed comme référence essentielle pour accomplir les deux tâches cruciales dans l'identification de sources d'information fiables en ligne : l’évaluation de la fiabilité des sources et vérifier la véracité des contenus. Finalement, notre recherche pourrait servir à améliorer le développement d’une approche d’évaluation automatique de la crédibilité des sites Web sur la santé. / Introduction: Online content is a significant and primary source for many users seeking healthrelated information. To prevent misinformation, it's crucial to automate the assessment of reliability of sources and fact-checking of information. Objective: This study aimed to automate the identification of the credibility of online information sources. For this, two complementary quality elements were automated: (1) The reliability assessment of health-related information, considering the HONcode criteria, and (2) The factchecking of the information, using PubMed articles as a source of truth. Methods: In this study, we analyzed 538 English webpages from 43 websites. In the first phase of credibility assessment of the information, we classified the HONcode criteria into two levels: the “web page level” (authority, complementarity, justifiability, and attribution) and the “website level” (confidentiality, transparency, financial disclosure, and advertising policy). For the web page level, we manually annotated 200 pages and applied three machine learning (ML) models: Random Forest (RF), Support Vector Machines (SVM) and the BERT Transformer. For those at website level criteria, we identified the bags of words and used a rule-based model. In a second phase of fact-checking, the contents of the web pages were categorized into three themes (semiology, epidemiology, and management) with BERT. Finally, for automating the factchecking of information, the automation of PubMed queries extraction using MeSH terms made it possible to automatically extract and compare the 20 most relevant articles with the content of the web pages. Results: For the web page level the BERT model obtained the best area under the curve (AUC) of 96%, 98% and 100% for neutral sentences, justifiability and attribution respectively. SVM showed a better performance for complementarity classification (AUC of 98%). Finally, SVM and BERT obtained an AUC of 98% for the authority criterion. For the websites level, the rules-based model retrieved web pages with an accuracy of 97% for privacy, 82% for transparency, 51% for financial disclosure and advertising policy. Finally, for fact-checking, on average, 23% of sentences were automatically checked by the model for each web page. Conclusion: This study emphasized the significance of Transformers and leveraging PubMed as a key reference for two critical tasks: assessing source reliability and verifying information accuracy. Ultimately, our research stands poised to significantly advance the creation of an automated system for evaluating the credibility of health websites. La fiabilité des sources Appréciation de la véracité Infodémie Apprentissage automatique Modèles de classification Credibility Fact-checking Infodemic Machine learning Classification models
2	L’utilité des médias sociaux pour la surveillance épidémiologique : une étude de cas de Twitter pour la surveillance de la maladie de Lyme Laison, Elda Kokoe Elolo 12 1900 (has links) La maladie de Lyme est la maladie transmise par tiques la plus répandue dans l’hémisphère du Nord. Le système de surveillance des cas humains de la maladie de Lyme est basé sur un système passif des cas par les professionnels de santé qui présente plusieurs failles rendant la surveillance incomplète. Avec l’expansion de l’usage de l’internet et des réseaux sociaux, des chercheurs proposent l’utilisation des données provenant des réseaux sociaux comme outil de surveillance, cette approche est appelée l’infodémiologie. Cette approche a été testée dans plusieurs études avec succès. L’objectif de ce mémoire est de construire une base de données à partir des tweets auto-déclarés, des tweets classifiés et étiquetés comme un cas potentiel de Lyme ou non à l’aide des modèles de classificateurs basés sur des transformateurs comme, BERTweet, DistilBERT et ALBERT. Pour ce faire, un total de 20 000 tweets en anglais en lien avec la maladie de Lyme sans restriction géographique de 2010 à 2022 a été collecté avec la plateforme API twitter. Nous avons procédé au nettoyage la base de données. Ensuite les données nettoyées ont été classifiées en binaire comme cas potentiels ou non de la maladie de Lyme sur la base des symptômes de la maladie comme mots-clés. À l’aide des modèles de classification basés sur les transformateurs, la classification automatique des données est évaluée en premier sans, et ensuite avec des émojis convertis en mots. Nous avons trouvé que les modèles de classification basés sur les transformateurs performent mieux que les modèles de classification classiques comme TF-IDF, Naive Bayes et autres ; surtout le modèle BERTweet a surpassé tous les modèles évalués avec un score F1 moyen de 89,3%, une précision de 97%, une exactitude de 90% et un rappel de 82,6%. Aussi l’incorporation des émojis dans notre base de données améliore la performance de tous les modèles d’au moins 5% mais BERTweet a une fois de plus le mieux performé avec une augmentation de tous les paramètres évalués. Les tweets en anglais sont majoritairement en provenance des États-Unis et pour contrecarrer cette prédominance, les futurs travaux devraient collecter des tweets de toutes langues en lien avec la maladie de Lyme surtout parce que les pays européens où la maladie de Lyme sont en émergence ne sont pas des pays anglophones. / Lyme disease is the most common tick-borne disease in the Northern Hemisphere. The surveillance system for human cases of Lyme disease has several flaws which make the surveillance incomplete. Nowadays with the extensive use of internet and social networks, researchers propose the use of data from social networks as a surveillance tool, this approach is called Infodemiology. This approach has been successfully tested in several studies. The aim of this thesis is to build a database from self-reported tweets, capable of classifying a tweet as a potential case of Lyme or not using BERT transformer-based classifier models. A total of 20,000 English tweets related to Lyme disease without geographical restriction from 2010 to 2022 were collected with twitter API. Then these data were cleaned and manually classified by binary classification as potential Lyme cases or not using as keywords the symptoms of Lyme disease; Also, emojis have been converted into words and integrated. Using classification models based on BERT transformers, the labeling of data as disease-related or non-disease-related is evaluated first without, and then with emojis. Transformer-based classification models performed better than conventional classification models, especially the BERTweet model outperformed all evaluated models with an average F1 score of 89.3%, precision of 97%, accuracy of 90%, and recall of 82.6%. Also, the incorporation of emojis in our database improves the performance of all models by at least 5% but BERTweet once again performed best with an increase in all parameters evaluated. Tweets in English are mostly from the United States and to counteract this predominance, future work should collect tweets of all languages related to Lyme disease especially because the European countries where Lyme disease are emerging are not English-speaking countries. maladie de Lyme réseaux sociaux twitter apprentissage automatique infodémiologie BERT emojis modèles de classification Lyme disease Social networks Twitter Machine learning Infodemiology BERT Classification models

Search results

Sélection automatisée d'informations crédibles sur la santé en ligne

L’utilité des médias sociaux pour la surveillance épidémiologique : une étude de cas de Twitter pour la surveillance de la maladie de Lyme