Global ETD Search

1	Modélisation thématique probabiliste des services web Aznag, Mustapha 03 July 2015 (has links) Les travaux sur la gestion des services web utilisent généralement des techniques du domaine de la recherche d'information, de l'extraction de données et de l'analyse linguistique. Alternativement, nous assistons à l'émergence de la modélisation thématique probabiliste utilisée initialement pour l'extraction de thèmes d'un corpus de documents. La contribution de cette thèse se situe à la frontière de la modélisation thématique et des services web. L'objectif principal de cette thèse est d'étudier et de proposer des algorithmes probabilistes pour modéliser la structure thématique des services web. Dans un premier temps, nous considérons une approche non supervisée pour répondre à différentes tâches telles que la découverte et le regroupement de services web. Ensuite, nous combinons la modélisation thématique avec l'analyse de concepts formels pour proposer une méthode de regroupement hiérarchique de services web. Cette méthode permet une nouvelle démarche de découverte interactive basée sur des opérateurs de généralisation et spécialisation des résultats obtenus. Enfin, nous proposons une méthode semi-supervisée pour l'annotation automatique de services web. Nous avons concrétisé nos propositions par un moteur de recherche en ligne appelé WS-Portal. Nous offrons alors différentes fonctions facilitant la gestion de services web, par exemple, la découverte et le regroupement de services web, la recommandation des tags, la surveillance des services, etc. Nous intégrons aussi différents paramètres tels que la disponibilité et la réputation de services web et plus généralement la qualité de service pour améliorer leur classement (la pertinence du résultat de recherche). / The works on web services management use generally the techniques of information retrieval, data mining and the linguistic analysis. Alternately, we attend the emergence of the probabilistic topic models originally developed and utilized for topics extraction and documents modeling. The contribution of this thesis meets the topics modeling and the web services management. The principal objective of this thesis is to study and propose probabilistic algorithms to model the thematic structure of web services. First, we consider an unsupervised approach to meet different tasks such as web services clustering and discovery. Then we combine the topics modeling with the formal concept analysis to propose a novel method for web services hierarchical clustering. This method allows a novel interactive discovery approach based on the specialization and generalization operators of retrieved results. Finally, we propose a semi-supervised method for automatic web service annotation (automatic tagging). We concretized our proposals by developing an on-line web services search engine called WS-Portal where we incorporate our research works to facilitate web service discovery task. Our WS-Portal contains 7063 providers, 115 sub-classes of category and 22236 web services crawled from the Internet. In WS- Portal, several technologies, i.e., web services clustering, tags recommendation, services rating and monitoring are employed to improve the effectiveness of web services discovery. We also integrate various parameters such as availability and reputation of web services and more generally the quality of service to improve their ranking and therefore the relevance of the search result. Service web Modélisation thématique Classification conceptuelle Découverte Regroupement Annotation Recommandation Web services Probabilistic topic modeling Discovery Clustering Annotation Recommendation Conceptual classification 004
2	Vers une représentation du contexte thématique en Recherche d'Information Deveaud, Romain 29 November 2013 (has links) (PDF) Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d'information(SRI) faisant office d'interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d'information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind'information est constituée d'un petit ensemble de mots-clés plus souvent connu sousla dénomination de " requête ". Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l'état cognitif complet d'un humain par rapportà son besoin d'information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n'étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd'une requête formulée par un utilisateur sans qu'aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l'utilisation et la combinaison de différentessources d'information générales représentant les grands types d'informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d'algorithmes de modélisation thématique probabiliste (tels que l'allocationde Dirichlet latente) dans le cadre d'un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d'estimer conjointement le nombre de conceptsimplicites d'une requête ainsi que l'ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d'information et de résumé automatique Recherche d'information Contextualisation Concepts implicites Modélisation thématique probabiliste Retour de pertinence simulé Modèles de pertinence TREC
3	Vers une représentation du contexte thématique en Recherche d'Information / Generative models of topical context for Information Retrieval Deveaud, Romain 29 November 2013 (has links) Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d’information(SRI) faisant office d’interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d’information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind’information est constituée d’un petit ensemble de mots-clés plus souvent connu sousla dénomination de « requête ». Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l’état cognitif complet d’un humain par rapportà son besoin d’information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n’étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd’une requête formulée par un utilisateur sans qu’aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l’utilisation et la combinaison de différentessources d’information générales représentant les grands types d’informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d’algorithmes de modélisation thématique probabiliste (tels que l’allocationde Dirichlet latente) dans le cadre d’un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d’estimer conjointement le nombre de conceptsimplicites d’une requête ainsi que l’ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d’information et de résumé automatique / When searching for information within knowledge bases or document collections,humans use an information retrieval system (IRS). So that it can retrieve documentscontaining relevant information, users have to provide the IRS with a representationof their information need. Nowadays, this representation of the information need iscomposed of a small set of keywords often referred to as the « query ». A few wordsmay however not be sufficient to accurately and effectively represent the complete cognitivestate of a human with respect to her initial information need. A query may notcontain sufficient information if the user is searching for some topic in which she is notconfident at all. Hence, without some kind of context, the IRS could simply miss somenuances or details that the user did not – or could not – provide in query.In this thesis, we explore and propose various statistic, automatic and unsupervisedmethods for representing the topical context of the query. More specifically, we aim toidentify the latent concepts of a query without involving the user in the process norrequiring explicit feedback. We experiment using and combining several general informationsources representing the main types of information we deal with on a dailybasis while browsing theWeb.We also leverage probabilistic topic models (such as LatentDirichlet Allocation) in a pseudo-relevance feedback setting. Besides, we proposea method allowing to jointly estimate the number of latent concepts of a query andthe set of pseudo-relevant feedback documents which is the most suitable to modelthese concepts. We evaluate our approaches using four main large TREC test collections.In the appendix of this thesis, we also propose an approach for contextualizingshort messages which leverages both information retrieval and automatic summarizationtechniques Recherche d’information Contextualisation Concepts implicites Modélisation thématique probabiliste Retour de pertinence simulé Modèles de pertinence TREC Information retrieval Contextualization Latent concepts Probabilistic topic modeling Information sources Pseudo-relevance feedback Relevance models TREC 025.042
4	Analyse de l’image de marque sur le Web 2.0 / Analyse of entities representation over the Web 2.0 Cossu, Jean-Valère 16 December 2015 (has links) Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’être un moyen d’accès à la connaissance, Internet est devenu en quelques années un lieu privilégié pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (réseaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variés que l’actualité, la politique, les résultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomération de ces avis publiés sur une entité (qu’il s’agisse d’un produit, une entreprise ou une personnalité publique)donnent naissance à l’image de marque de cette entité.L’image d’une entité est ici comprise comme l’idée qu’une personne ou qu’un groupe de personnes se fait de cette entité. Cette idée porte a priori sur un sujet particulier et n’est valable que dans un contexte, à un instant donné.Cette image perçue est par nature différente de celle que l’entité souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la réalité, il existe au final plusieurs images qui cohabitent en parallèle sur le réseau, chacune propre à une communauté et toutes évoluant différemment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposés). Enfin, en plus des polémiques volontairement provoquées par le comportement de certaines entités en vue d’attirer l’attention sur elles (pensons aux tenues ou déclarations choquantes), il arrive également que la diffusion d’une image dépasse le cadre qui la régissait et même parfois se retourne contre l’entité (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimées constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à présent confié à des spécialistes de l’e-communication qui monnaient leur subjectivité. Ces derniers ne peuvent considérer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thèse, nous proposons d’utiliser différentes méthodes automatiques, statistiques, supervisées et d’une faible complexité permettant d’analyser et représenter l’image de marque d’entité à partir de contenus textuels les mentionnant. Plus spécifiquement, nous cherchons à identifier les contenus(ainsi que leurs auteurs) qui sont les plus préjudiciables à l’image de marque d’une entité. Nous introduisons un processus d’optimisation automatique de ces méthodes automatiques permettant d’enrichir les données en utilisant un retour de pertinence simulé (sans qu’aucune action de la part de l’entité concernée ne soit nécessaire). Nous comparer également plusieurs approches de contextualisation de messages courts à partir de méthodes de recherche d’information et de résumé automatique. Nous tirons également parti d’algorithmes de modélisation(tels que la Régression des moindres carrés partiels), dans le cadre d’une modélisation conceptuelle de l’image de marque, pour améliorer nos systèmes automatiques de catégorisation de documents textuels. Ces méthodes de modélisation et notamment les représentations des corrélations entre les différents concepts que nous manipulons nous permettent de représenter d’une part, le contexte thématique d’une requête de l’entité et d’autre, le contexte général de son image de marque. Nous expérimentons l’utilisation et la combinaison de différentes sources d’information générales représentant les grands types d’information auxquels nous sommes confrontés sur internet : de long les contenus objectifs rédigés à des informatives, les contenus brefs générés par les utilisateurs visant à partager des opinions. Nous évaluons nos approches en utilisant deux collections de données, la première est celle constituée dans le cadre du projet Imagiweb, la seconde est la collection de référence sur le sujet : CLEFRepLab / Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields. Recherche d’Information Contextualisation Concepts Implicites Modélisation Thématique Aide à la Décision Informatique Décisionnelle E-Reputation Apprentissage Automatique Natural Language Processing Information Retrieval Contextualization Implicit Concepts Modelling Artificial Intelligence Business Intelligence E-Reputation Machine Learning
5	Traitement automatique du langage naturel pour les textes juridiques : prédiction de verdict et exploitation de connaissances du domaine Salaün, Olivier 12 1900 (has links) À l'intersection du traitement automatique du langage naturel et du droit, la prédiction de verdict ("legal judgment prediction" en anglais) est une tâche permettant de représenter la question de la justice prédictive, c'est-à-dire tester les capacités d'un système automatique à prédire le verdict décidé par un juge dans une décision de justice. La thèse présente de bout en bout la mise en place d'une telle tâche formalisée sous la forme d'une classification multilabel, ainsi que différentes stratégies pour tenter d'améliorer les performances des classifieurs. Le tout se base sur un corpus de décisions provenant du Tribunal administratif du logement du Québec (litiges entre propriétaires et locataires). Tout d'abord, un prétraitement préliminaire et une analyse approfondie du corpus permettent d'en tirer les aspects métier les plus saillants. Cette étape primordiale permet de s'assurer que la tâche de prédiction de verdict a du sens, et de mettre en relief des biais devant être pris en considération pour les tâches ultérieures. En effet, à l'issue d'un premier banc d'essai comparant différents modèles sur cette tâche, ces derniers tendent à exacerber des biais préexistant dans le corpus (p. ex. ils donnent encore moins gain de cause aux locataires par rapport à un juge humain). Fort de ce constat, la suite des expériences vise à améliorer les performances de classification et à atténuer ces biais, en se focalisant sur CamemBERT. Pour ce faire, des connaissances du domaine cible (droit du logement) sont exploitées. Une première approche consiste à employer des articles de loi comme données d'entrée qui font l'objet de différentes représentations, mais c'est cependant loin d'être la panacée. Une autre approche employant la modélisation thématique s'intéresse aux thèmes pouvant être extraits à partir du texte décrivant les faits litigieux. Une évaluation automatique et manuelle des thèmes obtenus démontre leur informativité vis-à-vis des motifs amenant des justiciables à se rendre au tribunal. Avec ce constat, la dernière partie de notre travail revisite une nouvelle fois la tâche de prédiction de verdict en s'appuyant à la fois sur des systèmes de recherche d'information (RI), et des thèmes associés aux décisions. Les modèles conçus ici ont la particularité de s'appuyer sur une jurisprudence (décisions passées pertinentes) récoltée selon différents critères de recherche (p. ex. similarité au niveau du texte et/ou des thèmes). Les modèles utilisant des critères de RI basés sur des sacs-de-mots (Lucene) et des thèmes obtiennent des gains significatifs en termes de scores F1 Macro. Cependant, le problème d'amplification des biais persiste encore bien qu'atténué. De manière globale, l'exploitation de connaissances du domaine permet d'améliorer les performances des prédicteurs de verdict, mais la persistance de biais dans les résultats décourage le déploiement de tels modèles à grande échelle dans le monde réel. D'un autre côté, les résultats de la modélisation thématique laissent entrevoir de meilleurs débouchés pour ce qui relève de l'accessibilité et de la lisibilité des documents juridiques par des utilisateurs humains. / At the intersection of natural language processing and law, legal judgment prediction is a task that can represent the problem of predictive justice, or in other words, the capacity of an automated system to predict the verdict decided by a judge in a court ruling. The thesis presents from end to end the implementation of such a task formalized as a multilabel classification, along with different strategies attempting to improve classifiers' performance. The whole work is based on a corpus of decisions from the Administrative housing tribunal of Québec (disputes between landlords and tenants). First of all, a preliminary preprocessing and an in-depth analysis of the corpus highlight its most prominent domain aspects. This crucial step ensures that the verdict prediction task is sound, and also emphasizes biases that must be taken into consideration for future tasks. Indeed, a first testbed comparing different models on this task reveals that they tend to exacerbate biases pre-existing within the corpus (i.e. their verdicts are even less favourable to tenants compared with a human judge). In light of this, the next experiments aim at improving classification performance and at mitigating these biases, by focusing on CamemBERT. In order to do so, knowledge from the target domain (housing law) are exploited. A first approach consists in employing articles of law as input features which are used under different representations, but such method is far from being a panacea. Another approach relying on topic modeling focuses on topics that can be extracted from the text describing the disputed facts. An automatic and manual evaluation of topics obtained shows evidence of their informativeness about reasons leading litigants to go to court. On this basis, the last part of our work revisits the verdict prediction task by relying on both information retrieval (IR) system, and topics assigned to decisions. The models designed here have the particularity to rely on jurisprudence (relevant past cases) retrieved with different search criteria (e.g. similarity at the text or topics level). Models using IR criteria based on bags-of-words (Lucene) and topics obtain significant gains in terms of Macro F1 scores. However, the aforementioned amplified biases issue, though mitigated, still remains. Overall, the exploitation of domain-related knowledge can improve the performance of verdict predictors, but the persistence of biases in the predictions hinders the deployment of such models on a large scale in the real world. On the other hand, results obtained from topic modeling suggest better prospects for anything that can improve the accessibility and readability of legal documents by human users. apprentissage automatique droit prédiction de verdict classification multilabel modélisation thématique recherche d'information machine learning natural language processing law legal judgment prediction multilabel classification topic modeling information retrieval
6	Quatre essais sur l’intégration des immigrants au Canada: mise en perspective des approches computationnelles, des données textuelles et d’enquêtes traditionnelles Djogbenou, Yao Robert 03 1900 (has links) La population dans la plupart des sociétés occidentales, y compris, le Canada se diversifie. Cette diversité qu’on pourrait qualifier de super-diversité peut constituer une force pour la cohésion sociale, la construction de la société inclusive et un élément central de l’identité nationale. Cependant, cela suscite également des défis et des préoccupations auprès des pouvoirs politiques, de la communauté scientifique, des médias et de l’opinion publique, quant à la manière dont les immigrants vont s’intégrer dans la société, mais aussi comment les natifs s’adaptent à la présence des immigrants et que tous établissent des relations interculturelles mutuelles. La présente thèse a pour objectif principal d’examiner l’intégration des immigrants dans leur société d’accueil, notamment au Canada. Concrètement, elle vise à (1) examiner les thèmes abordés dans la littérature scientifique sur l’intégration entre 1960 et 2022, leurs interactions et évolutions dans le temps ainsi que leurs répartitions selon les pays et institutions de recherches; (2) examiner les thèmes et les sentiments associés à l’intégration dans la couverture médiatique au Québec et en Ontario entre 1988 et 2022, leurs évolutions dans le temps, et leurs relations avec les facteurs contextuels locaux; (3) analyser les effets de l’origine nationale et du genre sur l’intégration socioculturelle des immigrants au Québec; (4) examiner les liens entre l’intégration sociale et la discrimination perçue et leurs influences sur le sentiment d’appartenance des immigrants au Québec. Les résultats de nos analyses, présentés sous forme de quatre articles scientifiques, s’appuient sur plusieurs données de texte, de données administratives et d’enquêtes quantitatives. Notre premier article vise à synthétiser les résultats des publications scientifiques sur l’intégration afin d’examiner les thèmes étudiés, leurs évolutions et leurs distributions selon les pays. Nous utilisons les données de texte issues des résumés d’articles scientifiques publiés entre 1960 et 2022 dans Web of Science, Scopus et Dimensions. À l’aide de la modélisation thématique structurelle, nous avons identifié 30 principaux thèmes de recherche. Les résultats mettent en évidence plusieurs thèmes couvrant les aspects socio-économique, culturel et politique de l’intégration, la discrimination, la santé, le genre, les politiques d’immigration et d’intégration, les questions démographiques ainsi que d’ordre théorique et méthodologique. Les thèmes sur la théorie de l’intégration et la participation politique ont montré une tendance temporelle à la baisse au fil du temps alors que les thèmes liés au racisme et à la discrimination, à l’identité ethnique, et à l’intégration économique, ont montré une tendance à la hausse. Les analyses bibliométriques révèlent des changements dans les thèmes entre les États-Unis, le Royaume-Uni, le Canada et la Chine ainsi qu’entre les institutions de recherche influentes au fil du temps. Le second article analyse le discours médiatique sur l’immigration et l’intégration des immigrants au Québec et en Ontario de 1988 à 2022. Nous utilisons un ensemble de données de texte d’articles provenant des journaux anglophones de l’Ontario et des journaux francophones du Québec. En utilisant également la modélisation structurelle des thèmes, nous avons identifié 20 thèmes importants dans chaque province. Ensuite, nous avons appliqué l’analyse du sentiment pour calculer les scores de sentiment liés à ces thèmes. En utilisant des modèles longitudinaux, nous avons examiné les effets de la proportion d’immigrants, du taux de chômage et de l’affiliation politique du parti au pouvoir sur les thèmes et les sentiments associés aux thèmes. Les résultats indiquent que le discours sur l’immigration dans chaque province est fortement lié à des thèmes sur l’économie, la diversité et la culture, l’indépendance au Québec, la sécurité, la gouvernance et la politique, les services sociaux, la discrimination et l’aide humanitaire. Alors que les thèmes sur les questions linguistiques et l’indépendance ont connu une augmentation dans le temps au Québec, les thèmes sur la diversité culturelle, l’économie et la discrimination sont restés stables dans les deux provinces entre 1988 et 2022. Parallèlement, les sentiments associés aux thèmes suggèrent une image plus pessimiste de l’immigration et de l’intégration au Québec qu’en Ontario au fil des années. Un résultat intéressant est l’influence des facteurs contextuels locaux tels que l’évolution de la proportion des immigrants, le taux de chômage et l’affiliation politique du parti au pouvoir sur l’évolution des thèmes et des sentiments associés dans chaque province. L’article 3 vise à analyser les écarts de participation culturelle et sportive entre les hommes et les femmes et entre les Canadiens de naissance et les immigrants, tout en explorant comment ces disparités entre hommes et femmes varient selon l’origine nationale des immigrants. À partir d’une enquête réalisée en 2020 sur les trajectoires individuelles et dynamiques de participation des immigrants, des minorités ethnoculturelles, et le reste de la population québécoise, nous trouvons que les immigrants venus d’Afrique sont moins susceptibles de participer aux activités culturelles et sportives que les Canadiens de naissance. Les résultats selon le genre montrent que les femmes participent plus aux activités culturelles et moins aux activités sportives que les hommes. L’effet combiné du genre et de l’origine nationale suggère que les femmes venues d’Afrique, d’Asie/Moyen-Orient et d’Amérique latine/Caraïbes sont désavantagées par rapport aux hommes dans les deux types de participation étudiés. Le quatrième article vise à examiner les effets directs et indirects (via la discrimination perçue) de l’intégration sociale en termes de participation à des activités associatives et sportives sur le sentiment d’appartenance des immigrants au Québec. Nous appliquons 1) les modèles de régression linéaire multiple, 2) une analyse du score de propension et 3) les modèles d’équations structurelles aux mêmes données utilisées dans l’article 3. Les résultats révèlent que la participation à des associations et à des sports améliore de manière significative le sentiment d’appartenance des immigrés, même après correction du biais de sélection. Dans le modèle d’équations structurelles, les résultats montrent que la relation entre la participation associative et sportive, la discrimination perçue et le sentiment d’appartenance est complexe. Plus le niveau de participation à des associations est élevé chez les immigrants, plus ils sont susceptibles de signaler des cas de discrimination. Des résultats similaires sont trouvés, bien que moins prononcés, pour la participation à des sports. Cependant, dans les deux cas, cet effet n’annule pas entièrement l’impact direct et positif de la participation à des associations et à des activités sportives sur le sentiment d’appartenance des immigrants au Québec. Enfin, les résultats montrent un effet plus important pour les immigrants d’Europe/États-Unis et d’Asie/Moyen-Orient que pour ceux d’Afrique ou d’Amérique latine/Caraïbes. Les résultats présentés dans cette thèse peuvent guider les chercheurs, les agences de financement, les décideurs politiques et les gestionnaires de projets en immigration et intégration dans l’allocation appropriée des ressources pour les futures recherches. Ces résultats interpellent également les pouvoirs publics à mettre en place des programmes qui reconnaissent davantage la diversité des rapports sociaux et promeuvent les relations interculturelles dans le quotidien et dans l’entourage local des immigrants avec les Canadiens de naissance. / The population of most Western societies, including Canada, is becoming increasingly diverse. This diversity, which could be described as super-diversity, can be a force for social cohesion, the construction of an inclusive society, and a central element of national identity. However, it also raises challenges and concerns for political authorities, the scientific community, the media, and public opinion, as to how immigrants will integrate into society, but also how native-born people will adapt to the presence of immigrants, and how all will establish mutual intercultural relations. This thesis examines immigrant integration into the host society, particularly in Canada. Specifically, it seeks to (1) examine the topics addressed in the scientific literature on integration between 1960 and 2022, their interactions and evolution over time, and their distribution by countries and research institutions; (2) examine the topics and associated sentiments on integration in media coverage in Quebec and Ontario between 1988 and 2022, their evolution over time, and their relationship with the local contextual factors; (3) analyze the effects of national origin and gender on socio-cultural integration among immigrants in Quebec; (4) examine the relationship between social integration and perceived discrimination and their influence on immigrants’ sense of belonging in Quebec. The results of our analyses, presented as four scientific articles, used several textual and quantitative survey data. Our first article aims to synthesize the results of scientific publications on integration to examine the key topics, their evolution, and distribution by country and research institutions. We use text data from abstracts of scientific articles published between 1960 and 2022 in Web of Science, Scopus, and Dimensions. Using structural topic modeling, we have identified 30 main research topics. The results highlight several topics covering the socio-economic, cultural, and political aspects of integration, discrimination, health, gender, immigration and integration policies, demographic, and theoretical and methodological issues. Topics on integration theory and political participation showed a downward trend over time, while topics related to racism and discrimination, ethnic identity, and economic integration showed an upward trend over time. Bibliometric analyses reveal shifts in topics between the United States, the United Kingdom, Canada, and China, and between influential research institutions over time. The article 2 analyzes media discourse on immigration and immigrant integration in Quebec and Ontario from 1988 to 2022. We use a dataset of article texts from Anglophone newspapers in Ontario and Francophone newspapers in Quebec. Using structural topic modeling, we identified 20 main topics in each province. We then applied sentiment analysis to calculate sentiment scores related to these topics. Using longitudinal models, we examined the effects of the proportion of immigrants, the unemployment rate and political parties on the topics and the sentiments associated with the topics. The results indicate that media in each province discuss about topics on the economy, diversity and culture, Quebec’s independence, security, governance and politics, social services, racism and discrimination, and humanitarian aid. While the topic of Quebec’s independence and linguistic issues increased over time, the topics of cultural diversity, the economy and discrimination remained stable in both provinces between 1988 and 2022. At the same time, sentiments associated with the topics suggest a more pessimistic picture of immigration and integration in Quebec than in Ontario over time. An interesting finding is the power of local contextual factors such as changes in the proportion of immigrants, the unemployment rate, and the political affiliation of the ruling party on the evolution of topics and associated sentiments. Article 3 aims to analyze the gaps in cultural and sports participation between men and women and between native-born Canadians and immigrants while exploring how these disparities between women and men vary by national origin. Based on a survey conducted in 2020 on the trajectories and participation dynamics of immigrants, ethnocultural minorities, and the rest of the Quebec population, we find that immigrants from Africa are less likely to participate in cultural and sports activities than native-born Canadians. On the other hand, there is no difference in participation in these activities between native-born Canadians and immigrants from Europe/the United States, Asia/Middle East, and Latin America/Caribbean. Results by gender show that women participate more in cultural activities and less in sporting activities than men. The combined effect of gender and national origin suggests that women from Africa, Asia/Middle East, and Latin America/Caribbean are less likely to participate in sports activities than men. The fourth article aims to assess the direct and indirect effects (via perceived discrimination) of social integration in terms of participation in associative and sports activities on immigrants’ sense of belonging in Quebec. We apply 1) multiple linear regression models, 2) propensity score analysis, and 3) structural equation models to the same data used in article 3. The results show that participation in associations and sports significantly improves immigrants’ sense of belonging, even after correcting for selection bias. In the structural equation model, the results show a complex relationship between associative and sports participation, perceived discrimination, and a sense of belonging. The higher the level of participation in associations among immigrants, the more likely they are to report discrimination. We found similar results, though less pronounced, for participation in sports. However, in both cases, this effect does not entirely cancel the direct and positive impact of participation in associations and sports activities on immigrants’ sense of belonging to Quebec. Finally, the results show a more substantial effect for immigrants from Europe/United States and Asia/Middle East than those from Africa or Latin America/Caribbean. The results presented in this thesis can guide researchers, funding agencies, policymakers, and immigration and integration project managers in appropriately allocating resources for future research. These results also challenge public authorities to implement programs that better recognize the diversity of social relationships and promote intercultural relations in the everyday and local environments of immigrants and native-born Canadians. immigration intégration origine nationale genre discrimination perçue sentiment d’appartenance modélisation thématique analyse bibliométrique analyse des sentiments score de propension équation structurelle modèles longitudinaux national origin gender perceived discrimination sense of belonging topic modeling bibliometric analysis sentiment analysis propensity score structural equation longitudinal models Demography / Démographie (UMI : 0938)

1

Page generated in 0.1077 seconds