Global ETD Search

31	Améliorer les modèles génératifs des structures de réseaux trophiques avec la pondération de la stabilité Volz, Valentine 08 1900 (has links) Nous pouvons trouver des propriétés structurelles similaires dans presque tous les réseaux trophiques (ensemble d’interactions de prédation). L'existence de ces invariants suggère qu’il serait possible, pour chaque réseau trophique, de déterminer des paramètres généraux qui décrivent sa structure. Il serait également possible de faire le cheminement inverse, soit à partir de paramètres généraux, d’obtenir une structure de réseau qui respecte ces invariants. C’est ainsi que fonctionnent les modèles génératifs, qui prédisent une structure à partir de paramètres généraux. Cependant, les modèles génératifs peuvent générer des structures de réseau qui diffèrent des données empiriques, parce qu'ils intègrent différentes hypothèses sur les mécanismes qui façonnent les réseaux trophiques, et donc sur les paramètres généraux qui doivent être utilisés. Dans ce mémoire, j’étudie l'effet de la pondération de la stabilité à l'aide du paramètre sigma (écart-type maximum des forces d’interactions qu’il ne faut pas dépasser si l’on veut que le réseau d’espèces reste stable) sur la distribution des propriétés de réseau obtenues par différents modèles génératifs. En effet, en donnant une plus grande importance aux réseaux dont la structure est a priori stable (potentiellement plus proche de celles retrouvées dans la nature) on pourrait corriger les prédictions des modèles en rapprochant leurs résultats des données empiriques. Le principe de correction fait ici référence à l’utilisation des probabilités par les modèles génératifs : la correction est la modification de ces probabilités en faveur des réseaux stables afin qu’ils soient sur-représentés dans les données générées. Notre hypothèse est donc que la pondération de la stabilité pourrait améliorer les prédictions des modèles génératifs. Les modèles génératifs étudiés ici sont les modèles de cascade, de niche et de hiérarchie emboîtée. Notre principale conclusion est que, de manière contre-intuitive, la pondération de la stabilité n’améliore pas la différence entre les structures de réseaux empiriques et celles des réseaux générés par les mo-dèles. Nos résultats montrent que pour les réseaux étudiés, la plus grande différence entre les réseaux trophiques modélisés par les modèles génératifs et les réseaux empiriques est la nature du modèle et non la correction par la pondération de la stabilité. Cela suggère que ces modèles prédisent la structure à partir d’un nombre de paramètres insuffisants, où de paramètres ne représentant qu’une fraction de la structure du réseau. Le modèle de niche présente la prédiction la plus proche des données empiriques, mais seulement pour les réseaux comptant jusqu'à 20 espèces. Cette étude souligne donc le long chemin qu'il nous reste à parcourir avant de pouvoir représenter les réseaux trophiques de façon réaliste à partir de modèles génératifs simples. / We can find similar structural properties in almost every food web. The existence of these invariants suggests that it could be possible for each food web to determine general parameters. The reverse case also works, i.e. from general parameters, to obtain a network structure. This is how generative models work, they predict a structure from general parameters. However, the network structures obtained from generative models differ from empirical data, because they incorporate different assumptions about the mechanisms that shape food webs and thus the gen-eral parameters used. In this study, I’ll investigate the effect of weighting stability using the sigma parameter (maximum standard deviation of interaction forces that should not be exceeded if the species network is to remain stable). I’m studying its effect on the distribution of network prop-erties obtained by different generative models. Indeed, by giving greater importance to networks whose structure is stable, one could correct the predictions of the models by bringing their results closer to the empirical data. The correction is the modification of these probabilities in favor of stable networks so that they are more easily chosen by the model. Our hypothesis is therefore that weighting stability could improve the predictions of the cascade, niche and nested hierarchy models. Our main conclusion is that stability weighting does not improve the difference between empirical and model-generated network structures. Our results show that for the networks stud-ied, the biggest difference between food webs modeled by generative models and empirical net-works is the nature of the model and not the correction by stability weighting. This suggests that these models predict structure from an insufficient number of parameters or from parameters that represent only a fraction of the network structure. The niche model shows the closest pre-diction to the empirical data, but only for networks with up to 20 species. This study highlights the long way to go before we can realistically represent food webs using generative models. Réseaux écologiques Pondération de la stabilité Réseaux trophiques Paramètres structuraux Modèles génératifs Ecological networks Food web Stability Structural parameters Generative model Ecology / Écologie (UMI : 0329)
32	Représentativité et généralisation d’estimations de séroprévalence des anticorps contre le SRAS-CoV-2 dans la population pédiatrique montréalaise Saucier, Adrien 11 1900 (has links) Les études de séroprévalence portant sur les infections au SRAS-CoV-2 doivent souvent composer avec des échantillons non-aléatoires et non-représentatifs, limitant ainsi parfois la validité externe de leurs résultats lorsque ceux-ci sont appliqués à la population générale. Dans le cadre de ce mémoire, il s’agit d’investiguer la représentativité d’une cohorte pédiatrique d’une étude longitudinale de séroprévalence (Enfants et COVID-19 : Étude de séroprévalence) et d’évaluer dans quelle mesure ses estimations de séroprévalence peuvent s’appliquer à la population pédiatrique montréalaise en général. 1 632 enfants ont fourni au point de départ un échantillon sanguin afin de déterminer leur séropositivité aux anticorps contre le SRAS-CoV-2. À l’aide d’une modélisation par régression logistique et d’un procédé de « standardisation marginale », une pondération post-stratification calculée à partir des données du recensement canadien de 2016 a été appliquée à la population d’étude. Les variations dans les estimations de séroprévalence ont finalement été évaluées. D’importantes différences dans la distribution de certaines caractéristiques sociodémographiques peuvent être observées lorsqu’on compare la population d’étude et la population générale en se basant sur les données du recensement canadien de 2016. En comparaison des estimations non-pondérées, les estimations de séroprévalence générées à partir du procédé de « standardisation marginale » montrent une variation de plusieurs points de pourcentage, allant de -0,4% à +3,2%. La pondération n’a pas induit de changement dans l’estimation de mesures relatives comme les ratios de séroprévalence. Lorsque la population d’étude est non-représentative de la population-cible, il est nécessaire de pondérer les caractéristiques sociodémographiques associées à l’issue si l’on veut appliquer les résultats plus généralement. / Prevalence studies on SARS-CoV-2 infections have often based on study populations with non-random and non-representative samples, which limits the external validity of their results when applied to the general population. The aim of this thesis was to investigate the representativeness of a pediatric cohort of a longitudinal seroprevalence study (Children and COVID-19: Seroprevalence study) and to assess to what extent its baseline estimates of seroprevalence can be applied to the Montreal pediatric population. There were 1 632 children participants who provided a blood sample at baseline, which was used to determine their seropositivity to SARS-CoV-2 antibodies. Using logistic regression modeling and a "marginal standardization" method, post-stratification weights calculated from 2016 Canadian census data were applied to the study population. Variations in seroprevalence estimates were then assessed. Significant differences in the distribution of certain sociodemographic characteristics were observed when comparing the study population and the target population based on 2016 Canadian census data. Seroprevalence estimates were generated from the “marginal standardization” approach which differed to that of the non-standardized estimates, and the differences ranges from -0,4% to +3,2%. Weighting did not change relative measures estimates, such as seroprevalence ratios. When the study population is not representative of the target population, it is necessary to weight the sociodemographic characteristics associated with the prevalence estimates, if the results will be applied more broadly. COVID-19 SRAS-CoV-2 épidémiologie population pédiatrique séroprévalence validité externe pondération SARS-CoV-2 epidemiology pediatric population seroprevalence external validity standardization
33	Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention Paquin, Stéphane 03 1900 (has links) Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect. Données manquantes Imputation multiple Maximum de vraisemblance Pondération Mécanisme de données manquantes Multiniveau Intervention Analyse longitudinale Analyse de sensibilité Sensitivity analysis Longitudinal Multilevel Experimental Mecanism Missing data Maximum likelihood Weighting Multiple imputation
34	Diversified query expansion Bouchoucha, Arbi 06 1900 (has links) La diversification des résultats de recherche (DRR) vise à sélectionner divers documents à partir des résultats de recherche afin de couvrir autant d’intentions que possible. Dans les approches existantes, on suppose que les résultats initiaux sont suffisamment diversifiés et couvrent bien les aspects de la requête. Or, on observe souvent que les résultats initiaux n’arrivent pas à couvrir certains aspects. Dans cette thèse, nous proposons une nouvelle approche de DRR qui consiste à diversifier l’expansion de requête (DER) afin d’avoir une meilleure couverture des aspects. Les termes d’expansion sont sélectionnés à partir d’une ou de plusieurs ressource(s) suivant le principe de pertinence marginale maximale. Dans notre première contribution, nous proposons une méthode pour DER au niveau des termes où la similarité entre les termes est mesurée superficiellement à l’aide des ressources. Quand plusieurs ressources sont utilisées pour DER, elles ont été uniformément combinées dans la littérature, ce qui permet d’ignorer la contribution individuelle de chaque ressource par rapport à la requête. Dans la seconde contribution de cette thèse, nous proposons une nouvelle méthode de pondération de ressources selon la requête. Notre méthode utilise un ensemble de caractéristiques qui sont intégrées à un modèle de régression linéaire, et génère à partir de chaque ressource un nombre de termes d’expansion proportionnellement au poids de cette ressource. Les méthodes proposées pour DER se concentrent sur l’élimination de la redondance entre les termes d’expansion sans se soucier si les termes sélectionnés couvrent effectivement les différents aspects de la requête. Pour pallier à cet inconvénient, nous introduisons dans la troisième contribution de cette thèse une nouvelle méthode pour DER au niveau des aspects. Notre méthode est entraînée de façon supervisée selon le principe que les termes reliés doivent correspondre au même aspect. Cette méthode permet de sélectionner des termes d’expansion à un niveau sémantique latent afin de couvrir autant que possible différents aspects de la requête. De plus, cette méthode autorise l’intégration de plusieurs ressources afin de suggérer des termes d’expansion, et supporte l’intégration de plusieurs contraintes telles que la contrainte de dispersion. Nous évaluons nos méthodes à l’aide des données de ClueWeb09B et de trois collections de requêtes de TRECWeb track et montrons l’utilité de nos approches par rapport aux méthodes existantes. / Search Result Diversification (SRD) aims to select diverse documents from the search results in order to cover as many search intents as possible. For the existing approaches, a prerequisite is that the initial retrieval results contain diverse documents and ensure a good coverage of the query aspects. In this thesis, we investigate a new approach to SRD by diversifying the query, namely diversified query expansion (DQE). Expansion terms are selected either from a single resource or from multiple resources following the Maximal Marginal Relevance principle. In the first contribution, we propose a new term-level DQE method in which word similarity is determined at the surface (term) level based on the resources. When different resources are used for the purpose of DQE, they are combined in a uniform way, thus totally ignoring the contribution differences among resources. In practice the usefulness of a resource greatly changes depending on the query. In the second contribution, we propose a new method of query level resource weighting for DQE. Our method is based on a set of features which are integrated into a linear regression model and generates for a resource a number of expansion candidates that is proportional to the weight of that resource. Existing DQE methods focus on removing the redundancy among selected expansion terms and no attention has been paid on how well the selected expansion terms can indeed cover the query aspects. Consequently, it is not clear how we can cope with the semantic relations between terms. To overcome this drawback, our third contribution in this thesis aims to introduce a novel method for aspect-level DQE which relies on an explicit modeling of query aspects based on embedding. Our method (called latent semantic aspect embedding) is trained in a supervised manner according to the principle that related terms should correspond to the same aspects. This method allows us to select expansion terms at a latent semantic level in order to cover as much as possible the aspects of a given query. In addition, this method also incorporates several different external resources to suggest potential expansion terms, and supports several constraints, such as the sparsity constraint. We evaluate our methods using ClueWeb09B dataset and three query sets from TRECWeb tracks, and show the usefulness of our proposed approaches compared to the state-of-the-art approaches. Expansion de requête Intégration de ressources Pondération de ressources Incorporation latente d’aspects Search Result Diversification Query Expansion Multiple Resource Integration Resource Weighting Latent Aspect Embedding
35	Stratégies de recherches de phénomènes d’interactions dans les maladies multifactorielles / Research strategies for finding genetic interaction phenomena in multifactorial diseases Greliche, Nicolas 18 February 2013 (has links) Les études d'associations en génome entier ("GWAS") ont récemment permis la découverte de nombreux polymorphismes génétiques impliqués dans la susceptibilité aux maladies multifactorielles. Cependant, ces polymorphismes n'expliquent qu'une faible part de l'héritabilité génétique de ces maladies, nous poussant ainsi à explorer de nouvelles pistes de recherche. Une des hypothèses envisagées serait qu'une partie de cette héritabilité manquante fasse intervenir des phénomènes d'interactions entre polymorphismes génétiques. L'objectif de cette thèse est d'explorer cette hypothèse en adoptant une stratégie de recherche d'interactions basée sur des critères statistiques et biologiques à partir de données issues de différentes études "GWAS". Ainsi, en utilisant différentes méthodes statistiques, nous avons commencé par rechercher des interactions entre polymorphismes qui pourraient influencer le risque de thrombose veineuse. Cette recherche n'a malheureusement pas abouti à l'identification de résultats robustes vis à vis du problème des tests multiples. Dans un deuxième temps, à partir d'hypothèses "plus biologiques", nous avons tenté de mettre en évidence des interactions entre polymorphismes impliqués dans les mécanismes de régulation de l'expression génique associés aux microARNs. Nous avons pu ainsi montrer de manière robuste dans deux populations indépendantes qu'un polymorphisme au sein de la séquence du microARN hsa-mir-219-1 interagissait avec un polymorphisme du gène HLA-DPB1 pour en moduler l'expression monocytaire. Nous avons également montré que l'expression monocytaire du gène H1F0 était influencée par un phénomène d'interaction impliquant un polymorphisme du microARN hsa-mir-659. En apportant sa propre contribution à l'engouement récent que suscite la recherche d'interactions entre polymorphismes dans les maladies dites complexes, ce travail de thèse illustre clairement la difficulté d'une telle tâche et l'importance de réfléchir à de nouvelles stratégies de recherches. / Recently, Genome-Wide Association Studies (GWAS) have led to the discovery of numerous genetic polymorphisms involved in complex human diseases. However, these polymorphisms contribute only a little to the overall genetic variability of these diseases, suggesting the need for new kind of investigations in order to disentangle the so-called "missing heritability". The purpose of my PhD project was to investigate how different research strategies relying on statistical and biological considerations could help in determining whether part of this missing heritability could reside in interaction phenomena between genetic polymorphisms. Firstly, we applied different statistical methodologies and looked for interactions between polymorphisms that could influence the risk of venous thrombosis (VT). Even though this study was based on two large GWAS datasets, we were not able to identify pairwise interactions that survive multiple testing. This work suggests that strong interactive phenomena between common SNPs are unlikely to contribute much to the risk of VT. Second, by adopting a hypothesis-driven approach relying on biological arguments, we sought for interactions between microRNA related polymorphisms that could alter genetic expression. Using two large GWAS datasets in which genome-wide monocyte expression was also available, we were able to demonstrate the existence of two pairwise interaction phenomena on monocyte expression involving miRNAs polymorphisms: 1/ the expression of HLA-DPB1 was modulated by a polymorphism in its 3'UTR region with a polymorphism in the hsa-mir-219-1 microRNA sequence; 2/ similarly, the expression of H1F0 was influenced by a polymorphism in its 3'UTR region interacting with a polymorphism in the microRNA hsa-mir-659. Altogether, this project supports for the role of gene x gene interactions in the interindividual variability of biological processes but their identifications remain a tedious task requiring large samples and the development of new research strategies and methodologies. Interaction MicroARN Thrombose veineuse Monocyte Génétique GWAS Statistique Puissance Tests multiples Charlie Pondération Héritabilité Épidémiologie génétique PNS Maladies complexes MiRNA Interaction MicroARN Venous thrombosis Monocyte Genetics GWAS Statistics Power Multiple testing Waldo Wally Heritability Genetic SNP Complex diseases MiRNA
36	Interpolation sur les variétés grassmanniennes et applications à la réduction de modèles en mécanique / Interpolation on Grassmann manifolds and applications to reduced order methods in mechanics Mosquera Meza, Rolando 26 June 2018 (has links) Ce mémoire de thèse concerne l'interpolation sur les variétés de Grassmann et ses applications à la réduction de modèles en mécanique et plus généralement aux systèmes d'équations aux dérivées partielles d'évolution. Après une description de la méthode POD, nous introduisons les fondements théoriques en géométrie des variétés de Grassmann, qui seront utilisés dans le reste de la thèse. Ce chapitre donne à ce mémoire à la fois une rigueur mathématique au niveau des algorithmes mis au point, leur domaine de validité ainsi qu'une estimation de l'erreur en distance grassmannienne, mais également un caractère auto-contenu "self-contained" du manuscrit. Ensuite, on présente la méthode d'interpolation sur les variétés de Grassmann introduite par David Amsallem et Charbel Farhat. Cette méthode sera le point de départ des méthodes d'interpolation que nous développerons dans les chapitres suivants. La méthode de Amsallem-Farhat consiste à choisir un point d'interpolation de référence, envoyer l'ensemble des points d'interpolation sur l'espace tangent en ce point de référence via l'application logarithme géodésique, effectuer une interpolation classique sur cet espace tangent, puis revenir à la variété de Grassmann via l'application exponentielle géodésique. On met en évidence par des essais numériques l'influence du point de référence sur la qualité des résultats. Dans notre premier travail, nous présentons une version grassmannienne d'un algorithme connu dans la littérature sous le nom de Pondération par Distance Inverse (IDW). Dans cette méthode, l'interpolé en un point donné est considéré comme le barycentre des points d'interpolation où les coefficients de pondération utilisés sont inversement "proportionnels" à la distance entre le point considéré et les points d'interpolation. Dans notre méthode, notée IDW-G, la distance géodésique sur la variété de Grassmann remplace la distance euclidienne dans le cadre standard des espaces euclidiens. L'avantage de notre algorithme, dont on a montré la convergence sous certaines conditions assez générales, est qu'il ne requiert pas de point de référence contrairement à la méthode de Amsallem-Farhat. Pour remédier au caractère itératif (point fixe) de notre première méthode, nous proposons une version directe via la notion de barycentre généralisé. Notons enfin que notre algorithme IDW-G dépend nécessairement du choix des coefficients de pondération utilisés. Dans notre second travail, nous proposons une méthode qui permet un choix optimal des coefficients de pondération, tenant compte de l'auto-corrélation spatiale de l'ensemble des points d'interpolation. Ainsi, chaque coefficient de pondération dépend de tous les points d'interpolation et non pas seulement de la distance entre le point considéré et un point d'interpolation. Il s'agit d'une version grassmannienne de la méthode de Krigeage, très utilisée en géostatique. La méthode de Krigeage grassmannienne utilise également le point de référence. Dans notre dernier travail, nous proposons une version grassmannienne de l'algorithme de Neville qui permet de calculer le polynôme d'interpolation de Lagrange de manière récursive via l'interpolation linéaire entre deux points. La généralisation de cet algorithme sur une variété grassmannienne est basée sur l'extension de l'interpolation entre deux points (géodésique/droite) que l'on sait faire de manière explicite. Cet algorithme ne requiert pas le choix d'un point de référence, il est facile d'implémentation et très rapide. De plus, les résultats numériques obtenus sont remarquables et nettement meilleurs que tous les algorithmes décrits dans ce mémoire. / This dissertation deals with interpolation on Grassmann manifolds and its applications to reduced order methods in mechanics and more generally for systems of evolution partial differential systems. After a description of the POD method, we introduce the theoretical tools of grassmannian geometry which will be used in the rest of the thesis. This chapter gives this dissertation a mathematical rigor in the performed algorithms, their validity domain, the error estimate with respect to the grassmannian distance on one hand and also a self-contained character to the manuscript. The interpolation on Grassmann manifolds method introduced by David Amsallem and Charbel Farhat is afterward presented. This method is the starting point of the interpolation methods that we will develop in this thesis. The method of Amsallem-Farhat consists in chosing a reference interpolation point, mapping forward all interpolation points on the tangent space of this reference point via the geodesic logarithm, performing a classical interpolation on this tangent space and mapping backward the interpolated point to the Grassmann manifold by the geodesic exponential function. We carry out the influence of the reference point on the quality of the results through numerical simulations. In our first work, we present a grassmannian version of the well-known Inverse Distance Weighting (IDW) algorithm. In this method, the interpolation on a point can be considered as the barycenter of the interpolation points where the used weights are inversely proportional to the distance between the considered point and the given interpolation points. In our method, denoted by IDW-G, the geodesic distance on the Grassmann manifold replaces the euclidean distance in the standard framework of euclidean spaces. The advantage of our algorithm that we show the convergence undersome general assumptions, does not require a reference point unlike the method of Amsallem-Farhat. Moreover, to carry out this, we finally proposed a direct method, thanks to the notion of generalized barycenter instead of an earlier iterative method. However, our IDW-G algorithm depends on the choice of the used weighting coefficients. The second work deals with an optimal choice of the weighting coefficients, which take into account of the spatial autocorrelation of all interpolation points. Thus, each weighting coefficient depends of all interpolation points an not only on the distance between the considered point and the interpolation point. It is a grassmannian version of the Kriging method, widely used in Geographic Information System (GIS). Our grassmannian Kriging method require also the choice of a reference point. In our last work, we develop a grassmannian version of Neville's method which allow the computation of the Lagrange interpolation polynomial in a recursive way via the linear interpolation of two points. The generalization of this algorithm to grassmannian manifolds is based on the extension of interpolation of two points (geodesic/straightline) that we can do explicitly. This algorithm does not require the choice of a reference point, it is easy to implement and very quick. Furthermore, the obtained numerical results are notable and better than all the algorithms described in this dissertation. Dynamique des fluides computationnelle Bases réduites Réduction de modèles (ROM) Variété de Grassmann Interpolation Pondération par distance inverse (IDW) Krigeage Barycentre Computational fluid dynamics Reduced bases Reduced order models (ROM) Grassmann manifold Interpolation Inverse distance weighting (IDW) Kriging Center of mass
37	Contribution to automatic text classification : metrics and evolutionary algorithms / Contributions à la classification automatique de texte : métriques et algorithmes évolutifs Mazyad, Ahmad 22 November 2018 (has links) Cette thèse porte sur le traitement du langage naturel et l'exploration de texte, à l'intersection de l'apprentissage automatique et de la statistique. Nous nous intéressons plus particulièrement aux schémas de pondération des termes (SPT) dans le contexte de l'apprentissage supervisé et en particulier à la classification de texte. Dans la classification de texte, la tâche de classification multi-étiquettes a suscité beaucoup d'intérêt ces dernières années. La classification multi-étiquettes à partir de données textuelles peut être trouvée dans de nombreuses applications modernes telles que la classification de nouvelles où la tâche est de trouver les catégories auxquelles appartient un article de presse en fonction de son contenu textuel (par exemple, politique, Moyen-Orient, pétrole), la classification du genre musical (par exemple, jazz, pop, oldies, pop traditionnelle) en se basant sur les commentaires des clients, la classification des films (par exemple, action, crime, drame), la classification des produits (par exemple, électronique, ordinateur, accessoires). La plupart des algorithmes d'apprentissage ne conviennent qu'aux problèmes de classification binaire. Par conséquent, les tâches de classification multi-étiquettes sont généralement transformées en plusieurs tâches binaires à label unique. Cependant, cette transformation introduit plusieurs problèmes. Premièrement, les distributions des termes ne sont considérés qu'en matière de la catégorie positive et de la catégorie négative (c'est-à-dire que les informations sur les corrélations entre les termes et les catégories sont perdues). Deuxièmement, il n'envisage aucune dépendance vis-à-vis des étiquettes (c'est-à-dire que les informations sur les corrélations existantes entre les classes sont perdues). Enfin, puisque toutes les catégories sauf une sont regroupées dans une seule catégories (la catégorie négative), les tâches nouvellement créées sont déséquilibrées. Ces informations sont couramment utilisées par les SPT supervisés pour améliorer l'efficacité du système de classification. Ainsi, après avoir présenté le processus de classification de texte multi-étiquettes, et plus particulièrement le SPT, nous effectuons une comparaison empirique de ces méthodes appliquées à la tâche de classification de texte multi-étiquette. Nous constatons que la supériorité des méthodes supervisées sur les méthodes non supervisées n'est toujours pas claire. Nous montrons ensuite que ces méthodes ne sont pas totalement adaptées au problème de la classification multi-étiquettes et qu'elles ignorent beaucoup d'informations statistiques qui pourraient être utilisées pour améliorer les résultats de la classification. Nous proposons donc un nouvel SPT basé sur le gain d'information. Cette nouvelle méthode prend en compte la distribution des termes, non seulement en ce qui concerne la catégorie positive et la catégorie négative, mais également en rapport avec toutes les autres catégories. Enfin, dans le but de trouver des SPT spécialisés qui résolvent également le problème des tâches déséquilibrées, nous avons étudié les avantages de l'utilisation de la programmation génétique pour générer des SPT pour la tâche de classification de texte. Contrairement aux études précédentes, nous générons des formules en combinant des informations statistiques à un niveau microscopique (par exemple, le nombre de documents contenant un terme spécifique) au lieu d'utiliser des SPT complets. De plus, nous utilisons des informations catégoriques telles que (par exemple, le nombre de catégories dans lesquelles un terme apparaît). Des expériences sont effectuées pour mesurer l'impact de ces méthodes sur les performances du modèle. Nous montrons à travers ces expériences que les résultats sont positifs. / This thesis deals with natural language processing and text mining, at the intersection of machine learning and statistics. We are particularly interested in Term Weighting Schemes (TWS) in the context of supervised learning and specifically the Text Classification (TC) task. In TC, the multi-label classification task has gained a lot of interest in recent years. Multi-label classification from textual data may be found in many modern applications such as news classification where the task is to find the categories that a newswire story belongs to (e.g., politics, middle east, oil), based on its textual content, music genre classification (e.g., jazz, pop, oldies, traditional pop) based on customer reviews, film classification (e.g. action, crime, drama), product classification (e.g. Electronics, Computers, Accessories). Traditional classification algorithms are generally binary classifiers, and they are not suited for the multi-label classification. The multi-label classification task is, therefore, transformed into multiple single-label binary tasks. However, this transformation introduces several issues. First, terms distributions are only considered in relevance to the positive and the negative categories (i.e., information on the correlations between terms and categories is lost). Second, it fails to consider any label dependency (i.e., information on existing correlations between classes is lost). Finally, since all categories but one are grouped into one category (the negative category), the newly created tasks are imbalanced. This information is commonly used by supervised TWS to improve the effectiveness of the classification system. Hence, after presenting the process of multi-label text classification, and more particularly the TWS, we make an empirical comparison of these methods applied to the multi-label text classification task. We find that the superiority of the supervised methods over the unsupervised methods is still not clear. We show then that these methods are not fully adapted to the multi-label classification problem and they ignore much statistical information that coul be used to improve the classification results. Thus, we propose a new TWS based on information gain. This new method takes into consideration the term distribution, not only regarding the positive and the negative categories but also in relevance to all classes. Finally, aiming at finding specialized TWS that also solve the issue of imbalanced tasks, we studied the benefits of using genetic programming for generating TWS for the text classification task. Unlike previous studies, we generate formulas by combining statistical information at a microscopic level (e.g., the number of documents that contain a specific term) instead of using complete TWS. Furthermore, we make use of categorical information such as (e.g., the number of categories where a term occurs). Experiments are made to measure the impact of these methods on the performance of the model. We show through these experiments that the results are positive. Apprentissage automatique Traitement du langage naturel Exploration de texte FORMTEXT Classification des textes Schéma de Pondération des Termes Optimisation Programmation génétique Machine learning Natural language processing Text mining FORMTEXT Classification of texts Term Weighting Schemes Optimization Genetic programming
38	Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation Gerchinovitz, Sébastien 12 December 2011 (has links) (PDF) Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique. Apprentissage statistique Prévision séquentielle Suites individuelles Agrégation PAC-bayésienne Pondération exponentielle Régression parcimonieuse Grande dimension Calibration automatique Vitesses minimax Regret externe Regret interne Sélection de modèles Apprentissage automatique Bornes de regret
39	Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention Paquin, Stéphane 03 1900 (has links) Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect. Données manquantes Imputation multiple Maximum de vraisemblance Pondération Mécanisme de données manquantes Multiniveau Intervention Analyse longitudinale Analyse de sensibilité Sensitivity analysis Longitudinal Multilevel Experimental Mecanism Missing data Maximum likelihood Weighting Multiple imputation
40	Stratégies de recherches de phénomènes d'interactions dans les maladies multifactorielles Greliche, Nicolas 18 February 2013 (has links) (PDF) Les études d'associations en génome entier ("GWAS") ont récemment permis la découverte de nombreux polymorphismes génétiques impliqués dans la susceptibilité aux maladies multifactorielles. Cependant, ces polymorphismes n'expliquent qu'une faible part de l'héritabilité génétique de ces maladies, nous poussant ainsi à explorer de nouvelles pistes de recherche. Une des hypothèses envisagées serait qu'une partie de cette héritabilité manquante fasse intervenir des phénomènes d'interactions entre polymorphismes génétiques. L'objectif de cette thèse est d'explorer cette hypothèse en adoptant une stratégie de recherche d'interactions basée sur des critères statistiques et biologiques à partir de données issues de différentes études "GWAS". Ainsi, en utilisant différentes méthodes statistiques, nous avons commencé par rechercher des interactions entre polymorphismes qui pourraient influencer le risque de thrombose veineuse. Cette recherche n'a malheureusement pas abouti à l'identification de résultats robustes vis à vis du problème des tests multiples. Dans un deuxième temps, à partir d'hypothèses "plus biologiques", nous avons tenté de mettre en évidence des interactions entre polymorphismes impliqués dans les mécanismes de régulation de l'expression génique associés aux microARNs. Nous avons pu ainsi montrer de manière robuste dans deux populations indépendantes qu'un polymorphisme au sein de la séquence du microARN hsa-mir-219-1 interagissait avec un polymorphisme du gène HLA-DPB1 pour en moduler l'expression monocytaire. Nous avons également montré que l'expression monocytaire du gène H1F0 était influencée par un phénomène d'interaction impliquant un polymorphisme du microARN hsa-mir-659. En apportant sa propre contribution à l'engouement récent que suscite la recherche d'interactions entre polymorphismes dans les maladies dites complexes, ce travail de thèse illustre clairement la difficulté d'une telle tâche et l'importance de réfléchir à de nouvelles stratégies de recherches. Interaction MicroARN Thrombose veineuse Monocyte Génétique GWAS Statistique Puissance Tests multiples Charlie Pondération Héritabilité Épidémiologie génétique PNS Maladies complexes MiRNA

Search results