31 |
L'évaluation des composantes d'un traitement cognitif-béhavioral comme prédicteurs de la récidive chez un échantillon d'agresseurs sexuelsWilkins, Jo-Ann January 2001 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
32 |
Utilisation des services par les personnes itinérantes atteintes de troubles mentauxBonin, Jean-Pierre January 2001 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
33 |
Comparaison de la performance relative de l'analyse discriminante prédictive linéaire polytomique et de la régression logistique polytomique nominale en contexte de quasi-multinormalité et d'erreur de mesureBrière, Luc 13 April 2018 (has links)
Cette recherche, de type méthodologique, envisage d'étudier la prédiction ou la classification portant sur une variable dépendante polytomique et nominale (VDPN) à partir d'un ensemble de variables indépendantes continues. Plus exactement, deux modèles sont privilégiés, dans la littérature comme dans notre étude, pour le cas d'une VDPN, soit : 1) l'analyse discriminante prédictive linéaire polytomique (ADPLP); 2) la régression logistique polytomique nominale (RLPN). Bref, en situation de classification, la procédure statistique de ces méthodes, basée sur l'estimation des probabilités a posteriori, P\k\x.i), cherche principalement à construire une règle de classification permettant d'affecter un individu i décrit par un vecteur x de p variables prédictrices à l'un des K groupes nominaux (K>2) d'une partition définie a priori et aléatoirement (i.e. où chaque sujet possède une chance égale de faire partie de l'échantillon) sur la population à l'étude, et ce, de façon à minimiser le risque de classements erronés. Avant de choisir entre l'ADPLP et la RLPN, il est nécessaire, en regard des conditions imposées par chacun des modèles et certaines contraintes de mesure, de voir comment se comparent les deux modèles en termes de performance relative, de voir si la décision d'opter pour l'une ou l'autre de ces méthodes porte à conséquence. En regard de la littérature recensée sur le sujet, aucune étude, du moins à notre connaissance, ne compare systématiquement l'efficacité relative de l'ADPLP et de la RLPN en contexte de quasi-multinormalité (i.e. lorsque, par exemple, une ou des variables prédictrices possèdent un degré faible, mais non nul de dissymétrie et/ou de kurtose de la distribution) et d'erreur de mesure (i.e. à partir du niveau pxx de fidélité associé à chacune des variables indépendantes). L'effet de trois autres conditions est également mis à contribution dans l'étude, soit la taille échantillonnale (n), les probabilités a priori égales ou inégales (n) des groupes ainsi que le degré de séparation des groupes (à partir de D2, la distance généralisée de Mahalanobis). Pour vérifier les effets qui nous intéressent, les comparaisons sont effectuées de manière à refléter le plus possible les conditions susceptibles d'être rencontrées dans le domaine de la recherche en sciences humaines. Afin de réaliser ce travail au mieux qu'il se peut, les échantillons sont modelés par l'approche de simulation Monte Carlo en fonction d'un devis expérimental reproduisant des situations typiques de recherche. Enfin, nous adoptons une définition de la performance relative de l'ADPLP et de la RLPN qui se restreint à Xefficacité prédictive, et plus particulièrement, au critère ^inexactitude de la règle de classification de chacun des modèles. Spécifiquement, trois mesures sont considérées sur les données validées pour rendre compte de l'inexactitude de la règle de classification, soit : 1) le taux global d'erreur de classifications (TGEC); 2) le score quadratique de Brier (SQB); 3) le score logarithmique (SL). Globalement, des deux méthodes mises à l'essai, même s'il existe souvent d'infimes différences entre leurs performances respectives, les résultats portent à croire que l'ADPLP performe mieux. En effet, compte tenu de notre contexte de recherche, les analyses générales et spécifiques des résultats de l'expérimentation laissent plus fréquemment apparaître, en regard des critères de performance de classification TGEC, SQB et SL, la supériorité de l'ADPLP à classer des observations. Aussi, et surtout, une analyse supplémentaire a permis de constater que la classification des deux méthodes gagne en efficacité à mesure que les paramètres de non-multinormalité de la distribution des variables prédictrices augmentent, mais que l'ADPLP devient moins efficace par rapport à la RLPN au fur et à mesure de cette augmentation.
|
34 |
Simulations Monte Carlo et tests de score sur les matrices nulles : approche par inférence exacteLy, Boucar 24 January 2020 (has links)
Ce document propose des outils de simulation de matrices nulles basés sur la loi conditionnelle d’une matrice de présence-absence sachant ses statistiques exhaustives. Ces outils sont basés sur la régression logistique et de plus, ils tiennent compte de l’hétérogénéité des sites et aussi de l’interaction qui peut exister entre les variables qui définissent cette hétérogénéité. Dans ce travail, nous avons traité le cas où les variables qui caractérisent l’hétérogénéité des sites sont binaires et elles sont au plus au nombre de deux. Ainsi, deux outils ont été mis en place à savoir l’algorithme basé sur la régression logistique avec interaction entre les deux variables sites et celui sans interaction entre les variables sites. À partir d’une étude de simulation sur10 000 matrices de présence-absence, nous avons pu, non seulement décrire les propriétés des algorithmes mis en place, mais aussi comparer ces derniers avec d’autres algorithmes de simulation de matrices nulles. Ces comparaisons ont permis de constater que les tests scores avec les algorithmes basés sur la régression logistique avec ou sans interaction entre lesvariables sites donnent des résultats acceptables peu importe l’impact des variables sites. En revanche, l’algorithme ’fixed-fixed’, lorsque les variables sites ont des effets alternés, devient vulnérable aux erreurs de type I. Avec l’algorithme basé sur le modèle d’indépendance, les résultats obtenus ne sont pas fiables parce que le test est très vulnérable aux erreurs de type I.Pour l’algorithme de Peres-Neto, le test de score est très conservateur mais celui-ci s’améliore avec les variables sites à effets alternés. Pour finir, ces différents algorithmes ont été utiliséspour simuler des matrices nulles à partir d’un jeu de données réelles. Cela nous a permis decomparer la structure des matrices simulées par les différents algorithmes par rapport à celle de la matrice observée. / This document proposes tools of simulation of null matrices based on the conditional law of a presence-absence matrix knowing its sufficient statistics. These tools are based on logistic regression and, moreover, they take into account the heterogeneity of the sites and also the interaction that can exist between the variables that define this heterogeneity. In this work, we have treated the case where the variables that characterize the heterogeneity of the sites are binary and there are more than two. Thus, two tools have been put in place, namely the logistic regression algorithm with interaction between the two site variables and the one without interaction between the site variables. From a simulation study on10 000 presence-absence matrices, we were able not only to describe the properties of the implemented algorithms, but also to compare these algorithms with other null matrix simulation algorithms. These comparisons showed that the score tests with the logistic regression based algorithms with or without interaction between the site variables give acceptable results regardless of the impactof the site variables. On the other hand, the ’fixed-fixed’ algorithm, when the site variables have alternate effects, becomes vulnerable to type I errors. With the algorithm based on the independence model, the results obtained are not reliable because the test is very vulnerable to type I errors. For the Peres-Neto algorithm, the score test is very conservative but itimproves with the alternate effect site variables. Finally, these different algorithms were used to simulate null matrices from a real dataset. This enabled us to compare the structure of the matrices simulated by the different algorithms with respect to that of the observed matrix.
|
35 |
Régression non paramétrique des percentiles pour données censuréesRoy, Valérie 12 April 2018 (has links)
L'utilisation de la régression non paramétrique est fréquente en analyse de données, puisque les postulats associés à la régression paramétrique ne sont pas toujours vérifiés, mais également parce qu'elle laisse aux données la décision de la forme de la relation entre une variable dépendante Y et une variable explicative X. Dans ce mémoire, l'intérêt est porté sur l'estimation de percentiles conditionnels. Plus précisément, comme il arrive parfois que la variable réponse soit censurée, les méthodes d'estimation non paramétrique lisse de régression des percentiles dans le cas où la variable réponse est censurée à droite sont abordées. Ainsi, trois estimateurs sont considérés : un employant l'estimateur de Kaplan-Meier généralisé, un utilisant une optimisation pondérée par les poids Stute et un employant l'estimateur de Bowman et Wright. Ces méthodes sont appliquées à un jeu de données et leurs propriétés sont étudiées par voie de simulations.
|
36 |
Étude comparative de trois modèles de prédiction en éducationThibault, Jacques 25 April 2018 (has links)
Nous avons présenté dans le premier chapitre de cette recherche méthodologique plusieurs modèles de prédiction qui s'inscrivent dans le cadre plus général des modèles linéaires et qui se différencient les uns des autres par le type de variables rencontrées. Ces variables sont, selon le cas, aléatoires ou fixes et peuvent être mesurées exactement, c'est-à-dire avec ou sans erreurs de mesure. Parmi ces modèles de prédiction, trois d'entre eux ont particulièrement attiré notre attention: ce sont le modèle classique de la régression, le modèle stochastique et le modèle stochastique avec erreurs de mesure. Dans le premier modèle que nous avons étudié, le modèle classique de la régression, les variables indépendantes sont dites fixes ou mathématiques, c'est-à-dire qu'elles peuvent être contrôlées ou déterminées à l'avance par l'expérimentateur. Dans ce cas particulier, il est théoriquement impossible d'assigner une quelconque densité de probabilité puisque ces variables sont considérées comme des valeurs constantes. Dans les deuxième et troisième modèles de prédiction que nous avons présentés, soit les modèles stochastiques sans ou avec erreurs de mesure, les variables indépendantes, au même titre que la variable dépendante, sont plutôt considérées comme aléatoires auxquelles nous pouvons généralement assigner une certaine densité de probabilité. Nous avons donc supposé dans cette étude, comme bien d'autres auteurs d'ailleurs, que ces variables, la variable dépendante et l'ensemble des variables indépendantes, suivaient la loi multinormale. De plus, dans le troisième modèle, le modèle stochastique avec erreurs de mesure, les variables ne peuvent être mesurées exactement puisqu'elles sont affectées par la présence d'erreurs de mesure. Ces erreurs peuvent être, selon le cas, positives ou négatives et, de plus, sont généralement différentes d'un sujet à l'autre dans l'échantillon. Les objectifs de cette recherche consistaient brièvement â présenter les développements théoriques de chacun de ces modèles, à les comparer de façon systématique tant sur le plan théorique que pratique et enfin, à justifier l'utilisation du modèle classique de la régression, par rapport aux deux autres, dans le cas particulier où nous avons affaire à des variables aléatoires et sujettes à l'erreur de mesure, c'est-à-dire des variables telles que nous rencontrons généralement dans le domaine de l'éducation. Nous concluons qu'il est préférable, dans certains cas, d'utiliser le modèle classique de la régression puisque ce modèle nous permet d'une part d'accepter plus facilement le degré de signification des coefficients de régression et d'autre part de respecter davantage les postulats inhérents à ce modèle, par rapport à ceux du troisième modèle. Par contre, si nous assumons qu'aucun postulat n'est violé, le modèle stochastique avec erreurs de mesure s'avère préférable puisqu'il permet d'augmenter de façon substantielle, semble-t-il, le pourcentage de variabilité de la variable dépendante expliqué ou prédit par l'ensemble des variables indépendantes dans l'équation de régression. / Québec Université Laval, Bibliothèque 2014
|
37 |
Tensor-based regression models and applicationsHou, Ming 24 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2017-2018 / Avec l’avancement des technologies modernes, les tenseurs d’ordre élevé sont assez répandus et abondent dans un large éventail d’applications telles que la neuroscience informatique, la vision par ordinateur, le traitement du signal et ainsi de suite. La principale raison pour laquelle les méthodes de régression classiques ne parviennent pas à traiter de façon appropriée des tenseurs d’ordre élevé est due au fait que ces données contiennent des informations structurelles multi-voies qui ne peuvent pas être capturées directement par les modèles conventionnels de régression vectorielle ou matricielle. En outre, la très grande dimensionnalité de l’entrée tensorielle produit une énorme quantité de paramètres, ce qui rompt les garanties théoriques des approches de régression classique. De plus, les modèles classiques de régression se sont avérés limités en termes de difficulté d’interprétation, de sensibilité au bruit et d’absence d’unicité. Pour faire face à ces défis, nous étudions une nouvelle classe de modèles de régression, appelés modèles de régression tensor-variable, où les prédicteurs indépendants et (ou) les réponses dépendantes prennent la forme de représentations tensorielles d’ordre élevé. Nous les appliquons également dans de nombreuses applications du monde réel pour vérifier leur efficacité et leur efficacité. / With the advancement of modern technologies, high-order tensors are quite widespread and abound in a broad range of applications such as computational neuroscience, computer vision, signal processing and so on. The primary reason that classical regression methods fail to appropriately handle high-order tensors is due to the fact that those data contain multiway structural information which cannot be directly captured by the conventional vector-based or matrix-based regression models, causing substantial information loss during the regression. Furthermore, the ultrahigh dimensionality of tensorial input produces huge amount of parameters, which breaks the theoretical guarantees of classical regression approaches. Additionally, the classical regression models have also been shown to be limited in terms of difficulty of interpretation, sensitivity to noise and absence of uniqueness. To deal with these challenges, we investigate a novel class of regression models, called tensorvariate regression models, where the independent predictors and (or) dependent responses take the form of high-order tensorial representations. We also apply them in numerous real-world applications to verify their efficiency and effectiveness. Concretely, we first introduce hierarchical Tucker tensor regression, a generalized linear tensor regression model that is able to handle potentially much higher order tensor input. Then, we work on online local Gaussian process for tensor-variate regression, an efficient nonlinear GPbased approach that can process large data sets at constant time in a sequential way. Next, we present a computationally efficient online tensor regression algorithm with general tensorial input and output, called incremental higher-order partial least squares, for the setting of infinite time-dependent tensor streams. Thereafter, we propose a super-fast sequential tensor regression framework for general tensor sequences, namely recursive higher-order partial least squares, which addresses issues of limited storage space and fast processing time allowed by dynamic environments. Finally, we introduce kernel-based multiblock tensor partial least squares, a new generalized nonlinear framework that is capable of predicting a set of tensor blocks by merging a set of tensor blocks from different sources with a boosted predictive power.
|
38 |
Prédire l'âge de personnes à partir de photos du visage : une étude fondée sur la caractérisation et l'analyse de signes du vieillissementNkengne, Alex A. 13 June 2008 (has links) (PDF)
L'âge a de tout temps constitué un attribut identitaire important. Nous avons développé au fil de l'évolution une aptitude innée à classer les individus en fonction de leur âge. Cette classification s'appuie en grande partie sur le visage et sur les transformations anatomiques qu'il subit au cours du temps. De plus en plus de traitements cosmétiques, dermatologiques et d'interventions chirurgicales s'attaquant à un signe ou un groupe de signes spécifiques du vieillissement sont mis en oeuvre pour annuler, ou tout au moins masquer partiellement l'effet du temps sur le visage. On peut dès lors s'interroger sur l'influence de chacun des signes sur notre capacité à prédire l'âge d'un individu en observant son visage. Afin de construire un algorithme capable de déterminer l'âge d'individus à partir de leurs photos, nous nous sommes intéressés aux signes du vieillissement et à leur impact sur l'âge apparent. Dans un premier temps, nous avons déterminé et analysé les transformations anatomiques qui altèrent le visage à partir de l'âge adulte (au-delà de 20 ans). Puis nous avons étudié les signes sur lequel on se base pour prédire l'âge d'une personne. Enfin, nous avons construit et validé un modèle prédictif de l'âge en s'appuyant sur les observations précédentes. Transformations anatomiques du visage avec l'âge : La prévalence d'un certain nombre de signes de vieillissement (rides, tâches brunes, forme du visage...) a été mesurée sur un panel représentatif de femmes volontaires âgées de 20 à 74 ans. Ces données ont permis d'établir la cinétique d'apparition de ces signes. Appréciation subjective de l'âge: Il s'agissait de déterminer les signes sur lesquels un observateur s'appuie lorsqu'il évalue l'âge d'un sujet. Pour ce faire, nous avons demandé à un panel constitué de 48 observateurs d'attribuer un âge aux volontaires sur lesquelles nous avions précédemment mesuré les signes du vieillissement. Nous avons confirmé avec ce groupe d'observateurs que la perception de l'âge est liée au sexe et à l'âge de l'observateur. De plus, à l'aide d'une régression PLS (Partial Least Square régression), nous avons établi des relations entre les signes du vieillissement et l'âge observé et démontré que selon que l'on soit jeune ou âgé, un homme ou une femme, on n'exploite pas les mêmes signes de vieillissement pour prédire l'âge.Modèle de prédiction : Enfin, nous avons proposé un modèle s'appuyant sur la régression PLS pour prédire automatiquement l'âge à partir des photos du visage. Ce modèle présente la particularité d'associer, dans une approche unifiée, les signes relatifs à la couleur, à la forme et à la texture du visage, à l'âge des sujets. A l'instar des Modèles Actifs D'apparence (AAM), le modèle construit vise à réduire fortement l'information portée par l'ensemble des pixels du visage. Toutefois, ce dernier est supervisé : Il est donc très approprié dans notre contexte puisque que l'on peut mettre en oeuvre une procédure d'apprentissage pilotée par le but. Les performances sont de fait comparables à celles des humains.
|
39 |
Analyse d'un grand jeu de données en épidémiologie : problématiques et perspectives méthodologiques / Analysis of a large dataset in epidemiology : issues and methodological perspectivesMansiaux, Yohann 30 October 2014 (has links)
L'augmentation de la taille des jeux de données est une problématique croissante en épidémiologie. La cohorte CoPanFlu-France (1450 sujets), proposant une étude du risque d'infection par la grippe H1N1pdm comme une combinaison de facteurs très divers en est un exemple. Les méthodes statistiques usuelles (e.g. les régressions) pour explorer des associations sont limitées dans ce contexte. Nous comparons l'apport de méthodes exploratoires data-driven à celui de méthodes hypothesis-driven.Une première approche data-driven a été utilisée, évaluant la capacité à détecter des facteurs de l'infection de deux méthodes de data mining, les forêts aléatoires et les arbres de régression boostés, de la méthodologie " régressions univariées/régression multivariée" et de la régression logistique LASSO, effectuant une sélection des variables importantes. Une approche par simulation a permis d'évaluer les taux de vrais et de faux positifs de ces méthodes. Nous avons ensuite réalisé une étude causale hypothesis-driven du risque d'infection, avec un modèle d'équations structurelles (SEM) à variables latentes, pour étudier des facteurs très divers, leur impact relatif sur l'infection ainsi que leurs relations éventuelles. Cette thèse montre la nécessité de considérer de nouvelles approches statistiques pour l'analyse des grands jeux de données en épidémiologie. Le data mining et le LASSO sont des alternatives crédibles aux outils conventionnels pour la recherche d'associations. Les SEM permettent l'intégration de variables décrivant différentes dimensions et la modélisation explicite de leurs relations, et sont dès lors d'un intérêt majeur dans une étude multidisciplinaire comme CoPanFlu. / The increasing size of datasets is a growing issue in epidemiology. The CoPanFlu-France cohort(1450 subjects), intended to study H1N1 pandemic influenza infection risk as a combination of biolo-gical, environmental, socio-demographic and behavioral factors, and in which hundreds of covariatesare collected for each patient, is a good example. The statistical methods usually employed to exploreassociations have many limits in this context. We compare the contribution of data-driven exploratorymethods, assuming the absence of a priori hypotheses, to hypothesis-driven methods, requiring thedevelopment of preliminary hypotheses.Firstly a data-driven study is presented, assessing the ability to detect influenza infection determi-nants of two data mining methods, the random forests (RF) and the boosted regression trees (BRT), ofthe conventional logistic regression framework (Univariate Followed by Multivariate Logistic Regres-sion - UFMLR) and of the Least Absolute Shrinkage and Selection Operator (LASSO), with penaltyin multivariate logistic regression to achieve a sparse selection of covariates. A simulation approachwas used to estimate the True (TPR) and False (FPR) Positive Rates associated with these methods.Between three and twenty-four determinants of infection were identified, the pre-epidemic antibodytiter being the unique covariate selected with all methods. The mean TPR were the highest for RF(85%) and BRT (80%), followed by the LASSO (up to 78%), while the UFMLR methodology wasinefficient (below 50%). A slight increase of alpha risk (mean FPR up to 9%) was observed for logisticregression-based models, LASSO included, while the mean FPR was 4% for the data-mining methods.Secondly, we propose a hypothesis-driven causal analysis of the infection risk, with a structural-equation model (SEM). We exploited the SEM specificity of modeling latent variables to study verydiverse factors, their relative impact on the infection, as well as their eventual relationships. Only thelatent variables describing host susceptibility (modeled by the pre-epidemic antibody titer) and com-pliance with preventive behaviors were directly associated with infection. The behavioral factors des-cribing risk perception and preventive measures perception positively influenced compliance with pre-ventive behaviors. The intensity (number and duration) of social contacts was not associated with theinfection.This thesis shows the necessity of considering novel statistical approaches for the analysis of largedatasets in epidemiology. Data mining and LASSO are credible alternatives to the tools generally usedto explore associations with a high number of variables. SEM allows the integration of variables des-cribing diverse dimensions and the explicit modeling of their relationships ; these models are thereforeof major interest in a multidisciplinary study as CoPanFlu.
|
40 |
Family, Work and Welfare States in Europe: Women's Juggling with Multiple Roles/Famille, Emploi et Etat-providence: la jonglerie des femmes avec leurs multiples rôlesO'Dorchai, Síle S. 24 January 2007 (has links)
The general focus of this thesis is on how the family, work and the welfare system are intertwined. A major determinant is the way responsibilities are shared by the state, the market and civil society in different welfare state regimes. An introductory chapter will therefore be dedicated to the development of the social dimension in the process of European integration. A first chapter will then go deeper into the comparative analysis of welfare state regimes, to comment on the provision of welfare in societies with a different mix of state, market and societal welfare roles and to assess the adequacy of existing typologies as reflections of today’s changed socio-economic, political and gender reality. Although they stand strong on their own, these first two chapters also contribute to contextualising the research subject of the remainder of the thesis: the study and comparison of the differential situation of women and men and of mothers and non-mothers on the labour markets of the EU-15 countries as well as of the role of public policies with respect to the employment penalties faced by women, particularly in the presence of young children. In our analysis, employment penalties are understood in three ways: (i) the difference in full-time equivalent employment rates between mothers and non-mothers, (ii) the wage penalty associated with motherhood, and (iii) the wage gap between part-time and full-time workers, considering men and women separately. Besides from a gender point of view, employment outcomes and public policies are thus assessed comparatively for mothers and non-mothers. Because women choose to take part in paid employment, fertility rates will depend on their possibilities to combine employment and motherhood. As a result, motherhood-induced employment penalties and the role of public policies to tackle them should be given priority attention, not just by scholars, but also by politicians and policy-makers.
|
Page generated in 0.0732 seconds