251 |
Un test pour la bonne spécification d'un modèle structurel marginalSall, Alioune 23 November 2018 (has links)
Estimer l’effet d’une exposition variant dans le temps à l’aide de modèles de régression ordinaires peut entraîner un biais si des variables confondantes variant dans le temps sont un effet des expositions passées. Les modèles structurels marginaux (MSMs) sont une solution à ce problème qui est de plus en plus utilisée, notamment dans les études en santé. L’une des hypothèses principales des MSMs est que la relation entre l’issue et les expositions antérieures est bien spécifiée. Ainsi, nous avons développé un test statistique de cette hypothèse. Différentes pondérations peuvent être utilisées pour estimer les paramètres du MSM et celles-ci devraient produire des estimations similaires lorsque le modèle est correctement spécifié. Un test statistique vérifiant si les différences observées sont au-delà de celles attendues permet donc de tester que le modèle est correct. La performance du test est étudiée à l’aide d’une étude de simulations sur des données synthétiques, où différentes véritables relations entre les expositions et l’issue, ainsi que différentes tailles d’échantillons étaient considérées. L’étude de simulation démontre une bonne performance du test : les taux de rejet de modèles corrects sont faibles alors que ceux de modèles incorrects sont généralement élevés, surtout pour des tailles d’échantillons élevées. Cependant, il existe des situations où le test est incapable de détecter des erreurs de spécification. Le test est appliqué pour étudier l’effet d’une exposition répétée au stress au travail sur une période de 5 ans sur la pression artérielle ambulatoire dans une cohorte de 1576 travailleurs cols-blancs. / Estimating the effect of a time-varying exposure using ordinary regression models may lead to bias if time-varying confounding variables are an effect of past exposures. Marginal structural models (MSMs) are a solution to this problem that is increasingly used, especially in health studies. One of the main assumptions of MSMs is that the relationship between outcome and past exposures is well specified. Thus, we developed a statistical test of this hypothesis. Different weights can be used to estimate MSM parameters and these should produce similar estimates when the model is correctly specified. A statistical test verifying if the differences observed are beyond those expected makes it possible to test that the model is correct. The performance of the test is investigated using a synthetic data simulation study, where different true relationships between exposures and outcome, as well as different sample sizes were considered. The simulation study demonstrates good test performance: rejection rates for correct models are low, while rejection rates for incorrect models are generally high, especially for large sample sizes. However, there are situations where the test is unable to detect specification errors. The test is applied to study the effect of repeated psychosocial work stressor exposure over a 5-year period on ambulatory blood pressure in a cohort of 1576 white-collar workers.
|
252 |
Épidémiologie des hospitalisations pour infections respiratoiresDubuque, Josée 12 April 2018 (has links)
Au Canada, les infections respiratoires (IR) représentent la 3e cause d'hospitalisation et de mortalité. Le virus de l'influenza est une des plus importantes causes d'IR, affectant des individus de tout âge. Depuis l'émergence de la souche asiatique H5N1 qui a infecté plus de 300 personnes et tué plus de 60% d'entre-elles, les autorités craignent l'arrivée prochaine d'une pandémie humaine d'influenza. Cette étude vise à décrire l'évolution des hospitalisations pour IR au Québec de 1996 à 2005. Au cours de cette période, 583 202 hospitalisations pour IR sont survenues, dont 303 699 en diagnostic principal. Parmi ces dernières, 29% étaient des infections respiratoires aigües (IRA), 58% des P-I et 13% des bronchites. Les taux d'hospitalisation pour IRA chez les moins d'un an (5 420/105 hab) étaient particulièrement élevés, soit plus du double des taux d'hospitalisation pour P-I chez les 85 ans et plus (2 570/105 hab). Les taux d'hospitalisation pour bronchites sont les seuls à avoir augmenté au cours de la période à l'étude. L'admission aux soins-intensifs (SI) et la létalité ont significativement augmenté pendant les hospitalisations pour P-I et bronchites. La proportion de maladies sous-jacentes a significativement augmenté chez les patients hospitalisés pour chacun des types d'IR. En 2005, 36%, 79% et 92% des individus hospitalisés pour IRA, P-I et bronchites respectivement, présentaient une maladie sous-jacente. La présence de ces dernières est par ailleurs associée au risque de décéder pendant une hospitalisation pour IR (RR=2,8; IC 95%, 2,5-3,2).
|
253 |
Estimation du taux de chômage naturel régional : le cas des régions administratives du QuébecChrétien, Frédéric 27 January 2024 (has links)
Une forte hétérogénéité caractérise les niveaux et les fluctuations du taux de chômage dans les régions du Québec. Par exemple, entre mars 1997 et décembre 2018, le taux de chômage moyen s'est respectivement établi à 6,3% et à 10,0% dans les régions de la Capitale-Nationale et du Saguenay-Lac-Saint-Jean ; un écart non négligeable de près de quatre points de pourcentage. Dans la mesure où ces inégalités sont inefficaces (Taylor, 1996) et qu'elles exacerbent les écarts de revenus (Macphail, 2000), il est primordial de déterminer les facteurs qui les sous-tendent. En ce sens, des travaux antérieurs ont permis de conclure à l'influence de la fiscalité et des institutions du marché du travail comme facteurs explicatifs des disparités du taux de chômage à travers les États. Ces éléments sont toutefois homogènes sur l'ensemble du territoire de la province du Québec et ne peuvent donc pas expliquer les différences du taux de chômage à travers les régions administratives québécoises. À partir de la définition de Friedman (1968), nous développons un modèle structurel du taux de chômage qui divise ce dernier en une portion structurelle et en une portion cyclique permettant, par le fait même, de mettre à l'épreuve de nouveaux facteurs explicatifs tels que la productivité régionale et la composition industrielle. En nous appuyant sur un panel de données sur les régions administratives du Québec, qui s'étend de mars 1997 à décembre 2018, nous procédons à cette décomposition à l'aide d'une estimation des moindres carrés ordinaire (MCO) à effets fixes robuste à l'autocorrélation et à l'intercorrélation ainsi qu'à une seconde évaluation des moindres carrés généralisés(MCG) à effets fixes qui considère la structure autorégressive du terme d'erreur. Nos résultats démontrent que la productivité et la composition industrielle régionale ont toutes les deux un effet significatif sur le taux de chômage régional. Finalement, nous utilisons les résultats pour mesurer le taux de chômage naturel de chaque région et discutons brièvement de son évaluation. / Regional unemployment in the province of Quebec is characterized by a significant heterogeneity both in the levels across the regions and how they evolve. Between March 1997 and December 2018, for example, the mean unemployment rate was about 6.3% in Capitale-Nationale and of 10.0% in Saguenay-Lac-Saint-Jean; an important gap of almost four percentage points. Because those disparities are inefficient (Taylor, 1996) and because they exacerbate income inequalities (Macphail, 2000), understanding their determinants is essential. Previous works on the determinants of unemployment point to the influence of fiscal legislation and labour market institutions to explain unemployment rates disparities amongst the countries. Therefore, those factors being homogeneous for regions in the same province, they cannot explain this diversity between Quebec's administrative regions. Based on Friedman's (1968) definition of structural unemployment, we develop a model that divides the observed regional unemployment rates in a natural (or structural) and a cyclical component which allows for the integration of new determinants like regional productivity and industrial composition. Using panel data on Quebec's administrative regions from March 1997 to December 2018, we run a fixed effects ordinary least square (OLS) estimation with an SCC error term robust to correlation and cross-correlation plus a fixed effects general least square (GLS) estimation integrating an AR(1) correlated error term. Results show that regions' productivity and industrial composition both have a significant effect on regional unemployment. Finally, we use our results to calculate the natural unemployment rate and its evolution for each region and briefly discuss its evaluation.
|
254 |
Estimation de l'effet causal des groupes de trajectoires d'un traitement sur une issueDiop, Awa 13 December 2023 (has links)
Titre de l'écran-titre (visionné le 3 juillet 2023) / Le travail réalisé dans cette thèse s'inscrit dans un projet à trois volets qui vise à étudier l'intérêt, en situation réelle, de prescrire des statines pour la prévention primaire des maladies cardiovasculaires (MCV). Les MCV sont en effet la première cause de décès dans le monde et la seconde au Canada. Un traitement assez répandu pour réduire les risques de MCV sont les statines, un traitement prescrit pour réduire le taux de cholestérol dans les vaisseaux sanguins. Il y a très peu d'évidence sur l'intérêt d'utiliser les statines chez les aînés pour la prévention primaire. Par ailleurs, il est connu que l'adhésion aux traitements en situation réelle est souvent inférieure à celle observée dans les essais contrôlés. Cependant, une faible adhésion aux statines peut induire un risque accru de MCV comparativement à une adhésion élevée. Ainsi, il est pertinent d'investiguer comment les différents profils d'adhésion aux statines observés en pratique affectent les risques d'événements cardiovasculaires. Dans cette optique, nous avons développé deux méthodologies qui combinent les méthodes d'analyses de trajectoires aux méthodes d'inférence causale. La première méthode est le LCGA-MSM pour latent class growth analysis et marginal structural model. Le LCGA-MSM est une approche à deux étapes. En premier, le LCGA permet de réduire le nombre de profils uniques d'adhésion au traitement en quelques groupes homogènes. Ensuite, les groupes sont liés à la réponse grâce au MSM. La deuxième méthode proposée est le LCGA-HRMSM où le HRMSM signifie history-restricted MSM. Cette approche est une extension du LCGA-MSM à une issue qui varie dans le temps. Pour l'estimation des paramètres d'intérêt, nous avons introduit trois approches : l'inverse de la probabilité, le calcul-g et l'estimation ciblée par le maximum de la vraisemblance longitudinale. Tant pour le LCGA-MSM que pour le LCGA-HRMSM, en plus de fournir un cadre théorique, nous avons mené des études de simulation avancées qui ont permis de démontrer la performance de nos approches. Nous avons aussi développé un package R trajMSM et écrit un tutoriel pour faciliter l'application des approches proposées. Nous avons appliqué les méthodes proposées à une population d'aînés québécois âgés de plus de 65 ans, nouveaux utilisateurs de statines. Les données utilisées sont longitudinales sur 5 ans et l'issue considérée est composite : évènement cardiovasculaire et décès toutes causes confondues. Dans les deux applications réalisées, les résultats suggèrent qu'une adhésion aux statines, même intermittente, favorise la réduction des risques d'évènement cardiovasculaire. / This thesis is part of a wider project that aims to study the effectiveness of statins for the primary prevention of cardiovascular disease (CVD), in real-life settings. CVD is the leading cause of death worldwide and the second in Canada. A common treatment to reduce the risk of CVD is statins, a treatment prescribed to reduce cholesterol levels in the blood vessels. There is very little evidence on the value of using statins among older adults for primary prevention. In addition, it is known that real-world adherence to treatment is often lower than that observed in randomized controlled trials. Yet, low adherence to statins may induce an increased risk of CVD compared with high adherence. It is therefore relevant to study how the different patterns of statin adherence observed in practice affect the risk of cardiovascular events. To this end, we have developed two methodologies that combine trajectory analysis with causal inference methods. The first method is LCGA-MSM for latent class growth analysis and marginal structural model. LCGA-MSM is a two-step approach. First, LCGA reduces the number of unique treatment adherence profiles into a few homogeneous groups. Then, in a second step, the clusters are related to the response using MSM. The second proposed method is LCGA-HRMSM, where HRMSM stands for history-restricted MSM. This approach is an extension of LCGA-MSM to a time-varying outcome. For estimating the parameters of interest, we introduced three approaches: inverse of probability, g-formula and longitudinal targeted maximum likelihood estimation, for both LCGA-MSM and LCGA-HRMSM. In addition of providing a theoretical framework, we conducted advanced simulation studies that demonstrated the performance of our approaches. We also developed an R package trajMSM and wrote a tutorial to facilitate the application of the proposed approaches. We applied our methods to a population of older Quebecers aged more than 65 years old and who were statin initiators. The data used are longitudinal over 5 years and the outcome considered is composite: cardiovascular event and death from all causes. In both applications, the results suggest that statin adherence, even intermittent, favors the reduction of the risk of cardiovascular event.
|
255 |
Développement d'un modèle statistique non stationnaire et régional pour les précipitations extrêmes simulées par un modèle numérique de climatJalbert, Jonathan 23 April 2018 (has links)
Les inondations constituent le risque naturel prédominant dans le monde et les dégâts qu’elles causent sont les plus importants parmi les catastrophes naturelles. Un des principaux facteurs expliquant les inondations sont les précipitations extrêmes. En raison des changements climatiques, l’occurrence et l’intensité de ces dernières risquent fort probablement de s’accroître. Par conséquent, le risque d’inondation pourrait vraisemblablement s’intensifier. Les impacts de l’évolution des précipitations extrêmes sont désormais un enjeu important pour la sécurité du public et pour la pérennité des infrastructures. Les stratégies de gestion du risque d’inondation dans le climat futur sont essentiellement basées sur les simulations provenant des modèles numériques de climat. Un modèle numérique de climat procure notamment une série chronologique des précipitations pour chacun des points de grille composant son domaine spatial de simulation. Les séries chronologiques simulées peuvent être journalières ou infrajournalières et elles s’étendent sur toute la période de simulation, typiquement entre 1961 et 2100. La continuité spatiale des processus physiques simulés induit une cohérence spatiale parmi les séries chronologiques. Autrement dit, les séries chronologiques provenant de points de grille avoisinants partagent souvent des caractéristiques semblables. De façon générale, la théorie des valeurs extrêmes est appliquée à ces séries chronologiques simulées pour estimer les quantiles correspondants à un certain niveau de risque. La plupart du temps, la variance d’estimation est considérable en raison du nombre limité de précipitations extrêmes disponibles et celle-ci peut jouer un rôle déterminant dans l’élaboration des stratégies de gestion du risque. Par conséquent, un modèle statistique permettant d’estimer de façon précise les quantiles de précipitations extrêmes simulées par un modèle numérique de climat a été développé dans cette thèse. Le modèle développé est spécialement adapté aux données générées par un modèle de climat. En particulier, il exploite l’information contenue dans les séries journalières continues pour améliorer l’estimation des quantiles non stationnaires et ce, sans effectuer d’hypothèse contraignante sur la nature de la non-stationnarité. Le modèle exploite également l’information contenue dans la cohérence spatiale des précipitations extrêmes. Celle-ci est modélisée par un modèle hiérarchique bayésien où les lois a priori des paramètres sont des processus spatiaux, en l’occurrence des champs de Markov gaussiens. L’application du modèle développé à une simulation générée par le Modèle régional canadien du climat a permis de réduire considérablement la variance d’estimation des quantiles en Amérique du Nord.
|
256 |
Génération de données synthétiques pour des variables continues : étude de différentes méthodes utilisant les copulesDesbois-Bédard, Laurence 24 April 2018 (has links)
L’intérêt des agences statistiques à permettre l’accès aux microdonnées d’enquête est grandissant. À cette fin, plusieurs méthodes permettant de publier les microdonnées tout en protégeant la confidentialité des répondants ont été proposées ; ce mémoire se penche sur l’une d’entre-elles : la génération de données synthétiques. Deux approches sont présentées, GADP et C-GADP, et une nouvelle est proposée. La méthode GADP suppose que les variables des données originales et synthétiques sont de loi normale, alors que la méthode C-GADP suppose qu’elles sont jointes par une copule normale. La nouvelle méthode est basée sur les modèles de copules en vigne. Ces modèles sont employés dans l’espoir de mieux modéliser les liens entre les variables. Les trois approches sont évaluées selon les concepts d’utilité et de risque. L’utilité de données confidentielles s’apprécie selon la similitude qu’elles ont avec les données originales et le risque, par la possibilité d’une violation de la confidentialité des répondants. Le risque peut survenir par identification ou par inférence. Seul le risque d’inférence est possible dans le cadre de ce mémoire. Précisément, l’utilité est évaluée avec quelques mesures faites à partir d’analyses spécifiques et une mesure globale basée sur les scores de propension calculés avec une régression logistique. Quant au risque, il est évalué avec une prévision basée sur la distance. / Statistical agencies face a growing demand for releasing microdata to the public. To this end, many techniques have been proposed for publishing microdata while providing confidentiality : synthetic data generation in particular. This thesis focuses on such technique by presenting two existing methods, GAPD and C-GADP, as well as suggesting one based on vine copula models. GADP assumes that the variables of original and synthetic data are normally distributed, while C-GADP assumes that they have a normal copula distribution. Vine copula models are proposed due to their flexibility. These three methods are then assessed according to utility and risk. Data utility depends on maintaining certain similarities between the original and confidential data, while risk can be observed in two types : reidentification and inference. This work will focus on the utility examined with different analysis-specific measures, a global measure based on propensity scores and the risk of inference evaluated with a distance-based prediction.
|
257 |
Modèles de dépendance hiérarchique pour l'évaluation des passifs et la tarification en actuariatAbdallah, Anas 24 April 2018 (has links)
Dans cette thèse on s’intéresse à la modélisation de la dépendance entre les risques en assurance non-vie, plus particulièrement dans le cadre des méthodes de provisionnement et en tarification. On expose le contexte actuel et les enjeux liés à la modélisation de la dépendance et l’importance d’une telle approche avec l’avènement des nouvelles normes et exigences des organismes réglementaires quant à la solvabilité des compagnies d’assurances générales. Récemment, Shi et Frees (2011) suggère d’incorporer la dépendance entre deux lignes d’affaires à travers une copule bivariée qui capture la dépendance entre deux cellules équivalentes de deux triangles de développement. Nous proposons deux approches différentes pour généraliser ce modèle. La première est basée sur les copules archimédiennes hiérarchiques, et la deuxième sur les effets aléatoires et la famille de distributions bivariées Sarmanov. Nous nous intéressons dans un premier temps, au Chapitre 2, à un modèle utilisant la classe des copules archimédiennes hiérarchiques, plus précisément la famille des copules partiellement imbriquées, afin d’inclure la dépendance à l’intérieur et entre deux lignes d’affaires à travers les effets calendaires. Par la suite, on considère un modèle alternatif, issu d’une autre classe de la famille des copules archimédiennes hiérarchiques, celle des copules totalement imbriquées, afin de modéliser la dépendance entre plus de deux lignes d’affaires. Une approche avec agrégation des risques basée sur un modèle formé d’une arborescence de copules bivariées y est également explorée. Une particularité importante de l’approche décrite au Chapitre 3 est que l’inférence au niveau de la dépendance se fait à travers les rangs des résidus, afin de pallier un éventuel risque de mauvaise spécification des lois marginales et de la copule régissant la dépendance. Comme deuxième approche, on s’intéresse également à la modélisation de la dépendance à travers des effets aléatoires. Pour ce faire, on considère la famille de distributions bivariées Sarmanov qui permet une modélisation flexible à l’intérieur et entre les lignes d’affaires, à travers les effets d’années de calendrier, années d’accident et périodes de développement. Des expressions fermées de la distribution jointe, ainsi qu’une illustration empirique avec des triangles de développement sont présentées au Chapitre 4. Aussi, nous proposons un modèle avec effets aléatoires dynamiques, où l’on donne plus de poids aux années les plus récentes, et utilisons l’information de la ligne corrélée afin d’effectuer une meilleure prédiction du risque. Cette dernière approche sera étudiée au Chapitre 5, à travers une application numérique sur les nombres de réclamations, illustrant l’utilité d’un tel modèle dans le cadre de la tarification. On conclut cette thèse par un rappel sur les contributions scientifiques de cette thèse, tout en proposant des angles d’ouvertures et des possibilités d’extension de ces travaux. / The objective of this thesis is to propose innovative hierarchical approaches to model dependence within and between risks in non-life insurance in general, and in a loss reserving context in particular. One of the most critical problems in property/casualty insurance is to determine an appropriate reserve for incurred but unpaid losses. These provisions generally comprise most of the liabilities of a non-life insurance company. The global provisions are often determined under an assumption of independence between the lines of business. However, most risks are related to each other in practice, and this correlation needs to be taken into account. Recently, Shi and Frees (2011) proposed to include dependence between lines of business in a pairwise manner, through a copula that captures dependence between two equivalent cells of two different runoff triangles. In this thesis, we propose to generalize this model with two different approaches. Firstly, by using hierarchical Archimedean copulas to accommodate correlation within and between lines of business, and secondly by capturing this dependence through random effects. The first approach will be presented in chapters 2 and 3. In chapter 2, we use partially nested Archimedean copulas to capture dependence within and between two lines of business, through calendar year effects. In chapter 3, we use fully nested Archimedean copulas, to accommodate dependence between more than two lines of business. A copula-based risk aggregation model is also proposed to accommodate dependence. The inference for the dependence structure is performed with a rank-based methodology to bring more robustness to the estimation. In chapter 4, we introduce the Sarmanov family of bivariate distributions to a loss reserving context, and show that its flexibility proves to be very useful for modeling dependence between loss triangles. This dependence is captured by random effects, through calendar years, accident years or development periods. Closed-form expressions are given, and a real life illustration is shown again. In chapter 5, we use the Sarmanov family of bivariate distributions in a dynamic framework, where the random effects are considered evolutionary and evolve over time, to update the information and allow more weight to more recent claims. Hence, we propose an innovative way to jointly model the dependence between risks and over time with an illustration in a ratemaking context. Finally, a brief conclusion recalls the main contributions of this thesis and provides insights into future research and possible extensions to the proposed works.
|
258 |
Trafic aérien de passagers au Canada : analyse exploratoire d'un modèle origine-destination avec interactions spatialesCisse, Yahya Ibrahima 23 April 2018 (has links)
Ce mémoire revisite à l’aide de méthodes d’économétrie spatiale le modèle gravitaire PODM (Passenger Origin-Destination Model) que Transports Canada utilise pour prédire le trafic aérien domestique de passagers. Différents modèles spatiaux de panel sont estimés par maximum de vraisemblance et par la méthode des moments. Les résultats montrent que l’approche traditionnelle ne détecte pas d’effets de la distance entre l’origine et la destination sur le volume du trafic intérieur de passagers. Ce sont les caractéristiques de la région d’origine et de destination (PIB, revenu disponible, population) et les caractéristiques du trajet (prix moyen du billet, nombre de vols offerts) qui sont les déterminants les plus importants des flux de passagers. Dans les modèles spatiaux explorés, les interactions spatiales se révèlent d’importants déterminants aux côtés des caractéristiques locales. La prise en compte de ces effets spatiaux pourrait permettre d’améliorer les prévisions de trafic de passagers au Canada. Mots clés : interactions spatiales, données de panel, maximum de vraisemblance, méthodes des moments.
|
259 |
Statistiques de formes pour la segmentation d'images avec a prioriCharpiat, Guillaume 13 December 2006 (has links) (PDF)
Le but de cette thèse est de construire, à partir d'un ensemble donné d'exemples de contours d'objets, un critère qui exprime quantitativement la ressemblance entre une forme quelconque et ces exemples. Ce critère permettra ainsi d'avoir un a priori sur la forme de l'objet à rechercher dans une nouvelle image à segmenter. On définit tout d'abord mathématiquement l'ensemble de "toutes les formes". L'étude de plusieurs métriques sur cet ensemble conduit à leur équivalence topologique. Une approximation dérivable de la distance de Hausdorff permet alors de construire un chemin entre deux formes quelconques par descente de gradient. Le gradient d'une application dépendant d'une forme est un champ de déformation appartenant à son espace tangent; il dépend de son produit scalaire, qui peut alors être vu comme un a priori sur les champs de déformation en changeant qualitativement les évolutions. Une extension de la notion de gradient à des a priori non linéaires est également proposée. Les champs instantanés de déformation d'une forme vers une autre obtenus par gradient d'une distance permettent de définir la "moyenne" d'un ensemble donné de contours, ainsi que les modes caractéristiques de déformation qui lui sont associés, exprimant la variabilité de la forme dans l'échantillon étudié. De ces statistiques sur les formes on déduit plusieurs critères de segmentation, qui sont testés et illustrés sur quelques exemples. Des statistiques assez similaires sont également menées sur des images (au lieu de formes) dans une approche difféomorphique, testées sur des photographies de visages, puis utilisées dans une tâche de reconnaissance d'expression.
|
260 |
Développement de méthodes statistiques nécessaires à l'analyse de données génomiques : application à l'influence du polymorphisme génétique sur les caractéristiques cutanées individuelles et l'expression du vieillissement cutané.Bernard, Anne 20 December 2013 (has links) (PDF)
Les nouvelles technologies développées ces dernières années dans le domaine de la génétique ont permis de générer des bases de données de très grande dimension, en particulier de Single Nucleotide Polymorphisms (SNPs), ces bases étant souvent caractérisées par un nombre de variables largement supérieur au nombre d'individus. L'objectif de ce travail a été de développer des méthodes statistiques adaptées à ces jeux de données de grande dimension et permettant de sélectionner les variables les plus pertinentes au regard du problème biologique considéré. Dans la première partie de ce travail, un état de l'art présente différentes méthodes de sélection de variables non supervisées et supervisées pour 2 blocs de variables et plus. Dans la deuxième partie, deux nouvelles méthodes de sélection de variables non supervisées de type "sparse" sont proposées : la Group Sparse Principal Component Analysis (GSPCA) et l'Analyse des Correspondances Multiples sparse (ACM sparse). Vues comme des problèmes de régression avec une pénalisation group LASSO elles conduisent à la sélection de blocs de variables quantitatives et qualitatives, respectivement. La troisième partie est consacrée aux interactions entre SNPs et dans ce cadre, une méthode spécifique de détection d'interactions, la régression logique, est présentée. Enfin, la quatrième partie présente une application de ces méthodes sur un jeu de données réelles de SNPs afin d'étudier l'influence possible du polymorphisme génétique sur l'expression du vieillissement cutané au niveau du visage chez des femmes adultes. Les méthodes développées ont donné des résultats prometteurs répondant aux attentes des biologistes, et qui offrent de nouvelles perspectives de recherches intéressantes
|
Page generated in 0.0327 seconds