Global ETD Search

1	Détection et caractérisation des interactions dans les maladies complexes St-Onge, Pascal January 2007 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal. Interaction gène-gène Sélection de variables Bio-informatique Maladies complexes Test de ratio des vraisemblances Régression logistique pénalisée
2	Modèles de mélange en analyse de survie en présence de données groupées : application à la tremblante du mouton Corbière, Fabien 04 December 2007 (has links) (PDF) Les facteurs de risque individuels et environnementaux associés à la contamination par l'agent de la tremblante classique du mouton et à la durée d'incubation des animaux infectés demeurent mal connus. En l'absence de diagnostic antemortem précoce, la longue durée d'incubation de la maladie et les durées de vie limitées des animaux conduisent à une connaissance partielle du statut sanitaire des animaux. De plus, l'analyse doit tenir compte du fait qu'une partie seulement des animaux se contamine. <br />Nous utilisons des modèles d'analyse des données de survie prenant en compte l'existence d'une fraction non à risque. Nous proposons une approche par vraisemblance pénalisée, qui allie les avantages des modèles paramétriques et semi paramétriques existants. Nous nous intéressons ensuite aux modèles paramétriques de survie avec fraction non à risque et effets aléatoires afin de tenir compte du regroupement des animaux dans les élevages. Ces différentes approches sont évaluées à l'aide d'études de simulations.<br />L'application des ces modèles aux données issues du suivi longitudinal d'élevages infectés des Pyrénées Atlantiques (France) confirme le rôle déterminant du génotype au gène PRP sur le risque de contamination et les durées d'incubation. Nos résultats suggèrent de plus que la contamination par l'agent infectieux a principalement lieu en période néonatale. Enfin la forte hétérogénéité des risques de contamination et des durées d'incubation mise en évidence entre troupeaux pourrait être partiellement expliquée par la prise en compte de la structure génétique des élevages et du nombre d'animaux infectés présents. [SDV] Life Sciences tremblante ovine classique analyse de survie modèles de mélange vraisemblance pénalisée données groupées
3	Détection et caractérisation des interactions dans les maladies complexes St-Onge, Pascal January 2007 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal Interaction gène-gène Sélection de variables Bio-informatique Maladies complexes Test de ratio des vraisemblances Régression logistique pénalisée
4	Sequential Monte-Carlo sampler for Bayesian inference in complex systems / Echantillonneur séquentiel de Monte-Carlo pour l’inférence Bayésienne dans des systèmes complexes Nguyen, Thi Le Thu 03 July 2014 (has links) Dans de nombreux problèmes, des modèles complexes non-Gaussiens et/ou non-linéaires sont nécessaires pour décrire précisément le système physique étudié. Dans ce contexte, les algorithmes de Monte-Carlo sont des outils flexibles et puissants permettant de résoudre de tels problèmes d’inférence. Toutefois, en présence de loi a posteriori multimodale et/ou de grande dimension, les méthodes classiques de Monte-Carlo peuvent conduire à des résultats non satisfaisants. Dans cette thèse, nous étudions une approche plus robuste et efficace: échantillonneur séquentiel de Monte-Carlo. Bien que cette approche présente de nombreux avantages par rapport aux méthodes traditionnelles de Monte-Carlo, le potentiel de cette technique est cependant très largement sous-exploité en traitement du signal. L’objectif de cette thèse est donc de proposer de nouvelles stratégies permettant d’améliorer l’efficacité de cet algorithme et ensuite de faciliter sa mise en œuvre pratique. Pour ce faire, nous proposons une approche adaptive qui sélectionne la séquence de distributions minimisant la variance asymptotique de l'estimateur de la constante de normalisation de la loi a posteriori. Deuxièmement, nous proposons un mécanisme de correction qui permet d’améliorer l’efficacité globale de la méthode en utilisant toutes les particules générées à travers toutes les itérations de l’algorithme (au lieu d’uniquement celles de la dernière itération). Enfin pour illustrer l’utilité de cette approche ainsi que des stratégies proposées, nous utilisons cet algorithme dans deux problèmes complexes: la localisation de sources multiples dans les réseaux de capteurs et la régression Bayésienne pénalisée. / In many problems, complex non-Gaussian and/or nonlinear models are required to accurately describe a physical system of interest. In such cases, Monte Carlo algorithms are remarkably flexible and extremely powerful to solve such inference problems. However, in the presence of high-dimensional and/or multimodal posterior distribution, standard Monte-Carlo techniques could lead to poor performance. In this thesis, the study is focused on Sequential Monte-Carlo Sampler, a more robust and efficient Monte Carlo algorithm. Although this approach presents many advantages over traditional Monte-Carlo methods, the potential of this emergent technique is however largely underexploited in signal processing. In this thesis, we therefore focus our study on this technique by aiming at proposing some novel strategies that will improve the efficiency and facilitate practical implementation of the SMC sampler. Firstly, we propose an automatic and adaptive strategy that selects the sequence of distributions within the SMC sampler that approximately minimizes the asymptotic variance of the estimator of the posterior normalization constant. Secondly, we present an original contribution in order to improve the global efficiency of the SMC sampler by introducing some correction mechanisms that allow the use of the particles generated through all the iterations of the algorithm (instead of only particles from the last iteration). Finally, to illustrate the usefulness of such approaches, we apply the SMC sampler integrating our proposed improvement strategies to two challenging practical problems: Multiple source localization in wireless sensor networks and Bayesian penalized regression. Régression pénalisée Localisation de sources Méthodes séquentielles de Monte-Carlo Sélection de modèles Traitement statistique du signal 621.382 2
5	Approche pénalisée en tomographie hélicoïdale en vue de l'application à la conception d'une prothèse personnalisée du genou Allain, Marc 17 December 2002 (has links) (PDF) Dans le but de concevoir un implant personnalisé du genou, nous présentons une approche originale permettant la reconstruction d'images de précision en tomographie hélicoïdale. La méthodologie standard à base d'interpolation et de rétroprojection convoluée est remplacée par une approche pénalisée ; dans ce cadre, l'image tomographique 3D correspond au minimiseur d'un problème des moindres carrés pnalisés de très grande taille. Une régularisation pertinente du problème tomographique est en particulier permise par une pénalisation convexe : celle-ci permet de localiser précisment les interfaces dans le volume sans hypothéquer les aspects de coût d'implantation. Testée sur données synthtiques, cette démarche permet un gain significatif de précision sur l'image 3D obtenue. Le problème de reconstruction étant de très grande taille, l'implantation de cette méthode reste néanmoins délicate. Afin de garder la maîtrise du coût informatique, nous proposons d'adopter une invariance du modèle d'observation et de minimiser le critère des moindres carrés pénalisés par un algorithme de type successive over relaxation. Une seconde démarche basée sur une approximation du modèle d'observation a également été proposée : elle rend le problème séparable et permet d'aborder la reconstruction du volume en une succession de problèmes 2D d'une taille sensiblement réduite. Enfin, ces travaux ont donné lieu une étude approfondie des algorithmes semi quadratiques (SQ) dont l'emploi est répandu en traitement d'image ou de donnes. Ces algorithmes SQ ont été rattachs à des formes préexistantes, des conditions de convergence globale moins restrictives ont été obtenues et des variantes plus rapides ont été déduites. tomographie hélicoïdale approche pénalisée algorithmes semi-quadratiques algorithmes de descente à pas fixe
6	Modèles à structure cachée : inférence, estimation, sélection de modèles et applications Durand, Jean-Baptiste 31 January 2003 (has links) (PDF) L'objet de cette thèse est l'étude d'algorithmes d'inférence et de méthodes de sélection pour les modèles de Markov cachés. L'analyse de propriétés du graphe d'indépendance conditionnelle aboutit à la définition d'une famille de modèles aisément paramétrables et interprétables. Pour ces modèles, nous proposons des algorithmes d'inférence basés sur des récursions de type arrière-avant efficaces, numériquement stables et permettant des calculs analytiques. Puis nous étudions différentes méthodes de sélection du nombre d'états cachés, dont le demi-échantillonnage, les critères BIC, AIC, ICL, et la pénalisation de la vraisemblance marginale. L'implémentation de la validation croisée, problématique dans le cas de dépendances entre variables, fait l'objet de développements particuliers. Ces méthodes sont comparées par des expérimentations sur des données simulées puis réelles (fiabilité de logiciels). Nous illustrons l'intérêt des arbres et chaînes de Markov cachés en traitement du signal. [MATH] Mathematics modèles de Markov cachés algorithme EM algorithmes de lissage récursion arrière-avant arbre de jonction sélection de modèles vraisemblance pénalisée validation croisée
7	Analyse d'un grand jeu de données en épidémiologie : problématiques et perspectives méthodologiques / Analysis of a large dataset in epidemiology : issues and methodological perspectives Mansiaux, Yohann 30 October 2014 (has links) L'augmentation de la taille des jeux de données est une problématique croissante en épidémiologie. La cohorte CoPanFlu-France (1450 sujets), proposant une étude du risque d'infection par la grippe H1N1pdm comme une combinaison de facteurs très divers en est un exemple. Les méthodes statistiques usuelles (e.g. les régressions) pour explorer des associations sont limitées dans ce contexte. Nous comparons l'apport de méthodes exploratoires data-driven à celui de méthodes hypothesis-driven.Une première approche data-driven a été utilisée, évaluant la capacité à détecter des facteurs de l'infection de deux méthodes de data mining, les forêts aléatoires et les arbres de régression boostés, de la méthodologie " régressions univariées/régression multivariée" et de la régression logistique LASSO, effectuant une sélection des variables importantes. Une approche par simulation a permis d'évaluer les taux de vrais et de faux positifs de ces méthodes. Nous avons ensuite réalisé une étude causale hypothesis-driven du risque d'infection, avec un modèle d'équations structurelles (SEM) à variables latentes, pour étudier des facteurs très divers, leur impact relatif sur l'infection ainsi que leurs relations éventuelles. Cette thèse montre la nécessité de considérer de nouvelles approches statistiques pour l'analyse des grands jeux de données en épidémiologie. Le data mining et le LASSO sont des alternatives crédibles aux outils conventionnels pour la recherche d'associations. Les SEM permettent l'intégration de variables décrivant différentes dimensions et la modélisation explicite de leurs relations, et sont dès lors d'un intérêt majeur dans une étude multidisciplinaire comme CoPanFlu. / The increasing size of datasets is a growing issue in epidemiology. The CoPanFlu-France cohort(1450 subjects), intended to study H1N1 pandemic influenza infection risk as a combination of biolo-gical, environmental, socio-demographic and behavioral factors, and in which hundreds of covariatesare collected for each patient, is a good example. The statistical methods usually employed to exploreassociations have many limits in this context. We compare the contribution of data-driven exploratorymethods, assuming the absence of a priori hypotheses, to hypothesis-driven methods, requiring thedevelopment of preliminary hypotheses.Firstly a data-driven study is presented, assessing the ability to detect influenza infection determi-nants of two data mining methods, the random forests (RF) and the boosted regression trees (BRT), ofthe conventional logistic regression framework (Univariate Followed by Multivariate Logistic Regres-sion - UFMLR) and of the Least Absolute Shrinkage and Selection Operator (LASSO), with penaltyin multivariate logistic regression to achieve a sparse selection of covariates. A simulation approachwas used to estimate the True (TPR) and False (FPR) Positive Rates associated with these methods.Between three and twenty-four determinants of infection were identified, the pre-epidemic antibodytiter being the unique covariate selected with all methods. The mean TPR were the highest for RF(85%) and BRT (80%), followed by the LASSO (up to 78%), while the UFMLR methodology wasinefficient (below 50%). A slight increase of alpha risk (mean FPR up to 9%) was observed for logisticregression-based models, LASSO included, while the mean FPR was 4% for the data-mining methods.Secondly, we propose a hypothesis-driven causal analysis of the infection risk, with a structural-equation model (SEM). We exploited the SEM specificity of modeling latent variables to study verydiverse factors, their relative impact on the infection, as well as their eventual relationships. Only thelatent variables describing host susceptibility (modeled by the pre-epidemic antibody titer) and com-pliance with preventive behaviors were directly associated with infection. The behavioral factors des-cribing risk perception and preventive measures perception positively influenced compliance with pre-ventive behaviors. The intensity (number and duration) of social contacts was not associated with theinfection.This thesis shows the necessity of considering novel statistical approaches for the analysis of largedatasets in epidemiology. Data mining and LASSO are credible alternatives to the tools generally usedto explore associations with a high number of variables. SEM allows the integration of variables des-cribing diverse dimensions and the explicit modeling of their relationships ; these models are thereforeof major interest in a multidisciplinary study as CoPanFlu. Grippe H1N1 pandémique Régression logistique Régression pénalisée Équations structurelles Data mining Épidémiologie H1N1 pandemic influenza Big data 614.4
8	Modèles pour l'estimation de l'incidence de l'infection par le VIH en France à partir des données de surveillance VIH et SIDA Sommen, Cécile 09 December 2009 (has links) L'incidence de l'infection par le VIH, définie comme le nombre de sujets nouvellement infectés par le VIH au cours du temps, est le seul indicateur permettant réellement d'appréhender la dynamique de l'épidémie du VIH/SIDA. Sa connaissance permet de prévoir les conséquences démographiques de l'épidémie et les besoins futurs de prise en charge, mais également d'évaluer l'efficacité des programmes de prévention. Jusqu'à très récemment, l'idée de base pour estimer l'incidence de l'infection par le VIH a été d'utiliser la méthode de rétro-calcul à partir des données de l'incidence du SIDA et de la connaissance de la distribution de la durée d'incubation du SIDA. L'avènement, à partir de 1996, de nouvelles combinaisons thérapeutiques très efficaces contre le VIH a contribué à modifier la durée d'incubation du SIDA et, par conséquent, à augmenter la difficulté d'utilisation de la méthode de rétro-calcul sous sa forme classique. Plus récemment, l'idée d'intégrer des informations sur les dates de diagnostic VIH a permis d'améliorer la précision des estimations. La plupart des pays occidentaux ont mis en place depuis quelques années un système de surveillance de l'infection à VIH. En France, la notification obligatoire des nouveaux diagnostics d'infection VIH, couplée à la surveillance virologique permettant de distinguer les contaminations récentes des plus anciennes a été mise en place en mars 2003. L'objectif de ce travail de thèse est de développer de nouvelles méthodes d'estimation de l'incidence de l'infection par le VIH capables de combiner les données de surveillance des diagnostics VIH et SIDA et d'utiliser les marqueurs sérologiques recueillis dans la surveillance virologique dans le but de mieux saisir l'évolution de l'épidémie dans les périodes les plus récentes. / The knowledge of the dynamics of the HIV/AIDS epidemic is crucial for planning current and future health care needs. The HIV incidence, i.e. the number of new HIV infections over time, determines the trajectory and the extent of the epidemic but is difficult to measure. The backcalculation method has been widely developed and used to estimate the past pattern of HIV infections and to project future incidence of AIDS from information on the incubation period distribution and AIDS incidence data. In recent years the incubation period from HIV infection to AIDS has changed dramatically due to increased use of antiretroviral therapy, which lengthens the time from HIV infection to the development of AIDS. Therefore, it has become more difficult to use AIDS diagnosis as the basis for back-calculation. More recently, the idea of integrating information on the dates of HIV diagnosis has improved the precision of estimates. In recent years, most western countries have set up a system for monitoring HIV infection. In France, the mandatory reporting of newly diagnosed HIV infection, coupled with virological surveillance to distinguish recent infections from older, was introduced in March 2003. The goal of this PhD thesis is to develop new methods for estimating the HIV incidence able to combine data from monitoring HIV and AIDS diagnoses and use of serologic markers collected in the virological surveillance in order to better understand the evolution of the epidemic in the most recent periods. Modèles multi-états Rétro-calcul Processus de Markov Vraisemblance pénalisée Incidence du VIH Données longitudinales Surveillance Multi-state models Backcalculation Markov process Penalized likelihood HIV incidence Longitudinal data Surveillance
9	Sélection de modèles statistiques par méthodes de vraisemblance pénalisée pour l'étude de données complexes / Statistical Model Selection by penalized likelihood method for the study of complex data Ollier, Edouard 12 December 2017 (has links) Cette thèse est principalement consacrée au développement de méthodes de sélection de modèles par maximum de vraisemblance pénalisée dans le cadre de données complexes. Un premier travail porte sur la sélection des modèles linéaires généralisés dans le cadre de données stratifiées, caractérisées par la mesure d’observations ainsi que de covariables au sein de différents groupes (ou strates). Le but de l’analyse est alors de déterminer quelles covariables influencent de façon globale (quelque soit la strate) les observations mais aussi d’évaluer l’hétérogénéité de cet effet à travers les strates.Nous nous intéressons par la suite à la sélection des modèles non linéaires à effets mixtes utilisés dans l’analyse de données longitudinales comme celles rencontrées en pharmacocinétique de population. Dans un premier travail, nous décrivons un algorithme de type SAEM au sein duquel la pénalité est prise en compte lors de l’étape M en résolvant un problème de régression pénalisé à chaque itération. Dans un second travail, en s’inspirant des algorithmes de type gradient proximaux, nous simplifions l’étape M de l’algorithme SAEM pénalisé précédemment décrit en ne réalisant qu’une itération gradient proximale à chaque itération. Cet algorithme, baptisé Stochastic Approximation Proximal Gradient algorithm (SAPG), correspond à un algorithme gradient proximal dans lequel le gradient de la vraisemblance est approché par une technique d’approximation stochastique.Pour finir, nous présentons deux travaux de modélisation statistique, réalisés au cours de cette thèse. / This thesis is mainly devoted to the development of penalized maximum likelihood methods for the study of complex data.A first work deals with the selection of generalized linear models in the framework of stratified data, characterized by the measurement of observations as well as covariates within different groups (or strata). The purpose of the analysis is then to determine which covariates influence in a global way (whatever the stratum) the observations but also to evaluate the heterogeneity of this effect across the strata.Secondly, we are interested in the selection of nonlinear mixed effects models used in the analysis of longitudinal data. In a first work, we describe a SAEM-type algorithm in which the penalty is taken into account during step M by solving a penalized regression problem at each iteration. In a second work, inspired by proximal gradient algorithms, we simplify the M step of the penalized SAEM algorithm previously described by performing only one proximal gradient iteration at each iteration. This algorithm, called Stochastic Approximation Proximal Gradient Algorithm (SAPG), corresponds to a proximal gradient algorithm in which the gradient of the likelihood is approximated by a stochastic approximation technique.Finally, we present two statistical modeling works realized during this thesis. Sélection de modèle Vraisemblance pénalisée Algorithme SAEM Algorithmes gradient proximaux Modèles non linéaires à effets mixtes Model selection Penalized likelihood SAEM algorithm Proximal gradient algorithm Non linear mixed effects models
10	Estimation et sélection pour les modèles additifs et application à la prévision de la consommation électrique / Estimation and selection in additive models and application to load demand forecasting Thouvenot, Vincent 17 December 2015 (has links) L'électricité ne se stockant pas aisément, EDF a besoin d'outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d'estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau électrique, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d'habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L'objectif de ce travail est de présenter des procédures automatiques de sélection et d'estimation de composantes d'un modèle additif avec des estimateurs en plusieurs étapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Nos résultats théoriques de consistance en sélection et en estimation sont obtenus sans nécessiter l'hypothèse classique que les normes des composantes non nulles du modèle additif soient bornées par une constante non nulle. En effet, nous autorisons cette norme à pouvoir converger vers 0 à une certaine vitesse. Les procédures sont illustrées sur des applications pratiques de prévision de consommation électrique nationale et locale.Mots-clés: Group LASSO, Estimateurs en plusieurs étapes, Modèle Additif, Prévision de charge électrique, P-Splines, Sélection de variables / French electricity load forecasting encounters major changes since the past decade. These changes are, among others things, due to the opening of electricity market (and economical crisis), which asks development of new automatic time adaptive prediction methods. The advent of innovating technologies also needs the development of some automatic methods, because we have to study thousands or tens of thousands time series. We adopt for time prediction a semi-parametric approach based on additive models. We present an automatic procedure for covariate selection in a additive model. We combine Group LASSO, which is selection consistent, with P-Splines, which are estimation consistent. Our estimation and model selection results are valid without assuming that the norm of each of the true non-zero components is bounded away from zero and need only that the norms of non-zero components converge to zero at a certain rate. Real applications on local and agregate load forecasting are provided.Keywords: Additive Model, Group LASSO, Load Forecasting, Multi-stage estimator, P-Splines, Variables selection Statistique Modèle additif Méthode pénalisée Estimateurs en plusieurs étapes Prévision de consommation électrique Selection Statistic Additive model Penalized method Multi-Step estimator Electricity load forecasting Selection

Search results