Global ETD Search

51	Hétérogénéité inobservée et solutions en coin dans les modèles micro-économétriques de choix de production multiculture / Unobserved Heterogeneity and Corner Solution in Micro-econometrics Multicrops Production choice models Koutchade, Obafèmi-Philippe 19 January 2018 (has links) Dans cette thèse, nous nous intéressons aux questions de l’hétérogénéité inobservée et des solutions en coin dans les modèles de choix d’assolements. Pour répondre à ces questions, nous nous appuyons sur un modèle de choix de production multicultures avec choix d’assolement de forme NMNL, dont nous proposons des extensions. Ces extensions conduisent à des problèmes spécifiques d’estimation, auxquels nous apportons des solutions. La question de l’hétérogénéité inobservée est traitée en considérant une spécification à paramètres aléatoires. Ceci nous permet de tenir compte des effets de l’hétérogénéité inobservée sur l’ensemble des paramètres du modèle. Nous montrons que les versions stochastiques de l’algorithme EM sont particulièrement adaptées pour estimer ce type de modèle.Nos résultats d’estimation et de simulation montrent que les agriculteurs réagissent de façon hétérogène aux incitations économiques et que ne pas tenir compte de cette hétérogénéité peut conduire à des effets simulés de politiques publique biaisés.Pour tenir compte des solutions en coin dans les choix d’assolement, nous proposons une modélisation basée sur les modèles à changement de régime endogène avec coûts fixes associés aux régimes. Contrairement aux approches basées sur des systèmes de régression censurées, notre modèle est cohérent d’un point de vue micro-économique. Nos résultats montrent que les coûts fixes associés aux régimes jouent un rôle important dans le choix des agriculteurs de produire ou non certaines cultures et qu’ils constituent, à court terme, un déterminant important des c / In this thesis, we are interested in questions of unobserved heterogeneity and corner solutions in acreage choice models. To answer these questions, we rely on a NMNL acreage share multi-crop models, of which we propose extensions. These extensions lead to specific estimation problems, to which we provide solutions.The question of unobserved heterogeneity is dealt with by considering a random parameter specification. This allows us to take into account the effects of the unobserved heterogeneity on all the parameters of the model. We show that the stochastic versions of the EM algorithm are particularly suitable for estimating this type of modelOur estimation and simulation results show that farmers react heterogeneously to economic incentives and that ignoring this heterogeneity can lead to biased simulated effects of public policies.In order to take account of the corner solutions in acreage choices, we propose modelling based on endogenous regime switching models with regime fixed costs. Unlike approaches based on censored regression systems, our model is “fully” consistent from a micro-economic viewpoint. Our results show that the regime fixed costs play an important role in farmers’ choice to produce or not some crops and they are, in the short term, an important determinant of acreage choices. Choix d’assolement NMNL Hétérogénéité inobservée Solutions en coin Modèle à paramètres aléatoires Algorithme EM NMNL acreage choice Unobserved heterogeneity Corner solutions Random parameter models Endogenous regime switching models EM algorithm
52	Détection et classification de signatures temporelles CAN pour l’aide à la maintenance de sous-systèmes d’un véhicule de transport collectif / Detection and classification of temporal CAN signatures to support maintenance of public transportation vehicle subsystems Cheifetz, Nicolas 09 September 2013 (has links) Le problème étudié dans le cadre de cette thèse porte essentiellement sur l'étape de détection de défaut dans un processus de diagnostic industriel. Ces travaux sont motivés par la surveillance de deux sous-systèmes complexes d'un autobus impactant la disponibilité des véhicules et leurs coûts de maintenance : le système de freinage et celui des portes. Cette thèse décrit plusieurs outils dédiés au suivi de fonctionnement de ces deux systèmes. On choisit une approche de diagnostic par reconnaissance des formes qui s'appuie sur l'analyse de données collectées en exploitation à partir d'une nouvelle architecture télématique embarquée dans les autobus. Les méthodes proposées dans ces travaux de thèse permettent de détecter un changement structurel dans un flux de données traité séquentiellement, et intègrent des connaissances disponibles sur les systèmes surveillés. Le détecteur appliqué aux freins s'appuie sur les variables de sortie (liées au freinage) d'un modèle physique dynamique du véhicule qui est validé expérimentalement dans le cadre de nos travaux. L'étape de détection est ensuite réalisée par des cartes de contrôle multivariées à partir de données multidimensionnelles. La stratégie de détection pour l'étude du système porte traite directement les données collectées par des capteurs embarqués pendant des cycles d'ouverture et de fermeture, sans modèle physique a priori. On propose un test séquentiel à base d'hypothèses alimenté par un modèle génératif pour représenter les données fonctionnelles. Ce modèle de régression permet de segmenter des courbes multidimensionnelles en plusieurs régimes. Les paramètres de ce modèle sont estimés par un algorithme de type EM dans un mode semi-supervisé. Les résultats obtenus à partir de données réelles et simulées ont permis de mettre en évidence l'efficacité des méthodes proposées aussi bien pour l'étude des freins que celle des portes / This thesis is mainly dedicated to the fault detection step occurring in a process of industrial diagnosis. This work is motivated by the monitoring of two complex subsystems of a transit bus, which impact the availability of vehicles and their maintenance costs: the brake and the door systems. This thesis describes several tools that monitor operating actions of these systems. We choose a pattern recognition approach based on the analysis of data collected from a new IT architecture on-board the buses. The proposed methods allow to detect sequentially a structural change in a datastream, and take advantage of prior knowledge of the monitored systems. The detector applied to the brakes is based on the output variables (related to the brake system) from a physical dynamic modeling of the vehicle which is experimentally validated in this work. The detection step is then performed by multivariate control charts from multidimensional data. The detection strategy dedicated to doors deals with data collected by embedded sensors during opening and closing cycles, with no need for a physical model. We propose a sequential testing approach using a generative model to describe the functional data. This regression model allows to segment multidimensional curves in several regimes. The model parameters are estimated via a specific EM algorithm in a semi-supervised mode. The results obtained from simulated and real data allow to highlight the effectiveness of the proposed methods on both the study of brakes and doors Diagnostic et maintenance préventive Détection de changement Tests séquentiels d’hypothèses Séquence de courbes Algorithme EM et modèles de mélange Diagnosis and preventive maintenance Change-point detection Sequential hypothesis testing Curves sequence EM algorithm and mixture models Brake system and doors of a urban buses
53	Modélisation statistique de l’état de charge des batteries électriques / Statistical modeling of the state of charge of electric batteries Kalawoun, Jana 30 November 2015 (has links) Les batteries électriques sont omniprésentes dans notre vie quotidienne : ordinateur, téléphone, etc. Elles jouent un rôle important dans le défi de la transition énergétique : anticiper la raréfaction des énergies fossiles et réduire la pollution, en développant le stockage des énergies renouvelables et les transports électriques. Cependant, l'estimation de l'état de charge (State of Charge – SoC) d'une batterie est difficile et les modèles de prédiction actuels sont peu robustes. En effet, une batterie est un système électrochimique complexe, dont la dynamique est influencée non seulement par ses caractéristiques internes, mais aussi par les conditions d'usages souvent non contrôlables : température, profil d’utilisation, etc. Or, une estimation précise du SoC permet de garantir une utilisation sûre de la batterie en évitant une surcharge ou surdécharge ; mais aussi d’estimer son autonomie. Dans cette étude, nous utilisons un modèle à espaces d'états gouverné par une chaîne de Markov cachée. Ce modèle est fondé sur des équations physiques et la chaîne de Markov cachée permet d’appréhender les différents «régimes de fonctionnement» de la batterie. Pour garantir l’unicité des paramètres du modèle, nous démontrons son identifiabilité à partir de contraintes simples et naturelles sur ses paramètres «physiques ». L’estimation du SoC dans un véhicule électrique doit être faîte en ligne et avec une puissance de calcul limitée. Nous estimons donc le SoC en utilisant une technique d’échantillonnage préférentiel séquentiel. D’autre part l’estimation des paramètres est faîte à partir d’une base d’apprentissage pour laquelle les états de la chaîne de Markov et le SoC ne sont pas observés. Nous développons et testons trois algorithmes adaptés à notre modèle à structure latente : un échantillonneur particulaire de Gibbs, un algorithme de Monte-Carlo EM pénalisé par des contraintes d’identifiabilité et un algorithme de Monte-Carlo EM pénalisé par une loi a priori. Par ailleurs les états cachés de la chaîne de Markov visent à modéliser les différents régimes du fonctionnement de la batterie. Nous identifions leur nombre par divers critères de sélection de modèles. Enfin, à partir de données issues de trois types de batteries (cellule, module et pack d’un véhicule électrique), notre modèle a permis d’appréhender les différentes sollicitations de la batterie et donne des estimations robustes et précises du SoC. / Electric batteries are omnipresent in our daily lives: computers, smartphones, etc. Batteries are important for anticipating the scarcity of fossil fuels and tackling their environmental impact. Therefore, estimating the State of Charge (SoC) of a battery is nowadays a challenging issue, as existing physical and statistical models are not yet robust. Indeed a battery is a complex electrochemical system. Its dynamic depends not only on its internal characteristics but also on uncontrolled usage conditions: temperature, usage profile, etc. However the SoC estimation helps to prevent overcharge and deep discharge, and to estimate the battery autonomy. In this study, the battery dynamics are described by a set of physical linear equations, switching randomly according to a Markov chain. This model is referred to as switching Markov state space model. To ensure the unicity of the model parameters, we prove its identifiability by applying straightforward and natural constraints on its “physical” parameters. Embedded applications, like electric vehicles, impose online estimated with hardware and time constraints. Therefore we estimate the SoC using a sequential importance sampling technique. Furthermore the model includes two latent variables: the SoC and the Markov chain state. Thus, to estimate the parameters, we develop and test three algorithms adapted to latent structure models: particle Gibbs sampler, Monte Carlo EM penalized with identifiability constraints, and Monte Carlo EM penalized with a prior distribution. The hidden Markov states aim to model the different “regimes” of the battery dynamics. We identify their number using different model selection criteria. Finally, when applied to various data from three battery types (cell, module and pack of an electric vehicle) our model allows us to analyze the battery dynamics and to obtain a robust and accurate SoC estimation under uncontrolled usage conditions. Apprentissage statistique Filtrage particulaire Algorithme EM Sélection de modèle Statistical learning State of charge of an electric battery Switching Markov State Space Model Patricle filter EM algorithm Model selection
54	Estimation du modèle GARCH à changement de régimes et son utilité pour quantifier le risque de modèle dans les applications financières en actuariat Augustyniak, Maciej 12 1900 (has links) Le modèle GARCH à changement de régimes est le fondement de cette thèse. Ce modèle offre de riches dynamiques pour modéliser les données financières en combinant une structure GARCH avec des paramètres qui varient dans le temps. Cette flexibilité donne malheureusement lieu à un problème de path dependence, qui a empêché l'estimation du modèle par le maximum de vraisemblance depuis son introduction, il y a déjà près de 20 ans. La première moitié de cette thèse procure une solution à ce problème en développant deux méthodologies permettant de calculer l'estimateur du maximum de vraisemblance du modèle GARCH à changement de régimes. La première technique d'estimation proposée est basée sur l'algorithme Monte Carlo EM et sur l'échantillonnage préférentiel, tandis que la deuxième consiste en la généralisation des approximations du modèle introduites dans les deux dernières décennies, connues sous le nom de collapsing procedures. Cette généralisation permet d'établir un lien méthodologique entre ces approximations et le filtre particulaire. La découverte de cette relation est importante, car elle permet de justifier la validité de l'approche dite par collapsing pour estimer le modèle GARCH à changement de régimes. La deuxième moitié de cette thèse tire sa motivation de la crise financière de la fin des années 2000 pendant laquelle une mauvaise évaluation des risques au sein de plusieurs compagnies financières a entraîné de nombreux échecs institutionnels. À l'aide d'un large éventail de 78 modèles économétriques, dont plusieurs généralisations du modèle GARCH à changement de régimes, il est démontré que le risque de modèle joue un rôle très important dans l'évaluation et la gestion du risque d'investissement à long terme dans le cadre des fonds distincts. Bien que la littérature financière a dévoué beaucoup de recherche pour faire progresser les modèles économétriques dans le but d'améliorer la tarification et la couverture des produits financiers, les approches permettant de mesurer l'efficacité d'une stratégie de couverture dynamique ont peu évolué. Cette thèse offre une contribution méthodologique dans ce domaine en proposant un cadre statistique, basé sur la régression, permettant de mieux mesurer cette efficacité. / The Markov-switching GARCH model is the foundation of this thesis. This model offers rich dynamics to model financial data by allowing for a GARCH structure with time-varying parameters. This flexibility is unfortunately undermined by a path dependence problem which has prevented maximum likelihood estimation of this model since its introduction, almost 20 years ago. The first half of this thesis provides a solution to this problem by developing two original estimation approaches allowing us to calculate the maximum likelihood estimator of the Markov-switching GARCH model. The first method is based on both the Monte Carlo expectation-maximization algorithm and importance sampling, while the second consists of a generalization of previously proposed approximations of the model, known as collapsing procedures. This generalization establishes a novel relationship in the econometric literature between particle filtering and collapsing procedures. The discovery of this relationship is important because it provides the missing link needed to justify the validity of the collapsing approach for estimating the Markov-switching GARCH model. The second half of this thesis is motivated by the events of the financial crisis of the late 2000s during which numerous institutional failures occurred because risk exposures were inappropriately measured. Using 78 different econometric models, including many generalizations of the Markov-switching GARCH model, it is shown that model risk plays an important role in the measurement and management of long-term investment risk in the context of variable annuities. Although the finance literature has devoted a lot of research into the development of advanced models for improving pricing and hedging performance, the approaches for measuring dynamic hedging effectiveness have evolved little. This thesis offers a methodological contribution in this area by proposing a statistical framework, based on regression analysis, for measuring the effectiveness of dynamic hedges for long-term investment guarantees. Économétrie financière Changement de régimes GARCH Maximum de vraisemblance Filtre particulaire Algorithme EM Risque de modèle Couverture dynamique Efficacité de la couverture Fonds distincts Financial econometrics Regime-switching GARCH Maximum likelihood Particle filtering EM algorithm Model risk Dynamic hedging Hedging effectiveness Variable annuities
55	Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique Chekouo Tekougang, Thierry 08 1900 (has links) Les simulations ont été implémentées avec le programme Java. / Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. Groupement Clustering Ontologie des gènes Gene Ontology Expression génétique gene expression Critère d’information de déviance Deviance information criterion Algorithme de Wang-Landau Wang-Landau algorithm modèle auto-logistique auto-logistic models Sélection des variables Variable selection modèle à carreaux plaid model Algorithme EM de Monte Carlo Monte Carlo EM algorithm Importance échantillonnale Importance Sampling
56	Estimation du modèle GARCH à changement de régimes et son utilité pour quantifier le risque de modèle dans les applications financières en actuariat Augustyniak, Maciej 12 1900 (has links) Le modèle GARCH à changement de régimes est le fondement de cette thèse. Ce modèle offre de riches dynamiques pour modéliser les données financières en combinant une structure GARCH avec des paramètres qui varient dans le temps. Cette flexibilité donne malheureusement lieu à un problème de path dependence, qui a empêché l'estimation du modèle par le maximum de vraisemblance depuis son introduction, il y a déjà près de 20 ans. La première moitié de cette thèse procure une solution à ce problème en développant deux méthodologies permettant de calculer l'estimateur du maximum de vraisemblance du modèle GARCH à changement de régimes. La première technique d'estimation proposée est basée sur l'algorithme Monte Carlo EM et sur l'échantillonnage préférentiel, tandis que la deuxième consiste en la généralisation des approximations du modèle introduites dans les deux dernières décennies, connues sous le nom de collapsing procedures. Cette généralisation permet d'établir un lien méthodologique entre ces approximations et le filtre particulaire. La découverte de cette relation est importante, car elle permet de justifier la validité de l'approche dite par collapsing pour estimer le modèle GARCH à changement de régimes. La deuxième moitié de cette thèse tire sa motivation de la crise financière de la fin des années 2000 pendant laquelle une mauvaise évaluation des risques au sein de plusieurs compagnies financières a entraîné de nombreux échecs institutionnels. À l'aide d'un large éventail de 78 modèles économétriques, dont plusieurs généralisations du modèle GARCH à changement de régimes, il est démontré que le risque de modèle joue un rôle très important dans l'évaluation et la gestion du risque d'investissement à long terme dans le cadre des fonds distincts. Bien que la littérature financière a dévoué beaucoup de recherche pour faire progresser les modèles économétriques dans le but d'améliorer la tarification et la couverture des produits financiers, les approches permettant de mesurer l'efficacité d'une stratégie de couverture dynamique ont peu évolué. Cette thèse offre une contribution méthodologique dans ce domaine en proposant un cadre statistique, basé sur la régression, permettant de mieux mesurer cette efficacité. / The Markov-switching GARCH model is the foundation of this thesis. This model offers rich dynamics to model financial data by allowing for a GARCH structure with time-varying parameters. This flexibility is unfortunately undermined by a path dependence problem which has prevented maximum likelihood estimation of this model since its introduction, almost 20 years ago. The first half of this thesis provides a solution to this problem by developing two original estimation approaches allowing us to calculate the maximum likelihood estimator of the Markov-switching GARCH model. The first method is based on both the Monte Carlo expectation-maximization algorithm and importance sampling, while the second consists of a generalization of previously proposed approximations of the model, known as collapsing procedures. This generalization establishes a novel relationship in the econometric literature between particle filtering and collapsing procedures. The discovery of this relationship is important because it provides the missing link needed to justify the validity of the collapsing approach for estimating the Markov-switching GARCH model. The second half of this thesis is motivated by the events of the financial crisis of the late 2000s during which numerous institutional failures occurred because risk exposures were inappropriately measured. Using 78 different econometric models, including many generalizations of the Markov-switching GARCH model, it is shown that model risk plays an important role in the measurement and management of long-term investment risk in the context of variable annuities. Although the finance literature has devoted a lot of research into the development of advanced models for improving pricing and hedging performance, the approaches for measuring dynamic hedging effectiveness have evolved little. This thesis offers a methodological contribution in this area by proposing a statistical framework, based on regression analysis, for measuring the effectiveness of dynamic hedges for long-term investment guarantees. Économétrie financière Changement de régimes GARCH Maximum de vraisemblance Filtre particulaire Algorithme EM Risque de modèle Couverture dynamique Efficacité de la couverture Fonds distincts Financial econometrics Regime-switching GARCH Maximum likelihood Particle filtering EM algorithm Model risk Dynamic hedging Hedging effectiveness Variable annuities
57	Specification analysis of interest rates factors : an international perspective / Une analyse de la spécification des facteurs des taux d'intérêts : Une perspective internationale Tiozzo Pezzoli, Luca 05 December 2013 (has links) Cette thèse concerne la modélisation de la dynamique des courbes des taux internationales avec prise en compte de plusieurs canaux de dépendance. A l’aide d’une nouvelle base de données des taux souverains internationaux, nous observons que le critère de la variabilité expliquée, proposé par la littérature, n’est pas capable de sélectionner une meilleure combinaison des facteurs décrivant la dynamique jointe des courbes des taux. Nous proposons une méthode nouvelle de section des facteurs fondée sur la maximisation de vraisemblance d’un modèle espace-état linéaire gaussien avec facteurs communs et locaux. Le problème d’identification associée est résolu d’une façon novatrice. En estimant différents combinaisons de pays, nous sélectionnons des deux facteurs globaux et trois locaux ayant un pouvoir prédictif des variables macro-économiques (activité économique et taux d’inflation) dans chaque économie considérée. Notre méthode nous permet aussi de détecter des facteurs cachés dans les rendements obligataires. Ils ne sont pas visibles à travers une analyse classique en composant principales des rendements obligataires et ils contribuent à la prévision du taux d’inflation et du taux de croissance de la production industrielle. / The aim of this thesis is to model the dynamics of international term structure of interest rates taking into consideration several dependence channels.Thanks to a new international Treasury yield curve database, we observe that the explained variability decision criterion, suggested by the literature, is not able to select the best combination of factors characterizing the joint dynamics of yield curves. We propose a new methodology based on the maximisation of the likelihood function of a Gaussian state-space model with common and local factors. The associated identification problem is solved in an innovative way. By estimating several sets of countries, we select two global (and three local) factors which are also useful to forecast macroeconomic variables in each considered economy.In addition, our method allows us to detect hidden factors in the international bond returns. They are not visible through a classical principal component analysis of expected bond returns but they are helpful to forecast inflation and industrial production. Keywords: International treasury yield curves, common and local factors, state-space models, EM algorithm, International bond risk premia, principal components. Courbes des taux internationales Facteurs communs et locaux Modèle espace-état Algorithme EM Rentabilités en excès des obligations Analyse en composantes principales Inflation Croissance économique International treasury yield curves Common and local factors State-space models EM algorithm International bond risk premia Principal components Inflation Economic growth 658.1
58	Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique Chekouo Tekougang, Thierry 08 1900 (has links) Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. / Les simulations ont été implémentées avec le programme Java. Groupement Clustering Ontologie des gènes Gene Ontology Expression génétique gene expression Critère d’information de déviance Deviance information criterion Algorithme de Wang-Landau Wang-Landau algorithm modèle auto-logistique auto-logistic models Sélection des variables Variable selection modèle à carreaux plaid model Algorithme EM de Monte Carlo Monte Carlo EM algorithm Importance échantillonnale Importance Sampling
59	Modélisation de la variabilité inter-individuelle dans les modèles de croissance de plantes et sélection de modèles pour la prévision Baey, Charlotte 28 February 2014 (has links) (PDF) La modélisation de la croissance des plantes a vu le jour à la fin du XXème siècle, à l'intersection de trois disciplines : l'agronomie, la botanique et l'informatique. Après un premier élan qui a donné naissance à un grand nombre de modèles, un deuxième courant a vu le jour au cours de la dernière décennie pour donner à ces modèles un formalisme mathématique et statistique. Les travaux développés dans cette thèse s'inscrivent dans cette démarche et proposent deux axes de développement, l'un autour de l'évaluation et de la comparaison de modèles, et l'autre autour de l'étude de la variabilité inter-plantes. Dans un premier temps, nous nous sommes intéressés à la capacité prédictive des modèles de croissance de plantes, en appliquant une méthodologie permettant de construire et d'évaluer des modèles qui seront utilisés comme outils prédictifs. Une première étape d'analyse de sensibilité permet d'identifier les paramètres les plus influents afin d'élaborer une version plus robuste de chaque modèle, puis les capacités prédictives des modèles sont comparées à l'aide de critères appropriés. %Cette étude a été appliquée au cas de la betterave sucrière. La deuxième partie de la thèse concerne la prise en compte de la variabilité inter-individuelle dans les populations de plantes. %Il existe en effet une forte variabilité entre plantes, d'origine génétique ou environnementale, dont il est nécessaire de tenir compte. Nous proposons dans cette thèse une approche basée sur l'utilisation de modèles (non linéaires) à effets mixtes pour caractériser cette variabilité. L'estimation paramétrique par maximum de vraisemblance nécessite l'utilisation de versions stochastiques de l'algorithme d'Espérance Maximisation basées sur des simulations de type Monte Carlo par Chaîne de Markov. Après une première application au cas de l'organogenèse chez la betterave sucrière, nous proposons une extension du modèle structure-fonction Greenlab à l'échelle de la population.%, appliqué aux cas de la betterave sucrière et du colza. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications modèles de croissance de plantes sélection de modèles modèles structure-fonction Greenlab modèles non linéaires mixtes méthodes MCMC algorithme EM stochastique
60	Analyse statistique de données fonctionnelles à structures complexes Adjogou, Adjobo Folly Dzigbodi 05 1900 (has links) No description available. Données longitudinales Partitionnement fonctionnel Classification non supervisée Modèles de mélange pour classification Analyse des données fonctionnelles Algorithme EM Statistique bayésienne Longitudinal data Functional clustering Model-based clustering Functional data analysis EM algorithm Bayesian framework Sparse longitudinal data Gene expression Mixture student PRRSV Lasso penalization

Search results