Global ETD Search

291	Recherche de structure dans un graphe aléatoire : modèles à espace latent / Clustering in a random graph : models with latent space Channarond, Antoine 10 December 2013 (has links) Cette thèse aborde le problème de la recherche d'une structure (ou clustering) dans lesnoeuds d'un graphe. Dans le cadre des modèles aléatoires à variables latentes, on attribue à chaque noeud i une variable aléatoire non observée (latente) Zi, et la probabilité de connexion des noeuds i et j dépend conditionnellement de Zi et Zj . Contrairement au modèle d'Erdos-Rényi, les connexions ne sont pas indépendantes identiquement distribuées; les variables latentes régissent la loi des connexions des noeuds. Ces modèles sont donc hétérogènes, et leur structure est décrite par les variables latentes et leur loi; ce pourquoi on s'attache à en faire l'inférence à partir du graphe, seule variable observée.La volonté commune des deux travaux originaux de cette thèse est de proposer des méthodes d'inférence de ces modèles, consistentes et de complexité algorithmique au plus linéaire en le nombre de noeuds ou d'arêtes, de sorte à pouvoir traiter de grands graphes en temps raisonnable. Ils sont aussi tous deux fondés sur une étude fine de la distribution des degrés, normalisés de façon convenable selon le modèle.Le premier travail concerne le Stochastic Blockmodel. Nous y montrons la consistence d'un algorithme de classiffcation non supervisée à l'aide d'inégalités de concentration. Nous en déduisons une méthode d'estimation des paramètres, de sélection de modèles pour le nombre de classes latentes, et un test de la présence d'une ou plusieurs classes latentes (absence ou présence de clustering), et nous montrons leur consistence.Dans le deuxième travail, les variables latentes sont des positions dans l'espace ℝd, admettant une densité f, et la probabilité de connexion dépend de la distance entre les positions des noeuds. Les clusters sont définis comme les composantes connexes de l'ensemble de niveau t > 0 fixé de f, et l'objectif est d'en estimer le nombre à partir du graphe. Nous estimons la densité en les positions latentes des noeuds grâce à leur degré, ce qui permet d'établir une correspondance entre les clusters et les composantes connexes de certains sous-graphes du graphe observé, obtenus en retirant les nœuds de faible degré. En particulier, nous en déduisons un estimateur du nombre de clusters et montrons saconsistence en un certain sens / .This thesis addresses the clustering of the nodes of a graph, in the framework of randommodels with latent variables. To each node i is allocated an unobserved (latent) variable Zi and the probability of nodes i and j being connected depends conditionally on Zi and Zj . Unlike Erdos-Renyi's model, connections are not independent identically distributed; the latent variables rule the connection distribution of the nodes. These models are thus heterogeneous and their structure is fully described by the latent variables and their distribution. Hence we aim at infering them from the graph, which the only observed data.In both original works of this thesis, we propose consistent inference methods with a computational cost no more than linear with respect to the number of nodes or edges, so that large graphs can be processed in a reasonable time. They both are based on a study of the distribution of the degrees, which are normalized in a convenient way for the model.The first work deals with the Stochastic Blockmodel. We show the consistency of an unsupervised classiffcation algorithm using concentration inequalities. We deduce from it a parametric estimation method, a model selection method for the number of latent classes, and a clustering test (testing whether there is one cluster or more), which are all proved to be consistent. In the second work, the latent variables are positions in the ℝd space, having a density f. The connection probability depends on the distance between the node positions. The clusters are defined as connected components of some level set of f. The goal is to estimate the number of such clusters from the observed graph only. We estimate the density at the latent positions of the nodes with their degree, which allows to establish a link between clusters and connected components of some subgraphs of the observed graph, obtained by removing low degree nodes. In particular, we thus derive an estimator of the cluster number and we also show the consistency in some sense. Statistiques Graphes aléatoires Stochastic Blockmodel Clustering Classification non supervisée Estimation non-paramétrique Sélection de modèles Linkage Estimation non-paramétrique Ensembles de niveau Statistics Random graphs Stochastic Blockmodel Hidden or latent variables models Clustering Unsupervised classification Parametric estimation Model selection Linkage Non-parametric estimation Level sets
292	Wind energy analysis and change point analysis / Analyse de l'énergie éolienne et analyse des points de changement Haouas, Nabiha 28 February 2015 (has links) L’énergie éolienne, l’une des énergies renouvelables les plus compétitives, est considérée comme une solution qui remédie aux inconvénients de l’énergie fossile. Pour une meilleure gestion et exploitation de cette énergie, des prévisions de sa production s’avèrent nécessaires. Les méthodes de prévisions utilisées dans la littérature permettent uniquement une prévision de la moyenne annuelle de cette production. Certains travaux récents proposent l’utilisation du Théorème Central Limite (TCL), sous des hypothèses non classiques, pour l’estimation de la production annuelle moyenne de l’énergie éolienne ainsi que sa variance pour une seule turbine. Nous proposons dans cette thèse une extension de ces travaux à un parc éolien par relaxation de l’hypothèse de stationnarité la vitesse du vent et la production d’énergie, en supposant que ces dernières sont saisonnières. Sous cette hypothèse la qualité de la prévision annuelle s’améliore considérablement. Nous proposons aussi de prévoir la production d’énergie éolienne au cours des quatre saisons de l’année. L’utilisation du modèle fractal, nous permet de trouver une division ”naturelle” de la série de la vitesse du vent afin d’affiner l’estimation de la production éolienne en détectant les points de ruptures. Dans les deux derniers chapitres, nous donnons des outils statistiques de la détection des points de ruptures et d’estimation des modèles fractals. / The wind energy, one of the most competitive renewable energies, is considered as a solution which remedies the inconveniences of the fossil energy. For a better management and an exploitation of this energy, forecasts of its production turn out to be necessary. The methods of forecasts used in the literature allow only a forecast of the annual mean of this production. Certain recent works propose the use of the Central Limit Theorem (CLT), under not classic hypotheses, for the estimation of the mean annual production of the wind energy as well as its variance for a single turbine. We propose in this thesis, an extension of these works in a wind farm by relaxation of the hypothesis of stationarity the wind speed and the power production, supposing that the latter are seasonal. Under this hypothesis the quality of the annual forecast improves considerably. We also suggest planning the wind power production during four seasons of the year. The use of the fractal model, allows us to find a "natural" division of the series of the wind speed to refine the estimation of the wind production by detecting abrupt change points. Statistical tools of the change points detection and the estimation of fractal models are presented in the last two chapters. Parc éolien Vitesse du vent Énergie éolienne Prévisions Saisonnalité Intraday Saisonnalité Extraday Pré-production Post-production Points de changement Dérivée Filtrée FDqV FDR FBm MBm parcimonieux Indice de Hurst Wind farm Wind speed Wind power Forecasting Intraday seasonality Extraday seasonality Pre-production Post-production Change point analysis Model selection Filtered derivative FDqV FDR FBm Sparse mBm Hurst index
293	Models in Neutrino Physics : Numerical and Statistical Studies Bergström, Johannes January 2013 (has links) The standard model of particle physics can excellently describe the vast majorityof data of particle physics experiments. However, in its simplest form, it cannot account for the fact that the neutrinos are massive particles and lepton flavorsmixed, as required by the observation of neutrino oscillations. Hence, the standardmodel must be extended in order to account for these observations, opening up thepossibility to explore new and interesting physical phenomena. There are numerous models proposed to accommodate massive neutrinos. Thesimplest of these are able to describe the observations using only a small numberof effective parameters. Furthermore, neutrinos are the only known existing particleswhich have the potential of being their own antiparticles, a possibility that isactively being investigated through experiments on neutrinoless double beta decay.In this thesis, we analyse these simple models using Bayesian inference and constraintsfrom neutrino-related experiments, and we also investigate the potential offuture experiments on neutrinoless double beta decay to probe other kinds of newphysics. In addition, more elaborate theoretical models of neutrino masses have beenproposed, with the seesaw models being a particularly popular group of models inwhich new heavy particles generate neutrino masses. We study low-scale seesawmodels, in particular the resulting energy-scale dependence of the neutrino parameters,which incorporate new particles with masses within the reach of current andfuture experiments, such as the LHC. / Standardmodellen för partikelfysik beskriver den stora majoriteten data från partikelfysikexperimentutmärkt. Den kan emellertid inte i sin enklaste form beskrivadet faktum att neutriner är massiva partiklar och leptonsmakerna är blandande,vilket krävs enligt observationerna av neutrinooscillationer. Därför måste standardmodellenutökas för att ta hänsyn till detta, vilket öppnar upp möjligheten att utforska nya och intressanta fysikaliska fenomen. Det finns många föreslagna modeller för massiva neutriner. De enklaste av dessakan beskriva observationerna med endast ett fåtal effektiva parametrar. Dessutom är neutriner de enda kända befintliga partiklar som har potentialen att vara sinaegna antipartiklar, en möjlighet som aktivt undersöks genom experiment på neutrinolöst dubbelt betasönderfall. I denna avhandling analyserar vi dessa enkla modellermed Bayesisk inferens och begränsningar från neutrinorelaterade experiment och undersöker även potentialen för framtida experiment på neutrinolöst dubbelt betasönderfall att bergänsa andra typer av ny fysik. Även mer avancerade teoretiska modeller för neutrinomassor har föreslagits, med seesawmodeller som en särskilt populär grupp av modeller där nya tunga partiklargenererar neutrinomassor. Vi studerar seesawmodeller vid låga energier, i synnerhetneutrinoparametrarnas resulterande energiberoende, vilka inkluderar nya partiklarmed massor inom räckh°all för nuvarande och framtida experiment såsom LHC. / <p>QC 20130830</p> Neutrino mass lepton mixing Majorana neutrinos neutrino oscillations neutrinoless double beta decay statistical methods Bayesian inference model selection effective field theory Weinberg operator seesaw models inverse seesaw right-handed neutrinos renormalization group threshold effects. Neutrinomassor leptonblandning Majorananeutriner neutrinooscillationer neutrinol¨ost dubbelt betas¨onderfall statistiska metoder Bayesisk inferens modellval effektiv f¨altteori Weinbergoperator seesawmodeller invers seesaw högerhänta neutriner renormeringsgrupp tröskeleffekter.
294	Choix de portefeuille de grande taille et mesures de risque pour preneurs de décision pessimistes Noumon, Codjo Nérée Gildas Maxime 08 1900 (has links) Cette thèse de doctorat consiste en trois chapitres qui traitent des sujets de choix de portefeuilles de grande taille, et de mesure de risque. Le premier chapitre traite du problème d’erreur d’estimation dans les portefeuilles de grande taille, et utilise le cadre d'analyse moyenne-variance. Le second chapitre explore l'importance du risque de devise pour les portefeuilles d'actifs domestiques, et étudie les liens entre la stabilité des poids de portefeuille de grande taille et le risque de devise. Pour finir, sous l'hypothèse que le preneur de décision est pessimiste, le troisième chapitre dérive la prime de risque, une mesure du pessimisme, et propose une méthodologie pour estimer les mesures dérivées. Le premier chapitre améliore le choix optimal de portefeuille dans le cadre du principe moyenne-variance de Markowitz (1952). Ceci est motivé par les résultats très décevants obtenus, lorsque la moyenne et la variance sont remplacées par leurs estimations empiriques. Ce problème est amplifié lorsque le nombre d’actifs est grand et que la matrice de covariance empirique est singulière ou presque singulière. Dans ce chapitre, nous examinons quatre techniques de régularisation pour stabiliser l’inverse de la matrice de covariance: le ridge, spectral cut-off, Landweber-Fridman et LARS Lasso. Ces méthodes font chacune intervenir un paramètre d’ajustement, qui doit être sélectionné. La contribution principale de cette partie, est de dériver une méthode basée uniquement sur les données pour sélectionner le paramètre de régularisation de manière optimale, i.e. pour minimiser la perte espérée d’utilité. Précisément, un critère de validation croisée qui prend une même forme pour les quatre méthodes de régularisation est dérivé. Les règles régularisées obtenues sont alors comparées à la règle utilisant directement les données et à la stratégie naïve 1/N, selon leur perte espérée d’utilité et leur ratio de Sharpe. Ces performances sont mesurée dans l’échantillon (in-sample) et hors-échantillon (out-of-sample) en considérant différentes tailles d’échantillon et nombre d’actifs. Des simulations et de l’illustration empirique menées, il ressort principalement que la régularisation de la matrice de covariance améliore de manière significative la règle de Markowitz basée sur les données, et donne de meilleurs résultats que le portefeuille naïf, surtout dans les cas le problème d’erreur d’estimation est très sévère. Dans le second chapitre, nous investiguons dans quelle mesure, les portefeuilles optimaux et stables d'actifs domestiques, peuvent réduire ou éliminer le risque de devise. Pour cela nous utilisons des rendements mensuelles de 48 industries américaines, au cours de la période 1976-2008. Pour résoudre les problèmes d'instabilité inhérents aux portefeuilles de grandes tailles, nous adoptons la méthode de régularisation spectral cut-off. Ceci aboutit à une famille de portefeuilles optimaux et stables, en permettant aux investisseurs de choisir différents pourcentages des composantes principales (ou dégrées de stabilité). Nos tests empiriques sont basés sur un modèle International d'évaluation d'actifs financiers (IAPM). Dans ce modèle, le risque de devise est décomposé en deux facteurs représentant les devises des pays industrialisés d'une part, et celles des pays émergents d'autres part. Nos résultats indiquent que le risque de devise est primé et varie à travers le temps pour les portefeuilles stables de risque minimum. De plus ces stratégies conduisent à une réduction significative de l'exposition au risque de change, tandis que la contribution de la prime risque de change reste en moyenne inchangée. Les poids de portefeuille optimaux sont une alternative aux poids de capitalisation boursière. Par conséquent ce chapitre complète la littérature selon laquelle la prime de risque est importante au niveau de l'industrie et au niveau national dans la plupart des pays. Dans le dernier chapitre, nous dérivons une mesure de la prime de risque pour des préférences dépendent du rang et proposons une mesure du degré de pessimisme, étant donné une fonction de distorsion. Les mesures introduites généralisent la mesure de prime de risque dérivée dans le cadre de la théorie de l'utilité espérée, qui est fréquemment violée aussi bien dans des situations expérimentales que dans des situations réelles. Dans la grande famille des préférences considérées, une attention particulière est accordée à la CVaR (valeur à risque conditionnelle). Cette dernière mesure de risque est de plus en plus utilisée pour la construction de portefeuilles et est préconisée pour compléter la VaR (valeur à risque) utilisée depuis 1996 par le comité de Bâle. De plus, nous fournissons le cadre statistique nécessaire pour faire de l’inférence sur les mesures proposées. Pour finir, les propriétés des estimateurs proposés sont évaluées à travers une étude Monte-Carlo, et une illustration empirique en utilisant les rendements journaliers du marché boursier américain sur de la période 2000-2011. / This thesis consists of three chapters on the topics of portfolio choice in a high-dimensional context, and risk measurement. The first chapter addresses the estimation error issue that arises when constructing large portfolios in the mean-variance framework. The second chapter investigates the relevance of currency risk for optimal domestic portfolios, evaluates their ability of to diversify away currency risk, and study the links between portfolio weights stability and currency risk. Finally, under the assumption that decision makers are pessimistic, the third chapter derives the risk premium, propose a measure of the degree of pessimism, and provide a statistical framework for their estimation. The first chapter improves the performance of the optimal portfolio weig-hts obtained under the mean-variance framework of Markowitz (1952). Indeed, these weights give unsatisfactory results, when the mean and variance are replaced by their sample counterparts (plug-in rules). This problem is amplified when the number of assets is large and the sample covariance is singular or nearly singular. The chapter investigates four regularization techniques to stabilizing the inverse of the covariance matrix: the ridge, spectral cut-off, Landweber-Fridman, and LARS Lasso. These four methods involve a tuning parameter that needs to be selected. The main contribution is to derive a data-based method for selecting the tuning parameter in an optimal way, i.e. in order to minimize the expected loss in utility of a mean-variance investor. The cross-validation type criterion derived is found to take a similar form for the four regularization methods. The resulting regularized rules are compared to the sample-based mean-variance portfolio and the naive 1/N strategy in terms of in-sample and out-of-sample Sharpe ratio and expected loss in utility. The main finding is that regularization to covariance matrix significantly improves the performance of the mean-variance problem and outperforms the naive portfolio, especially in ill-posed cases, as suggested by our simulations and empirical studies. In the second chapter, we investigate the extent to which optimal and stable portfolios of domestic assets can reduce or eliminate currency risk. This is done using monthly returns on 48 U.S. industries, from 1976 to 2008. To tackle the instabilities inherent to large portfolios, we use the spectral cut-off regularization described in Chapter 1. This gives rise to a family of stable global minimum portfolios that allows investors to select different percentages of principal components for portfolio construction. Our empirical tests are based on a conditional International Asset Pricing Model (IAPM), augmented with the size and book-to-market factors of Fama and French (1993). Using two trade-weighted currency indices of industrialized countries currencies and emerging markets currencies, we find that currency risk is priced and time-varying for global minimum portfolios. These strategies also lead to a significant reduction in the exposure to currency risk, while keeping the average premium contribution to total premium approximately the same. The global minimum weights considered are an alternative to market capitalization weights used in the U.S. market index. Therefore, our findings complement the well established results that currency risk is significantly priced and economically meaningful at the industry and country level in most countries. Finally, the third chapter derives a measure of the risk premium for rank-dependent preferences and proposes a measure of the degree of pessimism, given a distortion function. The introduced measures generalize the common risk measures derived in the expected utility theory framework, which is frequently violated in both experimental and real-life situations. These measures are derived in the neighborhood of a given random loss variable, using the notion of local utility function. A particular interest is devoted to the CVaR, which is now widely used for asset allocation and has been advocated to complement the Value-at-risk (VaR) proposed since 1996 by the Basel Committee on Banking Supervision. We provide the statistical framework needed to conduct inference on the derived measures. Finally, the proposed estimators Portfolio selection International asset pricing Risk premium Regularization Estimation error Mean-variance analysis Currency risk Model selection Pessimism Sélection de portefeuille Prime de risque Erreur d’estimation Analyse moyenne-variance Risque de devise Technique de regularization Pessimisme Selection de modèle Modèle d’évaluation d’actifs
295	Améliorer les connaissances sur les processus écologiques régissant les dynamiques de populations d'auxiliaires de culture : modélisation couplant paysages et populations pour l'aide à l'échantillonnage biologique dans l'espace et le temps / Improving knowledge about ecological processes underlying natural enemies population dynamics : coupling landscape and population modelling to optimise biological sampling in space and time Bellot, Benoit 18 April 2018 (has links) Une alternative prometteuse à la lutte chimique pour la régulation des ravageurs de culture consiste à favoriser les populations de leurs prédateurs en jouant sur la structure du paysage agricole. L'identification de structures spatio-temporelles favorables aux ennemis naturels peut se faire par l'exploration de scénarios paysagers via une modélisation couplée de paysages et de dynamiques de population. Dans cette approche, les dynamiques de populations sont simulées sur des paysages virtuels aux propriétés structurales contrôlées, et l'observation des motifs de populations associés permet l'identification de structures favorables. La modélisation des dynamiques de populations repose cependant sur une connaissance fine des processus écologiques et de leur variabilité entre les différentes unités du paysage. L'état actuel des connaissances sur les mécanismes écologiques régissant les dynamiques des ennemis naturels de la famille des carabidés demeure l'obstacle majeur à la recherche in silico de scénarios paysagers favorables. La littérature sur les liens entre motifs de population de carabes et variables paysagères permet de formuler un ensemble d'hypothèses en compétition sur ces mécanismes. Réduire le nombre de ces hypothèses en analysant les convergences entre les motifs de population qui leur sont associés, et étudier la stabilité de ces convergences le long d'un gradient paysager apparaît comme une première étape nécessaire vers l'amélioration de la connaissance sur les processus écologiques. Dans une première partie, nous proposons une heuristique méthodologique basée sur la simulation de modèles de réaction-diffusion porteurs de ces hypothèses en compétition. L'étude des motifs de population a permis d'effectuer une typologie des modèles en fonction de leur réponse à une variable paysagère, via un algorithme de classification, réduisant ainsi le nombre d’hypothèses en compétition. La sélection de l'hypothèse la plus plausible parmi cet ensemble irréductible doit s'effectuer sur la base d'une observation des motifs de population sur le terrain. Cela implique que ces derniers soient caractérisés à des résolutions spatiales et temporelles suffisantes pour sélectionner une unique hypothèse parmi celles en compétition. Dans la deuxième partie, nous proposons une heuristique méthodologique permettant de déterminer a priori des stratégies d'échantillonnage maximisant la robustesse de la sélection d'hypothèses écologiques. Dans un premier temps, la simulation de modèles de réaction-diffusion représentatifs des hypothèses écologiques en compétition permet de générer des données biologiques virtuelles en tout point de l'espace et du temps. Ces données biologiques sont ensuite échantillonnées suivant des protocoles différant dans l'effort total d'échantillonnage, le nombre de dates, le nombre de points par unité d'espace et le nombre de réplicats de paysages. Les motifs des populations sont caractérisés à partir de ces échantillons. Le potentiel des stratégies d'échantillonnage est évalué via un algorithme de classification qui classe les modèles biologiques selon les motifs de population associés. L'analyse des performances de classification, i.e. la capacité de l'algorithme à discriminer les processus écologiques, permet de sélectionner un protocole d'échantillonnage optimal. Nous montrons également que la manière de distribuer l'effort d'échantillonnage entre ses composantes spatiales et temporelles est un levier majeur sur l'inférence des processus écologiques. La réduction du nombre d'hypothèses en compétition et l'aide à l'échantillonnage pour la sélection de modèles répondent à un besoin fort dans le processus d'acquisition de connaissances écologiques pour l'exploration in silico de scénarios paysagers favorisant des services écosystémiques. Nous discutons dans une dernière partie des implications de nos travaux et de leurs perspectives d'amélioration. / A promising alternative to the chemical control of pests consists in favoring their natural enemies populations by managing the agricultural landscape structure. Identifying favorable spatio-temporal structures can be performed through the exploration of landscape scenarios using coupled models of landscapes and population dynamics. In this approach, population dynamics are simulated on virtual landscapes with controlled properties, and the observation of population patterns allows for the identification of favorable structures. Population modeling however relies on a good knowledge about the ecological processes and their variability within the landscape elements. Current state of knowledge about the ecological mechanisms underlying natural enemies’ of the carabid family population dynamics remains a major obstacle to in silico investigation of favorable landscape scenarios. Literature about the relationship between carabid population and landscape properties allows the formulation of competing hypotheses about these processes. Reducing the number of these hypotheses by analyzing the convergence between their associated population patterns and investigating the stability of their convergence along a landscape gradient appears to be a necessary tep towards a better knowledge about ecological processes. In a first step, we propose a heuristic method based on the simulation of reaction-diffusion models carrying these competing hypotheses. Comparing the population patterns allowed to set a model typology according to their response to the landscape variable, through a classification algorithm, thus reducing the initial number of competing hypotheses. The selection of the most likely hypothesis from this irreducible set must rely on the observation of population patterns on the field. This implies that population patterns are described with spatial and temporal resolutions that are fine enough to select a unique hypothesis among the ones in competition. In the second part, we propose a heuristic method that allows determining a priori sampling strategies that maximize the robustness of ecological hypotheses selection. The simulation of reaction-diffusion models carrying the ecological hypotheses allows to generate virtual population data in space and time. These data are then sampled using strategies differing in the total effort, number of sampling locations, dates and landscape replicates. Population patterns are described from these samples. The sampling strategies are assessed through a classification algorithm that classifies the models according to the associated patterns. The analysis of classification performances, i.e. the ability of the algorithm to discriminate the ecological processes, allows the selection of optimal sampling designs. We also show that the way the sampling effort is distributed between its spatial and temporal components is strongly impacting the ecological processes inference. Reducing the number of competing ecological hypotheses, along with the selection of sampling strategies for optimal model inference both meet a strong need in the process of knowledge improvement about the ecological processes for the exploration of landscape scenarios favoring ecosystem services. In the last chapter, we discuss the implications and future prospects of our work. Écologie du paysage Services écosystémiques Régulation de ravageurs Modélisation de paysages Dynamiques de population Réaction-Diffusion Sélection de modèles Inférence des processus écologiques Algorithme de classification Échantillonnage spatio-Temporel Carabidés Landscape ecology Ecosystem services Pest management Landscape modelling Population dynamics Reaction-Diffusion Model selection Ecological processes inference Classification algorithm Spatio-Temporal sampling Carabids
296	Ensaios sobre a estrutura a termo da taxa de juros Glasman, Daniela Kubudi 25 February 2013 (has links) Submitted by Daniela Kubudi Glasman (dkubudi@gmail.com) on 2014-06-23T17:18:45Z No. of bitstreams: 1 tese_DanielaKubudi_final.pdf: 1329488 bytes, checksum: 78a5e9b2527544313ec47b6425dbeb07 (MD5) / Approved for entry into archive by BRUNA BARROS (bruna.barros@fgv.br) on 2014-10-27T16:31:57Z (GMT) No. of bitstreams: 1 tese_DanielaKubudi_final.pdf: 1329488 bytes, checksum: 78a5e9b2527544313ec47b6425dbeb07 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2014-11-13T13:38:37Z (GMT) No. of bitstreams: 1 tese_DanielaKubudi_final.pdf: 1329488 bytes, checksum: 78a5e9b2527544313ec47b6425dbeb07 (MD5) / Made available in DSpace on 2014-11-13T13:39:30Z (GMT). No. of bitstreams: 1 tese_DanielaKubudi_final.pdf: 1329488 bytes, checksum: 78a5e9b2527544313ec47b6425dbeb07 (MD5) Previous issue date: 2013-02-25 / This thesis consists of three works that analyses the term structure of interest rates using different datasets and models. Chapter 1 proposes a parametric interest rate model that allows for segmentation and local shocks in the term structure. Adopting U.S. Treasury data, two versions of this segmented model are implemented. Based on a sequence of 142 forecasting experiments, the proposed models are compared to established benchrnarks and find that they outperform in out-of-sample forecasting results, specially for short-term maturities and for the 12-month horizon forecast. Chapter 2 adds no-arbitrage restrictions when estimating a dynamic gaussian polynomial term structure model for the Brazilian interest rate market. This article propose an important approximation of the time series of term structure risk factors, that allows to extract the risk premium embedded in interest rate zero coupon instruments without having to run a fui! optimization of a dynamic model. This methodology has the advantage to be easily implemented and provides a good approximation for the term structure risk premia that can be used in many applications. Chapter 3 models the joint dynamic of nominal and real yields using an affine macro-finance no-arbitrage term structure model in order to decompose the break even inflation rates into inflation risk premiums and inflation expectations in the US market. The Yields-Only and the Macro version of this model are implemented and the estimated inflation risk premiums obtained are small and quite stable during the sample period, but have differences when comparing the two versions of the model. / Esta tese é composta de três artigos que analisam a estrutura a termo das taxas de juros usando diferentes bases de dados e modelos. O capítulo 1 propõe um modelo paramétrico de taxas de juros que permite a segmentação e choques locais na estrutura a termo. Adotando dados do tesouro americano, duas versões desse modelo segmentado são implementadas. Baseado em uma sequência de 142 experimentos de previsão, os modelos propostos são comparados à benchmarks e concluí-se que eles performam melhor nos resultados das previsões fora da amostra, especialmente para as maturidades curtas e para o horizonte de previsão de 12 meses. O capítulo 2 acrescenta restrições de não arbitragem ao estimar um modelo polinomial gaussiano dinâmico de estrutura a termo para o mercado de taxas de juros brasileiro. Esse artigo propõe uma importante aproximação para a série temporal dos fatores de risco da estrutura a termo, que permite a extração do prêmio de risco das taxas de juros sem a necessidade de otimização de um modelo dinâmico completo. Essa metodologia tem a vantagem de ser facilmente implementada e obtém uma boa aproximação para o prêmio de risco da estrutura a termo, que pode ser usada em diferentes aplicações. O capítulo 3 modela a dinâmica conjunta das taxas nominais e reais usando um modelo afim de não arbitagem com variáveis macroeconômicas para a estrutura a termo, afim de decompor a diferença entre as taxas nominais e reais em prêmio de risco de inflação e expectativa de inflação no mercado americano. Uma versão sem variáveis macroeconômicas e uma versão com essas variáveis são implementadas e os prêmios de risco de inflação obtidos são pequenos e estáveis no período analisado, porém possuem diferenças na comparação dos dois modelos analisados. Term structure of interest rates Parametric models Affine models Preferred-habitat theory Error Correction Models Model selection Exponential splines Local shocks Time series analysis Inflation expectations Estrutura a termo das taxas de juros Modelos paramétricos Modelos afins Teoria da preferência por habitat Modelo de correção de erros Seleção de modelos Splines exponenciais Choques locais Análise de séries temporais Expectativa de inflação Economia Taxas de juros - Modelos matemáticos Análise de séries temporais Inflação
297	[en] VARIABLE SELECTION FOR LINEAR AND SMOOTH TRANSITION MODELS VIA LASSO: COMPARISONS, APPLICATIONS AND NEW METHODOLOGY / [pt] SELEÇÃO DE VARIÁVEIS PARA MODELOS LINEARES E DE TRANSIÇÃO SUAVE VIA LASSO: COMPARAÇÕES, APLICAÇÕES E NOVA METODOLOGIA CAMILA ROSA EPPRECHT 10 June 2016 (has links) [pt] A seleção de variáveis em modelos estatísticos é um problema importante, para o qual diferentes soluções foram propostas. Tradicionalmente, pode-se escolher o conjunto de variáveis explicativas usando critérios de informação ou informação à priori, mas o número total de modelos a serem estimados cresce exponencialmente a medida que o número de variáveis candidatas aumenta. Um problema adicional é a presença de mais variáveis candidatas que observações. Nesta tese nós estudamos diversos aspectos do problema de seleção de variáveis. No Capítulo 2, comparamos duas metodologias para regressão linear: Autometrics, que é uma abordagem geral para específico (GETS) baseada em testes estatísticos, e LASSO, um método de regularização. Diferentes cenários foram contemplados para a comparação no experimento de simulação, variando o tamanho da amostra, o número de variáveis relevantes e o número de variáveis candidatas. Em uma aplicação a dados reais, os métodos foram comparados para a previsão do PIB dos EUA. No Capítulo 3, introduzimos uma metodologia para seleção de variáveis em modelos regressivos e autoregressivos de transição suave (STR e STAR) baseada na regularização do LASSO. Apresentamos uma abordagem direta e uma escalonada (stepwise). Ambos os métodos foram testados com exercícios de simulação exaustivos e uma aplicação a dados genéticos. Finalmente, no Capítulo 4, propomos um critério de mínimos quadrados penalizado baseado na penalidade l1 do LASSO e no CVaR (Conditional Value at Risk) dos erros da regressão out-of-sample. Este é um problema de otimização quadrática resolvido pelo método de pontos interiores. Em um estudo de simulação usando modelos de regressão linear, mostra-se que o método proposto apresenta performance superior a do LASSO quando os dados são contaminados por outliers, mostrando ser um método robusto de estimação e seleção de variáveis. / [en] Variable selection in statistical models is an important problem, for which many different solutions have been proposed. Traditionally, one can choose the set of explanatory variables using information criteria or prior information, but the total number of models to evaluate increases exponentially as the number of candidate variables increases. One additional problem is the presence of more candidate variables than observations. In this thesis we study several aspects of the variable selection problem. First, we compare two procedures for linear regression: Autometrics, which is a general-to-specific (GETS) approach based on statistical tests, and LASSO, a shrinkage method. Different scenarios were contemplated for the comparison in a simulation experiment, varying the sample size, the number of relevant variables and the number of candidate variables. In a real data application, we compare the methods for GDP forecasting. In a second part, we introduce a variable selection methodology for smooth transition regressive (STR) and autoregressive (STAR) models based on LASSO regularization. We present a direct and a stepwise approach. Both methods are tested with extensive simulation exercises and an application to genetic data. Finally, we introduce a penalized least square criterion based on the LASSO l1- penalty and the CVaR (Conditional Value at Risk) of the out-of-sample regression errors. This is a quadratic optimization problem solved by interior point methods. In a simulation study in a linear regression framework, we show that the proposed method outperforms the LASSO when the data is contaminated by outliers, showing to be a robust method of estimation and variable selection. [pt] SELECAO DE VARIAVEIS [en] SELECTION OF VARIABLES [pt] CVAR [pt] LASSO [en] LASSO [pt] INTERACOES [en] INTERACTIONS [pt] SELECAO DE MODELOS [en] MODEL SELECTION [pt] AUTOMETRICS [en] AUTOMETRICS [pt] ADALASSO [en] ADALASSO [pt] PROPRIEDADE DE ORACULO [en] ORACLE PROPERTY [pt] MODELOS DE TRANSICAO SUAVE [en] SMOOTH TRANSITION MODELS [pt] DADOS GENETICOS [en] GENETIC DATA
298	Learning in wireless sensor networks for energy-efficient environmental monitoring / Apprentissage dans les réseaux de capteurs pour une surveillance environnementale moins coûteuse en énergie Le Borgne, Yann-Aël 30 April 2009 (has links) Wireless sensor networks form an emerging class of computing devices capable of observing the world with an unprecedented resolution, and promise to provide a revolutionary instrument for environmental monitoring. Such a network is composed of a collection of battery-operated wireless sensors, or sensor nodes, each of which is equipped with sensing, processing and wireless communication capabilities. Thanks to advances in microelectronics and wireless technologies, wireless sensors are small in size, and can be deployed at low cost over different kinds of environments in order to monitor both over space and time the variations of physical quantities such as temperature, humidity, light, or sound. <p><p>In environmental monitoring studies, many applications are expected to run unattended for months or years. Sensor nodes are however constrained by limited resources, particularly in terms of energy. Since communication is one order of magnitude more energy-consuming than processing, the design of data collection schemes that limit the amount of transmitted data is therefore recognized as a central issue for wireless sensor networks.<p><p>An efficient way to address this challenge is to approximate, by means of mathematical models, the evolution of the measurements taken by sensors over space and/or time. Indeed, whenever a mathematical model may be used in place of the true measurements, significant gains in communications may be obtained by only transmitting the parameters of the model instead of the set of real measurements. Since in most cases there is little or no a priori information about the variations taken by sensor measurements, the models must be identified in an automated manner. This calls for the use of machine learning techniques, which allow to model the variations of future measurements on the basis of past measurements.<p><p>This thesis brings two main contributions to the use of learning techniques in a sensor network. First, we propose an approach which combines time series prediction and model selection for reducing the amount of communication. The rationale of this approach, called adaptive model selection, is to let the sensors determine in an automated manner a prediction model that does not only fits their measurements, but that also reduces the amount of transmitted data. <p><p>The second main contribution is the design of a distributed approach for modeling sensed data, based on the principal component analysis (PCA). The proposed method allows to transform along a routing tree the measurements taken in such a way that (i) most of the variability in the measurements is retained, and (ii) the network load sustained by sensor nodes is reduced and more evenly distributed, which in turn extends the overall network lifetime. The framework can be seen as a truly distributed approach for the principal component analysis, and finds applications not only for approximated data collection tasks, but also for event detection or recognition tasks. <p><p>/<p><p>Les réseaux de capteurs sans fil forment une nouvelle famille de systèmes informatiques permettant d'observer le monde avec une résolution sans précédent. En particulier, ces systèmes promettent de révolutionner le domaine de l'étude environnementale. Un tel réseau est composé d'un ensemble de capteurs sans fil, ou unités sensorielles, capables de collecter, traiter, et transmettre de l'information. Grâce aux avancées dans les domaines de la microélectronique et des technologies sans fil, ces systèmes sont à la fois peu volumineux et peu coûteux. Ceci permet leurs deploiements dans différents types d'environnements, afin d'observer l'évolution dans le temps et l'espace de quantités physiques telles que la température, l'humidité, la lumière ou le son.<p><p>Dans le domaine de l'étude environnementale, les systèmes de prise de mesures doivent souvent fonctionner de manière autonome pendant plusieurs mois ou plusieurs années. Les capteurs sans fil ont cependant des ressources limitées, particulièrement en terme d'énergie. Les communications radios étant d'un ordre de grandeur plus coûteuses en énergie que l'utilisation du processeur, la conception de méthodes de collecte de données limitant la transmission de données est devenue l'un des principaux défis soulevés par cette technologie. <p><p>Ce défi peut être abordé de manière efficace par l'utilisation de modèles mathématiques modélisant l'évolution spatiotemporelle des mesures prises par les capteurs. En effet, si un tel modèle peut être utilisé à la place des mesures, d'importants gains en communications peuvent être obtenus en utilisant les paramètres du modèle comme substitut des mesures. Cependant, dans la majorité des cas, peu ou aucune information sur la nature des mesures prises par les capteurs ne sont disponibles, et donc aucun modèle ne peut être a priori défini. Dans ces cas, les techniques issues du domaine de l'apprentissage machine sont particulièrement appropriées. Ces techniques ont pour but de créer ces modèles de façon autonome, en anticipant les mesures à venir sur la base des mesures passées. <p><p>Dans cette thèse, deux contributions sont principalement apportées permettant l'applica-tion de techniques d'apprentissage machine dans le domaine des réseaux de capteurs sans fil. Premièrement, nous proposons une approche qui combine la prédiction de série temporelle avec la sélection de modèles afin de réduire la communication. La logique de cette approche, appelée sélection de modèle adaptive, est de permettre aux unités sensorielles de determiner de manière autonome un modèle de prédiction qui anticipe correctement leurs mesures, tout en réduisant l'utilisation de leur radio.<p><p>Deuxièmement, nous avons conçu une méthode permettant de modéliser de façon distribuée les mesures collectées, qui se base sur l'analyse en composantes principales (ACP). La méthode permet de transformer les mesures le long d'un arbre de routage, de façon à ce que (i) la majeure partie des variations dans les mesures des capteurs soient conservées, et (ii) la charge réseau soit réduite et mieux distribuée, ce qui permet d'augmenter également la durée de vie du réseau. L'approche proposée permet de véritablement distribuer l'ACP, et peut être utilisée pour des applications impliquant la collecte de données, mais également pour la détection ou la classification d'événements. <p> / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Informatique générale Sciences exactes et naturelles Sensor networks Wireless LANs Signal processing -- Digital techniques Réseaux de capteurs Réseaux locaux sans fil Machine Learning/Apprentissage Machine Model Selection/Sélection de Modèles
299	Analyse temporelle de la dynamique de communautés végétales à l'aide de modèles individus-centrés / Temporal analysis of plant community dynamics using individual-based models Lohier, Théophile 24 March 2016 (has links) Les communautés végétales constituent des systèmes complexes au sein desquels de nombreuses espèces, pouvant présenter une large variété de traits fonctionnels, interagissent entre elles et avec leur environnement. En raison de la quantité et de la diversité de ces interactions les mécanismes qui gouvernent les dynamiques des ces communautés sont encore mal connus. Les approches basées sur la modélisation permettent de relier de manière mécaniste les processus gouvernant les dynamiques des individus ou des populations aux dynamiques des communautés qu'ils forment. L'objectif de cette thèse était de développer de telles approches et de les mettre en oeuvre pour étudier les mécanismes sous-jacents aux dynamiques des communautés. Nous avons ainsi développés deux approches de modélisation. La première s'appuie sur un cadre de modélisation stochastique permettant de relier les dynamiques de populations aux dynamiques des communautés en tenant compte des interactions intra- et interspécifiques et de l'impact des variations environnementale et démographique. Cette approche peut-être aisément appliquée à des systèmes réels et permet de caractériser les populations végétales à l'aide d'un petit nombre de paramètres démographiques. Cependant nos travaux suggèrent qu'il n'existe pas de relation simple entre ces paramètres et les traits fonctionnels des espèces, qui gouvernent pourtant leur réponse aux facteurs externes. La seconde approche a été développée pour dépasser cette limite et s'appuie sur le modèle individu-centré Nemossos qui représente de manière explicite le lien entre le fonctionnement des individus et les dynamiques de la communauté qu'ils forment. Afin d'assurer un grand potentiel d'application à Nemossos, nous avons apportés une grande attention au compromis entre réalisme et coût de paramétrisation. Nemossos a ainsi pu être entièrement paramétré à partir de valeur de traits issues de la littérature , son réalisme a été démontré, et il a été utilisé pour mener des expériences de simulations numériques sur l'importance de la variabilité temporelle des conditions environnementales pour la coexistence d'espèces fonctionnellement différentes. La complémentarité des deux approches nous a permis de proposer des éléments de réponse à divers questions fondamentales de l'écologie des communautés incluant le rôle de la compétition dans les dynamiques des communautés, l'effet du filtrage environnementale sur leur composition fonctionnel ou encore les mécanismes favorisant la coexistence des espèces végétales. Ici ces approches ont été utilisées séparément mais leur couplage peut offrir des perspectives intéressantes telles que l'étude du lien entre le fonctionnement des plantes et les dynamiques des populations. Par ailleurs chacune des approches peut être utilisée dans une grande variété d'expériences de simulation susceptible d'améliorer notre compréhension des mécanismes gouvernant les communautés végétales. / Plant communities are complex systems in which multiple species differing by their functional attributes interact with their environment and with each other. Because of the number and the diversity of these interactions the mechanisms that drive the dynamics of theses communities are still poorly understood. Modelling approaches enable to link in a mechanistic fashion the process driving individual plant or population dynamics to the resulting community dynamics. This PhD thesis aims at developing such approaches and to use them to investigate the mechanisms underlying community dynamics. We therefore developed two modelling approaches. The first one is based on a stochastic modelling framework allowing to link the population dynamics to the community dynamics whilst taking account of intra- and interspecific interactions as well as environmental and demographic variations. This approach is easily applicable to real systems and enables to describe the properties of plant population through a small number of demographic parameters. However our work suggests that there is no simple relationship between these parameters and plant functional traits, while they are known to drive their response to extrinsic factors. The second approach has been developed to overcome this limitation and rely on the individual-based model Nemossos that explicitly describes the link between plant functioning and community dynamics. In order to ensure that Nemossos has a large application potential, a strong emphasis has been placed on the tradeoff between realism and parametrization cost. Nemossos has then been successfully parameterized from trait values found in the literature, its realism has been demonstrated and it has been used to investigate the importance of temporal environmental variability for the coexistence of functionally differing species. The complementarity of the two approaches allows us to explore various fundamental questions of community ecology including the impact of competitive interactions on community dynamics, the effect of environmental filtering on their functional composition, or the mechanisms favoring the coexistence of plant species. In this work, the two approaches have been used separately but their coupling might offer interesting perspectives such as the investigation of the relationships between plant functioning and population dynamics. Moreover each of the approaches might be used to run various simulation experiments likely to improve our understanding of mechanisms underlying community dynamics. Modèle individu-centré Modèle stochastique Analyse de séries temporelles Sélection de modèle Inférence statistique Écophysiologie Dynamique des communautés végétales Prairie Traits fonctionnels Théorie de l'allocation optimale Individual based modelling Stochastic modelling Time series analysis Model selection Statistical inference Ecophysiology Plant community dynamics Grassland Functional traits Optimal allocation theory
300	Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation / Prediction of individual sequences and prediction in the statistical framework : some links around sparse regression and aggregation techniques Gerchinovitz, Sébastien 12 December 2011 (has links) Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique. / The topics addressed in this thesis lie in statistical machine learning. Our main framework is the prediction of arbitrary deterministic sequences (or individual sequences). It includes online learning tasks for which we cannot make any stochasticity assumption on the data to be predicted, which requires robust methods. In this work, we analyze several connections between the theory of individual sequences and the classical statistical setting, e.g., the regression model with fixed or random design, where stochastic assumptions are made. These two frameworks benefit from one another: some statistical methods can be adapted to the online learning setting to satisfy deterministic performance guarantees. Conversely, some individual-sequence techniques are useful to tune the parameters of a statistical method and to get risk bounds that are adaptive to the unknown variance. We study such connections for several connected problems: high-dimensional online linear regression under a sparsity scenario (with an application to the stochastic setting), online linear regression on L1-balls, and aggregation of nonlinear models in a model selection framework (regression on a fixed design). We also use and develop stochastic techniques to compute the minimax rates of game-theoretic online measures of performance (e.g., internal and swap regrets) in a deterministic or stochastic environment. Apprentissage statistique Prévision séquentielle Suites individuelles Agrégation PAC-bayésienne Pondération exponentielle Régression parcimonieuse Grande dimension Calibration automatique Vitesses minimax Regret externe Regret interne Sélection de modèles Apprentissage automatique Bornes de regret Statistical learning Online learning Individual sequences PAC-Bayesian aggregation Exponential weighting Sparse regression High dimension Parameter tuning Minimax rates External regret Internal regret Model selection Machine learning Regret bounds

Search results