• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 3
  • 1
  • Tagged with
  • 7
  • 7
  • 4
  • 4
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Machine learning methods for discrete multi-scale fows : application to finance / Méthodes d'apprentissage pour des flots discrets multi-échelles : application à la finance

Mahler, Nicolas 05 June 2012 (has links)
Ce travail de recherche traite du problème d'identification et de prédiction des tendances d'une série financière considérée dans un cadre multivarié. Le cadre d'étude de ce problème, inspiré de l'apprentissage automatique, est défini dans le chapitre I. L'hypothèse des marchés efficients, qui entre en contradiction avec l'objectif de prédiction des tendances, y est d'abord rappelée, tandis que les différentes écoles de pensée de l'analyse de marché, qui s'opposent dans une certaine mesure à l'hypothèse des marchés efficients, y sont également exposées. Nous explicitons les techniques de l'analyse fondamentale, de l'analyse technique et de l'analyse quantitative, et nous nous intéressons particulièrement aux techniques de l'apprentissage statistique permettant le calcul de prédictions sur séries temporelles. Les difficultés liées au traitement de facteurs temporellement dépendants et/ou non-stationnaires sont soulignées, ainsi que les pièges habituels du surapprentrissage et de la manipulation imprudente des données. Les extensions du cadre classique de l'apprentissage statistique, particulièrement l'apprentissage par transfert, sont présentées. La contribution principale de ce chapitre est l'introduction d'une méthodologie de recherche permettant le développement de modèles numériques de prédiction de tendances. Cette méthodologie est fondée sur un protocole d'expérimentation, constitué de quatre modules. Le premier module, intitulé Observation des Données et Choix de Modélisation, est un module préliminaire dévoué à l'expression de choix de modélisation, d'hypothèses et d'objectifs très généraux. Le second module, Construction de Bases de Données, transforme la variable cible et les variables explicatives en facteurs et en labels afin d'entraîner les modèles numériques de prédiction de tendances. Le troisième module, intitulé Construction de Modèles, a pour but la construction de modèles numériques de prédiction de tendances. Le quatrième et dernier module, intitulé Backtesting et Résultats Numériques, évalue la précision des modèles de prédiction de tendances sur un ensemble de test significatif, à l'aide de deux procédures génériques de backtesting. Le première procédure renvoie les taux de reconnaissance des tendances de hausse et de baisse. La seconde construit des règles de trading au moyen des predictions calculées sur l'ensemble de test. Le résultat (P&L) de chacune des règles de trading correspond aux gains et aux pertes accumulés au cours de la période de test. De plus, ces procédures de backtesting sont complétées par des fonctions d'interprétation, qui facilite l'analyse du mécanisme décisionnel des modèles numériques. Ces fonctions peuvent être des mesures de la capacité de prédiction des facteurs, ou bien des mesures de fiabilité des modèles comme des prédictions délivrées. Elles contribuent de façon décisive à la formulation d'hypothèses mieux adaptées aux données, ainsi qu'à l'amélioration des méthodes de représentation et de construction de bases de données et de modèles. Ceci est explicité dans le chapitre IV. Les modèles numériques, propres à chacune des méthodes de construction de modèles décrites au chapitre IV, et visant à prédire les tendances des variables cibles introduites au chapitre II, sont en effet calculés et backtestés. Les raisons du passage d'une méthode de construction de modèles à une autre sont particulièrement étayées. L'influence du choix des paramètres - et ceci à chacune des étapes du protocole d'expérimentation - sur la formulation de conclusions est elle aussi mise en lumière. La procédure PPVR, qui ne requiert aucun calcul annexe de paramètre, a ainsi été utilisée pour étudier de façon fiable l'hypothèse des marchés efficients. De nouvelles directions de recherche pour la construction de modèles prédictifs sont finalement proposées. / This research work studies the problem of identifying and predicting the trends of a single financial target variable in a multivariate setting. The machine learning point of view on this problem is presented in chapter I. The efficient market hypothesis, which stands in contradiction with the objective of trend prediction, is first recalled. The different schools of thought in market analysis, which disagree to some extent with the efficient market hypothesis, are reviewed as well. The tenets of the fundamental analysis, the technical analysis and the quantitative analysis are made explicit. We particularly focus on the use of machine learning techniques for computing predictions on time-series. The challenges of dealing with dependent and/or non-stationary features while avoiding the usual traps of overfitting and data snooping are emphasized. Extensions of the classical statistical learning framework, particularly transfer learning, are presented. The main contribution of this chapter is the introduction of a research methodology for developing trend predictive numerical models. It is based on an experimentation protocol, which is made of four interdependent modules. The first module, entitled Data Observation and Modeling Choices, is a preliminary module devoted to the statement of very general modeling choices, hypotheses and objectives. The second module, Database Construction, turns the target and explanatory variables into features and labels in order to train trend predictive numerical models. The purpose of the third module, entitled Model Construction, is the construction of trend predictive numerical models. The fourth and last module, entitled Backtesting and Numerical Results, evaluates the accuracy of the trend predictive numerical models over a "significant" test set via two generic backtesting plans. The first plan computes recognition rates of upward and downward trends. The second plan designs trading rules using predictions made over the test set. Each trading rule yields a profit and loss account (P&L), which is the cumulated earned money over time. These backtesting plans are additionally completed by interpretation functionalities, which help to analyze the decision mechanism of the numerical models. These functionalities can be measures of feature prediction ability and measures of model and prediction reliability. They decisively contribute to formulating better data hypotheses and enhancing the time-series representation, database and model construction procedures. This is made explicit in chapter IV. Numerical models, aiming at predicting the trends of the target variables introduced in chapter II, are indeed computed for the model construction methods described in chapter III and thoroughly backtested. The switch from one model construction approach to another is particularly motivated. The dramatic influence of the choice of parameters - at each step of the experimentation protocol - on the formulation of conclusion statements is also highlighted. The RNN procedure, which does not require any parameter tuning, has thus been used to reliably study the efficient market hypothesis. New research directions for designing trend predictive models are finally discussed.
2

Estimation adaptative pour les modèles de Markov cachés non paramétriques / Adaptative estimation for nonparametric hidden Markov models

Lehéricy, Luc 14 December 2018 (has links)
Dans cette thèse, j'étudie les propriétés théoriques des modèles de Markov cachés non paramétriques. Le choix de modèles non paramétriques permet d'éviter les pertes de performance liées à un mauvais choix de paramétrisation, d'où un récent intérêt dans les applications. Dans une première partie, je m'intéresse à l'estimation du nombre d'états cachés. J'y introduis deux estimateurs consistants : le premier fondé sur un critère des moindres carrés pénalisés, le second sur une méthode spectrale. Une fois l'ordre connu, il est possible d'estimer les autres paramètres. Dans une deuxième partie, je considère deux estimateurs adaptatifs des lois d'émission, c'est-à-dire capables de s'adapter à leur régularité. Contrairement aux méthodes existantes, ces estimateurs s'adaptent à la régularité de chaque loi au lieu de s'adapter seulement à la pire régularité. Dans une troisième partie, je me place dans le cadre mal spécifié, c'est-à-dire lorsque les observations sont générées par une loi qui peut ne pas être un modèle de Markov caché. J'établis un contrôle de l'erreur de prédiction de l'estimateur du maximum de vraisemblance sous des conditions générales d'oubli et de mélange de la vraie loi. Enfin, j'introduis une variante non homogène des modèles de Markov cachés : les modèles de Markov cachés avec tendances, et montre la consistance de l'estimateur du maximum de vraisemblance. / During my PhD, I have been interested in theoretical properties of nonparametric hidden Markov models. Nonparametric models avoid the loss of performance coming from an inappropriate choice of parametrization, hence a recent interest in applications. In a first part, I have been interested in estimating the number of hidden states. I introduce two consistent estimators: the first one is based on a penalized least squares criterion, and the second one on a spectral method. Once the order is known, it is possible to estimate the other parameters. In a second part, I consider two adaptive estimators of the emission distributions. Adaptivity means that their rate of convergence adapts to the regularity of the target distribution. Contrary to existing methods, these estimators adapt to the regularity of each distribution instead of only the worst regularity. The third part is focussed on the misspecified setting, that is when the observations may not come from a hidden Markov model. I control of the prediction error of the maximum likelihood estimator when the true distribution satisfies general forgetting and mixing assumptions. Finally, I introduce a nonhomogeneous variant of hidden Markov models : hidden Markov models with trends, and show that the maximum likelihood estimators of such models is consistent.
3

Modèles à noyaux à structure locale

Vincent, Pascal January 2003 (has links)
No description available.
4

Analyse et Estimations Spectrales des Processus alpha-Stables non-Stationnaires

Azzaoui, Nourddine 11 December 2006 (has links) (PDF)
Dans cette thèse une nouvelle représentation spectrale des processus symétriques alpha-stables est introduite. Elle est basée sur une propriété de pseudo-additivité de la covariation et l'intégrale au sens de Morse-Transue par rapport à une bimesure que nous construisons en utilisant la pseudo-additivité. L'intérêt de cette représentation est qu'elle est semblable à celle de la covariance des processus du second ordre; elle généralise celle établie pour les intégrales stochastiques par rapport à un processus symétrique alpha-stable à accroissements indépendants. Une classification des processus harmonisables non stationnaires a été étudiée selon la structure de la bimesure qui les caractérise et les processus périodiquement covariés ont été définis. Pour pouvoir simuler cette inhabituelle classe de processus, une nouvelle décomposition en séries de type Lepage a été apportée. Finalement des techniques non paramétriques d'estimation spectrale sont discutées. En particulier un estimateur presque sûrement convergeant sous une condition de mélange fort, a été introduit pour les processus périodiquement covariés.
5

Fatores determinantes da qualidade da água na Bacia Hidrográfica do Rio Preto (MG/RJ)

Casquin, Antoine Philippe 30 August 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-08-29T19:36:13Z No. of bitstreams: 1 antoinephilippecasquin.pdf: 13270422 bytes, checksum: 1cbe3af7facd7e3a2ef51493b33cc893 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-08-30T11:49:52Z (GMT) No. of bitstreams: 1 antoinephilippecasquin.pdf: 13270422 bytes, checksum: 1cbe3af7facd7e3a2ef51493b33cc893 (MD5) / Made available in DSpace on 2017-08-30T11:49:52Z (GMT). No. of bitstreams: 1 antoinephilippecasquin.pdf: 13270422 bytes, checksum: 1cbe3af7facd7e3a2ef51493b33cc893 (MD5) Previous issue date: 2016-08-30 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Bacia Hidrográfica do rio Preto (BHRP) é uma bacia estratégica por representar 15% em superfície da bacia hidrográfica do rio Paraíba do Sul. A BHRP também é um território onde vivem 700.000 habitantes, sendo mais de 500.000 concentrados na área urbana de Juiz de Fora. As pequenas cidades e as florestas muito fragmentadas se destacam no meio das pastagens que dominam a paisagem. Os solos são em geral pobres e susceptíveis a erosão, além das declividades acentuadas. A qualidade da água é alterada por fontes pontuais (indústrias, lixões, aterros, incineradores) e fontes difusas mais difíceis de identificar. Essa pesquisa teve como objetivo relacionar a qualidade da água na BHRP com fatores físicos (relevo, solos, morfometria e pluviometria) e antrópicos (uso e cobertura da terra e densidade de população). Esses fatores foram quantificados com o emprego do Geoprocessamento para as 17 sub-bacias da BHRP, cobrindo seus quatros rios principais: rio Preto, rio do Peixe, rio Paraibuna e rio Cágado. Essas sub-bacias correspondem aos pontos de monitoramento de qualidade da água do IGAM. A evolução espacial da qualidade da água do Eixo Paraibuna-Peixe-Preto foi avaliada ao atravessar a área urbana de Juiz de Fora e ao ser diluída a jusante pelos rios principais dessa Bacia. Essa primeira etapa permitiu determinar que os parâmetros OD e DBO foram os mais impactados pela área urbana de Juiz de Fora e que os parâmetros Ferro Dissolvido, Manganês Total, Fósforo Total e Escherechia Coli sofriam alterações crónicas na globalidade da BHRP, classificando assim a suas águas como incompatíveis com os usos pretendidos. Contaminações com metais (cádmio, chumbo e zinco) foram detectadas a montante e a jusante de Juiz de Fora, indicando o impacto pontual de indústrias nesses parâmetros. Correlações não paramétricas foram calculadas entre os fatores e as variáveis. Observou-se uma grande interdependência dos fatores físicos e antrópicos. A análise das correlações entre os fatores e as variáveis de qualidade da água apontou que o uso e cobertura da terra foi o fator mais determinante da qualidade da água da BHRP. Concentrações altas de manganês, de chumbo e de cianetos livres foram encontradas na BHRP sem explicação pelas características das suas sub-bacias. A classe “área urbana densa” piorou quase todos os parâmetros e a classe “vegetação arbórea e arbustiva” melhorou em quase todos. A classe “vegetação rasteira” piorou os parâmetros relativos a contaminação fecal e os nutrientes, sobretudo na estação chuvosa. Esses resultados indicam que as contaminações pontuais e difusas da água devem ser investigadas e fiscalizadas com mais efetividade na BHRP, com destaque para a difusa, e que, no mínimo, as leis de preservação e proteção dos recursos hídricos devem ser aplicadas. / Le bassin hydrographique du la rivière Preto (BHRP) est un bassin stratégique représentant 15% de la surface du bassin hydrographique de la rivière Paraíba do Sul. La BHRP est aussi un territoire où vivent 700.000 habitants, dont plus de 500 000 concentrés dans la zone urbaine de Juiz de Fora. De petites villes et des fragments de forêts au milieu de vastes pâturages composent le paysage. Les sols sont généralement pauvres et sensibles à l'érosion, en plus des pentes raides. La qualité de l'eau est altérée par des sources ponctuelles (industries, décharges, incinérateur) et des sources diffuses plus difficiles à identifier. Cette étude a eu pour objectif de relier la qualité de l'eau dans BHRP à des facteurs physiques (topographie, sols, morphométries et précipitations) et anthropiques (occupation et utilisation du sol et densité de population). Ces facteurs ont été déterminés à travers l’utilisation de la géomatique pour les 17 sous-bassins de la BHRP couvrant ses quatre principaux fleuves : le rio Preto, le rio do Peixe, le rio Paraibuna et le rio Cágado. Ces sous-bassins correspondent aux points de contrôle de la qualité de l’eau de IGAM (Institut de Gestion des Eaux du Minas Gerais). L'évolution spatiale de la qualité de l’eau suivant un axe Paraibuna-Peixe-Preto a été étudiée de la traversée de la zone urbaine de Juiz de Fora et jusqu’aux dilutions en aval par les principales rivières de ce bassin. Cette première étape a permis de déterminer que les paramètres OD et de DBO ont été les plus touchés par la zone urbaine de Juiz de Fora et que les paramètres « fer dissous », « manganèse total », « phosphore total » et « Escherechia Coli » subissent des altérations chroniques dans la globalité de la BHRP, classifiant ainsi ses eaux comme incompatibles avec l'utilisation prévue par la législation. Des contaminations aux métaux (cadmium, plomb et zinc) ont été détectées en amont et en aval de Juiz de Fora, indiquant l’impact ponctuel des industries. Des corrélations non paramétriques ont été calculées entre les caractéristiques naturels et anthropiques des sousbassins (facteurs) et les paramètres de qualité de l’eau. Une grande interdépendance des facteurs physiques et humains a été constatée. L'analyse des corrélations entre les facteurs et les paramètres de la qualité de l'eau a montré occupation et utilisation du sol a été le facteur le plus déterminant de la qualité de l’eau de la BHRP. Des concentrations élevées de manganèse, de plomb et de cyanure libre ont été trouvés dans BHRP sans pouvoir être expliqués par les caractéristiques de leurs sous-bassins. La classe «aire urbaine dense" a empiré presque tous les paramètres et la classe "végétation arborée ou arbustive" classe les a presque tous améliorée. La classe "pâturage" a empiré les paramètres relatifs à la contamination fécale et augmenté les concentrations de macronutriments (azote et phosphore), en particulier pendant la saison des pluies. Ces résultats indiquent que la contamination ponctuelle et particulièrement la contamination diffuse de l'eau doit être étudiée et surveillée de manière plus efficace dans la BHRP, et qu'au minimum, les lois de conservation et de protection des ressources hydriques doivent être appliquées.
6

Analyse de sensibilité fiabiliste avec prise en compte d'incertitudes sur le modèle probabiliste - Application aux systèmes aérospatiaux / Reliability-oriented sensitivity analysis under probabilistic model uncertainty – Application to aerospace systems

Chabridon, Vincent 26 November 2018 (has links)
Les systèmes aérospatiaux sont des systèmes complexes dont la fiabilité doit être garantie dès la phase de conception au regard des coûts liés aux dégâts gravissimes qu’engendrerait la moindre défaillance. En outre, la prise en compte des incertitudes influant sur le comportement (incertitudes dites « aléatoires » car liées à la variabilité naturelle de certains phénomènes) et la modélisation de ces systèmes (incertitudes dites « épistémiques » car liées au manque de connaissance et aux choix de modélisation) permet d’estimer la fiabilité de tels systèmes et demeure un enjeu crucial en ingénierie. Ainsi, la quantification des incertitudes et sa méthodologie associée consiste, dans un premier temps, à modéliser puis propager ces incertitudes à travers le modèle numérique considéré comme une « boîte-noire ». Dès lors, le but est d’estimer une quantité d’intérêt fiabiliste telle qu’une probabilité de défaillance. Pour les systèmes hautement fiables, la probabilité de défaillance recherchée est très faible, et peut être très coûteuse à estimer. D’autre part, une analyse de sensibilité de la quantité d’intérêt vis-à-vis des incertitudes en entrée peut être réalisée afin de mieux identifier et hiérarchiser l’influence des différentes sources d’incertitudes. Ainsi, la modélisation probabiliste des variables d’entrée (incertitude épistémique) peut jouer un rôle prépondérant dans la valeur de la probabilité obtenue. Une analyse plus profonde de l’impact de ce type d’incertitude doit être menée afin de donner une plus grande confiance dans la fiabilité estimée. Cette thèse traite de la prise en compte de la méconnaissance du modèle probabiliste des entrées stochastiques du modèle. Dans un cadre probabiliste, un « double niveau » d’incertitudes (aléatoires/épistémiques) doit être modélisé puis propagé à travers l’ensemble des étapes de la méthodologie de quantification des incertitudes. Dans cette thèse, le traitement des incertitudes est effectué dans un cadre bayésien où la méconnaissance sur les paramètres de distribution des variables d‘entrée est caractérisée par une densité a priori. Dans un premier temps, après propagation du double niveau d’incertitudes, la probabilité de défaillance prédictive est utilisée comme mesure de substitution à la probabilité de défaillance classique. Dans un deuxième temps, une analyse de sensibilité locale à base de score functions de cette probabilité de défaillance prédictive vis-à-vis des hyper-paramètres de loi de probabilité des variables d’entrée est proposée. Enfin, une analyse de sensibilité globale à base d’indices de Sobol appliqués à la variable binaire qu’est l’indicatrice de défaillance est réalisée. L’ensemble des méthodes proposées dans cette thèse est appliqué à un cas industriel de retombée d’un étage de lanceur. / Aerospace systems are complex engineering systems for which reliability has to be guaranteed at an early design phase, especially regarding the potential tremendous damage and costs that could be induced by any failure. Moreover, the management of various sources of uncertainties, either impacting the behavior of systems (“aleatory” uncertainty due to natural variability of physical phenomena) and/or their modeling and simulation (“epistemic” uncertainty due to lack of knowledge and modeling choices) is a cornerstone for reliability assessment of those systems. Thus, uncertainty quantification and its underlying methodology consists in several phases. Firstly, one needs to model and propagate uncertainties through the computer model which is considered as a “black-box”. Secondly, a relevant quantity of interest regarding the goal of the study, e.g., a failure probability here, has to be estimated. For highly-safe systems, the failure probability which is sought is very low and may be costly-to-estimate. Thirdly, a sensitivity analysis of the quantity of interest can be set up in order to better identify and rank the influential sources of uncertainties in input. Therefore, the probabilistic modeling of input variables (epistemic uncertainty) might strongly influence the value of the failure probability estimate obtained during the reliability analysis. A deeper investigation about the robustness of the probability estimate regarding such a type of uncertainty has to be conducted. This thesis addresses the problem of taking probabilistic modeling uncertainty of the stochastic inputs into account. Within the probabilistic framework, a “bi-level” input uncertainty has to be modeled and propagated all along the different steps of the uncertainty quantification methodology. In this thesis, the uncertainties are modeled within a Bayesian framework in which the lack of knowledge about the distribution parameters is characterized by the choice of a prior probability density function. During a first phase, after the propagation of the bi-level input uncertainty, the predictive failure probability is estimated and used as the current reliability measure instead of the standard failure probability. Then, during a second phase, a local reliability-oriented sensitivity analysis based on the use of score functions is achieved to study the impact of hyper-parameterization of the prior on the predictive failure probability estimate. Finally, in a last step, a global reliability-oriented sensitivity analysis based on Sobol indices on the indicator function adapted to the bi-level input uncertainty is proposed. All the proposed methodologies are tested and challenged on a representative industrial aerospace test-case simulating the fallout of an expendable space launcher.
7

Validation croisée et pénalisation pour l'estimation de densité / Cross-validation and penalization for density estimation

Magalhães, Nelo 26 May 2015 (has links)
Cette thèse s'inscrit dans le cadre de l'estimation d'une densité, considéré du point de vue non-paramétrique et non-asymptotique. Elle traite du problème de la sélection d'une méthode d'estimation à noyau. Celui-ci est une généralisation, entre autre, du problème de la sélection de modèle et de la sélection d'une fenêtre. Nous étudions des procédures classiques, par pénalisation et par rééchantillonnage (en particulier la validation croisée V-fold), qui évaluent la qualité d'une méthode en estimant son risque. Nous proposons, grâce à des inégalités de concentration, une méthode pour calibrer la pénalité de façon optimale pour sélectionner un estimateur linéaire et prouvons des inégalités d'oracle et des propriétés d'adaptation pour ces procédures. De plus, une nouvelle procédure rééchantillonnée, reposant sur la comparaison entre estimateurs par des tests robustes, est proposée comme alternative aux procédures basées sur le principe d'estimation sans biais du risque. Un second objectif est la comparaison de toutes ces procédures du point de vue théorique et l'analyse du rôle du paramètre V pour les pénalités V-fold. Nous validons les résultats théoriques par des études de simulations. / This thesis takes place in the density estimation setting from a nonparametric and nonasymptotic point of view. It concerns the statistical algorithm selection problem which generalizes, among others, the problem of model and bandwidth selection. We study classical procedures, such as penalization or resampling procedures (in particular V-fold cross-validation), which evaluate an algorithm by estimating its risk. We provide, thanks to concentration inequalities, an optimal penalty for selecting a linear estimator and we prove oracle inequalities and adaptative properties for resampling procedures. Moreover, new resampling procedure, based on estimator comparison by the mean of robust tests, is introduced as an alternative to procedures relying on the unbiased risk estimation principle. A second goal of this work is to compare these procedures from a theoretical point of view and to understand the role of V for V-fold penalization. We validate these theoretical results on empirical studies.

Page generated in 0.141 seconds