Global ETD Search

21	Modélisation de la production d'hydrocarbures dans un bassin pétrolier Michel, Bertrand 25 September 2008 (has links) (PDF) Cette thèse a pour objet la modélisation de la production pétrolière dans un bassin d'hydrocarbures. Le modèle proposé s'appuie sur une description probabiliste des réserves, de l'exploration des hydrocarbures et de la mise en production des gisements découverts. L'utilisation de la loi de Lévy-Pareto pour décrire les tailles des gisements s'appuie d'une part sur une description probabiliste de la formation des réserves au cours de l'évolution du temps géologique et d'autre part sur les propriétés d'invariance de la distribution de Poisson Dirichlet pour des processus de coalescence et de fragmentation, dans le cadre du modèle de Bolthausen Sznitman. Deux principaux problèmes statistiques, relevant tous les deux d'une problématique de choix de modèle en estimation de densité, sont identifiés. Le premier concerne l'estimation d'un modèle d'exploration pétrolière et le second est une étude de courbes de production qui repose sur une classification non supervisée et une sélection de variables pertinentes effectués via la sélection d'un modèle de mélange Gaussien. Dans les deux cas, un critère de maximum de vraisemblance pénalisé est défini pour obtenir une inégalité de type oracle. Le modèle global de production pétrolière d'un bassin ainsi obtenu permet d'une part de préciser la forme des profils de production de bassin et d'autre part de proposer des scénarios de prolongement de la production de bassin en cours d'exploitation. [MATH] Mathematics Sélection de modèle modèles de mélange gaussien sélection de variables classification de courbes partitions aléatoires fragmentation aléatoire pic de production pétrolier
22	Estimation adaptative de l'intensité de certains processus ponctuels par sélection de modèle. Reynaud-Bouret, Patricia 27 June 2002 (has links) (PDF) L'objet de cette thèse est d'adapter des techniques<br />de sélection de modèle au cadre particulier de l'estimation d'intensité de<br />processus ponctuels. Plus précisément, nous voulons montrer que les<br />estimateurs par projection pénalisés de l'intensité sont adaptatifs soit dans<br />une famille d'estimateurs par projection, soit pour le risque minimax. Nous<br />nous sommes restreints à deux cas particuliers : les processus de Poisson<br />inhomogènes et les processus de comptage à intensité<br />multiplicative d'Aalen.<br />Dans les deux cas, nous voulons trouver une inégalité de type<br />oracle, qui garantit que les estimateurs par projection pénalisés ont un risque<br />du même ordre de grandeur que le meilleur estimateur par projection pour une<br />famille de modèles donnés. La clé qui permet de prouver des inégalités de<br />type oracle est le phénomène de concentration de la mesure ou plus précisément<br />la connaissance d'inégalités exponentielles, qui permettent de contrôler en<br />probabilité les déviations de statistiques de type khi-deux au dessus de leur<br />moyenne. Nous avons prouvé deux types d'inégalités de concentration. La<br />première n'est valable que pour les processus de Poisson. Elle est comparable<br />en terme d'ordre de grandeur à l'inégalité de M. Talagrand pour les suprema de<br />processus empiriques. La deuxième est plus grossière mais elle est valable<br />pour des processus de comptage beaucoup plus généraux.<br />Cette dernière inégalité met en oeuvre des techniques de<br />martingales dont nous nous sommes inspirés pour prouver des inégalités de<br />concentration pour des U-statistiques dégénérées d'ordre 2 ainsi que pour des<br />intégrales doubles par rapport à une mesure de Poisson recentrée.<br />Nous calculons aussi certaines bornes inférieures pour les<br />risques minimax et montrons que les estimateurs par projection pénalisés<br />atteignent ces vitesses. [MATH] Mathematics Sélection de modèle estimateurs par projection pénalisés estimation adaptative processus ponctuels de Poisson inhomogènes U-statistiques dégénérées d'ordre 2 inégalités exponentielles concentration
23	Méthodes statistiques de sélection de modèles neuronaux ; applications financières et bancaires STOPPIGLIA, Hervé 16 December 1997 (has links) (PDF) Le travail présenté dans ce mémoire traite de l'évaluation, à l'aide de réseaux de neurones, de l'état de santé financière de collectivités locales ou d'entreprises. Dans un premier temps, nous rapprochons cette évaluation d'un problème de classification ; nous expliquons pourquoi ce type de problème peut être avantageusement résolu avec des méthodes statistiques de classification comme les réseaux de neurones. Les chapitres suivants présentent et définissent plus précisément les concepts de la classification, les méthodes usuelles de classification, les réseaux de neurones ainsi que l'apprentissage de ceux-ci. Dans les applications envisagées, l'individu à classer (collectivité locale ou entreprise) peut être décrit par une très grande quantité de variables (données comptables, fiscales, socio-économiques, etc) ; ce constat nous a conduit à étudier les méthodes de sélection de modèles. Nous proposons une méthode statistique originale de sélection des meilleures variables descriptives, puis de définition du modèle neuronal. La dernière partie de ce mémoire concerne les applications industrielles de ces travaux ; la première concerne l'analyse financière des collectivités locales,la seconde l'analyse financière des entreprises. L'apport orignal de cette étude concerne trois domaines : - Sélection de variables : nous ajoutons une variables aléatoire aux autres variables descriptives afin de distinguer celles qui sont réellement pertinentes. - Sélection de modèles : nous utilisons la méthode précédente pour sélectionner les seuls neurones utiles dans un réseau de neurones à une couche cachée. - Classification : nous inversons la formule de Bayes pour estimer les fonctions densité de probabilité avec des approximateurs. En ce qui concerne l'analyse financière des entreprises, ce travail a débouché sur une application opérationnelle à la Caisse des Dépôts et Consignations depuis 1995. Sélection de modèle Sélection de variables Classification Réseaux de neurones Finance Collectivités locales Entreprises
24	Sélection de modèle : une approche décisionnelle Boisbunon, Aurélie 14 January 2013 (has links) (PDF) Cette thèse s'articule autour de la problématique de la sélection de modèle, étudiée dans le contexte de la régression linéaire. L'objectif est de déterminer le meilleur modèle de prédiction à partir de données mesurées, c'est-à-dire le modèle réalisant le meilleur compromis entre attache aux données et complexité du modèle. La contribution principale consiste en la dérivation de critères d'évaluation de modèles basés sur des techniques de théorie de la décision, plus précisément l'estimation de coût. Ces critères reposent sur une hypothèse distributionnelle plus large que l'hypothèse classique gaussienne avec indépendance entre les observations : la famille des lois à symétrie sphérique. Cette famille nous permet à la fois de nous affranchir de l'hypothèse d'indépendance et d'ajouter une plus grande robustesse puisque nos critères ne dépendent pas de la forme spécifique de la distribution. Nous proposons également une méthode de comparaison des critères dérivés au travers d'une mesure de type Erreur quadratique (MSE), qui permet de déterminer si un critère d'évaluation de modèle est meilleur qu'un autre. La seconde contribution attaque le problème de la construction des différents modèles comparés. Les collections de modèles considérées sont celles issues des méthodes de régularisation parcimonieuses, de type Lasso. En particulier, nous nous sommes intéressés à la Pénalité Concave Minimax (MCP), qui garde la sélection du Lasso tout en corrigeant son biais d'estimation. Cette pénalité correspond cependant à un problème non différentiable et non convexe. La généralisation des outils habituels de sous-différentielles grâce aux différentielles de Clarke a permis de déterminer les conditions d'optimalité et de développer un algorithme de chemin de régularisation pour le MCP. Enfin, nous comparons nos propositions avec celles de la littérature au travers d'une étude numérique, dans laquelle nous vérifions la qualité de la sélection. Les résultats montrent notamment que nos critères obtiennent des performances comparables à ceux de la littérature, et que les critères les plus couramment utilisés en pratique (validation croisée) ne sont pas toujours parmi les plus performants. [STAT:TH] Statistics/Statistics Theory [STAT:ML] Statistics/Machine Learning sélection de modèle sélection de variable régression linéaire estimation de coût distributions à symétrie sphérique dépendance Lasso MCP
25	Distributions d'auto-amorçage exactes ponctuelles des courbes ROC et des courbes de coûts Gadoury, David January 2009 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal Fonction d'efficacité de l'observateur Auto-amorçage Probabilité de couverture Sélection de modèle Courbe de coûts Receiver operating characterictics Bootstrap Coverage probabilites Model selection Cost curves
26	Sélection de variables pour la classification non supervisée en grande dimension Meynet, Caroline 09 November 2012 (has links) (PDF) Il existe des situations de modélisation statistique pour lesquelles le problème classique de classification non supervisée (c'est-à-dire sans information a priori sur la nature ou le nombre de classes à constituer) se double d'un problème d'identification des variables réellement pertinentes pour déterminer la classification. Cette problématique est d'autant plus essentielle que les données dites de grande dimension, comportant bien plus de variables que d'observations, se multiplient ces dernières années : données d'expression de gènes, classification de courbes... Nous proposons une procédure de sélection de variables pour la classification non supervisée adaptée aux problèmes de grande dimension. Nous envisageons une approche par modèles de mélange gaussien, ce qui nous permet de reformuler le problème de sélection des variables et du choix du nombre de classes en un problème global de sélection de modèle. Nous exploitons les propriétés de sélection de variables de la régularisation l1 pour construire efficacement, à partir des données, une collection de modèles qui reste de taille raisonnable même en grande dimension. Nous nous démarquons des procédures classiques de sélection de variables par régularisation l1 en ce qui concerne l'estimation des paramètres : dans chaque modèle, au lieu de considérer l'estimateur Lasso, nous calculons l'estimateur du maximum de vraisemblance. Ensuite, nous sélectionnons l'un des ces estimateurs du maximum de vraisemblance par un critère pénalisé non asymptotique basé sur l'heuristique de pente introduite par Birgé et Massart. D'un point de vue théorique, nous établissons un théorème de sélection de modèle pour l'estimation d'une densité par maximum de vraisemblance pour une collection aléatoire de modèles. Nous l'appliquons dans notre contexte pour trouver une forme de pénalité minimale pour notre critère pénalisé. D'un point de vue pratique, des simulations sont effectuées pour valider notre procédure, en particulier dans le cadre de la classification non supervisée de courbes. L'idée clé de notre procédure est de n'utiliser la régularisation l1 que pour constituer une collection restreinte de modèles et non pas aussi pour estimer les paramètres des modèles. Cette étape d'estimation est réalisée par maximum de vraisemblance. Cette procédure hybride nous est inspirée par une étude théorique menée dans une première partie dans laquelle nous établissons des inégalités oracle l1 pour le Lasso dans les cadres de régression gaussienne et de mélange de régressions gaussiennes, qui se démarquent des inégalités oracle l0 traditionnellement établies par leur absence totale d'hypothèse. Sélection de variables Modèles de mélange gaussien Classification non supervisée Grande dimension Lasso Régularisation l1 Inégalités oracle
27	Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptatives Roche, Angelina 07 July 2014 (has links) (PDF) L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie données fonctionnelles estimateurs adaptatifs régression sélection de modèle méthode de Goldenshluger-Lepski méthodologie des surfaces de réponses
28	Méthodes d'inférence statistique pour champs de Gibbs / Statistical inference methods for Gibbs random fields Stoehr, Julien 29 October 2015 (has links) La constante de normalisation des champs de Markov se présente sous la forme d'une intégrale hautement multidimensionnelle et ne peut être calculée par des méthodes analytiques ou numériques standard. Cela constitue une difficulté majeure pour l'estimation des paramètres ou la sélection de modèle. Pour approcher la loi a posteriori des paramètres lorsque le champ de Markov est observé, nous remplaçons la vraisemblance par une vraisemblance composite, c'est à dire un produit de lois marginales ou conditionnelles du modèle, peu coûteuses à calculer. Nous proposons une correction de la vraisemblance composite basée sur une modification de la courbure au maximum afin de ne pas sous-estimer la variance de la loi a posteriori. Ensuite, nous proposons de choisir entre différents modèles de champs de Markov cachés avec des méthodes bayésiennes approchées (ABC, Approximate Bayesian Computation), qui comparent les données observées à de nombreuses simulations de Monte-Carlo au travers de statistiques résumées. Afin de pallier l'absence de statistiques exhaustives pour ce choix de modèle, des statistiques résumées basées sur les composantes connexes des graphes de dépendance des modèles en compétition sont introduites. Leur efficacité est étudiée à l'aide d'un taux d'erreur conditionnel original mesurant la puissance locale de ces statistiques à discriminer les modèles. Nous montrons alors que nous pouvons diminuer sensiblement le nombre de simulations requises tout en améliorant la qualité de décision, et utilisons cette erreur locale pour construire une procédure ABC qui adapte le vecteur de statistiques résumés aux données observées. Enfin, pour contourner le calcul impossible de la vraisemblance dans le critère BIC (Bayesian Information Criterion) de choix de modèle, nous étendons les approches champs moyens en substituant la vraisemblance par des produits de distributions de vecteurs aléatoires, à savoir des blocs du champ. Le critère BLIC (Block Likelihood Information Criterion), que nous en déduisons, permet de répondre à des questions de choix de modèle plus large que les méthodes ABC, en particulier le choix conjoint de la structure de dépendance et du nombre d'états latents. Nous étudions donc les performances de BLIC dans une optique de segmentation d'images. / Due to the Markovian dependence structure, the normalizing constant of Markov random fields cannot be computed with standard analytical or numerical methods. This forms a central issue in terms of parameter inference or model selection as the computation of the likelihood is an integral part of the procedure. When the Markov random field is directly observed, we propose to estimate the posterior distribution of model parameters by replacing the likelihood with a composite likelihood, that is a product of marginal or conditional distributions of the model easy to compute. Our first contribution is to correct the posterior distribution resulting from using a misspecified likelihood function by modifying the curvature at the mode in order to avoid overly precise posterior parameters.In a second part we suggest to perform model selection between hidden Markov random fields with approximate Bayesian computation (ABC) algorithms that compare the observed data and many Monte-Carlo simulations through summary statistics. To make up for the absence of sufficient statistics with regard to this model choice, we introduce summary statistics based on the connected components of the dependency graph of each model in competition. We assess their efficiency using a novel conditional misclassification rate that evaluates their local power to discriminate between models. We set up an efficient procedure that reduces the computational cost while improving the quality of decision and using this local error rate we build up an ABC procedure that adapts the summary statistics to the observed data.In a last part, in order to circumvent the computation of the intractable likelihood in the Bayesian Information Criterion (BIC), we extend the mean field approaches by replacing the likelihood with a product of distributions of random vectors, namely blocks of the lattice. On that basis, we derive BLIC (Block Likelihood Information Criterion) that answers model choice questions of a wider scope than ABC, such as the joint selection of the dependency structure and the number of latent states. We study the performances of BLIC in terms of image segmentation. Méthodes de Monte-Carlo Champs de Markov Statistique bayésienne Sélection de modèle Méthodes ABC Vraisemblances composites Monte-Carlo methods Markov random fields Bayesian statistics Model selection Approximate Bayesian computation Composite likelihood
29	Sélection de modèles statistiques par méthodes de vraisemblance pénalisée pour l'étude de données complexes / Statistical Model Selection by penalized likelihood method for the study of complex data Ollier, Edouard 12 December 2017 (has links) Cette thèse est principalement consacrée au développement de méthodes de sélection de modèles par maximum de vraisemblance pénalisée dans le cadre de données complexes. Un premier travail porte sur la sélection des modèles linéaires généralisés dans le cadre de données stratifiées, caractérisées par la mesure d’observations ainsi que de covariables au sein de différents groupes (ou strates). Le but de l’analyse est alors de déterminer quelles covariables influencent de façon globale (quelque soit la strate) les observations mais aussi d’évaluer l’hétérogénéité de cet effet à travers les strates.Nous nous intéressons par la suite à la sélection des modèles non linéaires à effets mixtes utilisés dans l’analyse de données longitudinales comme celles rencontrées en pharmacocinétique de population. Dans un premier travail, nous décrivons un algorithme de type SAEM au sein duquel la pénalité est prise en compte lors de l’étape M en résolvant un problème de régression pénalisé à chaque itération. Dans un second travail, en s’inspirant des algorithmes de type gradient proximaux, nous simplifions l’étape M de l’algorithme SAEM pénalisé précédemment décrit en ne réalisant qu’une itération gradient proximale à chaque itération. Cet algorithme, baptisé Stochastic Approximation Proximal Gradient algorithm (SAPG), correspond à un algorithme gradient proximal dans lequel le gradient de la vraisemblance est approché par une technique d’approximation stochastique.Pour finir, nous présentons deux travaux de modélisation statistique, réalisés au cours de cette thèse. / This thesis is mainly devoted to the development of penalized maximum likelihood methods for the study of complex data.A first work deals with the selection of generalized linear models in the framework of stratified data, characterized by the measurement of observations as well as covariates within different groups (or strata). The purpose of the analysis is then to determine which covariates influence in a global way (whatever the stratum) the observations but also to evaluate the heterogeneity of this effect across the strata.Secondly, we are interested in the selection of nonlinear mixed effects models used in the analysis of longitudinal data. In a first work, we describe a SAEM-type algorithm in which the penalty is taken into account during step M by solving a penalized regression problem at each iteration. In a second work, inspired by proximal gradient algorithms, we simplify the M step of the penalized SAEM algorithm previously described by performing only one proximal gradient iteration at each iteration. This algorithm, called Stochastic Approximation Proximal Gradient Algorithm (SAPG), corresponds to a proximal gradient algorithm in which the gradient of the likelihood is approximated by a stochastic approximation technique.Finally, we present two statistical modeling works realized during this thesis. Sélection de modèle Vraisemblance pénalisée Algorithme SAEM Algorithmes gradient proximaux Modèles non linéaires à effets mixtes Model selection Penalized likelihood SAEM algorithm Proximal gradient algorithm Non linear mixed effects models
30	Approche pour la construction de modèles d'estimation réaliste de l'effort/coût de projet dans un environnement incertain : application au domaine du développement logiciel / Approach to build realistic models for estimating project effort/cost in an uncertain environment : application to the software development field Laqrichi, Safae 17 December 2015 (has links) L'estimation de l'effort de développement logiciel est l'une des tâches les plus importantes dans le management de projets logiciels. Elle constitue la base pour la planification, le contrôle et la prise de décision. La réalisation d'estimations fiables en phase amont des projets est une activité complexe et difficile du fait, entre autres, d'un manque d'informations sur le projet et son avenir, de changements rapides dans les méthodes et technologies liées au domaine logiciel et d'un manque d'expérience avec des projets similaires. De nombreux modèles d'estimation existent, mais il est difficile d'identifier un modèle performant pour tous les types de projets et applicable à toutes les entreprises (différents niveaux d'expérience, technologies maitrisées et pratiques de management de projet). Globalement, l'ensemble de ces modèles formule l'hypothèse forte que (1) les données collectées sont complètes et suffisantes, (2) les lois reliant les paramètres caractérisant les projets sont parfaitement identifiables et (3) que les informations sur le nouveau projet sont certaines et déterministes. Or, dans la réalité du terrain cela est difficile à assurer. Deux problématiques émergent alors de ces constats : comment sélectionner un modèle d'estimation pour une entreprise spécifique ? et comment conduire une estimation pour un nouveau projet présentant des incertitudes ? Les travaux de cette thèse s'intéressent à répondre à ces questions en proposant une approche générale d'estimation. Cette approche couvre deux phases : une phase de construction du système d'estimation et une phase d'utilisation du système pour l'estimation de nouveaux projets. La phase de construction du système d'estimation est composée de trois processus : 1) évaluation et comparaison fiable de différents modèles d'estimation, et sélection du modèle d'estimation le plus adéquat, 2) construction d'un système d'estimation réaliste à partir du modèle d'estimation sélectionné et 3) utilisation du système d'estimation dans l'estimation d'effort de nouveaux projets caractérisés par des incertitudes. Cette approche intervient comme un outil d'aide à la décision pour les chefs de projets dans l'aide à l'estimation réaliste de l'effort, des coûts et des délais de leurs projets logiciels. L'implémentation de l'ensemble des processus et pratiques développés dans le cadre de ces travaux ont donné naissance à un prototype informatique open-source. Les résultats de cette thèse s'inscrivent dans le cadre du projet ProjEstimate FUI13. / Software effort estimation is one of the most important tasks in the management of software projects. It is the basis for planning, control and decision making. Achieving reliable estimates in projects upstream phases is a complex and difficult activity because, among others, of the lack of information about the project and its future, the rapid changes in the methods and technologies related to the software field and the lack of experience with similar projects. Many estimation models exist, but it is difficult to identify a successful model for all types of projects and that is applicable to all companies (different levels of experience, mastered technologies and project management practices). Overall, all of these models form the strong assumption that (1) the data collected are complete and sufficient, (2) laws linking the parameters characterizing the projects are fully identifiable and (3) information on the new project are certain and deterministic. However, in reality on the ground, that is difficult to be ensured.Two problems then emerge from these observations: how to select an estimation model for a specific company ? and how to conduct an estimate for a new project that presents uncertainties ?The work of this thesis interested in answering these questions by proposing a general estimation framework. This framework covers two phases: the construction phase of the estimation system and system usage phase for estimating new projects. The construction phase of the rating system consists of two processes: 1) evaluation and reliable comparison of different estimation models then selection the most suitable estimation model, 2) construction of a realistic estimation system from the selected estimation model and 3) use of the estimation system in estimating effort of new projects that are characterized by uncertainties. This approach acts as an aid to decision making for project managers in supporting the realistic estimate of effort, cost and time of their software projects. The implementation of all processes and practices developed as part of this work has given rise to an open-source computer prototype. The results of this thesis fall in the context of ProjEstimate FUI13 project. Sélection de modèle d'estimation Incertitude Validation croisée Réseaux de neurones Forêts d'arbres décisionnels Bootstrap Estimation model selection Uncertainty Cross validation Neural networks Random forests Bootstrap 658.404

Search results