251 |
Evolution of urban systems : a physical approach / Evolution des systèmes urbains : une approche physiqueCarra, Giulia 12 September 2017 (has links)
Plus de 50% de la population mondiale vit dans des zones urbaines et cette proportion devrait augmenter dans les prochaines décennies. Comprendre ce qui régit l'évolution des systèmes urbains est donc devenu d'une importance fondamentale. Ce renouveau d'intérêt combiné avec la disponibilité de données à grande échelle, permet d'entrevoir l'avènement d'une nouvelle science des villes, interdisciplinaire et basée sur les données.Des études récentes ont montré l'existence de régularités statistiques et de lois d'échelle pour plusieurs indicateurs socio-économiques, tels que la consommation d'essence, la distance moyenne parcourue quotidiennement, le cout des infrastructures, etc. Malgré plusieurs tentatives récentes, la compréhension théorique de ces résultats observés empiriquement demeure très partielle.Le but de cette thèse est d'obtenir une modélisation simplifiée, hors-équilibre de la croissance urbaine, en s'appuyant sur un petit nombre de mécanismesimportants et qui fournit des prédictions quantitatives en accord avec lesdonnées empiriques. Pour cela, nous nous inspirerons des études en géographiequantitative et en économie spatiale et nous revisiterons certains de ces anciens modèles avec une nouvelle approche intégrant les outils et concepts de la physique. / More than 50 % of the world population lives in urban areas and this proportion is expected to increase in the coming decades. Understanding what governs the evolution of urban systems has thus become of paramount importance.This renewed interest combined with the availability of large-scale data, allows a glimpse into the dawn of a new science of cities, interdisciplinary and based on data.Recent studies have shown the existence of statistical regularities and scaling laws for several socio-economic indicators such as fuel consumption, average commuting distance, cost of infrastructure, etc., and despite several recent attempts, the theoretical understanding of these results empirically observed remains very partial. The purpose of this thesis is to obtain a simplified, out of equilibrium model of urban growth, based on a small number of important mechanisms and which provides quantitative predictions in agreement with empirical data. For this, we will draw on studies in quantitative geography and spatial economy and we will revisit some of these old models with a new approach that integrates the tools and concepts of physics.
|
252 |
Entropy-regularized Optimal Transport for Machine Learning / Transport Optimal pour l'Apprentissage AutomatiqueGenevay, Aude 13 March 2019 (has links)
Le Transport Optimal régularisé par l’Entropie (TOE) permet de définir les Divergences de Sinkhorn (DS), une nouvelle classe de distance entre mesures de probabilités basées sur le TOE. Celles-ci permettentd’interpolerentredeuxautresdistancesconnues: leTransport Optimal(TO)etl’EcartMoyenMaximal(EMM).LesDSpeuventêtre utilisées pour apprendre des modèles probabilistes avec de meilleures performances que les algorithmes existants pour une régularisation adéquate. Ceci est justifié par un théorème sur l’approximation des SDpardeséchantillons, prouvantqu’unerégularisationsusantepermet de se débarrasser de la malédiction de la dimension du TO, et l’on retrouve à l’infini le taux de convergence des EMM. Enfin, nous présentons de nouveaux algorithmes de résolution pour le TOE basés surl’optimisationstochastique‘en-ligne’qui,contrairementàl’étatde l’art, ne se restreignent pas aux mesures discrètes et s’adaptent bien aux problèmes de grande dimension. / This thesis proposes theoretical and numerical contributions to use Entropy-regularized Optimal Transport (EOT) for machine learning. We introduce Sinkhorn Divergences (SD), a class of discrepancies betweenprobabilitymeasuresbasedonEOTwhichinterpolatesbetween two other well-known discrepancies: Optimal Transport (OT) and Maximum Mean Discrepancies (MMD). We develop an ecient numerical method to use SD for density fitting tasks, showing that a suitable choice of regularization can improve performance over existing methods. We derive a sample complexity theorem for SD which proves that choosing a large enough regularization parameter allows to break the curse of dimensionality from OT, and recover asymptotic ratessimilartoMMD.Weproposeandanalyzestochasticoptimization solvers for EOT, which yield online methods that can cope with arbitrary measures and are well suited to large scale problems, contrarily to existing discrete batch solvers.
|
253 |
Fluctuations, Counting Statistics, and Charge Transport in Mesoscopic SystemsGu, Jiayin 11 September 2020 (has links) (PDF)
In this thesis, we study the transport of charged particles in mesoscopic systems where the long-range electrostatic interaction plays a key role. In particular, we focus on the statistical properties of currents which satisfy the relation known as fluctuation theorem. A stochastic approach is presented in consistency with the laws of electricity, thermodynamics, and microreversibility. In this approach, densities of charged particles are ruled by stochastic partial differential equations and the electric field generated by the charges is determined with the Poisson equation.We start by proposing a coarse-grained model to describe the long-time behavior of particle transport in nonequilibrium systems in contact with several reservoirs. In this model, the particle exchanges between the reservoirs can be determined after a long enough time by the first and second cumulants of the probability distribution of particle transfers, thus enabling the numerical evaluation of the driving forces. It is proved that, close to equilibrium, the coarse-grained model is applicable to any system in nonequilibrium steady state. Moreover, the studies with specific examples show that the range of application of the coarse-grained model can be extended to the regime arbitrarily far from equilibrium if the detailed transition rates have linear dependence on the local particle concentration. In addition, the finite-time fluctuation theorem is established for systems with linear rates.Then, we use our stochastic approach to study charge transport in diodes and transistors. The counting statistics of the carrier current and the measured total current including the contribution of the displacement current are performed. The fluctuation theorem is shown to hold for both currents. The convergence of the finite-time affinities towards their asymptotic values over long-time scales is tested using our proposed coarse-grained model. Accurate agreement between the numerical affinities and the theoretical predictions is found when affinities take moderate values. This brings further numerical support to the fluctuation theorem for the currents in these nonlinear electronic devices. For diodes, the current-voltage characteristics is obtained, which can be well fit by Shockley curve under the extreme condition where the concentration of majority charge carriers is overwhelmingly larger than that of minority charge carriers. For transistors, the signal amplifying effect is realized under their working conditions. Moreover, the Onsager reciprocal relations and their generalizations to nonlinear transport properties deduced from the fluctuation theorem are numerically shown to be satisfied.Finally, we proceed to investigate the charge transport in a system of three tunneling junctions coupled together through a conductive island or quantum dot. The cumulant generating function is obtained by numerically solving the eigenvalue problem regarding the modified evolution operator including the counting parameters. The symmetry relation implied by the fluctuation theorem is verified, and the Onsager reciprocal relations together with their generalizations are again shown to be satisfied. Furthermore, under certain conditions, the current-voltage characteristics shows the staircase pattern due to the Coulomb blockade effect. / Le transport de particules charg´ees est ´etudi´e dans les syst`emes m´esoscopiques o`u l’interaction ´electrostatique`a longue port´ee joue un rˆole central. En particulier, l’´etude porte sur les propri´et´es statistiques des courants quisatisfont la relation appel´ee th´eor`eme de fluctuations. Une approche stochastique est pr´esent´ee en accord avec leslois de l’´electricit´e, la thermodynamique et la micror´eversibilit´e. Dans cette approche, les densit´es des particlescharg´ees sont gouvern´ees par des ´equations stochastiques aux d´eriv´ees partielles et le champ ´electrique est d´etermin´epar l’´equation de Poisson. Tout d’abord, un mod`ele stochastique r´eduit est propos´e pour d´ecrire le transport departicules dans les syst`emes de non-´equilibre en contact avec plusieurs r´eservoirs. Dans ce mod`ele, les ´echanges departicules entre les r´eservoirs sont d´etermin´es aux temps longs en termes des premiers et seconds cumulants de ladistribution de probabilit´e des transferts de particules, ce qui permet l’´evaluation num´erique des forces d’entraˆınement.Il est prouv´e que, pr`es de l’´equilibre, ce mod`ele peut s’appliquer `a tout syst`eme dans un ´etat stationnaire de non-´equilibre. Par ailleurs, l’´etude d’exemples sp´ecifiques montre que le domaine d’application de ce mod`ele s’´etend `a desr´egimes arbitrairement loin de l’´equilibre si les taux de transition ont des d´ependances lin´eaires en la concentrationde particules. En plus, le th´eor`eme de fluctuations `a temps fini est ´etabli pour ces syst`emes avec des taux lin´eaires.Ensuite, l’approche stochastique est utilis´ee pour ´etudier le transport de charges dans les diodes et les transistors.La statistique de comptage est effectu´ee pour le courant des porteurs de charge et le courant total mesur´e incluantla contribution du courant de d´eplacement. Le th´eor`eme de fluctuations est d´emontr´e pour les deux courants. Laconvergence des affinit´es `a temps fini vers leur valeur asymptotique est test´ee en utilisant le mod`ele stochastiquer´eduit. Un accord est observ´e entre les affinit´es obtenues num´eriquement et les pr´edictions th´eoriques si les affinit´esprennent des valeurs mod´er´ees. Tous ces r´esultats apportent des v´erifications num´eriques du th´eor`eme de fluctuationsdes courants dans les circuits ´electroniques non-lin´eaires. Pour les diodes, la courbe caract´eristique courant-tension estobtenue et celle-ci peut ˆetre ajust´ee par la courbe de Shockley si la concentration des porteurs de charge majoritairesest beaucoup plus grande que celle des porteurs minoritaires. Pour les transistors, l’effet d’amplification du signal estmis en ´evidence dans les conditions de fonctionnement normal. De plus, il est montr´e num´eriquement que les relationsde r´eciprocit´e d’Onsager sont satisfaites, ainsi que certaines de leurs g´en´eralisations aux propri´et´es non-lin´eaires detransport d´eduites du th´eor`eme de fluctuations. Finalement, le transport de charges est ´etudi´e dans un syst`eme form´ede trois jonctions `a effet tunnel coupl´ees par un plot conducteur (quantique). La fonction g´en´eratrice des cumulantsest alors obtenue par r´esolution num´erique du probl`eme aux valeurs propres de l’op´erateur d’´evolution modifi´e pourinclure les param`etres de comptage. La relation de sym´etrie d´eduite du th´eor`eme de fluctuations est v´erifi´ee, ainsique les relations de r´eciprocit´e d’Onsager et leurs g´en´eralisations. Par ailleurs, sous certaines conditions, les courbescaract´eristiques courant-tension montrent une structure en marches d’escalier due `a l’effet de blocage coulombien. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
254 |
Développement d'un modèle statistique neuronal pour la description fine de la pollution atmosphérique par le dioxyde d'azote : application à la région parisienneRude, Julien 23 January 2008 (has links)
Les oxydes d'azote (NOx) sont les indicateurs principaux de la pollution atmosphérique produite par les véhicules. La concentration de NO2, polluant réglementé pour ses effets sur la santé, dépasse en 2006, à Paris et en proche banlieue, les niveaux réglementaires pour l'ensemble des stations qui le mesurent, et en particulier à proximité du trafic. Ainsi, les six stations franciliennes de proximité au trafic automobile, dépassent largement l'objectif de qualité (jusqu'à 2.5 fois) et la valeur limite (jusqu'à deux fois). L'objectif de ma thèse visait à mettre au point un modèle qtatistique de détermination des concentrations "respirables" par la population, pour le NO2 en milieu urbain. Compte tenu de la nécessité d'une base de données statistiquement représentative, le modèle a été développé sur la région parisienne. Nous avons sélectionné les variables nécessaires à la description du système et à la définition de la fonction de régression neuronale sur la base de notre connaissance du phénomène étudié. Les paramètres de la régression ont été optimisés au cours d'une phase d'apprentissage à partir d'observations relevées à 5 stations de "trafic" et 5 stations "urbaines". Les variables que nous avons retenues sont (i) des concentrations de fond en NO2 estimées par un modèle de chimie transport à l'échelle régionale, (ii) des paramètres d'émissions locales pour les sources urbaines, (iii) des paramètres de la topographie urbaine qui participent à la dispersion en milieu urbain et enfin (iv) des paramètres météorologiques. Le modèle construit (nommé PAP) est un modèle hybride prenant en compte les sorties d'un modèle régional déterministe CHIMERE, pour quantifier le niveau de fonds urbain, et intégre une fonction statistique de réduction d'échelle pour estimer les champs de concentrations au niveau "respirable" de la rue / Résumé anglais manquant
|
255 |
A mathematical approach to embryonic morphogenesis based on spatio-temporal cell lineages / Une approche mathématique de la morphogenèse embryonnaire basée sur des lignages spatio-temporellesDiaz simoes, Juan Raphael 19 October 2017 (has links)
Cette thèse traite des processus morphogénétiques au cours de l’embryogenèse pré-coce des vertébrés par le biais d’une étude mathématique et physique des lignagescellulaires spatio-temporels reconstruits à partir d’imagerie 3D+temps in vivo. Notreméthodologie repose sur une représentation de type système complexe de l’embryonavec ses différents niveaux d’organisation en interaction et l’analyse formelle des dé-placements cellulaires dans l’espace et dans le temps. Nous avons conçu et mis enœuvre une méthodologie originale pour identifier dans les lignages cellulaires la for-mation de compartiments en cohérence avec les repères anatomiques et l’organisationdes organes présomptifs. En outre, nous proposons une stratégie pour inférer les forcesbiomécaniques sous-jacentes. Nous délivrons également une interface informatique er-gonomique, d’abord déployée pour mettre en œuvre notre méthodologie, mais aussiconçue pour être extensible et versatile. Ces outils visent à construire une représenta-tion commune pour les biologistes, les mathématiciens, les physiciens et les informati-ciens explorant les processus de la morphogenèse des organismes vivants. / This thesis approaches morphogenetic processes in the early embryogenesis of verte-brates through the mathematical and physical study of spatio-temporal cell lineagesreconstructed from in vivo 3D+time images. Our methodology is based on a complexsystems representation of the embryo, with the interaction between levels of organiza-tion and the formal analysis of cell displacements in space and time. We designed andimplemented an original methodology to identify in cell lineages the formation of com-partments in consistency with anatomical landmarks and the organization of presump-tive organs. In addition, we proposed a strategy to infer the underlying biomechanicalforces. We also delivered a user-friendly computer interface, first deployed for usingour methodology but also designed to be extensible and versatile, which aims to bea common ground for biologists, mathematicians, physicists and computer scientistsinvestigating morphogenetic processes in living systems.
|
256 |
Méthodes d’apprentissage statistique pour l’optimisation globale / Statistical learning approaches for global optimizationContal, Emile 29 September 2016 (has links)
Cette thèse se consacre à une analyse rigoureuse des algorithmes d'optimisation globale équentielle. On se place dans un modèle de bandits stochastiques où un agent vise à déterminer l'entrée d'un système optimisant un critère. Cette fonction cible n'est pas connue et l'agent effectue séquentiellement des requêtes pour évaluer sa valeur aux entrées qu'il choisit. Cette fonction peut ne pas être convexe et contenir un grand nombre d'optima locaux. Nous abordons le cas difficile où les évaluations sont coûteuses, ce qui exige de concevoir une sélection rigoureuse des requêtes. Nous considérons deux objectifs, d'une part l'optimisation de la somme des valeurs reçues à chaque itération, d'autre part l'optimisation de la meilleure valeur trouvée jusqu'à présent. Cette thèse s'inscrit dans le cadre de l'optimisation bayésienne lorsque la fonction est une réalisation d'un processus stochastique connu, et introduit également une nouvelle approche d'optimisation par ordonnancement où l'on effectue seulement des comparaisons des valeurs de la fonction. Nous proposons des algorithmes nouveaux et apportons des concepts théoriques pour obtenir des garanties de performance. Nous donnons une stratégie d'optimisation qui s'adapte à des observations reçues par batch et non individuellement. Une étude générique des supremums locaux de processus stochastiques nous permet d'analyser l'optimisation bayésienne sur des espaces de recherche nonparamétriques. Nous montrons également que notre approche s'étend à des processus naturels non gaussiens. Nous établissons des liens entre l'apprentissage actif et l'apprentissage statistique d'ordonnancements et déduisons un algorithme d'optimisation de fonctions potentiellement discontinue. / This dissertation is dedicated to a rigorous analysis of sequential global optimization algorithms. We consider the stochastic bandit model where an agent aim at finding the input of a given system optimizing the output. The function which links the input to the output is not explicit, the agent requests sequentially an oracle to evaluate the output for any input. This function is not supposed to be convex and may display many local optima. In this work we tackle the challenging case where the evaluations are expensive, which requires to design a careful selection of the input to evaluate. We study two different goals, either to maximize the sum of the rewards received at each iteration, or to maximize the best reward found so far. The present thesis comprises the field of global optimization where the function is a realization from a known stochastic process, and the novel field of optimization by ranking where we only perform function value comparisons. We propose novel algorithms and provide theoretical concepts leading to performance guarantees. We first introduce an optimization strategy for observations received by batch instead of individually. A generic study of local supremum of stochastic processes allows to analyze Bayesian optimization on nonparametric search spaces. In addition, we show that our approach extends to natural non-Gaussian processes. We build connections between active learning and ranking and deduce an optimization algorithm of potentially discontinuous functions.
|
257 |
Modèles de dépendance dans la théorie du risqueBargès, Mathieu 16 April 2018 (has links)
Initialement, la théorie du risque supposait l’indépendance entre les différentes variables aléatoires et autres paramètres intervenant dans la modélisation actuarielle. De nos jours, cette hypothèse d’indépendance est souvent relâchée afin de tenir compte de possibles interactions entre les différents éléments des modèles. Dans cette thèse, nous proposons d’introduire des modèles de dépendance pour différents aspects de la théorie du risque. Dans un premier temps, nous suggérons l’emploi des copules comme structure de dépendance. Nous abordons tout d’abord un problème d’allocation de capital basée sur la Tail-Value-at-Risk pour lequel nous supposons un lien introduit par une copule entre les différents risques. Nous obtenons des formules explicites pour le capital à allouer à l’ensemble du portefeuille ainsi que la contribution de chacun des risques lorsque nous utilisons la copule Farlie-Gumbel-Morgenstern. Pour les autres copules, nous fournissons une méthode d’approximation. Au deuxième chapitre, nous considérons le processus aléatoire de la somme des valeurs présentes des sinistres pour lequel les variables aléatoires du montant d’un sinistre et de temps écoulé depuis le sinistre précédent sont liées par une copule Farlie-Gumbel-Morgenstern. Nous montrons comment obtenir des formes explicites pour les deux premiers moments puis le moment d’ordre m de ce processus. Le troisième chapitre suppose un autre type de dépendance causée par un environnement extérieur. Dans le contexte de l’étude de la probabilité de ruine d’une compagnie de réassurance, nous utilisons un environnement markovien pour modéliser les cycles de souscription. Nous supposons en premier lieu des temps de changement de phases de cycle déterministes puis nous les considérons ensuite influencés en retour par les montants des sinistres. Nous obtenons, à l’aide de la méthode d’erlangisation, une approximation de la probabilité de ruine en temps fini. / Initially, it was supposed in risk theory that the random variables and other parameters of actuarial models were independent. Nowadays, this hypothesis is often relaxed to take into account possible interactions. In this thesis, we propose to introduce some dependence models for different aspects of risk theory. In a first part, we use copulas as dependence structure. We first tackle a problem of capital allocation based on the Tail- Value-at-Risk where the risks are supposed to be dependent according to a copula. We obtain explicit formulas for the capital to be allocated to the overall portfolio but also for the contribution of each risk when we use a Farlie-Gumbel-Morenstern copula. For the other copulas, we give an approximation method. In the second chapter, we consider the stochastic process of the discounted aggregate claims where the random variables for the claim amount and the time since the last claim are linked by a Farlie-Gumbel- Morgenstern copula.We show how to obtain exact expressions for the first two moments and for the moment of order m of the process. The third chapter assumes another type of dependence that is caused by an external environment. In the context of the study of the ruin probability for a reinsurance company, we use a Markovian environment to model the underwriting cycles. We suppose first deterministic cycle phase changes and then that these changes can also be influenced by the claim amounts. We use the erlangization method to obtain an approximation for the finite time ruin probability.
|
258 |
Évaluation des mesures de ruine dans le cadre de modèles avancés de risqueMarri, Fouad 13 April 2018 (has links)
La théorie du risque consiste en l'étude de modèles décrivant le processus de surplus d 'une compagnie d 'assurance. L'évaluation de différentes mesures de ruine dans le cadre de ces modèles permet d'obtenir une idée générale de la santé financière de la compagnie d'assurance et du risque assumé par celle-ci. Le modèle classique de risque pour décrire les arrivées et les coûts des sinistres est le modèle Poisson composé. Ce modèle est basé sur une hypothèse d 'indépendance entre le montant des sinistres et le temps écoulé entre chacun. Cette hypothèse facilite le calcul des mesures de ruine mais peut s'avérer trop restrictive dans différents contextes. L'objectif principal de cette thèse est l'étude d'extensions du modèle classique dans lesquelles sont introduites une structure de dépendance entre la sévérité et la fréquence des sinistres. La copule de Farlie-Gumbel-Morgenstern et une extension de cette copule sont utilisées pour définir cette structure. En raison de la forme et de la flexibilité de ces copules, il est possible d'adapter les outils développés récemment en théorie du risque dans l'évaluation et l'analyse des mesures de ruine. La fonction de Gerber-Shiu et certains cas particuliers de cette fonction , comme la transformée de Laplace du temps de la ruine et l'espérance de la valeur actualisée du déficit à la ruine sont étudiées dans le cadre de ces extensions. On s'intéresse également à l'évolution du processus de surplus en présence d'une barrière horizontale. Les mesures de ruine citées plus haut, ainsi que le montant total actualisé des dividendes distribués sont évaluées. / [Copule de Farlie-Gumbel-Morgenstern ; Modèle Poisson composé]
|
259 |
Nonparametric methods for the estimation of the conditional distribution of an interval-censored lifetime given continuous covariatesDehghan, Mohammad Hossein 19 April 2018 (has links)
Cette thèse contribue au développement de l'estimation non paramétrique de la fonction de survie conditionnelle étant donné une covariable continue avec données censurées. Elle est basée sur trois articles écrits avec mon directeur de thèse, le professeur Thierry Duchesne. Le premier article, intitulé "Une généralisation de l'estimateur de Turnbull pour l'estimation non paramétrique de la fonction de survie conditionnelle avec données censurées par intervalle, " a été publié en 2011 dans Lifetime Data Analysis, vol. 17, pp. 234 - 255. Le deuxième article, intitulé "Sur la performance de certains estimateurs nonparamétriques de la fonction de survie conditionnelle avec données censurées par intervalle, " est parru en 2011 dans la revue Computational Statistics & Data Analysis, vol. 55, pp. 3355-3364. Le troisième article, intitulé "Estimation de la fonction de survie conditionnelle d'un temps de défaillance étant donné une covariable variant dans le temps avec observations censurées par intervalles", sera bientôt soumis à la revue Statistica Sinica.
|
260 |
Modèles de copules Archimédiennes pour données de Bernoulli corréléesTounkara, Fode 23 April 2018 (has links)
Cette thèse introduit et explore une nouvelle classe de modèles probabilistes pour des données de Bernoulli échangeables en forme de grappe. Dans ces modèles, la probabilité conditionnelle de succès est une fonction de la probabilité marginale de succès et d’un effet aléatoire positif spécifique à chaque grappe. La distribution de l’effet aléatoire contient un paramètre d’association qui est estimé pour donner une mesure de la force de la dépendance résiduelle ignorée par les marges. Nous montrons que la transformée de Laplace de l’effet aléatoire est liée au générateur des modèles de copules Archimédiennes, ce qui nous permet d’avoir un nouvel aperçu de ces modèles. L’approche que nous proposons offre de nombreux avantages. En effet, la famille de copules Archimédiennes fournit une large classe de modèles pour la sur-dispersion dans une expérience de Bernoulli. D’un point de vue statistique, la fonction de vraisemblance marginale pour les données de l’échantillon a une expression explicite, les méthodes du maximum de vraisemblance sont alors faciles à mettre en oeuvre. Nous avons considéré quatre applications de nos modèles. Premièrement, nous construisons un intervalle de confiance par vraisemblance profilée pour le coefficient de corrélation intra-grappe (ICC). La deuxième application concerne l’estimation de la taille d’une population en présence d’hétérogénéité observée et non observée (résiduelle) dans une expérience de capture-recapture. Le troisième problème traite de l’estimation dans de petites régions, et enfin le quatrième indépendant des trois premiers, analyse les caractéristiques socio-économiques des hommes qui ont une préférence à épouser des jeunes filles de moins de 18 ans. Dans la première application, nous considérons le cas le plus simple de nos modèles où aucune covariable n’est disponible puis proposons la méthode du maximum de vraisemblance pour l’estimation du coefficient de corrélation intra-grappe (ICC) à l’aide de plusieurs spécifications de copules Archimédiennes. La sélection d’un modèle particulier est effectuée en utilisant le critère d’information d’Akaike (AIC). La procédure comprend l’estimation du maximum de vraisemblance et la méthode du profil de vraisemblance (ou vraisemblance profilée). Nous avons fait des études de simulation pour mesurer la performance de la méthode d’intervalle par vraisemblance profilée sous nos modèles en termes de taux de couverture et de longueur d’intervalle de confiance, et la sensibilité de notre approche à la spécification d’un modèle de copule. La procédure que nous proposons a aussi été appliquée à des données réelles. Nous comparons notre méthode à celle proposée sous le modèle Béta-binomial, et la méthode d’intervalle de type Wald modifié proposée par Zou and Donner (2004). L’une des conclusions importantes de ces études est que l’intervalle de confiance par vraisemblance profilée obtenu sous nos modèles présente de belles propriétés en termes de taux couverture et de longueur d’intervalle de confiance, même lorsque le nombre de grappes est petit. La sélection de modèle est une étape importante : si le modèle est mal spécifié, alors cela pourrait conduire à des résultats erronés. La seconde application, une extension de la première pour accommoder des covariables au niveau des grappes, concerne la modélisation de l’hétérogéneité dans les probabilités de capture lors d’une expérience de capture-recapture dans une population fermée. Dans ce contexte, nos modèles sont utilisés pour modéliser l’hétérogéneité résiduelle qui n’est pas prise en compte par les covariables mesurées sur des unités capturées. Plusieurs modèles sont disponibles pour l’hétérogénéité non observée et la probabilité de capture marginale est modélisée en utilisant les fonctions de liens Logit et Log-Log complémentaire. Les paramètres sont estimés en utilisant la vraisemblance conditionnelle construite à partir des observations collectées sur les unités capturées au moins une fois. Ceci généralise le modèle de Huggins (1991) qui ne tient pas compte de l’hétérogénéité résiduelle. La sensibilité de l’inférence à la spécification d’un modèle est également étudiée par des simulations. Un exemple numérique est présenté. La troisième application traite de la prédiction dans de petites régions. Nous proposons des techniques de Bayes basées sur nos modèles pour estimer des proportions régionales. L’inférence Bayésienne que nous proposons consiste à trouver la distribution a posteriori de l’effet aléatoire et sa transformée de Laplace sachant les données et les paramètres du modèle. Cette transformée de Laplace est ensuite utilisée pour trouver des estimateurs de Bayes et leurs variances a posteriori pour les vraies proportions. Nous développons une étude de comparaison entre le meilleur prédicteur de Bayes (BP) et le meilleur prédicteur linéaire sans biais (BLUP). Nous avons également étudié l’efficacité du BP obtenu sous nos modèles relativement au BLUP. Les paramètres du modèle sont estimés en utilisant la méthode du maximum de vraisemblance. L’avantage de notre approche est que la fonction de vraisemblance et l’expression du meilleur prédicteur (BP) ont une forme explicite, ce qui facilite la mise en oeuvre de leur évaluation sur le plan numérique. Nous obtenons un prédicteur empirique de Bayes (EBP) en remplaçant les paramètres par leurs estimateurs dans l’expression du BP. Nous utilisons le critère d’information d’Akaike (AIC) pour la selection d’un modèle. Nous utilisons la méthode du jackknife pour estimer l’erreur quadratique moyenne des prédicteurs empiriques. Des résultats empiriques obtenus à partir de données simulées et réelles sont également présentés. Enfin, le quatrième problème traité dans cette thèse, qui est indépendant des trois premiers, concerne l’analyse des caractéristiques socio-économiques des hommes qui ont une préférence à épouser des jeunes filles de moins de 18 ans. Dans ce contexte, nous considérons les données de l’EDS 2006 du Niger et utilisons les copules Archimédiennes bidimentionelles pour modéliser l’association entre le niveau d’éducation (variable discrète) des hommes et leur revenu pré-marital (variable continue). Nous construisons la vraisemblance pour un échantillon issu de ce couple de variables aléatoires mixtes, et déduisons une estimation du paramètre de dépendance en utilisant une procédure semi-paramétrique où les marges sont estimées par leurs équivalents empiriques. Nous utilisons la méthode du jackknife pour estimer l’erreur type. Nous utilisons la méthode de Wald pour tester l’égalité entre l’association des caractéristiques socio-économiques des hommes qui épousent des jeunes filles mineures et celle des hommes qui se marient avec des femmes âgées. Les résultats du test contribuent à la validité de notre théorie selon laquelle les hommes qui épousent des jeunes filles de moins de 18 ans ont un niveau d’éducation et un revenu pré-marital faibles, lorsqu’on les compare aux hommes qui ne le font pas. / This thesis introduces and explores a new class of probability models for exchangeable clustered binary data. In these models, the conditional probability of success is characterized by a function of the marginal probability of success and a positive cluster-specific random effect. The marginal probabilities are modeled using the logit and complementary log-log link functions. The distribution of the random effect contains an association parameter that is estimated to give a measure of the strength of the within-cluster residual dependence that is not accounted for by the margins. We show that the random effect distributions can be related to exchangeable Archimedean copula models, thus giving new insights on such models. The copula approach offers many advantages. Indeed, the family of Archimedean copulas provides a large class of models for over-dispersion in a Bernoulli experiment. From a statistical perspective, the marginal likelihood function for the sample data has an explicit expression, the maximum likelihood methods are then easy to implement and computationally straightforward. Based on the proposed models, four applications are considered. First, we investigate the construction of profile likelihood confidence interval (PLCI) for the intra-cluster correlation coefficient (ICC). The second application is concerned with an heterogeneity in capture probabilities in a mark-recapture study for estimating the size of a closed population. The third contribution deals with the estimation in small areas, the fourth and final, independent of the other three, analyzes the socioeconomic characteristics of men who prefer to marry girls under 18 years old. In the first application, we consider a simple case, without covariates and construct maximum likelihood inference procedures for the intra-cluster correlation using several specifications of Archimedean copulas. The selection of a particular model is carried out using the Akaike information criterion (AIC). Profile likelihood confidence intervals for the ICC are constructed and their performance are assessed in a simulation experiment. The sensitivity of the inference to the specification of the copula family is also investigated through simulations. Numerical examples are presented. We compare our approach with that proposed under the Beta-binomial model and with the modified Wald interval method proposed by Zou and Donner (2004). One of the important findings of these studies is that the profile confidence interval obtained under our models presents nice properties, even when the number of clusters is small. Model selection is an important step: if the model is poorly specified, then this could lead to erroneous results. The second application, an extension of the first one to accommodate cluster level covariates, is concerned with an heterogeneity in capture probabilities in a capture-recapture study for estimating the size of a closed population. Unit level covariates are recorded on the units that are captured and copulas are used to model the residual heterogeneity that is not accounted for by covariates. Several models for the unobserved heterogeneity are available and the marginal capture probability is expressed using the Logit and the complementary Log-Log link functions. The parameters are estimated using a conditional likelihood constructed with the data obtained on the units caught at least once. The population size is estimated using a Horvitz-Thompson estimator constructed using the estimated probabilities that a unit is caught at least once. This generalizes the model of Huggins (1991) that does not account for a residual heterogeneity. The sensitivity of the inference to the specification of a model is also investigated through simulations. A numerical example is presented. The third application uses the models of the first two in order to estimate small area proportions. We apply Bayes techniques using a new class of probability models, to estimate small area proportions. The Bayesian inference under the proposed models consists in obtaining the posterior distribution of the random effect and its Laplace transform. This posterior Laplace transform is then used to find Bayes estimates of small area proportions. We develop a comparison between the Best Predictor (BP) and the Best Linear Unbiased Predictor (BLUP). The model parameters are estimated using the maximum likelihood (ML) method. Under the proposed model, the likelihood function and the best predictor (BP) of small area proportion have closed form expressions. Model parameters are replaced by their ML estimates in the BP to obtain the empirical best predictor (EBP). We use the Akaike information criterion (AIC) for selecting a particular model. We propose the jackknife method to estimate the mean square error of the empirical Bayes predictor. Empirical results obtained from simulated and real data are also presented. The fourth and last problem addressed in this thesis, independently of the others three, investigates socioeconomic characteristics of men who prefer to marry girls under 18 years. We consider the data from the 2006 DHS Niger and use a bivariate Archimedean copula to model the association between education level (discrete) of men and their pre-marital income (continuous). We present the likelihood function for a sample from this pair of mixed random variables, and derive an estimate of the dependence parameter using a semiparametric procedure where margins are estimated by their empirical equivalents. We use the jackknife method to estimate the standard error. We use a Wald-type procedure, to perform a parametric hypothesis test of equality between the association of the socio economic characteristics of men who marry underage girls and that of men who marry older women instead. These test results contribute to the validity of our theory that men who marry girls under 18 years old have a low level of education and income pre-marital, when compared to men who did not.
|
Page generated in 0.0265 seconds