Global ETD Search

1	Estimation et sélection en classification semi-supervisée Vandewalle, Vincent 09 December 2009 (has links) (PDF) Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints. [MATH] Mathematics modèles de mélange estimation par maximum de vraisemblance données manquantes algorithme EM analyse discriminante classification semi-supervisée modèles parcimonieux choix de modèle
2	Etude de l'estimation du Maximum de Vraisemblance dans des modèles Markoviens, Semi-Markoviens et Semi-Markoviens Cachés avec Applications Trevezas, Samis 05 December 2008 (has links) (PDF) Dans ce travail je présente une étude unifiée basée sur l'estimation du maximum de vraisemblance pour des modèles markoviens, semi-markoviens et semi-markoviens cachés. Il s'agit d'une étude théorique des propriétés asymptotiques de l'EMV des modèles mentionnés ainsi que une étude algorithmique. D'abord, nous construisons l'estimateur du maximum de vraisemblance (EMV) de la loi stationnaire et de la variance asymptotique du théorème de la limite centrale (TLC) pour des fonctionnelles additives des chaînes de Markov ergodiques et nous démontrons sa convergence forte et sa normalité asymptotique. Ensuite, nous considérons un modèle semi-markovien non paramétrique. Nous présentons l'EMV exact du noyau semi-markovien qui gouverne l'évolution de la chaîne semi-markovienne (CSM) et démontrons la convergence forte, ainsi que la normalité asymptotique de chaque sous-vecteur fini de cet estimateur en obtenant des formes explicites pour les matrices de covariance asymptotiques. Ceci a été appliqué pour une observation de longue durée d'une seule trajectoire d'une CSM, ainsi que pour une suite des trajectoires i.i.d. d'une CSM censurée à un instant fixe. Nous introduisons un modèle semi-markovien caché (MSMC) général avec dépendance des temps de récurrence en arrière. Nous donnons des propriétés asymptotiques de l'EMV qui correspond à ce modèle. Nous déduisons également des expressions explicites pour les matrices de covariance asymptotiques qui apparaissent dans le TLC pour l'EMV des principales caractéristiques des CSM. Enfin, nous proposons une version améliorée de l'algorithme EM (Estimation-Maximisation) et une version stochastique de cet algorithme (SAEM) afin de trouver l'EMV pour les MSMC non paramétriques. Des exemples numériques sont présentés pour ces deux algorithmes. [MATH] Mathematics processus stochastiques chaînes de Markov chaînes semi-markoviennes chaînes semi-markoviennes cachées estimation non paramétrique estimation du maximum de vraisemblance algorithme EM algorithme EM stochastique estimation de la variance
3	Densités de copules archimédiennes hiérarchiques Pham, David 04 1900 (has links) Les copulas archimédiennes hiérarchiques ont récemment gagné en intérêt puisqu’elles généralisent la famille de copules archimédiennes, car elles introduisent une asymétrie partielle. Des algorithmes d’échantillonnages et des méthodes ont largement été développés pour de telles copules. Néanmoins, concernant l’estimation par maximum de vraisemblance et les tests d’adéquations, il est important d’avoir à disposition la densité de ces variables aléatoires. Ce travail remplie ce manque. Après une courte introduction aux copules et aux copules archimédiennes hiérarchiques, une équation générale sur les dérivées des noeuds et générateurs internes apparaissant dans la densité des copules archimédiennes hiérarchique. sera dérivée. Il en suit une formule tractable pour la densité des copules archimédiennes hiérarchiques. Des exemples incluant les familles archimédiennes usuelles ainsi que leur transformations sont présentés. De plus, une méthode numérique efficiente pour évaluer le logarithme des densités est présentée. / Nested Archimedean copulas recently gained interest since they generalize the well-known class of Archimedean copulas to allow for partial asymmetry. Sampling algorithms and strategies have been well investigated for nested Archimedean copulas. However, for likelihood based inference such as estimation or goodness-of-fit testing it is important to have the density. The present work fills this gap. After a short introduction on copula and nested Archimedean copulas, a general formula for the derivatives of the nodes and inner generators appearing in nested Archimedean copulas is developed. This leads to a tractable formula for the density of nested Archimedean copulas. Various examples including famous Archimedean families and transformations of such are given. Furthermore, a numerically efficient way to evaluate the log-density is presented. nested Archimedean copulas likelihood-based inference copula generator derivatives density Archimedean copula Densité Estimation par maximum de vraisemblance Copule Copule archimédienne Copule archimédienne hiérarchique dérivées de générateur
4	The Double Pareto-Lognormal Distribution and its applications in actuarial science and finance Zhang, Chuan Chuan 01 1900 (has links) Le but de ce mémoire de maîtrise est de décrire les propriétés de la loi double Pareto-lognormale, de montrer comment on peut introduire des variables explicatives dans le modèle et de présenter son large potentiel d'applications dans le domaine de la science actuarielle et de la finance. Tout d'abord, nous donnons la définition de la loi double Pareto-lognormale et présentons certaines de ses propriétés basées sur les travaux de Reed et Jorgensen (2004). Les paramètres peuvent être estimés en utilisant la méthode des moments ou le maximum de vraisemblance. Ensuite, nous ajoutons une variable explicative à notre modèle. La procédure d'estimation des paramètres de ce mo-\\dèle est également discutée. Troisièmement, des applications numériques de notre modèle sont illustrées et quelques tests statistiques utiles sont effectués. / The purpose of this Master's thesis is to describe the double Pareto-lognormal distribution, show how the model can be extended by introducing explanatory variables in the model and present its large potential of applications in actuarial science and finance. First, we give the definition of the double Pareto-lognormal distribution and present some of its properties based on the work of Reed and Jorgensen (2004). The parameters could be estimated by using the method of moments or maximum likelihood. Next, we add an explanatory variable to our model. The procedure of estimation for this model is also discussed. Finally, some numerical applications of our model are illustrated and some useful statistical tests are conducted. Loi normale-Laplace loi double Pareto-lognormale estimation du maximum de vraisemblance transformation de Box-Cox variables explicatives test d'ajustement Normal-Laplace distribution double Pareto-lognormal distribution maximum likelihood estimation Box-Cox transformation explanatory variables goodness-of-fit test
5	Estimation de l’histoire démographique des populations à partir de génomes entièrement séquencés. / Estimation de l’histoire démographique des populations à partir de génomes entièrement séquencés Rodriguez Valcarce, Willy 20 June 2016 (has links) Le développement des nouvelles techniques de séquençage élargit l' horizon de la génétique de populations. Une analyse appropriée des données génétiques peut augmenter notre capacité à reconstruire l'histoire des populations. Cette énorme quantité de données disponibles peut aider les chercheurs en biologie et anthropologie à mieux estimer les changements démographiques subis par une population au cours du temps, mais induit aussi de nouveaux défis. Lorsque les modèles sous-jacents sont trop simplistes il existe unrisque très fort d'être amené à des conclusions erronées sur la population étudiée. Il a été montré que certaines caractéristiques présentes dans l'ADN des individus d'une population structurée se trouvent aussi dans l'ADN de ceux qui proviennent d'une population sans structure dont la taille a changé au cours du temps. Par conséquent il peut s'avérer très difficile de déterminer si les changements de taille inférés à partir des données génétiquesont vraiment eu lieu ou s'il s'agit simplement des effets liés à la structure. D'ailleurs la quasi totalité des méthodes pour inférer les changements de taille d'une population au cours du temps sont basées sur des modèles qui négligent la structure.Dans cette thèse, de nouveaux résultats de génétique de populations sont présentés. Premièrement, nous présentons une méthodologie permettant de faire de la sélection de modèle à partir de l'ADN d'un seul individudiploïde. Cette première étude se limite à un modèle simple de population non structurée avec un changement de taille et à un modèle considérant une population de taille constante mais structurée. Cette nouvelle méthode utilise la distribution des temps de coalescence de deux gènes pour identifier le modèle le plus probable et ouvreainsi la voie pour de nouvelles méthodes de sélection de modèles structurés et non structurés, à partir de données génomiques issues d'un seul individu. Deuxièmement, nous montrons, par une ré-interprétation du taux de coalescence que, pour n'importe quel scénario structuré, et plus généralement n'importe quel modèle, il existe toujours un scénario considérant une population panmictique avec une fonction précise de changements de taille dont la distribution des temps de coalescence de deux gènes est identique a celle du scénario structuré. Cela non seulement explique pourquoi les méthodes d'inférence démographique détectent souvent des changements de taille n'ayant peut-être jamais eu lieu, mais permet aussi de prédire les changements de taille qui seront reconstruits lorsque des méthodes basées sur l'hypothèse de panmixie sont appliquées à des données issues de scénarios plus complexes. Finalement, une nouvelle approche basée sur un processus de Markov est développée et permet de caractériser la distribution du temps de coalescence de deux gènes dans une population structurée soumise à des événements démographiques tel que changement de flux de gènes et changements de taille. Une discussion est menée afin de décrire comment cette méthode donne la possibilité de reconstruire l'histoire démographique à partir de données génomiques tout en considérant la structure. / The rapid development of DNA sequencing technologies is expanding the horizons of population genetic studies. It is expected that genomic data will increase our ability to reconstruct the history of populations.While this increase in genetic information will likely help biologists and anthropologists to reconstruct the demographic history of populations, it also poses big challenges. In some cases, simplicity of the model maylead to erroneous conclusions about the population under study. Recent works have shown that DNA patterns expected in individuals coming from structured populations correspond with those of unstructured populations with changes in size through time. As a consequence it is often difficult to determine whether demographic events such as expansions or contractions (bottlenecks) inferred from genetic data are real or due to the fact that populations are structured in nature. Moreover, almost no inferential method allowing to reconstruct pastdemographic size changes takes into account structure effects. In this thesis, some recent results in population genetics are presented: (i) a model choice procedure is proposed to distinguish one simple scenario of population size change from one of structured population, based on the coalescence times of two genes, showing that for these simple cases, it is possible to distinguish both models using genetic information form one single individual; (ii) by using the notion of instantaneous coalescent rate, it is demonstrated that for any scenario of structured population or any other one, regardless how complex it could be, there always exists a panmitic scenario with a precise function of population size changes havingexactly the same distribution for the coalescence times of two genes. This not only explains why spurious signals of bottlenecks can be found in structured populations but also predicts the demographic history that actual inference methods are likely to reconstruct when applied to non panmitic populations. Finally, (iii) a method based on a Markov process is developed for inferring past demographic events taking the structure into account. This is method uses the distribution of coalescence times of two genes to detect past demographic changes instructured populations from the DNA of one single individual. Some applications of the model to genomic data are discussed. Génétique des populations Théorie de la coalescence Temps de coalescence Histoire démographique Chaîne de Markov Estimation par maximum de vraisemblance Population genetics Coalescence theory Coalescence time Demographic history Markov chain Maximum likelihood estimation 519.5 519.6 519.2
6	Densités de copules archimédiennes hiérarchiques Pham, David 04 1900 (has links) Les copulas archimédiennes hiérarchiques ont récemment gagné en intérêt puisqu’elles généralisent la famille de copules archimédiennes, car elles introduisent une asymétrie partielle. Des algorithmes d’échantillonnages et des méthodes ont largement été développés pour de telles copules. Néanmoins, concernant l’estimation par maximum de vraisemblance et les tests d’adéquations, il est important d’avoir à disposition la densité de ces variables aléatoires. Ce travail remplie ce manque. Après une courte introduction aux copules et aux copules archimédiennes hiérarchiques, une équation générale sur les dérivées des noeuds et générateurs internes apparaissant dans la densité des copules archimédiennes hiérarchique. sera dérivée. Il en suit une formule tractable pour la densité des copules archimédiennes hiérarchiques. Des exemples incluant les familles archimédiennes usuelles ainsi que leur transformations sont présentés. De plus, une méthode numérique efficiente pour évaluer le logarithme des densités est présentée. / Nested Archimedean copulas recently gained interest since they generalize the well-known class of Archimedean copulas to allow for partial asymmetry. Sampling algorithms and strategies have been well investigated for nested Archimedean copulas. However, for likelihood based inference such as estimation or goodness-of-fit testing it is important to have the density. The present work fills this gap. After a short introduction on copula and nested Archimedean copulas, a general formula for the derivatives of the nodes and inner generators appearing in nested Archimedean copulas is developed. This leads to a tractable formula for the density of nested Archimedean copulas. Various examples including famous Archimedean families and transformations of such are given. Furthermore, a numerically efficient way to evaluate the log-density is presented. nested Archimedean copulas likelihood-based inference copula generator derivatives density Archimedean copula Densité Estimation par maximum de vraisemblance Copule Copule archimédienne Copule archimédienne hiérarchique dérivées de générateur
7	Dynamic Programming Approaches for Estimating and Applying Large-scale Discrete Choice Models Mai, Anh Tien 12 1900 (has links) People go through their life making all kinds of decisions, and some of these decisions affect their demand for transportation, for example, their choices of where to live and where to work, how and when to travel and which route to take. Transport related choices are typically time dependent and characterized by large number of alternatives that can be spatially correlated. This thesis deals with models that can be used to analyze and predict discrete choices in large-scale networks. The proposed models and methods are highly relevant for, but not limited to, transport applications. We model decisions as sequences of choices within the dynamic discrete choice framework, also known as parametric Markov decision processes. Such models are known to be difficult to estimate and to apply to make predictions because dynamic programming problems need to be solved in order to compute choice probabilities. In this thesis we show that it is possible to explore the network structure and the flexibility of dynamic programming so that the dynamic discrete choice modeling approach is not only useful to model time dependent choices, but also makes it easier to model large-scale static choices. The thesis consists of seven articles containing a number of models and methods for estimating, applying and testing large-scale discrete choice models. In the following we group the contributions under three themes: route choice modeling, large-scale multivariate extreme value (MEV) model estimation and nonlinear optimization algorithms. Five articles are related to route choice modeling. We propose different dynamic discrete choice models that allow paths to be correlated based on the MEV and mixed logit models. The resulting route choice models become expensive to estimate and we deal with this challenge by proposing innovative methods that allow to reduce the estimation cost. For example, we propose a decomposition method that not only opens up for possibility of mixing, but also speeds up the estimation for simple logit models, which has implications also for traffic simulation. Moreover, we compare the utility maximization and regret minimization decision rules, and we propose a misspecification test for logit-based route choice models. The second theme is related to the estimation of static discrete choice models with large choice sets. We establish that a class of MEV models can be reformulated as dynamic discrete choice models on the networks of correlation structures. These dynamic models can then be estimated quickly using dynamic programming techniques and an efficient nonlinear optimization algorithm. Finally, the third theme focuses on structured quasi-Newton techniques for estimating discrete choice models by maximum likelihood. We examine and adapt switching methods that can be easily integrated into usual optimization algorithms (line search and trust region) to accelerate the estimation process. The proposed dynamic discrete choice models and estimation methods can be used in various discrete choice applications. In the area of big data analytics, models that can deal with large choice sets and sequential choices are important. Our research can therefore be of interest in various demand analysis applications (predictive analytics) or can be integrated with optimization models (prescriptive analytics). Furthermore, our studies indicate the potential of dynamic programming techniques in this context, even for static models, which opens up a variety of future research directions. / Les gens consacrent une importante part de leur existence à prendre diverses décisions, pouvant affecter leur demande en transport, par exemple les choix de lieux d'habitation et de travail, les modes de transport, les heures de départ, le nombre et type de voitures dans le ménage, les itinéraires ... Les choix liés au transport sont généralement fonction du temps et caractérisés par un grand nombre de solutions alternatives qui peuvent être spatialement corrélées. Cette thèse traite de modèles pouvant être utilisés pour analyser et prédire les choix discrets dans les applications liées aux réseaux de grandes tailles. Les modèles et méthodes proposées sont particulièrement pertinents pour les applications en transport, sans toutefois s'y limiter. Nous modélisons les décisions comme des séquences de choix, dans le cadre des choix discrets dynamiques, aussi connus comme processus de décision de Markov paramétriques. Ces modèles sont réputés difficiles à estimer et à appliquer en prédiction, puisque le calcul des probabilités de choix requiert la résolution de problèmes de programmation dynamique. Nous montrons dans cette thèse qu'il est possible d'exploiter la structure du réseau et la flexibilité de la programmation dynamique afin de rendre l'approche de modélisation dynamique en choix discrets non seulement utile pour représenter les choix dépendant du temps, mais également pour modéliser plus facilement des choix statiques au sein d'ensembles de choix de très grande taille. La thèse se compose de sept articles, présentant divers modèles et méthodes d'estimation, leur application ainsi que des expériences numériques sur des modèles de choix discrets de grande taille. Nous regroupons les contributions en trois principales thématiques: modélisation du choix de route, estimation de modèles en valeur extrême multivariée (MEV) de grande taille et algorithmes d'optimisation non-linéaire. Cinq articles sont associés à la modélisation de choix de route. Nous proposons différents modèles de choix discrets dynamiques permettant aux utilités des chemins d'être corrélées, sur base de formulations MEV et logit mixte. Les modèles résultants devenant coûteux à estimer, nous présentons de nouvelles approches permettant de diminuer les efforts de calcul. Nous proposons par exemple une méthode de décomposition qui non seulement ouvre la possibilité d'estimer efficacement des modèles logit mixte, mais également d'accélérer l'estimation de modèles simples comme les modèles logit multinomiaux, ce qui a également des implications en simulation de trafic. De plus, nous comparons les règles de décision basées sur le principe de maximisation d'utilité de celles sur la minimisation du regret pour ce type de modèles. Nous proposons finalement un test statistique sur les erreurs de spécification pour les modèles de choix de route basés sur le logit multinomial. Le second thème porte sur l'estimation de modèles de choix discrets statiques avec de grands ensembles de choix. Nous établissons que certains types de modèles MEV peuvent être reformulés comme des modèles de choix discrets dynamiques, construits sur des réseaux de structure de corrélation. Ces modèles peuvent alors être estimées rapidement en utilisant des techniques de programmation dynamique en combinaison avec un algorithme efficace d'optimisation non-linéaire. La troisième et dernière thématique concerne les algorithmes d'optimisation non-linéaires dans le cadre de l'estimation de modèles complexes de choix discrets par maximum de vraisemblance. Nous examinons et adaptons des méthodes quasi-Newton structurées qui peuvent être facilement intégrées dans des algorithmes d'optimisation usuels (recherche linéaire et région de confiance) afin d'accélérer le processus d'estimation. Les modèles de choix discrets dynamiques et les méthodes d'optimisation proposés peuvent être employés dans diverses applications de choix discrets. Dans le domaine des sciences de données, des modèles qui peuvent traiter de grands ensembles de choix et des ensembles de choix séquentiels sont importants. Nos recherches peuvent dès lors être d'intérêt dans diverses applications d'analyse de la demande (analyse prédictive) ou peuvent être intégrées à des modèles d'optimisation (analyse prescriptive). De plus, nos études mettent en évidence le potentiel des techniques de programmation dynamique dans ce contexte, y compris pour des modèles statiques, ouvrant la voie à de multiples directions de recherche future. Discrete choice modeling Route choice modeling Dynamic programing Dynamic discrete choice models Misspecification tests Nonlinear optimization algorithms Maximum likelihood estimation Prediction Modélisation Choix discrets Choix d'itinéraire Choix discrets dynamiques Programmation dynamique Tests de spécification Estimation du maximum de vraisemblance Algorithmes d'optimisation Prédiction
8	Route choice and traffic equilibrium modeling in multi-modal and activity-based networks Zimmermann, Maëlle 06 1900 (has links) No description available. Modèle markovien d'équilibre de trafic Estimation par maximum de vraisemblance Programmation dynamique Réseaux multi-modaux Recursive route choice models Maximum likelihood estimation Dynamic programming Multi-modal route choice Markovian traffic assignment model Activity-based travel demand

Search results