Global ETD Search

171	Modèles de dépendance avec copule Archimédienne : fondements basés sur la construction par mélange, méthodes de calcul et applications Veilleux, Dery 21 December 2018 (has links) Le domaine de l’assurance est basé sur la loi des grands nombres, un théorème stipulant que les caractéristiques statistiques d’un échantillon aléatoire suffisamment grand convergent vers les caractéristiques de la population complète. Les compagnies d’assurance se basent sur ce principe afin d’évaluer le risque associé aux évènements assurés. Cependant, l’introduction d’une relation de dépendance entre les éléments de l’échantillon aléatoire peut changer drastiquement le profil de risque d’un échantillon par rapport à la population entière. Il est donc crucial de considérer l’effet de la dépendance lorsqu’on agrège des risques d’assurance, d’où l’intérêt porté à la modélisation de la dépendance en science actuarielle. Dans ce mémoire, on s’intéresse à la modélisation de la dépendance à l’intérieur d’un portefeuille de risques dans le cas où une variable aléatoire (v.a.) mélange introduit de la dépendance entre les différents risques. Après avoir introduit l’utilisation des mélanges exponentiels dans la modélisation du risque en actuariat, on démontre comment cette construction par mélange nous permet de définir les copules Archimédiennes, un outil puissant pour la modélisation de la dépendance. Dans un premier temps, on démontre comment il est possible d’approximer une copule Archimédienne construite par mélange continu par une copule construite par mélange discret. Puis, nous dérivons des expressions explicites pour certaines mesures d’intérêt du risque agrégé. Nous développons une méthode de calcul analytique pour évaluer la distribution d’une somme de risques aléatoires d’un portefeuille sujet à une telle structure de dépendance. On applique enfin ces résultats à des problèmes d’agrégation, d’allocation du capital et de théorie de la ruine. Finalement, une extension est faite aux copules Archimédiennes hiérarchiques, une généralisation de la dépendance par mélange commun où il existe de la dépendance entre les risques à plus d’un niveau. / The law of large numbers, which states that statistical characteristics of a random sample will converge to the characteristics of the whole population, is the foundation of the insurance industry. Insurance companies rely on this principle to evaluate the risk of insured events. However, when we introduce dependencies between each component of the random sample, it may drastically affect the overall risk profile of the sample in comparison to the whole population. This is why it is essential to consider the effect of dependency when aggregating insurance risks from which stems the interest given to dependence modeling in actuarial science. In this thesis, we study dependence modeling in a portfolio of risks for which a mixture random variable (rv) introduces dependency. After introducing the use of exponential mixtures in actuarial risk modeling, we show how this mixture construction can define Archimedean copulas, a powerful tool for dependence modeling. First, we demonstrate how an Archimedean copula constructed via a continuous mixture can be approximated with a copula constructed by discrete mixture. Then, we derive explicit expressions for a few quantities related to the aggregated risk. The common mixture representation of Archimedean copulas is then at the basis of a computational strategy proposed to compute the distribution of the sum of risks in a general setup. Such results are then used to investigate risk models with respect to aggregation, capital allocation and ruin problems. Finally, we discuss an extension to nested Archimedean copulas, a general case of dependency via common mixture including different levels of dependency. / Résumé en espagnol QA 3.5 UL 2018 Copules (Statistique mathématique) Finances -- Gestion du risque
172	Sélection de copules archimédiennes dans un modèle semi-paramétrique Khadraoui, Lobna 05 July 2018 (has links) Ce travail considère un modèle linéaire semi-paramétrique dont les erreurs sont modélisées par une copule choisie parmi la famille archimédienne ou bien la copule normale. La modélisation des erreurs par une copule apporte une ﬂexibilité et permet de caractériser la structure de dépendance d’une manière simple et eﬃcace. La simplicité réside dans le fait qu’un seul paramètre α contrôle le degré de dépendance présent dans les données. L’eﬃcacité réside dans le fait que ce modèle semi-paramétrique permet de lever des hypothèses standards souvent rencontrées en statistique appliquée à savoir la normalité et l’indépendance. Après une mise en œuvre du modèle basée sur une copule nous avons proposé une étude théorique du comportement asymptotique de l’estimateur du paramètre de dépendance α en montrant sa convergence et sa normalité asymptotique sous des hypothèses classiques de régularité. L’estimation des paramètres du modèle a été réalisée en maximisant une pseudo-vraisemblance. La sélection de la meilleure copule pour un jeu de données a été faite à l’aide du critère d’Akaike. Une comparaison avec le critère de la validation croisée a été proposée également. Enﬁn, une étude numérique sur des jeux de données simulés et réels a été proposée dans la sélection. / This work considers a semi-parametric linear model with error terms modeled by a copula chosen from the Archimedean family or the normal copula. The modeling of errors by a copula provides ﬂexibility and makes it possible to characterize the dependency structure in a simple and eﬀective manner. The simplicity lies in the fact that a single parameter α controls the degree of dependency present in the data. The eﬃciency is in the fact that this semi-parametric model weakens standard assumptions often encountered in applied statistics namely normality and independence. After an implementation of the model based on a copula we proposed a theoretical study on the asymptotic behavior of the estimator of the dependence parameter α by showing its consistency and its asymptotic normality under classical assumptions of regularity. Estimation of the model parameters is performed by maximizing a pseudo-likelihood. The selection of the best copula that ﬁts the data for each case is based on the Akaike selection criterion. A comparison with the criterion of cross-validation is presented as well. Finally, a numerical study on simulated and real data sets is proposed. QA 3.5 UL 2018 Copules (Statistique mathématique) Modèles linéaires (Statistique) Développements asymptotiques
173	Formation à la statistique par la pratique d'enquêtes par questionnaires et la simulation : étude didactique d'une expérience d'enseignement dans un département d'IUT Oriol, Jean-Claude 17 November 2007 (has links) (PDF) Notre travail est une étude sur l'enseignement de la statistique en IUT, le statut et la mise en place d'une part d'enquêtes par questionnaires réalisées par les étudiants et d'autre part de simulations d'expériences aléatoires construites par les étudiants.<br />Il expose que l'enseignement de la statistique porte en lui une césure à la fois primitive et épistémologique, entre d'une part la collecte et le traitement des données, et d'autre part une approche fondée sur le calcul des probabilités plus ou moins éloignée des pratiques sociales, et que la réalisation d'enquêtes est un moyen d'atténuer la trace de cet écart primitif, permettant au sujet de construire le sens de ses apprentissages. D'une façon complémentaire nous étudierons comment la construction de simulations par les apprenants leur permet de dégager des invariants de la variabilité présente dans toute situation statistique.<br />Notre travail s'appuie sur les travaux de Gérard Vergnaud concernant la conceptualisation, sur la théorie des situations didactiques de Guy Brousseau, et sur la transposition didactique exposée par Yves Chevallard, ainsi que sur les travaux de Jean-Claude Régnier concernant la didactique de la statistique et le tâtonnement expérimental de l'apprenant, tout en essayant de déterminer la fonction de l'alternance ainsi que la dialectique entre projet et processus.<br />En termes d'ingénierie pédagogique notre exposé présentera un certain nombre de situations didactiques et désignera les divers obstacles rencontrés ; nous présenterons également deux enquêtes utilisant l'analyse statistique implicative (Régis Gras). apprentissage de la statistique simulation enquêtes enquêtes par questionnaires champs conceptuels situations didactiques analyse statistique implicative ingénierie pédagogique statistique IUT alternance
174	Tests exacts de stabilité structurelle et estimation ensembliste des élasticités dans les systèmes de demande avec applications en économie de l'énergie et du transport Yélou, Clément 11 April 2018 (has links) Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2006-2007 / Dans cette thèse, nous étudions deux problèmes économétriques qui portent sur l'inférence statistique dans des contextes économétriques où les méthodes habituelles ne sont pas fiables. Le premier problème porte sur des tests de rupture applicables dans les modèles multivariées et valides dans les échantillons finis. La plupart des tests de changement structurel disponibles sont des procédures asymptotiquement valides pour les modèles multivariés. D'abord, nous montrons que la majorité des tests de rupture les plus populaires souffrent de sérieux problèmes de taille. Ensuite, nous proposons trois types de tests de stabilité valides en échantillon fini: des versions exactes du test de rupture proposée par Bai, Lumsdaine et Stock (1998), des tests prédictifs multivariés, et des extensions du test de détection de valeurs aberrantes dû à Wilks (1963). Les statistiques de test proposées sont pivotales, de sorte que nous appliquons la méthode de test Monte Carlo pour obtenir des valeurs p (p-values) exactes. Ces procédures de test sont valides pourvu que la distribution multivariée des termes d'erreurs soit spécifiée à une matrice inversible près (l'hypothèse de normalité n'est pas nécessaire). Nous avons fait une étude de simulation pour évaluer les propriétés de niveau et de puissance des tests. Nous avons appliqué ces tests à un système de demande d'énergie estimé à partir des données annuelles canadiennes. Nos résultats illustrent, entre autres, les effets des chocs pétroliers et de la déréglementation des prix sur la demande d'énergie. Le deuxième sujet de recherche de cette thèse concerne les méthodes robustes à la non-identification et aux problèmes de frontière pour estimer des transformations non-linéaires des paramètres (i.e. le ratio de paramètres). Ce problème se rencontre dans plusieurs contextes économétriques, notamment dans l'estimation de la valeur du temps de voyage dans les modèles de demande de transport, ou dans l'inférence sur les élasticités de la demande ou de l'offre. Nous avons consacré deux textes à ce problème; le premier texte porte sur les développements théoriques généraux et quelques applications aux modèles de choix discret estimés par le maximum de vraisemblance analytique ou simulé; le second texte se concentre sur l'estimation des élasticités de la demande par rapport au prix et au revenu dans une équation dynamique de demande d'énergie. Pour le problème de l'estimation des ratios de paramètres, la méthode delta demeure la méthode la plus utilisée pour déterminer les intervalles de confiance correspondants. D'abord, nous mettons en évidence à l'aide d'études de simulation (basées sur des modèles de choix discret dans le premier texte et sur un modèle de régression dynamique dans le second) que la performance de l'intervalle de confiance obtenue à l'aide d'une méthode alternative du type de Fieller n'est pas affectée par les difficultés d'identification alors que le taux de couverture empirique de l'intervalle de confiance de la méthode delta s'éloigne énormément du niveau nominal lorsque le dénominateur devient proche de zéro, et ce pour toutes les tailles d'échantillon (petites et grandes). Ensuite, nous obtenons les expressions analytiques, simples à calculer, des bornes des ensembles de confiance simultanés, obtenus par projection, pour toute transformation linéaire scalaire d'un nombre fini de ratios de paramètres ayant un même dénominateur. En conséquence, l'utilisation de la méthode delta devrait être évitée dans ces contextes, alors que la méthode de Fieller est très prometteuse. Nos résultats utilisent de manière appropriée la géométrie des quadriques, récemment introduite en économétrie par Dufour et Taamouti (2005b) dans un context différent du nôtre mais relié. Nous illustrons la pertinence des méthodes que nous proposons à l'aide de deux études empiriques. La première analyse l'estimation de la valeur du temps de voyage dans divers modèles de demande de transport, et la seconde considère un modèle dynamique univarié de demande d'énergie spécifié pour le Québec (Canada). Étant donné qu'une procédure exacte existe [Dufour et Kiviet (1996,1998)] pour cette dernière situation, nous comparons la méthode de Fieller à la méthode exacte. Nos résultats montrent que la méthode de Fieller apparaît très prometteuse pour le problème de l'inférence statistique pour des ratios de paramètres. / In this thesis, we address two econometric problems related to statistical inference in econometric contexts where standard methods are unreliable. The first problem concerns finite-sample-motivated multivariate structural break tests. Most existing structural change tests are asymptotically justified in multivariate models. First we document serious size distortions associated with the most popular multivariate break tests. Next we propose three alternative finite sample structural change tests: exact versions of Bai, Lumsdaine and Stock (1998)'s break test, alternative multivariate predictive test procedures, and extensions of Wilks (1963)'s multivariate outliers test. Our proposed test statistics are pivotal, so we apply the Monte Carlo test method to obtain exact p-values. These procedures are valid provided the multivariate distribution of the error terms is specified up to an unknown non-singular matrix (normality is not strictly required). A large scale simulation study is conducted to assess the size and power properties of the proposed tests. Our tests are applied to an energy demand System estimated with annual Canadian data; our results illustrate the effects of oil shocks and price deregulation. The second research topic of this thesis concerns identification-robust estimation of non-linear parameter transformations (e.g. parameter ratio) allowing for boundary problems. This issue arises in a variety of econometric contexts, including estimation of value-of-time in transportation research, or inference on elasticities in demand or cost analysis. We devote two papers to this problem; the first paper provides general theoretical developments and an application to discrete choice models estimated by exact or simulation-based maximum likelihood while the second one focuses on the estimation of long run price and income elasticities in a dynamic demand equation. For the problem of estimating ratios, the delta method remains the commonly used method to derive associated confidence intervals. First we provide simulation-based evidence (for discrete choice models in the first paper and a dynamic regression model in the second paper) that an alternative Fieller-type method is immune to identification difficulties whereas the coverage rate of the confidence set based on the delta method deteriorates rapidly as the denominator becomes close to zéro, for ail sample sizes (small and large). Second, we derive easy-to-compute explicit solutions for projection-based simultaneous confidence limits for scalar linear transformations of a finite number of parameter ratios with a common denominator. Our derivations conveniently make use of quadrics mathematical tools, recently introduced to econometrics by Dufour and Taamouti (2005b), in a different although related context. We illustrate the usefulness of our proposed procedures via two empirical studies. The first focuses on the estimation of value-of-time in various transportation demand models, and the second analyses a univariate first-order dynamic energy demand model for Québec (Canada). Since an exact procedure [Dufour and Kiviet (1996, 1998)] is available - yet is computationally more demanding - for the latter context, we compare the Fieller method with the exact one. Our results show that the Fieller method seems very promising for inference on parameter ratios. HB 31.5 UL 2006 Y43 Statistique Modèles économétriques Rupture (Statistique) Observations aberrantes (Statistique) Analyse multivariée
175	Étude du vieillissement et des systèmes biologiques: une approche multidimensionnelle Morissette-Thomas, Vincent January 2015 (has links) On propose ici des méthodes statistiques qui tiennent compte de la structure complexe des bases de données et des interactions entre les variables. Parmi ces méthodes, certaines permettront de vérifier la stabilité et la robustesse des résultats obtenus. Nous utilisons l'analyse en composantes principales afin de détecter la présence de systèmes complexes. Nous utilisons la distance de Mahalanobis afin de décrire la dérèglement de ces systèmes et nous utilisons une méthode de bootstrap afin de vérifier la stabilité des résultats. Deux articles sont mis de l'avant afin de présenter l'application de ces outils dans le cadre du vieillissement et des systèmes biologiques sous-jacents. Analyse en composantes principales Distance statistique Biomarqueurs Vieillissement Multidimensionnel
176	Des chiffres et des êtres. étude introductive à l'identification de la représentation sociale de la statistique chez des étudiants de premier cycle en Sciences humaines et sociales en France Bihan-Poudec, Alain January 2013 (has links) Qu'on le déplore ou que l'on s'en félicite, la statistique est présente dans notre vie de tous les jours. Paradoxalement, les compétences pour l'appréhender semblent faire défaut, à tel point que plus d'un militent pour que la statistique fasse partie des compétences minimales de tout citoyen (statistical literacy). Mais au niveau de l'enseignement, de nombreux obstacles apparaissent quant à l'acquisition de ces compétences : ainsi, de multiples recherches ont-elles identifié maints obstacles, que ceux-ci soient d'ordre affectif ou cognitif. Toutefois ces recherches adoptent le point de vue de l'enseignant ou du chercheur et il n'en existe que peu qui se sont interrogées sur la représentation que les étudiants ont de la statistique. Tel est l'objectif général de la présente recherche. Après avoir caractérisé ce qu'est une représentation sociale et abouti à poser "qu'est statistique ce que l'on se donne comme étant statistique", une enquête a été menée en France auprès de 614 étudiants de différentes sections en Sciences humaines et sociales. Il s'en dégage qu'une vingtaine de mots rend compte de la statistique, tels mathématiques, pourcentages, chiffrs et calculs. Cependant, au-delà de ce discours commun, des différences apparaissent entre les sections quant aux mots utilisés pour caractériser la statistique : pour certains, les mots utilisés, peu nombreux, assimilent la statistique aux statistiques ; pour d'autres, elle est conçue comme des mathématiques utilisées dans le cadre d'études, de recherches. D'autres discours se distinguent soit par la proximité de la statistique avec la méthodologie du questionnaire, soit par son utilisation professionnelle : la référence aux mathématiques y est alors nettement atténuée. De ces résultats se dégagent des prolongements en termes de recherche (étude longitudinale de la représentation sociale de la statistique), en termes de pédagogie (conditions propices à la problématisation) et en termes de rapport au savoir (thêmata). Cette recherche invite les formateurs et les chercheurs en didactique à faire un pas de côté par rapport à leur propre représentation et à envisager celle potentiellement différente des apprenants ; à côté des chiffrs, il y a aussi des êtres. Problématisation Pédagogie universitaire Théorie des représentations sociales
177	Les stratégies de raisonnement à travers des problèmes statistiques et de proportionnalité chez des élèves du 3e cycle du primaire Mai Huy, Khoi January 2013 (has links) Dans le cadre de notre mémoire, nous avons comme objectif de décrire et de comprendre comment le contexte statistique, avec son caractère quasi-proportionnel, influence le raisonnement chez les élèves au 3e cycle du primaire. D'abord, nous développons quatre problèmes. En résolvant ces problèmes, les élèves d'une classe du 3e cycle du primaire fourniront un aperçu de leur raisonnement proportionnel et statistique et des stratégies qu'ils utilisent pour la résolution de ces tâches qui favorisent un traitement statistique ou proportionnel. Le chapitre 1 de notre mémoire sert à présenter la problématique de la recherche. Ensuite, le chapitre 2 concerne le cadre conceptuel et les questions spécifiques de la recherche. Le chapitre 3 expose les considérations de la méthodologie, notamment de la description des tâches, de l'analyse et du traitement des données. Par la suite, dans le chapitre 4, nous présentons et analyserons nos données. Finalement, dans les chapitres 5 et 6, la discussion des résultats sert à mettre en relation des principaux résultats de la présente recherche. Aussi, quelques pistes à poursuivre dans d'autres recherches sont suggérées. Élève du primaire Raisonnement statistique Raisonnement proportionnel Didactique des mathématiques Sciences de l'éducation
178	Un modèle mathématique de processus d'interrogation‎ : les pseudoquestionnaires Terrenoire, Michel 20 October 1970 (has links) (PDF) . interrogation statistique sondages questionnaires
179	La simulation mésoscopique par dynamique dissipative Palato, Samuel January 2013 (has links) La simulation des matériaux demande une compréhension de leur comportement à de nombreuses échelles de temps et d’espace. Ces différentes échelles requièrent des méthodes de simulations différentes, qui se basent sur des approximations différentes et donnent accès à différentes propriétés. La simulation multiéchelle est une approche qui regroupe l’utilisation de ces différentes méthodes, ainsi que des relations qui les unissent. Des développements plus récents ont permis la mise au point de méthodes mésoscopiques, comblant le trou entre les simulations atomistiques (< 10 nm) et les milieux continus (>mm). La dynamique de particules dissipatives (DPD) est une telle méthode, qui présente de nombreux avantages théoriques et pratiques en comparaison avec d’autres méthodes mésoscopiques. La DPD est une méthode modélisant la matière par des particules molles, s’inspirant de l’équation de Langevin. La dynamique des particules est gérée par trois forces : une force conservative, une force dissipative et une force aléatoire. La force conservative naît des interactions effectives moyennes à l’échelle méso, alors que la force dissipative et la force aléatoire sont d’origine statistique. Différentes formulations et contributions à la force conservative sont présentées, permettant notamment la simulation de polymères enchevêtrés et de systèmes chargés. Les contraintes auxquelles les forces statistiques sont soumises, ainsi que leurs impacts sur les dynamiques, sont ensuite discutés. La présentation de la DPD se termine par des considérations sur les effets numériques particuliers à la DPD. La puissance de la DPD est démontrée par la simulation de polymères arborescents. Les polymères arborescents sont des macromolécules hyperbranchées obtenues par une séquence de réactions de greffage de chaînes polymères. La structure qu’adoptent ces molécules n’est pas connue avec certitude. Des expériences ont permis aux chercheurs de proposer un modèle en loi de puissance pour le profil de densité radiale. Or, cette propriété n’est accessible qu’indirectement aux méthodes expérimentales, alors qu’elle peut être obtenue directement des travaux de simulation. La masse énorme de ces composés, ainsi que leur topologie complexe, impossible à réduire à un modèle plus simple, empêche toute simulation par des méthodes microscopiques traditionnelles. L’utilisation de méthodes mésoscopiques s’impose donc. Les polymères arborescents de génération 2 (d’une masse de l’ordre de 3,2×103 kDa) en solution (5 %) peuvent être simulés explicitement grâce à la DPD, et ce, en un temps acceptable. Les propriétés du solvant peuvent être ajustées, notamment leur qualité et leur masse moléculaire. Le profil de densité radiale moyen simulé correspond plutôt bien au modèle en loi de puissance proposé. L’analyse des données expérimentale suppose une symétrie sphérique des molécules individuelles qui s’avère être erronée. L’anisotropie des macromolécules est étudiée et s’avère être hautement variable. Des fonctions de distribution radiale ainsi que les patrons de diffusion de neutrons associés ont été obtenus. Ces derniers pourront être comparés directement aux résultats expérimentaux lorsque ces derniers seront disponibles. L’utilisation de la DPD est riche en possibilités. Elle est facilement étendue à diverses classes de matériaux. Par sa nature dynamique et ses propriétés, la DPD donne accès à certaines classes de phénomènes inaccessibles aux autres méthodes de simulation mésoscopique. Notamment, la DPD permet naturellement la simulation dans l’état stationnaire, tel que démontré par la simulation de la structure du Nafion c sous cisaillement. De plus, le comportement hydrodynamique devrait permettre la simulation à l’échelle mésoscopique de la transition vitreuse ou à tout le moins, d’une transition lui ressemblant. De plus, la DPD peut être étendue afin d’effectuer la simulation dans d’autres ensembles thermodynamiques, qui donnent accès à d’autres propriétés d’intérêt pour les matériaux (conductivité thermique, propriétés mécaniques). Les versions actuelles de la DPD, bien que versatiles, ne permettent pas encore de reproduire quantitativement les propriétés des matériaux. Différents succès, obstacles et pistes de réflexion sont présentés. Le perfectionnement de la DPD fournit à la fois un prétexte et un banc d’essai de choix pour tenter de comprendre les questions fondamentales suscitées par le coarse-graining et l’échelle méso en elle-même. DPD Polymères arborescents Mésoscopique Simulation mutliéchelle Thermodynamique statistique Coarse-graining
180	Etude probabiliste et statistique des grandes bases de données. / Probabilistic and statistical study of large databases. Low-Kam, Cécile 07 December 2010 (has links) Cette thèse se situe à l'interface de la statistique et de la fouille de données. Elle est composée de trois parties indépendantes. Dans la première, nous cherchons à estimer l'ordre (le nombre d'États cachés) d'un modèle de Markov caché dont la distribution d'émission appartient à la famille exponentielle. Nous nous plaçons dans le cas où aucune borne supérieure sur cet ordre n'est connue a priori. Nous définissons deux estimateurs pénalisés pour cet ordre, l'un basé sur le maximum de vraisemblance et l'autre sur une statistique de mélange bayésien. Nous montrons la consistance forte de ces estimateurs. Dans la deuxième partie, nous extrayons des motifs séquentiels dont la fréquence est exceptionnellement élevée par rapport à un modèle de Markov. L'approche consiste à dénombrer dynamiquement toutes les positions possibles d'un motif au sein d'une séquence. Puis la fréquence observée est comparée à la fréquence attendue à l'aide d'un test binomial. Une procédure est utilisée pour tenir compte des tests multiples. Des expérimentations sont menées sur des bases synthétiques et des séquences de protéines. Enfin, dans la troisième partie, nous nous intéressons au calcul de l'estimateur à noyau de la densité. Les observations sont regroupées dans des structures hiérarchiques d'arbres binaires. Les calculs sont réalisés sur les nœuds, plutôt que sur les points, pour une plus grande efficacité. Nous effectuons le calcul sur un Échantillon de points de chaque nœud, au lieu de sa totalité, en utilisant des inégalités de concentration non-paramétriques pour contrôler l'erreur. Puis, nous proposons un nouveau parcours de l'arbre pour effectuer ces échantillonnages sur un nombre réduit de nœuds. Nous testons notre approche sur des jeux de données synthétiques. / This Ph.D thesis lies at the interface of statistics and data mining. It contains three independent parts. In the first one, we aim at estimating the order (the number of hidden states) of a Hidden Markov Model, whose emission distribution belongs to the exponential family. We suppose that no upper bound is known on this order. We define two penalised estimators for this order, one based on the maximum likelihood, an the other on a bayesian mixture statistic. We prove that both estimators are strongly consistent. In the second part, we extract sequential patterns of exceptional frequency given a Markov model. We first dynamically enumerate all the possible occurences of a pattern in a sequence. Then, the observed frequency is compared to the expected frequency using a binomial test. Multiple testing is taken into account. Experiments are led on synthetic databases and protein sequences. Finally, in the third chapter, we are interested in kernel density estimation. The observations are gathered in hierarchical structures called binary trees. Computations are done on nodes of trees, rather than on raw observations, for greater efficiency. We only take into account samples on each node, instead of all the observations, using a non-parametric concentration inequality to control the error. We also propose to only browse some parts of the tree. We test our approach on synthetic datasets. Statistique Fouille de données Modèles de Markov Statistics Data mining Markov models

Search results