Spelling suggestions: "subject:"sélection dde modèles"" "subject:"sélection dee modèles""
1 |
Appariement de descripteurs évoluant dans le temps : application à la comparaison d'assurance / Matching data descriptor over time : application to insurance comparisonBedenel, Anne-Lise 03 April 2019 (has links)
La plupart des méthodes d'apprentissage standards nécessitent des descripteurs de données identiques pour les échantillons d'apprentissage et de test. Or, dans le domaine de la comparaison d'assurances en ligne, les formulaires et variables d'où proviennent les données sont régulièrement modifiés, amenant à travailler avec une faible quantité de données. L'objectif est donc d'utiliser les données obtenues avant la modification de la variable pour augmenter la taille des échantillons observés après la modification. Nous proposons d'effectuer un transfert de connaissances entre les données observées avant et après la modification. Une modélisation de la loi jointe de la variable avant et après la modification est proposée. Le problème revient donc à un problème d’estimation dans un graphe où l’identifiabilité du modèle est assurée par des contraintes métiers et techniques, amenant à travailler avec un ensemble réduit de modèles très parcimonieux. Les liens entre les descripteurs avant et après la modification sont totalement inconnus, impliquant des données manquantes. Deux méthodes d’estimation des paramètres, reposant sur des algorithmes EM sont proposées. Une étape de sélection de modèle est ensuite effectuée par un critère asymptotique et un critère non asymptotique reposant sur l’analyse bayésienne, incluant une stratégie d’échantillonnage préférentiel combinée à un algorithme de Gibbs. Une recherche exhaustive et une recherche non-exhaustive, basée sur un algorithme génétique et combinant l’estimation et la sélection de modèles, sont comparés pour obtenir le meilleur compromis "résultats-temps de calcul". Une application sur des données réelles termine la thèse. / Most of the classical learning methods require data descriptors equal to both learning and test samples. But, in the online insurance comparison field, forms and features where data come from are often changed. These constant modifications of data descriptors lead us to work with the small amount of data and make analysis more complex. So, the goal is to use data generated before the feature descriptors modification. By doing so, we increase the size of the observed sample after the descriptors modification. We intend to perform a learning transfer between observed data before and after features modification. The links between data descriptors of the feature before and after the modification are totally unknown which bring a problem of missing data. A modelling of the joint distribution of the feature before and after the modification of the data descriptors has been suggested. The problem becomes an estimation problem in a graph where some business and technical constraints ensure the identifiability of the model and we have to work with a reduced set of very parsimonious models. Two methods of estimation rely on EM algorithms have been intended. The constraints set lead us to work with a set of models. A model selection step is required. For this step, two criterium are proposed: an asymptotic and a non-asymptotic criterium rely on Bayesian analysis which includes an importance sampling combined with Gibbs algorithm. An exhaustive search and a non-exhaustive search based on genetic algorithm, combining both estimation and selection, are suggested to have an optimal method for both results and execution time. This thesis finishes with an application on real data.
|
2 |
Performances statistiques de méthodes à noyauxLoustau, Sébastien 28 November 2008 (has links) (PDF)
Cette thèse se concentre sur le modèle de classification binaire. Etant donné $n$ couples de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) $(X_i,Y_i)$, $i=1,\ldots ,n$ de loi $P$, on cherche à prédire la classe $Y\in\{-1,+1\}$ d'une nouvelle entrée $X$ où $(X,Y)$ est de loi $P$. La règle de Bayes, notée $f^*$, minimise l'erreur de généralisation $R(f)=P(f(X)\not=Y)$. Un algorithme de classification doit s'approcher de la règle de Bayes. Cette thèse suit deux axes : établir des vitesses de convergence vers la règle de Bayes et proposer des procédures adaptatives.<br /><br />Les méthodes de régularisation ont montrées leurs intérêts pour résoudre des problèmes de classification. L'algorithme des Machines à Vecteurs de Support (SVM) est aujourd'hui le représentant le plus populaire. Dans un premier temps, cette thèse étudie les performances statistiques de cet algorithme, et considère le problème d'adaptation à la marge et à la complexité. On étend ces résultats à une nouvelle procédure de minimisation de risque empirique pénalisée sur les espaces de Besov. Enfin la dernière partie se concentre sur une nouvelle procédure de sélection de modèles : la minimisation de l'enveloppe du risque (RHM). Introduite par L.Cavalier et Y.Golubev dans le cadre des problèmes inverses, on cherche à l'appliquer au contexte de la classification.
|
3 |
Modélisation de séries chronologiques non linéaires et modèles ARMA faiblesSalmi, Zahia January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
4 |
Phylogenetic shadowing using a model selection processShakiba, Mashid January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
5 |
Recherche d'une représentation des données efficace pour la fouille des grandes bases de donnéesBoullé, Marc 24 September 2007 (has links) (PDF)
La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données. A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille. Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus. Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.
|
6 |
Modèles à changements de régime, applications aux données financièresOlteanu, Madalina 13 December 2006 (has links) (PDF)
Cette thèse s'organise autour du but suivant : comment trouver un bon modèle pour les séries temporelles qui subissent des changements de comportement? L'application qui a motivé cette question est la caractérisation des crises financières à l'aide d'un indice des chocs de marché inspiré de la géophysique et de modèles hybrides à changements de régime intégrant des perceptrons multi-couches. Les résultats obtenus sur les données fournissent une séparation intéressante entre deux états relatifsà deux comportements différents du marché, mais des questions sur la sélection de modèles et le choix du nombre de régimes se posent alors naturellement.<br />On propose d'étudier ces questions à travers deux approches. Dans la première, il s'agit de montrer la consistance faible d'un estimateur de maximum de vraisemblance pénalisée sous des conditions de stationnarité et dépendance faible. Les hypothèses introduites sur l'entropie à crochets de la classe des fonctions scores généralisés sont ensuite vérifiées dans un cadre linéaire et gaussien. La deuxième approche, plutôt empirique, est issue des méthodes de classification non-supervisée et combine les cartes de Kohonen avec une classification hiérarchique pour laquelle une nouvelle dispersion basée sur la somme des carrés résiduelle est introduite.
|
7 |
Estimation par Minimum de Contraste Régulier et Heuristique de Pente en Sélection de ModèlesSaumard, Adrien 22 October 2010 (has links) (PDF)
Cette thèse est consacrée à l'étude théorique d'une méthode de calibration automatique des pénalités en sélection de modèles. Cette méthode se base sur une heuristique, appelée "heuristique de pente", qui stipule l'existence d'une pénalité minimale telle que la solution optimale du problème de pénalisation vaut deux fois celle-ci. En pratique, on estime la pénalité optimale en estimant préalablement la pénalité minimale, caractérisée par un changement brutal dans le comportement de la procédure de sélection de modèles autour de ce seuil de pénalisation. L'analyse théorique du phénomène de pente se base sur un contrôle à la constante près des déviations de l'excès de risque et de l'excès de risque empirique des estimateurs considérés, mesurant respectivement leur performance en prédiction et leur performance empirique. Ceci suggère en premier lieu, une forte spécification de la structure du problème étudié. Nous validons l'heuristique de pente dans un cadre général qui s'articule autour d'une notion nouvelle en M-estimation, que nous appelons "contraste régulier", et nous développons une méthodologie de preuve inédite, permettant de traiter à la fois la question des bornes supérieures et des bornes inférieures de déviation des excès de risque à modèle fixé. Nous retrouvons ainsi la plupart des résultats déjà connus sur l'heuristique de pente. En effet, nous donnons trois exemples d'estimation par minimum de contraste régulier, à savoir la régression par moindres carrés sur des modèles linéaires, l'estimation de la densité par moindres carrés sur des modèles affines et l'estimation de la densité par maximum de vraisemblance sur des ensembles convexes. Ceci nous permet d'étendre les résultats précédemment établis dans le cas de la régression à des modèles plus généraux et de valider l'heuristique de pente pour un risque non quadratique en considérant le cas de l'estimation par maximum de vraisemblance. Enfin, notre méthodologie de preuve fournit des pistes précises de recherche pour des situations non régulières, comme on en trouve en classification ou plus généralement en théorie de l'apprentissage statistique.
|
8 |
Estimation non paramétrique adaptative pour les chaînes de Markov et les chaînes de Markov cachéesLacour, Claire 01 October 2007 (has links) (PDF)
Dans cette thèse, on considère une chaîne de Markov $(X_i)$ à espace d'états continu que l'on suppose récurrente positive et stationnaire. L'objectif est d'estimer la densité de transition $\Pi$ définie par $\Pi(x,y)dy=P(X_{i+1}\in dy|X_i=x)$. On utilise la sélection de modèles pour construire des estimateurs adaptatifs. On se place dans le cadre minimax sur $L^2$ et l'on s'intéresse aux vitesses de convergence obtenues lorsque la densité de transition est supposée régulière. Le risque intégré de nos estimateurs est majoré grâce au contrôle de processus empiriques par une inégalité de concentration de Talagrand. Dans une première partie, on suppose que la chaîne est directement observée. Deux estimateurs différents sont présentés, l'un par quotient, l'autre minimisant un contraste moindres carrés et prenant également en compte l'anisotropie du problème. Dans une deuxième partie, on aborde le cas d'observations bruitées $Y_1,\dots, Y_{n+1}$ où $Y_i=X_i+\varepsilon_i$ avec $(\varepsilon_i)$ un bruit indépendant de la chaîne $(X_i)$. On généralise à ce cas les deux estimateurs précédents. Des simulations illustrent les performances des estimateurs.
|
9 |
Sequential Monte-Carlo sampler for Bayesian inference in complex systems / Echantillonneur séquentiel de Monte-Carlo pour l’inférence Bayésienne dans des systèmes complexesNguyen, Thi Le Thu 03 July 2014 (has links)
Dans de nombreux problèmes, des modèles complexes non-Gaussiens et/ou non-linéaires sont nécessaires pour décrire précisément le système physique étudié. Dans ce contexte, les algorithmes de Monte-Carlo sont des outils flexibles et puissants permettant de résoudre de tels problèmes d’inférence. Toutefois, en présence de loi a posteriori multimodale et/ou de grande dimension, les méthodes classiques de Monte-Carlo peuvent conduire à des résultats non satisfaisants. Dans cette thèse, nous étudions une approche plus robuste et efficace: échantillonneur séquentiel de Monte-Carlo. Bien que cette approche présente de nombreux avantages par rapport aux méthodes traditionnelles de Monte-Carlo, le potentiel de cette technique est cependant très largement sous-exploité en traitement du signal. L’objectif de cette thèse est donc de proposer de nouvelles stratégies permettant d’améliorer l’efficacité de cet algorithme et ensuite de faciliter sa mise en œuvre pratique. Pour ce faire, nous proposons une approche adaptive qui sélectionne la séquence de distributions minimisant la variance asymptotique de l'estimateur de la constante de normalisation de la loi a posteriori. Deuxièmement, nous proposons un mécanisme de correction qui permet d’améliorer l’efficacité globale de la méthode en utilisant toutes les particules générées à travers toutes les itérations de l’algorithme (au lieu d’uniquement celles de la dernière itération). Enfin pour illustrer l’utilité de cette approche ainsi que des stratégies proposées, nous utilisons cet algorithme dans deux problèmes complexes: la localisation de sources multiples dans les réseaux de capteurs et la régression Bayésienne pénalisée. / In many problems, complex non-Gaussian and/or nonlinear models are required to accurately describe a physical system of interest. In such cases, Monte Carlo algorithms are remarkably flexible and extremely powerful to solve such inference problems. However, in the presence of high-dimensional and/or multimodal posterior distribution, standard Monte-Carlo techniques could lead to poor performance. In this thesis, the study is focused on Sequential Monte-Carlo Sampler, a more robust and efficient Monte Carlo algorithm. Although this approach presents many advantages over traditional Monte-Carlo methods, the potential of this emergent technique is however largely underexploited in signal processing. In this thesis, we therefore focus our study on this technique by aiming at proposing some novel strategies that will improve the efficiency and facilitate practical implementation of the SMC sampler. Firstly, we propose an automatic and adaptive strategy that selects the sequence of distributions within the SMC sampler that approximately minimizes the asymptotic variance of the estimator of the posterior normalization constant. Secondly, we present an original contribution in order to improve the global efficiency of the SMC sampler by introducing some correction mechanisms that allow the use of the particles generated through all the iterations of the algorithm (instead of only particles from the last iteration). Finally, to illustrate the usefulness of such approaches, we apply the SMC sampler integrating our proposed improvement strategies to two challenging practical problems: Multiple source localization in wireless sensor networks and Bayesian penalized regression.
|
10 |
Modèles graphiques gaussiens et sélection de modèlesVerzelen, Nicolas 17 December 2008 (has links) (PDF)
Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique, de la théorie statistique de l'apprentissage et des statistiques spatiales. Son objet est la compréhension et la mise en oeuvre de méthodes d'estimation et de décision pour des modèles graphiques gaussiens. Ces outils probabilistes rencontrent un succès grandissant pour la modélisation de systêmes complexes dans des domaines aussi différents que la génomique ou l'analyse spatiale. L'inflation récente de la taille des données analysées rend maintenant nécessaire la construction de procédures statistiques valables en << grande dimension >>, c'est à dire lorsque le nombre de variables est potentiellement plus grand que le nombre d'observations. Trois problèmes généraux sont considérés dans cette thèse: le test d'adéquation d'un graphe à un modèle graphique gaussien, l'estimation du graphe d'un modèle graphique gaussien et l'estimation de la covariance d'un modèle graphique gaussien, ou plus généralement d'un vecteur gaussien. Suite à cela, nous étudions l'estimation de la covariance d'un champ gaussien stationnaire sur un réseau, sous l'angle de la modélisation graphique. <br /><br />En utilisant le lien entre modèles graphiques et régression linéaire à plan d'expérience gaussien, nous développons une approche basée sur des techniques de sélection de modèles. Les procédures ainsi introduites sont analysés d'un point de vue non-asymptotique. Nous prouvons notamment des inégalités oracles et des propriétés d'adaptation au sens minimax valables en grande dimension. Les performances pratiques des méthodes statistiques sont illustrées sur des données simulées ainsi que sur des données réelles.
|
Page generated in 0.1165 seconds