La plupart des méthodes d'apprentissage standards nécessitent des descripteurs de données identiques pour les échantillons d'apprentissage et de test. Or, dans le domaine de la comparaison d'assurances en ligne, les formulaires et variables d'où proviennent les données sont régulièrement modifiés, amenant à travailler avec une faible quantité de données. L'objectif est donc d'utiliser les données obtenues avant la modification de la variable pour augmenter la taille des échantillons observés après la modification. Nous proposons d'effectuer un transfert de connaissances entre les données observées avant et après la modification. Une modélisation de la loi jointe de la variable avant et après la modification est proposée. Le problème revient donc à un problème d’estimation dans un graphe où l’identifiabilité du modèle est assurée par des contraintes métiers et techniques, amenant à travailler avec un ensemble réduit de modèles très parcimonieux. Les liens entre les descripteurs avant et après la modification sont totalement inconnus, impliquant des données manquantes. Deux méthodes d’estimation des paramètres, reposant sur des algorithmes EM sont proposées. Une étape de sélection de modèle est ensuite effectuée par un critère asymptotique et un critère non asymptotique reposant sur l’analyse bayésienne, incluant une stratégie d’échantillonnage préférentiel combinée à un algorithme de Gibbs. Une recherche exhaustive et une recherche non-exhaustive, basée sur un algorithme génétique et combinant l’estimation et la sélection de modèles, sont comparés pour obtenir le meilleur compromis "résultats-temps de calcul". Une application sur des données réelles termine la thèse. / Most of the classical learning methods require data descriptors equal to both learning and test samples. But, in the online insurance comparison field, forms and features where data come from are often changed. These constant modifications of data descriptors lead us to work with the small amount of data and make analysis more complex. So, the goal is to use data generated before the feature descriptors modification. By doing so, we increase the size of the observed sample after the descriptors modification. We intend to perform a learning transfer between observed data before and after features modification. The links between data descriptors of the feature before and after the modification are totally unknown which bring a problem of missing data. A modelling of the joint distribution of the feature before and after the modification of the data descriptors has been suggested. The problem becomes an estimation problem in a graph where some business and technical constraints ensure the identifiability of the model and we have to work with a reduced set of very parsimonious models. Two methods of estimation rely on EM algorithms have been intended. The constraints set lead us to work with a set of models. A model selection step is required. For this step, two criterium are proposed: an asymptotic and a non-asymptotic criterium rely on Bayesian analysis which includes an importance sampling combined with Gibbs algorithm. An exhaustive search and a non-exhaustive search based on genetic algorithm, combining both estimation and selection, are suggested to have an optimal method for both results and execution time. This thesis finishes with an application on real data.
Identifer | oai:union.ndltd.org:theses.fr/2019LIL1I011 |
Date | 03 April 2019 |
Creators | Bedenel, Anne-Lise |
Contributors | Lille 1, Biernacki, Christophe, Jourdan, Laetitia |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.002 seconds