Return to search

Ajout de données textuelles au modèle de Cox dans un contexte longitudinal

Afin d'éviter le départ de ses clients, une compagnie d'assurance souhaite prédire la probabilité d'annulation de polices d'assurance automobile dans un intervalle de temps à partir de données sur les voitures et les clients. Les clients étant suivis dans le temps, le modèle doit incorporer des variables explicatives qui dépendent du temps. Nous utilisons le modèle de survie de Cox pour prédire les probabilités d'événement dans un intervalle de temps variable. Des notes prises par des agents lors de conversations téléphoniques avec les clients et des courriels sont également disponibles. Il est pertinent d'inclure ces textes dans le modèle statistique, car ils contiennent de l'information utile pour prédire l'annulation du contrat. Plusieurs méthodes de traitement automatique du langage naturel sont utilisées pour représenter les textes en vecteurs qui peuvent être utilisés par le modèle de Cox. Puis, une sélection de variables est effectuée. Le modèle est ensuite utilisé pour prédire les probabilités d'événements. Les notes d'agents contiennent des fautes d'orthographe, des abréviations, etc. Ainsi, nous étudions dans un premier temps l'effet d'utiliser des textes dont la qualité est graduellement détériorée sur les performances prédictives du modèle de Cox. Nous trouvons que toutes les méthodes d'encodage du texte utilisées, sans faire de raffinement sur les textes, ont un certain niveau de robustesse face aux textes de moins bonne qualité. Ensuite, nous étudions l'effet de différentes approches d'inclusion des textes dans le modèle de Cox dans un contexte longitudinal. Les effets de la sélection de variables, des méthodes d'encodage du texte et de la concaténation temporelle des textes sont analysés. L'approche proposée pour inclure les textes a permis d'améliorer les performances comparativement à un modèle qui n'inclut aucun texte. Toutefois, les performances sont similaires d'une méthode d'encodage du texte à l'autre. / In order to avoid customer attrition, an insurance company wants to predict the probability of cancellation of car insurance policies in a time interval based on car and customer covariates. Since customers are tracked over time, the model must incorporate time-dependent covariates. We use a Cox survival model to predict event probabilities in a variable time interval. Notes taken by agents during telephone conversations with customers and emails are also available. It is relevant to include these texts in the statistical model, as they contain information useful for predicting policy cancellation. Several natural language processing methods are used to represent the documents with vectors that can be used by the Cox model. Then, variable selection is performed. The model is then used to predict event probabilities. Notes taken by the agents contain spelling mistakes, abbreviations, etc. Thus, we first study the effect of using texts of gradually worse quality on the predictive performance of the Cox model. We find that all the text encoding methods used, without fine-tuning the embedding models, have a certain level of robustness against texts of lower quality. Next, we investigate the effect of different approaches to including texts in the Cox model in a longitudinal context. The effects of variable selection, text encoding methods and temporal concatenation of texts are analyzed. The proposed approach to include text resulted in improved performance compared to a model that does not include any text. However, the performance is similar across text encoding methods.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/113924
Date13 December 2023
CreatorsLépine, Simon-Olivier
ContributorsDuchesne, Thierry, Lamontagne, Luc
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Mémoire de maîtrise
Format1 ressource en ligne (viii, 113 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0021 seconds