Spelling suggestions: "subject:"apprentissage automatique"" "subject:"pprentissage automatique""
31 |
Customer profitability forecasting using fair boosting : an application to the insurance industrySt-Jean, Alex 27 January 2024 (has links)
La prévision de la profitabilité du client, ainsi que la tarification, sont des pièces centrales dans le monde des sciences actuarielles. En utilisant des données sur les historiques des clients et en optimisant des modèles statistiques, les actuaires peuvent prévoir, dans une certaine mesure, le montant qu’un client réclamera durant une certaine période. Cependant, ces modèles utilisent souvent des données sensibles reliées au client qui sont considérées comme étant des facteurs de risque très importants dans la prédiction de pertes futures. Ceci est considéré comme étant légal dans plusieurs jurisdictions tant que leur utilisation est supportée par des données actuarielles, car ces attributs permettent aux clients d’obtenir une prime plus précise. Toutefois, comme soulevé dans la littérature récente en apprentissage machine, ces modèles peuvent cacher des biais qui les rendent discriminants envers certains groupes. Dans ce mémoire, nous proposons un modèle de prévision de la profitabilité du client utilisant des avancées récentes provenant du domaine de l’apprentissage machine pour assurer que ces algorithmes ne discriminent pas disproportionnellement envers certains sous-groupes faisant partie de l’intersection de plusieurs attributs protégés, tel que l’âge, la race, la religion et l’état civil. En d’autres mots, nous prédisons équitablement la prime théorique de n’importe quel client en combinant l’état de l’art en prédiction de pertes en assurance et appliquant certaines contraintes d’équité sur des modèles de régression. Suite à l’exécution de l’estimation de la profitabilité du client sur plusieurs jeux de données réels, les résultats obtenus de l’approche proposée sont plus précis que les modèles utilisés traditionnellement pour cette tâche, tout en satisfaisant des contraintes d’équité. Ceci montre que cette méthode est viable et peut être utilisée dans des scénarios concrets pour offrir des primes précises et équitables aux clients. Additionnellement, notre modèle, ainsi que notre application de contraintes d’équité, s’adapte facilement à l’utilisation d’un grand jeu de données qui contiennent plusieurs sous-groupes. Ceci peut être considérable dans le cas où un critère d’équité intersectionnel doit être respecté. Finalement, nous notons les différences entre l’équité actuarielle et les définitions d’équité provenant du monde de l’apprentissage machine, ainsi que les compromis reliés à ceux-ci. / Customer profitability forecasting, along with ratemaking, are central pieces in the world of actuarial science. By using historical data and by optimising statistical models, actuaries can predict whether a client with certain liabilities will claim any loss and what amount will be claimed inside a defined policy period. However, these models often use sensitive attributesrelated to the customer that are considered to be crucial risk factors to consider in predicting future losses. This is considered legal in many jurisdictions, as long as their use is backedby actuarial data, as these attributes give a more accurate premium to clients. Nonetheless,as it has been noted in recent machine learning literature, models can hide biases that makethem discriminate against certain groups. In this thesis, we propose a customer profitability forecasting model that uses recent advancements in the domain of machine learning to ensurethat these algorithms do not discriminate disproportionately on a subgroup of any intersectionof protected attributes, such as age, gender, race, religion and marital status. In other words,we fairly predict the theoretical premium of any client by combining state-of-the-art methodsin insurance loss prediction and the application of fairness constraints on regression models. After performing customer profitability estimation on multiple real world datasets, it is shownthat the proposed approach outperforms traditional models usually used for this task, whilealso satisfying fairness constraints. This shows that this method is viable and can be used inreal world scenarios to offer fair and accurate premiums to clients. Additionally, our model andour application of fairness constraints scale easily when using large datasets that contain many subgroups. This can be substantial in the case of satisfying an intersectional fairness criterion.Finally, we highlight the differences between actuarial fairness and fairness definitions in theworld of machine learning, along with its related trade offs.
|
32 |
Algorithmes d'apprentissage automatique inspirés de la théorie PAC-BayesGermain, Pascal 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2008-2009 / Dans un premier temps, ce mémoire présente un théorème PAC-Bayes général, duquel il est possible d'obtenir simplement plusieurs bornes PAC-Bayes connues. Ces bornes permettent de calculer une garantie sur le risque d'un classificateur à partir de ses performances sur l'ensemble de données d'entraînement. Par l'interprétation du comportement de deux bornes PAC-Bayes, nous énonçons les caractéristiques propres aux classificateurs qu'elles favorisent. Enfin, une spécialisation de ces bornes à la famille des classificateurs linéaires est détaillée. Dans un deuxième temps, nous concevons trois nouveaux algorithmes d'apprentissage automatique basés sur la minimisation, par la méthode de descente de gradient conjugué, de l'expression mathématique de diverses formulations des bornes PAC-Bayes. Le dernier algorithme présenté utilise une fraction de l'ensemble d'entraînement pour l'acquisition de connaissances a priori. Ces algorithmes sont aptes à construire des classificateurs exprimés par vote de majorité ainsi que des classificateurs linéaires exprimés implicitement à l'aide de la stratégie du noyau. Finalement, une étude empirique élaborée compare les trois algorithmes entre eux et révèle que certaines versions de ces algorithmes construisent des classificateurs compétitifs avec ceux obtenus par AdaBoost et les SVM. / At first, this master thesis presents a general PAC-Bayes theorem, from which we can easily obtain some well-known PAC-Bayes bounds. Those bounds allow us to compute a guarantee on the risk of a classifier from its achievements on the training set. We analyze the behavior of two PAC-Bayes bounds and we determine peculiar characteristics of classifiers favoured by those bounds. Then, we present a specialization of those bounds to the linear classifiers family. Secondly, we conceive three new machine learning algorithms based on the minimization, by conjugate gradient descent, of various mathematical expressions of the PAC-Bayes bounds. The last algorithm uses a part of the training set to capture a priori knowledges. One can use those algorithms to construct majority vote classifiers as well as linear classifiers implicitly represented by the kernel trick. Finally, an elaborated empirical study compares the three algorithms and shows that some versions of those algorithms are competitive with both AdaBoost and SVM.
|
33 |
Meta learning for population-based algorithms in black-box optimizationSiqueira Gomes, Hugo 02 February 2024 (has links)
Les problèmes d’optimisation apparaissent dans presque tous les domaines scientifiques. Cependant, le processus laborieux de conception d’un optimiseur approprié peut demeurer infructueux. La question la plus ambitieuse de l’optimisation est peut-être de savoir comment concevoir des optimiseurs suffisamment flexibles pour s’adapter à un grand nombre de scénarios, tout en atteignant des performances de pointe. Dans ce travail, nous visons donner une réponse potentielle à cette question en étudiant comment faire un méta-apprentissage d’optimiseurs à base de population. Nous motivons et décrivons une modélisation commune pour la plupart des algorithmes basés sur la population, qui présentent des principes d’adaptation générale. Cette structure permet de dériver un cadre de méta-apprentissage basé sur un processus de décision de Markov partiellement observable (POMDP). Notre formulation conceptuelle fournit une méthodologie générale pour apprendre l’algorithme d’optimisation lui-même, présenté comme un problème de méta-apprentissage ou d’apprentissage pour optimiser à l’aide d’ensembles de données d’analyse comparative en boîte noire, pour former des optimiseurs polyvalents efficaces. Nous estimons une fonction d’apprentissage de méta-perte basée sur les performances d’algorithmes stochastiques. Notre analyse expérimentale indique que cette nouvelle fonction de méta-perte encourage l’algorithme appris à être efficace et robuste à une convergence prématurée. En outre, nous montrons que notre approche peut modifier le comportement de recherche d’un algorithme pour s’adapter facilement à un nouveau contexte et être efficace par rapport aux algorithmes de pointe, tels que CMA-ES. / Optimization problems appear in almost any scientific field. However, the laborious process to design a suitable optimizer may lead to an unsuccessful outcome. Perhaps the most ambitious question in optimization is how we can design optimizers that can be flexible enough to adapt to a vast number of scenarios while at the same time reaching state-of-the-art performance. In this work, we aim to give a potential answer to this question by investigating how to metalearn population-based optimizers. We motivate and describe a common structure for most population-based algorithms, which present principles for general adaptation. This structure can derive a meta-learning framework based on a Partially observable Markov decision process (POMDP). Our conceptual formulation provides a general methodology to learn the optimizer algorithm itself, framed as a meta-learning or learning-to-optimize problem using black-box benchmarking datasets to train efficient general-purpose optimizers. We estimate a meta-loss training function based on stochastic algorithms’ performance. Our experimental analysis indicates that this new meta-loss function encourages the learned algorithm to be sample efficient and robust to premature convergence. Besides, we show that our approach can alter an algorithm’s search behavior to fit easily in a new context and be sample efficient compared to state-of-the-art algorithms, such as CMA-ES.
|
34 |
L'outil RBAC et la prédiction de la récidive criminelle : une analyse par l'intelligence artificielleBacon, Félix 04 June 2024 (has links)
L'objectif de la recherche est de fournir un cadre d'analyse supplémentaire aux commissaires à la libération conditionnelle de façon à mieux prédire la probabilité de récidives au Québec. Dans la recherche, nous travaillons avec plusieurs modèles d'intelligence artificielle dans le but de classer les détenus dans les prisons Québécoises. La classification est binaire, soit nous prédisons que le détenu a une probabilité élevée de commettre une récidive ; soit le cas contraire. Les évaluations réalisées sur les prisonniers sont au cœur de la recherche. Les documents remplis par les évaluateurs permettent d'établir un score basé sur la réponse aux questions. Au Québec, le nom de cette évaluation est le RBAC-PCQ et c'est celle-ci qui remplace son prédécesseur le LS-CMI. À l'aide de celle-ci, nous avons programmé plusieurs algorithmes ayant comme objectif de classifier les détenus. Grâce aux informations qui nous étaient fournies, nous avons commencé par établir la règle de décision générale permettant de reproduire la situation actuelle du Québec et nous l'avons ensuite comparé avec un modèle logistique de régression. Les résultats à ce stade démontraient une nette amélioration de la classification des détenus. Nous avons ensuite développé plusieurs modèles d'apprentissage machine afin d'approfondir la qualité de classification des détenus. Au final, l'analyse des modèles permet d'arriver à la conclusion que seulement 6 questions sont importantes pour établir la probabilité de récidive au Québec.
|
35 |
Modélisation et fouille des processus en vue d'assister la prise de décisions dans le contexte de la conception et la supervision des systèmes / Process modelling and mining to support decision making in the context of systems design and supervisionEs soufi, Widad 21 December 2018 (has links)
L'industrie actuelle est en plein développement suite à la mise en œuvre du concept de l'industrie 4.0 visant à rendre l'usine une entité intelligente, en combinant les processus et pratiques industriels avec les technologies de l'information et de communication récentes comme les systèmes cyber-physiques et l'internet des objets connectés (IoT), entre autres. Ce développement industriel, ainsi que le besoin d'innover pour atteindre et maintenir la compétitivité favorisent une augmentation phénoménale du volume de données (connue sous le nom de Big Data), rendant ainsi (i) les processus de conception et de supervision des systèmes de plus en plus chaotiques, (ii) les données au sein des organisations de plus en plus difficiles à exploiter et (iii) les ingénieurs de plus en plus perdus lors de la prise de décision. En effet, plusieurs problèmes sont identifiés dans les milieux industriels et qui peuvent être classés en trois catégories : (i) difficultés lors de la recherche, la visualisation et l'échange de l'information, (ii) difficultés lors de la prise de décision et (iii) difficultés lors de la gestion des changements de contexte. A travers ce travail, nous proposons un système d'aide à la décision intelligent et modulaire, dont chacun des quatre modules résout un des problèmes identifiés. Les modules de modélisation et de traçabilité des processus permettent de modéliser les processus et de capturer la façon comment ils sont exécutés. Le module d'aide à la décision permet de proposer le pattern le plus adapté au contexte de la décision ainsi que les paramètres de ses activités les plus significatifs. Le module de gestion des changements contextuels permet de continuellement mettre à jour le module de prise de décision, lui permettant ainsi de tenir compte de l'aspect dynamique du contexte. Le système proposé est entièrement vérifié et à moitié validé dans le contexte du projet Gontrand, visant la supervision intelligente et en temps réel des réseaux de gaz favorisant l'injection du gaz vert. Pour qu'il soit entièrement validé, les performances du système doivent être analysées après l'intégration et l'exploitation de ce dernier dans un milieu industriel réel. / Data sets are growing rapidly because of two things. First, the fourth industrial revolution that aims to transform factories into smart entities in which cyber physical systems monitor the physical processes of the factory. Second, the need to innovate in order to achieve and maintain competitiveness. Due to this huge volume of data (Big Data), (i) design and supervision processes are becoming chaotic, (ii) data within organizations is increasingly becoming difficult to exploit and (iii) engineers are increasingly lost when making decisions. Indeed, several issues are identified in industry: (i) when researching, visualizing and exchanging information, (ii) when making decisions and (iii) when managing contextual changes. Through this research work, we propose an Intelligent and modular Decision Support System (IDSS), where each of the four modules solves one of the identified issues. Process modelling and traceability modules aim to model processes and capture how they are actualy executed. The decision support module proposes the process patterns that best fit the decision context, as well as their most significant activity parameters. The contextual change management module continuously updates the decision-making module, in order to handle the dynamic aspect of the decision context. The proposed system is fully verified and half-validated in the context of the Gontrand project, aiming at intelligent and real-time supervision of gas networks favoring the injection of green gas. In order to be fully validated, the performance of the system must be analyzed after integrating and exploitating it in a real industrial environment.
|
36 |
Faciliter la mise en place d'études d'utilisabilité par des outils de stockage des données et d'analyse automatique des traces d'utilisation : un cas d'étude avec une application mobileCribier-Delande Perrine January 2016 (has links)
Le laboratoire DOMUS développe des applications pour assister les personnes en perte d'autonomie et les personnes avec des troubles cognitifs. Chaque application est ou a déjà été le sujet de plusieurs études d'utilisabilité qui permettent de les améliorer. Ces études prennent beaucoup de temps à mettre en place, car l'on rencontre souvent des problèmes de logistique (format et sensibilité des données, chercheurs répartis sur une grande aire géographique). C'est pourquoi un outil appelé GEDOPAL a été développé. Il permet de partager entre chercheurs de différents centres les données créées et utilisées lors de la mise en place des études d'utilisabilité. La conception et la réalisation de cet outil ont nécessité une réflexion en amont sur la nature et la sensibilité de ces données. Cette réflexion est l'objet du Chapitre 3. Ces études prennent aussi beaucoup de temps lors de l'analyse des résultats. De plus, certaines données créées lors de ces études, telles que les traces d'utilisation ont des volumétries trop importantes pour être analysées manuellement. C'est pourquoi nous avons créé un processus permettant d'analyser ces traces d'utilisation pour y détecter les erreurs utilisateurs dans l'espoir de les relier à des problèmes d'utilisabilité. Ce processus se compose de deux parties : la première est une analyse formelle de l'application, qui sera présentée au Chapitre 4, et la seconde l'application d'un outil d'apprentissage automatique aux traces d'utilisation pour y détecter les erreurs utilisateurs. Cet outil est présenté au Chapitre 5.
|
37 |
Robust French syntax analysis : reconciling statistical methods and linguistic knowledge in the Talismane toolkit / Analyse syntaxique robuste du français : concilier méthodes statistiques et connaissances linguistiques dans l'outil TalismaneUrieli, Assaf 17 December 2013 (has links)
Dans cette thèse, nous explorons l'analyse syntaxique robuste statistique du français. Notre principal souci est de trouver des méthodes qui permettent au linguiste d'injecter des connaissances et/ou des ressources linguistiques dans un moteur statistique afin d'améliorer les résultats de certains phénomènes spécifiques. D'abord nous décrivons le schéma d'annotation en dépendances du français, et les algorithmes capables de produire cette annotation, en particulier le parsing par transitions. Après avoir exploré les algorithmes d'apprentissage automatique supervisé pour les problèmes de classification en TAL, nous présentons l'analyseur syntaxique Talismane développé dans le cadre de cette thèse et comprenant quatre modules statistiques – le découpage en phrases, la segmentation en mots, l'étiquetage morpho-syntaxique et le parsing – ainsi que les diverses ressources linguistiques utilisées par le modèle de base. Nos premières expériences tentent d'identifier la meilleure configuration de base parmi de nombreuses configurations possibles. Ensuite nous explorons les améliorations apportées par la recherche par faisceau et la propagation du faisceau. Enfin nous présentons une série d'expériences dont le but est de corriger des erreurs linguistiques spécifiques au moyen de traits ciblés. Une de nos innovations est l'introduction des règles qui imposent ou interdisent certaines décisions locales, permettant ainsi de contourner le modèle statistique. Nous explorons l'utilisation de règles pour les erreurs que les traits n'ont pu corriger. Finalement, nous présentons une expérience semi-supervisée avec une ressource de sémantique distributionnelle. / In this thesis we explore robust statistical syntax analysis for French. Our main concern is to explore methods whereby the linguist can inject linguistic knowledge and/or resources into the robust statistical engine in order to improve results for specific phenomena. We first explore the dependency annotation schema for French, concentrating on certain phenomena. Next, we look into the various algorithms capable of producing this annotation, and in particular on the transition-based parsing algorithm used in the rest of this thesis. After exploring supervised machine learning algorithms for NLP classification problems, we present the Talismane toolkit for syntax analysis, built within the framework of this thesis, including four statistical modules - sentence boundary detection, tokenisation, pos-tagging and parsing - as well as the various linguistic resources used for the baseline model, including corpora, lexicons and feature sets. Our first experiments attempt various machine learning configurations in order to identify the best baseline. We then look into improvements made possible by beam search and beam propagation. Finally, we present a series of experiments aimed at correcting errors related to specific linguistic phenomena, using targeted features. One our innovation is the introduction of rules that can impose or prohibit certain decisions locally, thus bypassing the statistical model. We explore the usage of rules for errors that the features are unable to correct. Finally, we look into the enhancement of targeted features by large scale linguistic resources, and in particular a semi-supervised approach using a distributional semantic resource.
|
38 |
Apprentissage probabiliste de similarités d'édition / Learning probabilistic edit similarityBoyer, Laurent 24 March 2011 (has links)
De nombreuses applications informatiques nécessitent l’utilisation de distances. Dans le cadre de données structurées, chaînes ou arbres, nous utilisons majoritairement la distance d’édition. Celle-ci correspond au nombre minimal d’opérations d’édition (insertion, délétion et substitution) nécessaire pour transformer la première donnée en la seconde. Suivant l’application traitée, il est possible de paramétrer la distance d’édition en associant à chaque opération d’édition un poids. Dans le cadre de ce manuscrit, nous proposons une technique d’apprentissage automatique supervisée pour apprendre les poids de la distance décrite précédemment. L’algorithme utilisé, appelé Expectation-Maximisation, maximise la vraisemblance des paramètres du modèle à l’aide d’un échantillon d’apprentissage composé de paires d’exemples considérés comme similaires. La première contribution de ce manuscrit est une extension de précédents travaux sur les chaînes aux arbres sous la forme de transducteur à un unique état. Nous montrons sur une tâche de reconnaissance de caractères manuscrits, l’efficacité de l’apprentissage par rapport à l’utilisation de poids non appris. La seconde est une approche sur les chaînes sous contraintes. Le modèle est représenté par un ensemble fini d’états dans lequel les transitions sont contraintes. Une contrainte est représentée par un ensemble fini de fonctions booléennes définies sur la chaîne d’entrée et une de ses positions. Nous utilisons notre modèle pour aborder une application de recherche de sites de facteur de transcription dans des séquences génomiques / In computer science, a lot of applications use distances. In the context of structured data, strings or trees, we mainly use the edit distance. The edit distance is defined as the minimum number of edit operation (insertion, deletion and substitution) needed to transform one data into the other one. Given the application, it is possible to tune the edit distance by adding a weight to each edit operation. In this work, we use a supervised machine learning approach to learn the weight of edit operation. The exploited algorithm, called Expectation-Maximisation, is a method for finding maximum likelihood estimates of parameters in a model given a learning sample of pairs of similar examples. The first contribution is an extension of earlier works on string to trees. The model is represent by a transducer with a single state. We apply successfully our method on a handwritten character recognition task. In a last part, we introduce a new model on strings under constraints. The model is made of a finite set of states where the transitions are constrained. A constraint is a finite set of boolean functions defined over an input string and one of its position. We show the relevance of our approach on a molecular biology task. We consider the problem of detecting Transcription Factor Binding Site in DNA sequences
|
39 |
Efficient sequential learning in structured and constrained environments / Apprentissage séquentiel efficace dans des environnements structurés avec contraintesCalandriello, Daniele 18 December 2017 (has links)
L'avantage principal des méthodes d'apprentissage non-paramétriques réside dans le fait que la nombre de degrés de libertés du modèle appris s'adapte automatiquement au nombre d'échantillons. Ces méthodes sont cependant limitées par le "fléau de la kernelisation": apprendre le modèle requière dans un premier temps de construire une matrice de similitude entre tous les échantillons. La complexité est alors quadratique en temps et espace, ce qui s'avère rapidement trop coûteux pour les jeux de données de grande dimension. Cependant, la dimension "effective" d'un jeu de donnée est bien souvent beaucoup plus petite que le nombre d'échantillons lui-même. Il est alors possible de substituer le jeu de donnée réel par un jeu de données de taille réduite (appelé "dictionnaire") composé exclusivement d'échantillons informatifs. Malheureusement, les méthodes avec garanties théoriques utilisant des dictionnaires comme "Ridge Leverage Score" (RLS) ont aussi une complexité quadratique. Dans cette thèse nous présentons une nouvelle méthode d'échantillonage RLS qui met à jour le dictionnaire séquentiellement en ne comparant chaque nouvel échantillon qu'avec le dictionnaire actuel, et non avec l'ensemble des échantillons passés. Nous montrons que la taille de tous les dictionnaires ainsi construits est de l'ordre de la dimension effective du jeu de données final, garantissant ainsi une complexité en temps et espace à chaque étape indépendante du nombre total d'échantillons. Cette méthode présente l’avantage de pouvoir être parallélisée. Enfin, nous montrons que de nombreux problèmes d'apprentissage non-paramétriques peuvent être résolus de manière approchée grâce à notre méthode. / The main advantage of non-parametric models is that the accuracy of the model (degrees of freedom) adapts to the number of samples. The main drawback is the so-called "curse of kernelization": to learn the model we must first compute a similarity matrix among all samples, which requires quadratic space and time and is unfeasible for large datasets. Nonetheless the underlying effective dimension (effective d.o.f.) of the dataset is often much smaller than its size, and we can replace the dataset with a subset (dictionary) of highly informative samples. Unfortunately, fast data-oblivious selection methods (e.g., uniform sampling) almost always discard useful information, while data-adaptive methods that provably construct an accurate dictionary, such as ridge leverage score (RLS) sampling, have a quadratic time/space cost. In this thesis we introduce a new single-pass streaming RLS sampling approach that sequentially construct the dictionary, where each step compares a new sample only with the current intermediate dictionary and not all past samples. We prove that the size of all intermediate dictionaries scales only with the effective dimension of the dataset, and therefore guarantee a per-step time and space complexity independent from the number of samples. This reduces the overall time required to construct provably accurate dictionaries from quadratic to near-linear, or even logarithmic when parallelized. Finally, for many non-parametric learning problems (e.g., K-PCA, graph SSL, online kernel learning) we we show that we can can use the generated dictionaries to compute approximate solutions in near-linear that are both provably accurate and empirically competitive.
|
40 |
Elicitation of relevant information from medical databases : application to the encoding of secondary diagnoses / Elicitation de l'information pertinente à partir de bases de données médicales : application au codage des diagnostics secondairesChahbandarian, Ghazar 10 November 2017 (has links)
Dans cette thèse, nous nous concentrons sur le codage du séjour d'hospitalisation en codes standards. Ce codage est une tâche médicale hautement sensible dans les hôpitaux français, nécessitant des détails minutieux et une haute précision, car le revenu de l'hôpital en dépend directement. L'encodage du séjour d'hospitalisation comprend l'encodage du diagnostic principal qui motive le séjour d'hospitalisation et d'autres diagnostics secondaires qui surviennent pendant le séjour. Nous proposons une analyse rétrospective mettant en oeuvre des méthodes d'apprentissage, sur la tâche d'encodage de certains diagnostics secondaires sélectionnés. Par conséquent, la base de données PMSI, une grande base de données médicales qui documente toutes les informations sur les séjours d'hospitalisation en France.} est analysée afin d'extraire à partir de séjours de patients hospitalisés antérieurement, des variables décisives (Features). Identifier ces variables permet de pronostiquer le codage d'un diagnostic secondaire difficile qui a eu lieu avec un diagnostic principal fréquent. Ainsi, à la fin d'une session de codage, nous proposons une aide pour les codeurs en proposant une liste des encodages pertinents ainsi que des variables utilisées pour prédire ces encodages. Les défis nécessitent une connaissance métier dans le domaine médical et une méthodologie d'exploitation efficace de la base de données médicales par les méthodes d'apprentissage automatique. En ce qui concerne le défi lié à la connaissance du domaine médical, nous collaborons avec des codeurs experts dans un hôpital local afin de fournir un aperçu expert sur certains diagnostics secondaires difficiles à coder et afin d'évaluer les résultats de la méthodologie proposée. En ce qui concerne le défi lié à l'exploitation des bases de données médicales par des méthodes d'apprentissage automatique, plus spécifiquement par des méthodes de "Feature Selection" (FS), nous nous concentrons sur la résolution de certains points : le format des bases de données médicales, le nombre de variables dans les bases de données médicales et les variables instables extraites des bases de données médicales. Nous proposons une série de transformations afin de rendre le format de la base de données médicales, en général sous forme de bases de données relationnelles, exploitable par toutes les méthodes de type FS. Pour limiter l'explosion du nombre de variables représentées dans la base de données médicales, généralement motivée par la quantité de diagnostics et d'actes médicaux, nous analysons l'impact d'un regroupement de ces variables dans un niveau de représentation approprié et nous choisissons le meilleur niveau de représentation. Enfin, les bases de données médicales sont souvent déséquilibrées à cause de la répartition inégale des exemples positifs et négatifs. / In the thesis we focus on encoding inpatient episode into standard codes, a highly sensitive medical task in French hospitals, requiring minute detail and accuracy, since the hospital's income directly depends on it. Encoding inpatient episode includes encoding the primary diagnosis that motivates the hospitalisation stay and other secondary diagnoses that occur during the stay. Unlike primary diagnosis, encoding secondary diagnoses is prone to human error, due to the difficulty of collecting relevant data from different medical sources, or to the outright absence of relevant data that helps encoding the diagnosis. We propose a retrospective analysis on the encoding task of some selected secondary diagnoses. Hence, the PMSI database is analysed in order to extract, from previously encoded inpatient episodes, the decisive features to encode a difficult secondary diagnosis occurred with frequent primary diagnosis. Consequently, at the end of an encoding session, once all the features are available, we propose to help the coders by proposing a list of relevant encodings as well as the features used to predict these encodings. Nonetheless, a set of challenges need to be addressed for the development of an efficient encoding help system. The challenges include, an expert knowledge in the medical domain and an efficient exploitation methodology of the medical database by Machine Learning methods. With respect to the medical domain knowledge challenge, we collaborate with expert coders in a local hospital in order to provide expert insight on some difficult secondary diagnoses to encode and in order to evaluate the results of the proposed methodology. With respect to the medical databases exploitation challenge, we use ML methods such as Feature Selection (FS), focusing on resolving several issues such as the incompatible format of the medical databases, the excessive number features of the medical databases in addition to the unstable features extracted from the medical databases. Regarding to issue of the incompatible format of the medical databases caused by relational databases, we propose a series of transformation in order to make the database and its features more exploitable by any FS methods. To limit the effect of the excessive number of features in the medical database, usually motivated by the amount of the diagnoses and the medical procedures, we propose to group the excessive number features into a proper representation level and to study the best representation level. Regarding to issue of unstable features extracted from medical databases, as the dataset linked with diagnoses are highly imbalanced due to classification categories that are unequally represented, most existing FS methods tend not to perform well on them even if sampling strategies are used. We propose a methodology to extract stable features by sampling the dataset multiple times and extracting the relevant features from each sampled dataset. Thus, we propose a methodology that resolves these issues and extracts stable set of features from medical database regardless to the sampling method and the FS method used in the methodology. Lastly, we evaluate the methodology by building a classification model that predicts the studied diagnoses out of the extracted features. The performance of the classification model indicates the quality of the extracted features, since good quality features produces good classification model. Two scales of PMSI database are used: local and regional scales. The classification model is built using the local scale of PMSI and tested out using both local and regional scales. Hence, we propose applying our methodology to increase the integrity of the encoded diagnoses and to prevent missing important encodings. We propose modifying the encoding process and providing the coders with the potential encodings of the secondary diagnoses as well as the features that lead to this encoding.
|
Page generated in 0.0878 seconds