Global ETD Search

1	Evaluation statistique des outils diagnostiques et pronostiques à l'aide des surfaces ROC / Statistical evaluation of diagnostic and pronostic tools using the ROC surfaces. Nze Ossima, Arnaud Davin 03 July 2014 (has links) Dans le diagnostic médical, la surface ROC est l'outil statistique utilisée pour évaluer la précision d'un test diagnostic dans la discrimination de trois états d'une maladie, et le volume sous la surface ROC est l'indice utilisé pour la quantification de la performance du test. Dans certaines situations, différents facteurs peuvent affecter les résultats du test et ainsi les mesures de précision. Dans le cas des études longitudinales, le statut du patient peut changer au cours du temps. Dans ce manuscrit, nous avons développé des méthodes statistiques permettant d'évaluer les capacités discriminatoires des outils diagnostics et pronostics. Nous avons d'abord proposé une méthode semi-paramétrique pour estimer la surface ROC sous des modèles de rapport de densité. La construction de la méthode proposée est basée sur le modèle logit à catégories adjacentes et l'approche de vraisemblance empirique. Nous avons décrit la méthode bootstrap pour l'inférence des estimateurs obtenus. Ensuite, nous avons présenté une méthode d'estimation des surfaces ROC appelée famille de Lehmann des surfaces ROC. Cette méthode est basée sur la famille d'alternatives de Lehmann ou modèle à hasards proportionnels. Elle a l'avantage de prendre en compte les covariables qui peuvent affecter la précision d'un test diagnostic. En outre, nous avons développé une surface ROC covariable-spécifique basée sur la règle de Bayes. Pour cela, nous avons proposé un estimateur semi-paramétrique pour les surfaces ROC covariable-spécifique via des procédures de régression logistique polytomique et un modèle semi-paramétrique de localisation. Enfin, dans le cas où le statut du patient peut évoluer à travers différents stades d'une maladie, une méthode des surfaces ROC dépendant du temps a été développée. L'estimateur obtenu utilise l'approche "Inverse Probability of Censoring Weighting" (IPCW). Des simulations et des exemples sont fournis afin d'illustrer la performance des estimateurs proposés. / In diagnostic medical, the receiver operating characteristic (ROC) surface is the statistical tool used to assess the accuracy of a diagnostic test in discriminating three disease states, and the volume under the ROC surface is the used index for the quantification of the performance of the test. In some situations, various factors can affect the test results and subsequently the accuracy measures. In the case of longitudinal studies, the patient's status may change over time. In this manuscript, we developed statistical methods to assess the discriminatory capabilities of diagnostic and pronostic tools. We first proposed a semiparametric method for estimating ROC surface under density ratio models. The construction of the proposed method is based on the adjacent-category logit model and the empirical likelihood approach. We described the bootstrap method for inference of the obtained estimators. Next, we presented a method for estimating ROC surfaces called Lehmann family ROC surfaces. This method is based on the family of Lehmann alternatives or proportional hazards model. It has the advantage of taking into account covariates that may affect the accuracy of a diagnostic test. Moreover, we have developed a covariate-specific ROC surface based on the Bayes rule. For that, we proposed semiparametric estimator for covariate-specific ROC surfaces via polytomous logistic regression procedures and a semiparametric location model. Finally, in the case where patient's status may evolve through different stages of disease a method of time-dependent ROC surfaces was developed. The proposed estimator uses the "Inverse Probability of Censoring Weighting" (IPCW) approach. Simulations and examples are provided to illustrate the performance of the proposed estimators. Courbe ROC Surface ROC Test diagnostique Discrimination Pronostic ROC curve ROC surface Diagnostic test Discrimination Pronostic
2	Approche multimarqueurs en médecine d'urgence / Multimarkers approach in emergency medicine Freund, Yonathan 09 June 2015 (has links) L'apport des biomarqueurs aux urgences est bien documenté. Depuis l'apparition de la myoglobine et de la troponine pour le diagnostic de syndrome coronaire aigu (SCA), de multiples marqueurs ont été développés pour l'aide au diagnostic de multiples pathologies aux urgences. Certains biomarqueurs sont même intégrés à la définition de syndromes ou pathologies comme le SCA avec la troponine, ou le sepsis sévère avec le lactate. Nous abordons dans ce travail l'approche multimarqueurs, qui consiste à combiner le dosage de plusieurs biomarqueurs pour améliorer les performances diagnostiques ou pronostiques. L'hypothèse de base de ce travail est que l'association d'un marqueur sensible, généraliste, avec un marqueur spécifique de pathologie ou de dysfonction d'organe, permettrait d'améliorer la prise en charge diagnostique ou la stratification du risque aux urgences. On illustre cette approche dans trois cas particuliers : la prédiction du sepsis sévère, le diagnostic du syndrome coronaire aigu, et l'évaluation du risque après une crise convulsive. Plusieurs méthodes sont envisagées pour combiner plusieurs biomarqueurs, et on développera ici la détermination de la meilleure combinaison linéaire pour obtenir une discrimination optimale. / The added value of biomarkers in the emergency settings is well reported, in various pathologies. Since the burst of myoglobin and troponine for the diagnosis of myocardial infarction (MI), various biomarkers have been developed and adopted for diagnostic purposes in different pathologies. Some of them are part of the very definition of specific syndrom or disease (MI with troponin, or severe sepsis with lactate). We present here the multimarker approach in the emergency department – a strategy that combines the results of several different biomarkers to enhance diagnostic or prognostic performances. We made the hypothesis that the association of a sensitive and generalist biomarker, with an organ or syndrome specific one, would result in better performances.We illustrate here this strategy in three particular cases: the prediction of severe sepsis, the diagnosis of acute coronary syndrome, and the risk stratification after a convulsive seizure. Several methods are considered for the combination of biomarkers, and we will focus on the determination of the best linear combination. Biomarqueurs Médecine d'urgence Courbe ROC Sepsis Syndrome coronaire aigu Convulsions Biomarkers Acute coronary syndrome 612.8
3	L'évaluation du risque de récidive chez les agresseurs sexuels adultes Parent, Geneviève January 2008 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal. Délinquance sexuelle Sexual delinquency Récidive Recidivism Prédiction Prediction Évaluation du risque Risk assessment Courbe ROC RoC curve Classification and regression tree
4	Contribution à l'évaluation de capacités pronostiques en présence de données censurées, de risques concurrents et de marqueurs longitudinaux : inférence et applications à la prédiction de la démence / Contribution to the evaluation of prognostic abilities in presence of censored data, competing risks and longitudinal markers : inference and applications to dementia prediction Blanche, Paul 10 December 2013 (has links) Ce travail a eu pour objectif de proposer des méthodes statistiques pour évaluer et comparer les capacités prédictives de divers outils pronostiques. Le Brier score et principalement les courbes ROC dépendant du temps ont été étudiés. Tous deux dépendent d'un temps t, représentant un horizon de prédiction. Motivé par les applications à la prédiction de la démence et des données de cohortes de personnes âgées, ce travail s'est spécifiquement intéressé à des procédures d'inférence en présence de données censurées et de risques concurrents. Le risque concurrent de décès sans démence est en effet important lorsque l'on s'intéresse à prédire une démence chez des sujets âgés. Pour obtenir des estimateurs consistants, nous avons utilisé une méthode appelée “Inverse Probability of Censoring Weighting” (IPCW). Dans un premier travail, nous montrons qu'elle permet d'étendre simplement les estimateurs pour données non censurées et de prendre en compte une censure éventuellement dépendante de l'outil pronostique étudié. Dans un second travail, nous proposons des adaptations pour les situations de risques concurrents. Quelques résultats asymptotiques sont donnés et permettent de dériver des régions de confiance et des tests de comparaison d'outils pronostiques. Enfin, un troisième travail s'intéresse à la comparaison d'outils pronostiques dynamiques, basés sur des marqueurs longitudinaux. Les mesures de capacités pronostiques dépendent ici à la fois du temps s auquel on fait la prédiction et de l'horizon de prédiction t. Des courbes de capacités pronostiques selon s sont proposées pour leur évaluation et quelques procédures d'inférence sont développées, permettant de construire des régions de confiance et des tests de comparaison de ces courbes. L'application des méthodes proposées a permis de montrer que des outils prédictifs de la démence basés sur des tests cognitifs ou des mesures répétées de ces tests ont de bonnes capacités pronostiques. / The objective of this work is to develop statistical methods that can be used to evaluate and compare the prognostic ability of different prognostic tools. To measure prognostic ability, mainly the time-dependent ROC curve is studied and also the Brier score for a prediction horizon t. Motivated by applications where the aim is to predict the risk of dementia in cohort data of elderly people, this work focuses on inference procedures in the presence of right censoring and competing risks. In elderly populations death is a highly prevalent competing risk. To define consistent estimators of the prediction ability measures, we use the inverse probability of censoring weighting (IPCW) approach. In our first work, we show that the IPCW approach provides consistent estimators of prediction ability based on right censored data, even when the censoring distribution is marker-dependent. In our second work, we adapt the estimators to settings with competing risks. Asymptotic results are provided and we derive confidence regions and tests for comparing different prognostic tools. Finally, in a third work we focus on comparing dynamic prognostic tools which use information from repeated marker measurements to predict future events. The prognostic ability measures now depend on both the time s at which predictions are made and on the prediction horizon t. Curves of the prognostic ability as a function of s are developed for the evaluation of dynamic risk predictions. Inference procedures are adapted and so are confidence regions and tests to compare the curves. The applications of the proposed methods to cohort data show that the prognostic tools that use cognitive tests, or repeated measurements of cognitive tests, have high prognostic abilities. Alzheimer Brier score Courbe ROC Démence Marqueurs longitudinaux Censure Prédiction Risques concurrents Alzheimer Brier score ROC curve Dementia Longitudinal markers Censoring Prediction Competing risks
5	Paramètres cliniques, électroencéphalograhiques et biologiques pour optimiser les critères diagnostiques de la narcolepsie / Clinical, electroencephalographic and biological parameters to optimise narcolepsy diagnostic criteria Andlauer, Olivier 11 December 2014 (has links) La narcolepsie est une maladie rare, touchant une personne sur 2000. Elle se caractérise par l'association d'une somnolence diurne excessive, d'épisodes de cataplexie, de paralysies du sommeil, d'hallucinations hypnagogiques. et d'une fragmentation du sommeil. La narcolepsie sans cataplexie constitue un sous-type hétérogène. Le diagnostic de narcolepsie peut être clinique, mais bien souvent un Test Itératif de Latence d'Endormissement (T1LE), précédé d'une polysomnographie nocturne (NPSG). sont utilisés pour porter le diagnostic.La cause de la plupart des cas de narcolepsie avec cataplexie a été découverte au début des années 2000: la destruction, probablement d'origine auto-immune. des neurones à hypocrétine de l'hypothalamus. Un déficit en hypocrétine à la ponction lombaire constitue désormais un test de référence pour établir le diagnostic, ce qui offre l'opportunité d'optimiser les critères actuels et de tester de nouvelles hypothèses diagnostiques en regard de ce test de référence. Peu d'études ont à ce jour spécifiquement porté sur la narcolepsie sans cataplexie et son diagnostic. Nous avons donc cherché à identifier les prédicteurs du déficit en hypocrétine dans la narcolepsie sans cataplexie. De plus, dans la narcolepsie-cataplexie, l'utilisation comme critère diagnostique d'une latence courte d'apparition du sommeil paradoxal à la NPSG n'a jamais été évaluée en utilisant comme test de référence le déficit en hypocrétine, et nous avons donc cherché à en déterminer l'utilité diagnostic et la valeur-seuil optimale.Afin de mener à bien ces projets de recherche, nous avons initié et participé au développement du logiciel d'analyse ROC (Receiver Operating Characteristic) SoftROC. Dans la narcolepsie sans cataplexie. nous avons montré que les paramètres électrophysiologiques, plus que cliniques, différaient entre les patients avec un taux bas d'hypocrétine et ceux avec un taux normal. Dans la narcolepsie avec cataplexie. nous avons établi qu'une latence courte (< 15 minutes) d'apparition du sommeil paradoxal à la NPSG était un test diagnostique spécifique, mais peu sensible, pour la narcolepsie avec déficit en hypocrétine. Nos résultats ont contribué à la révision des classifications internationales des troubles du sommeil. / Narcolepsy is characterised by excessive diurnal sleepiness, cataplexy, sleep paralysis, hypnagogic hallucinations andsleep fragmentation. Narcolepsy without cataplexy is a heterogeneous subtype. Diagnosis can be established clinically,but a Mulitple Sleep Latency Test (MSLT) following a Nocturnal PolySomnoGraphy (NPSG), is used most of the time.Auto-immune loss of hypocretin cells is responsible for narcolepsy with cataplexy. Hypocretin deficiency at lumbarpuncture is a gold standard for diagnosis.Few studies have focused specifically on narcolepsy without cataplexy. Our aim was to identify predictors of hypocretindeficiency in this condition. Moreover, in narcolepsy with cataplexy, a short REM sleep latency at NPSG has never beenevaluated as a diagnostic test using hypocretin deficiency as a gold standard, and we therefore have aimed at assessing itsdiagnostic utility and optimal cut-off.In order to conduct our research, we have contributed to developing a ROC analysis software (SoftROC).In narcolepsy without cataplexy- objective (NPSG and MSLT) more than clinical parameters were predictors ofhypocretin-deficiency. In narcolepsy-cataplexy, a short (< 15 mins) REM latency at NPSG was a specific, but notsensitive. diagnostic test. Our results contributed to the revision of international diagnostic classifications. Narcolepsie Hypocrétine Polysomnogarphie Sommeil paradoxal Diagnostic Courbe ROC Narcolepsy Hypocretin Itiratif sleep latency test Polysomnogarphy Paradoxical sleep Diagnosis ROC curve 616.8
6	L'évaluation du risque de récidive chez les agresseurs sexuels adultes Parent, Geneviève January 2008 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal Délinquance sexuelle Sexual delinquency Récidive Recidivism Prédiction Prediction Évaluation du risque Risk assessment Courbe ROC RoC curve Classification and regression tree
7	Évaluation d’un prototype de détecteur de glucose dans le tissu interstitiel sans aiguille, le PGS (Photonic Glucose Sensor) Iglesias Rodriguez, Lorena L. 07 1900 (has links) Objectif : Déterminer la fiabilité et la précision d’un prototype d’appareil non invasif de mesure de glucose dans le tissu interstitiel, le PGS (Photonic Glucose Sensor), en utilisant des clamps glycémiques multi-étagés. Méthodes : Le PGS a été évalué chez 13 sujets avec diabète de type 1. Deux PGS étaient testés par sujet, un sur chacun des triceps, pour évaluer la sensibilité, la spécificité, la reproductibilité et la précision comparativement à la technique de référence (le Beckman®). Chaque sujet était soumis à un clamp de glucose multi-étagé de 8 heures aux concentrations de 3, 5, 8 et 12 mmol/L, de 2 heures chacun. Résultats : La corrélation entre le PGS et le Beckman® était de 0,70. Pour la détection des hypoglycémies, la sensibilité était de 63,4%, la spécificité de 91,6%, la valeur prédictive positive (VPP) 71,8% et la valeur prédictive négative (VPN) 88,2%. Pour la détection de l’hyperglycémie, la sensibilité était de 64,7% et la spécificité de 92%, la VPP 70,8% et la VPN : 89,7%. La courbe ROC (Receiver Operating Characteristics) démontrait une précision de 0,86 pour l’hypoglycémie et de 0,87 pour l’hyperglycémie. La reproductibilité selon la « Clark Error Grid » était de 88% (A+B). Conclusion : La performance du PGS était comparable, sinon meilleure que les autres appareils sur le marché(Freestyle® Navigator, Medtronic Guardian® RT, Dexcom® STS-7) avec l’avantage qu’il n’y a pas d’aiguille. Il s’agit donc d’un appareil avec beaucoup de potentiel comme outil pour faciliter le monitoring au cours du traitement intensif du diabète. Mot clés : Diabète, diabète de type 1, PGS (Photonic Glucose Sensor), mesure continue de glucose, courbe ROC, « Clark Error Grid». / Objective: To determine the reliability and precision of a prototype of a non-invasive device for continuous measurement of interstitial glucose, the PGS (Photonic Glucose Sensor), using multi-level glycaemic clamp. Methods: The PGS was evaluated in 13 subjects with type 1 diabetes. Two PGS were tested with each subject, one on each triceps, to evaluate the sensitivity, specificity, reproducibility and accuracy compared to the reference technique, the glucose analyzer Beckman®. Each subject was submitted to a multi-level 8 hour glucose clamp at 3, 5, 8 and 12 mmol / L, 2 hours each. Results: The correlation between the PGS and the Beckman® was 0.70. For the detection of hypoglycaemia, the sensitivity was 63.4%, the specificity 91.6%, the positive predictive value (PPV) 71.8% and the negative predictive value (NPV) 88.2%. For the detection of hyperglycaemia, the sensitivity was 64.7% the specificity 92%, the PPV 70.8% and the NPV: 89.7%. The ROC (Receiver Operating Characteristics) curve showed an accuracy of 0.86 and 0.87 for hypoglycaemia and hyperglycaemia respectively. Reproducibility according to the Clark Error Grid was 88% in the A and B zone. Conclusion: The performance of the PGS was comparable or better than other continuous glucose monitoring devices on the market (Freestyle® Navigator, Medtronic Guardian® RT, Dexcom® STS-7) with the advantage that it has no needle. It is therefore an interesting device and hopefully, which could facilitate the monitoring in the intensive treatment of diabetes. Key words: Diabetes, type 1 diabetes, PGS (Photonic Glucose Sensor), ROC curve, Clark Error Grid, continuous glucose monitoring, CGMS. Diabète Diabète de type 1 PGS (Photonic Glucose Sensor) Mesure continue de glucose Courbe ROC «Clark Error Grid» Diabetes Type 1 diabetes ROC curve Continuous glucose monitoring CGMS
8	L'Inventaire des risques et des besoins liés aux facteurs criminogènes (IRBC) : évaluation des propriétés métriques de l'instrument St-Louis, Sophie 08 1900 (has links) L’Inventaire des risques et des besoins liés aux facteurs criminogènes (IRBC) est un instrument utilisé depuis le début des années 1990 pour évaluer les risques de récidive des jeunes contrevenants québécois. Il est le produit d’une collaboration du Québec avec l’Ontario, survenue dans le cadre de travaux de recherche effectués sur les instruments d’évaluation du risque de récidive des jeunes contrevenants. L’IRBC est donc le seul instrument précisément conçu pour évaluer les risques de récidive des jeunes contrevenants québécois et il n’a jamais fait l’objet d’une démarche visant à tester sa validité prédictive. Le but de ce projet de mémoire est de tester la validité prédictive de l’IRBC. Des analyses de courbes ROC et des analyses de survie ont été utilisées pour tester les propriétés métriques de l’instrument. Ces analyses suggèrent que, dans l’ensemble, l’IRBC arrive à prédire la récidive de façon acceptable. Quatre des huit grands domaines associés à la récidive, communément appelé BIG FOUR, seraient des prédicteurs modérés de la récidive lorsque testés avec les données issues de l’IRBC. Il s’agit des domaines Antécédents, Pairs, Personnalité-Comportements, et Attitudes-Tendances. Des aspects en lien avec la fidélité de l’instrument témoignent toutefois d’irrégularités dans le processus d’évaluation, ce qui interroge le niveau de rigueur maintenu au jour le jour par les professionnels. Des aspects en lien avec la fidélité de l’IRBC demeureraient à investiguer. / The Inventaire des risques et des besoins liés aux facteurs criminogènes (IRBC) is a test used since the early 1990s to assess young offenders’s risk of recidivism in Quebec. It is the product of a collaboration between Quebec and Ontario which occurred in the context of research work on instruments used to evaluate young offenders’s risk of recidivism. The IRBC is the only instrument specifically designed to assess the risk of recidivism of young offenders in Quebec and has never been subject of a predictive validity study. The aim of this master project is to test the predictive validity of the IRBC. ROC curves analysis and survival analysis were used to test the metric properties of the instrument. The results suggest that overall the IRBC is capable of predicting recidivism acceptably. Four of the eight domains associated with criminal recidivism, commonly called BIG FOUR, would be moderate predictors of recidivism when tested with data from the IRBC. These are Antécédents, Pairs, Personnalité-Comportements, and Attitudes-Tendances. However, aspects related to the fidelity of the instrument show irregularities in the assessment process, which questioned the rigor maintained daily by professionals. Aspects related to the fidelity of the IRBC would remain to be investigated. Jeunes contrevenants Validité prédictive Évaluation de risque Courbe ROC Analyses de survie Young offenders Predictive validity Risk assessment ROC curves Survival analyses
9	Évaluation d’un prototype de détecteur de glucose dans le tissu interstitiel sans aiguille, le PGS (Photonic Glucose Sensor) Iglesias Rodriguez, Lorena L. 07 1900 (has links) Objectif : Déterminer la fiabilité et la précision d’un prototype d’appareil non invasif de mesure de glucose dans le tissu interstitiel, le PGS (Photonic Glucose Sensor), en utilisant des clamps glycémiques multi-étagés. Méthodes : Le PGS a été évalué chez 13 sujets avec diabète de type 1. Deux PGS étaient testés par sujet, un sur chacun des triceps, pour évaluer la sensibilité, la spécificité, la reproductibilité et la précision comparativement à la technique de référence (le Beckman®). Chaque sujet était soumis à un clamp de glucose multi-étagé de 8 heures aux concentrations de 3, 5, 8 et 12 mmol/L, de 2 heures chacun. Résultats : La corrélation entre le PGS et le Beckman® était de 0,70. Pour la détection des hypoglycémies, la sensibilité était de 63,4%, la spécificité de 91,6%, la valeur prédictive positive (VPP) 71,8% et la valeur prédictive négative (VPN) 88,2%. Pour la détection de l’hyperglycémie, la sensibilité était de 64,7% et la spécificité de 92%, la VPP 70,8% et la VPN : 89,7%. La courbe ROC (Receiver Operating Characteristics) démontrait une précision de 0,86 pour l’hypoglycémie et de 0,87 pour l’hyperglycémie. La reproductibilité selon la « Clark Error Grid » était de 88% (A+B). Conclusion : La performance du PGS était comparable, sinon meilleure que les autres appareils sur le marché(Freestyle® Navigator, Medtronic Guardian® RT, Dexcom® STS-7) avec l’avantage qu’il n’y a pas d’aiguille. Il s’agit donc d’un appareil avec beaucoup de potentiel comme outil pour faciliter le monitoring au cours du traitement intensif du diabète. Mot clés : Diabète, diabète de type 1, PGS (Photonic Glucose Sensor), mesure continue de glucose, courbe ROC, « Clark Error Grid». / Objective: To determine the reliability and precision of a prototype of a non-invasive device for continuous measurement of interstitial glucose, the PGS (Photonic Glucose Sensor), using multi-level glycaemic clamp. Methods: The PGS was evaluated in 13 subjects with type 1 diabetes. Two PGS were tested with each subject, one on each triceps, to evaluate the sensitivity, specificity, reproducibility and accuracy compared to the reference technique, the glucose analyzer Beckman®. Each subject was submitted to a multi-level 8 hour glucose clamp at 3, 5, 8 and 12 mmol / L, 2 hours each. Results: The correlation between the PGS and the Beckman® was 0.70. For the detection of hypoglycaemia, the sensitivity was 63.4%, the specificity 91.6%, the positive predictive value (PPV) 71.8% and the negative predictive value (NPV) 88.2%. For the detection of hyperglycaemia, the sensitivity was 64.7% the specificity 92%, the PPV 70.8% and the NPV: 89.7%. The ROC (Receiver Operating Characteristics) curve showed an accuracy of 0.86 and 0.87 for hypoglycaemia and hyperglycaemia respectively. Reproducibility according to the Clark Error Grid was 88% in the A and B zone. Conclusion: The performance of the PGS was comparable or better than other continuous glucose monitoring devices on the market (Freestyle® Navigator, Medtronic Guardian® RT, Dexcom® STS-7) with the advantage that it has no needle. It is therefore an interesting device and hopefully, which could facilitate the monitoring in the intensive treatment of diabetes. Key words: Diabetes, type 1 diabetes, PGS (Photonic Glucose Sensor), ROC curve, Clark Error Grid, continuous glucose monitoring, CGMS. Diabète Diabète de type 1 PGS (Photonic Glucose Sensor) Mesure continue de glucose Courbe ROC «Clark Error Grid» Diabetes Type 1 diabetes ROC curve Continuous glucose monitoring CGMS
10	Arbres de décisions symboliques, outils de validations et d'aide à l'interprétation / Symbolic decision trees, tools for validation and interpretation assistance Seck, Djamal 20 December 2012 (has links) Nous proposons dans cette thèse la méthode STREE de construction d'arbres de décision avec des données symboliques. Ce type de données permet de caractériser des individus de niveau supérieur qui peuvent être des classes ou catégories d’individus ou des concepts au sens des treillis de Galois. Les valeurs des variables, appelées variables symboliques, peuvent être des ensembles, des intervalles ou des histogrammes. Le critère de partitionnement récursif est une combinaison d'un critère par rapport aux variables explicatives et d'un critère par rapport à la variable à expliquer. Le premier critère est la variation de la variance des variables explicatives. Quand il est appliqué seul, STREE correspond à une méthode descendante de classification non supervisée. Le second critère permet de construire un arbre de décision. Il s'agit de la variation de l'indice de Gini si la variable à expliquer est nominale et de la variation de la variance si la variable à expliquer est continue ou bien est une variable symbolique. Les données classiques sont un cas particulier de données symboliques sur lesquelles STREE peut aussi obtenir de bons résultats. Il en ressort de bonnes performances sur plusieurs jeux de données UCI par rapport à des méthodes classiques de Data Mining telles que CART, C4.5, Naive Bayes, KNN, MLP et SVM. STREE permet également la construction d'ensembles d'arbres de décision symboliques soit par bagging soit par boosting. L'utilisation de tels ensembles a pour but de pallier les insuffisances liées aux arbres de décisions eux-mêmes et d'obtenir une décision finale qui est en principe plus fiable que celle obtenue à partir d'un arbre unique. / In this thesis, we propose the STREE methodology for the construction of decision trees with symbolic data. This data type allows us to characterize individuals of higher levels which may be classes or categories of individuals or concepts within the meaning of the Galois lattice. The values of the variables, called symbolic variables, may be sets, intervals or histograms. The criterion of recursive partitioning is a combination of a criterion related to the explanatory variables and a criterion related to the dependant variable. The first criterion is the variation of the variance of the explanatory variables. When it is applied alone, STREE acts as a top-down clustering methodology. The second criterion enables us to build a decision tree. This criteron is expressed as the variation of the Gini index if the dependant variable is nominal, and as the variation of the variance if thedependant variable is continuous or is a symbolic variable. Conventional data are a special case of symbolic data on which STREE can also get good results. It has performed well on multiple sets of UCI data compared to conventional methodologies of Data Mining such as CART, C4.5, Naive Bayes, KNN, MLP and SVM. The STREE methodology also allows for the construction of ensembles of symbolic decision trees either by bagging or by boosting. The use of such ensembles is designed to overcome shortcomings related to the decisions trees themselves and to obtain a finaldecision that is in principle more reliable than that obtained from a single tree. Arbre de décision Données symboliques Variable à expliquer Variables explicatives Indice de Gini Variance Élagage Courbe ROC Bagging Boosting Decision tree Symbolic data Dependant variable Explanatory variables Gini index Variance Pruning ROC curve Bagging Boosting

Search results