• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 32
  • 10
  • 6
  • Tagged with
  • 47
  • 47
  • 26
  • 25
  • 18
  • 12
  • 10
  • 9
  • 9
  • 9
  • 9
  • 8
  • 7
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Traitement des données manquantes en épidémiologie : Application de l'imputation multiple à des données de surveillance et d'enquêtes.

Héraud Bousquet, Vanina 06 April 2012 (has links) (PDF)
Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d'intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L'objectif de ce travail a été d'investiguer et d'appliquer une méthode d'imputation multiple à des données transversales d'enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l'application d'une méthode d'imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l'infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d'une base de données de surveillance de l'hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind'identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d'application d'une analyse de sensibilité aux hypothèses sous-jacentes àl'imputation multiple. Enfin, nous avons décrit l'élaboration d'un processus d'imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d'évaluation et devalidation.Les applications pratiques présentées nous ont permis d'élaborer une stratégie de traitement des données manquantes, incluant l'examen approfondi de la base de données incomplète, la construction du modèle d'imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses.
22

Identification aveugle de mélanges et décomposition canonique de tenseurs : application à l'analyse de l'eau

Royer, Jean-Philip 04 October 2013 (has links) (PDF)
Dans cette thèse, nous nous focalisons sur le problème de la décomposition polyadique minimale de tenseurs de dimension trois, problème auquel on se réfère généralement sous différentes terminologies : " Polyadique Canonique " (CP en anglais), " CanDecomp ", ou encore " Parafac ". Cette décomposition s'avère très utile dans un très large panel d'applications. Cependant, nous nous concentrons ici sur la spectroscopie de fluorescence appliquée à des données environnementales particulières de type échantillons d'eau qui pourront avoir été collectés en divers endroits ou différents moments. Ils contiennent un mélange de plusieurs molécules organiques et l'objectif des traitements numériques mis en œuvre est de parvenir à séparer et à ré-estimer ces composés présents dans les échantillons étudiés. Par ailleurs, dans plusieurs applications comme l'imagerie hyperspectrale ou justement, la chimiométrie, il est intéressant de contraindre les matrices de facteurs recherchées à être réelles et non négatives car elles sont représentatives de quantités physiques réelles non négatives (spectres, fractions d'abondance, concentrations, ...etc.). C'est pourquoi tous les algorithmes développés durant cette thèse l'ont été dans ce cadre (l'avantage majeur de cette contrainte étant de rendre le problème d'approximation considéré bien posé). Certains de ces algorithmes reposent sur l'utilisation de méthodes proches des fonctions barrières, d'autres approches consistent à paramétrer directement les matrices de facteurs recherchées par des carrés.
23

Devenir à long terme de couples traités par fécondation in vitro dans la cohorte DAIFI

Troude, Pénélope 21 June 2013 (has links) (PDF)
Les études sur les couples traités par fécondation in vitro (FIV) ont jusqu'à présent porté essentiellement sur l'évaluation du succès en FIV. Très peu de données sont disponibles sur le devenir à long terme de couples traités par FIV. L'objectif de ce travail était d'estimer la fréquence de réalisation du projet parental à long terme, et d'étudier les facteurs associés aux interruptions précoces des traitements et aux naissances naturelles.L'enquête DAIFI-2009 a inclus 6 507 couples ayant débuté un programme de FIV en 2000-2002 dans l'un des 8 centres de FIV participant à l'étude. Les données médicales des couples et leur parcours dans le centre ont été obtenus à partir des dossiers médicaux des centres de FIV pour tous les couples. L'information sur le devenir des couples après le départ du centre a été obtenue par questionnaire postal auprès des couples en 2008-2009 (38% de participation 7 à 9 ans après l'initiation des FIV). L'étude des facteurs associés à la participation à l'enquête postale suggérait que la fréquence de réalisation du projet parental estimée sur les répondants seulement pourrait être biaisée. Les différentes méthodes mises en œuvre pour corriger la non réponse (pondération, imputation multiple) n'ont pas modifié l'estimation de la fréquence de réalisation du projet parental. Au total, 7 à 9 ans après l'initiation des FIV, 60% des couples ont réalisé leur projet parental de façon biologique, suite à un traitement ou suite à une conception naturelle. Lorsque les adoptions sont aussi prises en compte, 71% des couples ont réalisé leur projet parental. Après l'échec d'une première tentative de FIV, un couple sur 4 (26%) a interrompu les FIV dans le centre d'inclusion. Globalement, les couples avec de mauvais facteurs pronostiques ont un plus grand risque d'interrompre les FIV. Cependant, la proportion plus importante d'interruption parmi les couples avec une origine inexpliquée de l'infécondité pourrait s'expliquer par la survenue plus fréquente de naissance naturelle dans ce sous-groupe de couples. Parmi les couples n'ayant pas eu d'enfant suite aux traitements, 24% ont ensuite conçu naturellement en médiane 28 mois après l'initiation des FIV. Parmi les couples ayant eu un enfant suite aux traitements, 17% ont ensuite conçu naturellement en médiane 33 mois après la naissance de l'enfant conçu par AMP. Les facteurs associés aux naissances naturelles sont des indicateurs d'un meilleur pronostic de fertilité, particulièrement chez les couples sans enfant AMP.L'enquête DAIFI-2009 a permis d'apporter des informations sur le parcours à long terme des couples traités par FIV qui n'avait jusqu'à présent été que peu étudié, souvent sur de faibles effectifs et avec un suivi plus court. Ces résultats doivent apporter de l'espoir aux couples inféconds, puisque la majorité d'entre eux ont finalement réalisé leur projet parental, même si cela peut prendre de nombreuses années.
24

Gestion de données manquantes dans des cascades de boosting : application à la détection de visages

Bouges, Pierre 06 December 2012 (has links) (PDF)
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe ISPR (ImageS, Perception systems and Robotics) de l'Institut Pascal au sein de l'équipe ComSee (Computers that See). Ces travaux s'inscrivent dans le cadre du projet Bio Rafale initié par la société clermontoise Vesalis et financé par OSEO. Son but est d'améliorer la sécurité dans les stades en s'appuyant sur l'identification des interdits de stade. Les applications des travaux de cette thèse concernent la détection de visages. Elle représente la première étape de la chaîne de traitement du projet. Les détecteurs les plus performants utilisent une cascade de classifieurs boostés. La notion de cascade fait référence à une succession séquentielle de plusieurs classifieurs. Le boosting, quant à lui, représente un ensemble d'algorithmes d'apprentissage automatique qui combinent linéairement plusieurs classifieurs faibles. Le détecteur retenu pour cette thèse utilise également une cascade de classifieurs boostés. L'apprentissage d'une telle cascade nécessite une base d'apprentissage ainsi qu'un descripteur d'images. Cette description des images est ici assurée par des matrices de covariance. La phase d'apprentissage d'un détecteur d'objets détermine ces conditions d'utilisation. Une de nos contributions est d'adapter un détecteur à des conditions d'utilisation non prévues par l'apprentissage. Les adaptations visées aboutissent à un problème de classification avec données manquantes. Une formulation probabiliste de la structure en cascade est alors utilisée pour incorporer les incertitudes introduites par ces données manquantes. Cette formulation nécessite l'estimation de probabilités a posteriori ainsi que le calcul de nouveaux seuils à chaque niveau de la cascade modifiée. Pour ces deux problèmes, plusieurs solutions sont proposées et de nombreux tests sont effectués pour déterminer la meilleure configuration. Enfin, les applications suivantes sont présentées : détection de visages tournés ou occultés à partir d'un détecteur de visages de face. L'adaptation du détecteur aux visages tournés nécessite l'utilisation d'un modèle géométrique 3D pour ajuster les positions des sous-fenêtres associées aux classifieurs faibles.
25

Reconstruction en tomographie locale : introduction d'information à priori basse résolution

Rouault-Pic, Sandrine 23 October 1996 (has links) (PDF)
Un des objectifs actuel en tomographie est de réduire la dose injectée au patient. Les nouveaux systèmes d'imagerie, intégrant des détecteurs haute résolution de petites tailles ou des sources fortement collimatées permettent ainsi de réduire la dose. Ces dispositifs mettent en avant le problème de reconstruction d'image à partir d'informations locales. Un moyen d'aborder le problème de tomographie locale est d'introduire une information à priori, afin de lever la non-unicité de la solution. Nous proposons donc de compléter les projections locales haute résolution (provenant de systèmes décrits précédemment) par des projections complètes basse résolution, provenant par exemple d'un examen scanner standard. Nous supposons que la mise en correspondance des données a été effectuée, cette partie ne faisant pas l'objet de notre travail. Nous avons dans un premier temps, adapté des méthodes de reconstruction classiques (ART, Gradient conjugué régularisé et Rétroprojection filtrée) au problème local, en introduisant dans le processus de reconstruction l'information à priori. Puis, dans un second temps, nous abordons les méthodes de reconstruction par ondelettes et nous proposons également une adaptation à notre problème. Dans tous les cas, la double résolution apparait également dans l'image reconstruite, avec une résolution plus fine dans la région d'intérêt. Enfin, étant donné le coût élevé des méthodes mises en oeuvre, nous proposons une parallélisation des algorithmes implémentés.
26

Gestion de données manquantes dans des cascades de boosting : application à la détection de visages / Management of missing data in boosting cascades : application to face detection

Bouges, Pierre 06 December 2012 (has links)
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe ISPR (ImageS, Perception systems and Robotics) de l’Institut Pascal au sein de l’équipe ComSee (Computers that See). Ces travaux s’inscrivent dans le cadre du projet Bio Rafale initié par la société clermontoise Vesalis et financé par OSEO. Son but est d’améliorer la sécurité dans les stades en s’appuyant sur l’identification des interdits de stade. Les applications des travaux de cette thèse concernent la détection de visages. Elle représente la première étape de la chaîne de traitement du projet. Les détecteurs les plus performants utilisent une cascade de classifieurs boostés. La notion de cascade fait référence à une succession séquentielle de plusieurs classifieurs. Le boosting, quant à lui, représente un ensemble d’algorithmes d’apprentissage automatique qui combinent linéairement plusieurs classifieurs faibles. Le détecteur retenu pour cette thèse utilise également une cascade de classifieurs boostés. L’apprentissage d’une telle cascade nécessite une base d’apprentissage ainsi qu’un descripteur d’images. Cette description des images est ici assurée par des matrices de covariance. La phase d’apprentissage d’un détecteur d’objets détermine ces conditions d’utilisation. Une de nos contributions est d’adapter un détecteur à des conditions d’utilisation non prévues par l’apprentissage. Les adaptations visées aboutissent à un problème de classification avec données manquantes. Une formulation probabiliste de la structure en cascade est alors utilisée pour incorporer les incertitudes introduites par ces données manquantes. Cette formulation nécessite l’estimation de probabilités a posteriori ainsi que le calcul de nouveaux seuils à chaque niveau de la cascade modifiée. Pour ces deux problèmes, plusieurs solutions sont proposées et de nombreux tests sont effectués pour déterminer la meilleure configuration. Enfin, les applications suivantes sont présentées : détection de visages tournés ou occultés à partir d’un détecteur de visages de face. L’adaptation du détecteur aux visages tournés nécessite l’utilisation d’un modèle géométrique 3D pour ajuster les positions des sous-fenêtres associées aux classifieurs faibles. / This thesis has been realized in the ISPR group (ImageS, Perception systems and Robotics) of the Institut Pascal with the ComSee team (Computers that See). My research is involved in a project called Bio Rafale. It was created by the compagny Vesalis in 2008 and it is funded by OSEO. Its goal is to improve the security in stadium using identification of dangerous fans. The applications of these works deal with face detection. It is the first step in the process chain of the project. Most efficient detectors use a cascade of boosted classifiers. The term cascade refers to a sequential succession of several classifiers. The term boosting refers to a set of learning algorithms that linearly combine several weak classifiers. The detector selected for this thesis also uses a cascade of boosted classifiers. The training of such a cascade needs a training database and an image feature. Here, covariance matrices are used as image feature. The limits of an object detector are fixed by its training stage. One of our contributions is to adapt an object detector to handle some of its limits. The proposed adaptations lead to a problem of classification with missing data. A probabilistic formulation of a cascade is then used to incorporate the uncertainty introduced by the missing data. This formulation involves the estimation of a posteriori probabilities and the computation of new rejection thresholds at each level of the modified cascade. For these two problems, several solutions are proposed and extensive tests are done to find the best configuration. Finally, our solution is applied to the detection of turned or occluded faces using just an uprigth face detector. Detecting the turned faces requires the use of a 3D geometric model to adjust the position of the subwindow associated with each weak classifier.
27

Optimisation de l’analyse de données de la mission spatiale MICROSCOPE pour le test du principe d’équivalence et d’autres applications / Optimization of the data analysis of the MICROSCOPE space mission for the test of the Equivalence Principle and other applications

Baghi, Quentin 12 October 2016 (has links)
Le Principe d'Equivalence (PE) est un pilier fondamental de la Relativité Générale. Il est aujourd'hui remis en question par les tentatives d'élaborer une théorie plus exhaustive en physique fondamentale, comme la théorie des cordes. La mission spatiale MICROSCOPE vise à tester ce principe à travers l'universalité de la chute libre, avec un objectif de précision de 10-15, c'est-à-dire un gain de deux ordres de grandeurs par rapport aux expériences actuelles. Le satellite embarque deux accéléromètres électrostatiques, chacun intégrant deux masses-test. Les masses de l'accéléromètre servant au test du PE sont de compositions différentes, alors que celles de l'accéléromètre de référence sont constituées d'un même matériau. L'objectif est de mesurer la chute libre des masses-test dans le champ gravitationnel de la Terre, en mesurant leur accélération différentielle avec une précision attendue de 10-12 ms-2Hz-1/2 dans la bande d'intérêt. Une violation du PE se traduirait par une différence périodique caractéristique entre les deux accélérations. Cependant, diverses perturbations sont également mesurées en raison de la grande sensibilité de l'instrument. Certaines d'entre elles, comme les gradients de gravité et d'inertie, sont bien définies. En revanche d'autres ne sont pas modélisées ou ne le sont qu'imparfaitement, comme le bruit stochastique et les pics d'accélérations dus à l'environnement du satellite, qui peuvent entraîner des saturations de la mesure ou des données lacunaires. Ce contexte expérimental requiert le développement d'outils adaptés pour l'analyse de données, qui s'inscrivent dans le cadre général de l'analyse des séries temporelles par régression linéaire.On étudie en premier lieu la détection et l’estimation de perturbations harmoniques dans le cadre de l'analyse moindres carrés. On montre qu’avec cette technique la projection des perturbations harmoniques sur le signal de violation du PE peut être maintenue à un niveau acceptable. On analyse ensuite l'impact des pertes de données sur la performance du test du PE. On montre qu'avec l'hypothèse pire cas sur la fréquence des interruptions de données (environ 300 interruptions de 0.5 seconde par orbite, chiffre évalué avant le vol), l'incertitude des moindres carrés ordinaires est multipliée par un facteur 35 à 60. Pour compenser cet effet, une méthode de régression linéaire basée sur une estimation autorégressive du bruit est développée, qui permet de décorréler les observations disponibles, sans calcul ni inversion directs de la matrice de covariance. La variance de l'estimateur ainsi construit est proche de la valeur optimale, ce qui permet de réaliser un test du PE au niveau attendu, même en présence de pertes de données fréquentes. On met également en place une méthode pour évaluer plus précisément la DSP du bruit à partir des données disponibles, sans utilisation de modèle a priori. L'approche est fondée sur une modification de l'algorithme espérance-maximisation (EM) avec une hypothèse de régularité de la DSP, en utilisant une imputation statistique des données manquantes. On obtient une estimée de la DSP avec une erreur inférieure à 10-12 ms-2Hz-1/2. En dernier lieu, on étend les applications de l'analyse de données en étudiant la faisabilité de la mesure du gradient de gravité terrestre avec MICROSCOPE. On évalue la capacité de cette observable à déchiffrer la géométrie des grandes échelles du géopotentiel. Par simulation des signaux obtenus à partir de différents modèles du manteau terrestre profond, on montre que leurs particularités peuvent être distinguées. / The Equivalence Principle (EP) is a cornerstone of General Relativity, and is called into question by the attempts to build more comprehensive theories in fundamental physics such as string theories. The MICROSCOPE space mission aims at testing this principle through the universality of free fall, with a target precision of 10-15, two orders of magnitude better than current on-ground experiments. The satellite carries on-board two electrostatic accelerometers, each one including two test-masses. The masses of the test accelerometer are made with different materials, whereas the masses of the reference accelerometer have the same composition. The objective is to monitor the free fall of the test-masses in the gravitational field of the earth by measuring their differential accelerations with an expected precision of 10-12 ms-2Hz-1/2 in the bandwidth of interest. An EP violation would result in a characteristic periodic difference between the two accelerations. However, various perturbations are also measured because of the high sensitivity of the instrument. Some of them are well defined, e.g. gravitational and inertial gradient disturbances, but others are unmodeled, such as random noise and acceleration peaks due to the satellite environment, which can lead to saturations in the measurement or data gaps. This experimental context requires us to develop suited tools for the data analysis, which are applicable in the general framework of linear regression analysis of time series.We first study the statistical detection and estimation of unknown harmonic disturbances in a least squares framework, in the presence of a colored noise of unknown PSD. We show that with this technique the projection of the harmonic disturbances onto the WEP violation signal can be rejected. Secondly we analyze the impact of the data unavailability on the performance of the EP test. We show that with the worst case before-flight hypothesis (almost 300 gaps of 0.5 second per orbit), the uncertainty of the ordinary least squares is increased by a factor 35 to 60. To counterbalance this effect, a linear regression method based on an autoregressive estimation of the noise is developed, which allows a proper decorrelation of the available observations, without direct computation and inversion of the covariance matrix. The variance of the constructed estimator is close to the optimal value, allowing us to perform the EP test at the expected level even in case of very frequent data interruptions. In addition, we implement a method to more accurately characterize the noise PSD when data are missing, with no prior model on the noise. The approach is based on modified expectation-maximization (EM) algorithm with a smooth assumption on the PSD, and use a statistical imputation of the missing data. We obtain a PSD estimate with an error less than 10-12 ms-2Hz-1/2. Finally, we widen the applications of the data analysis by studying the feasibility of the measurement of the earth's gravitational gradient with MICROSCOPE data. We assess the ability of this set-up to decipher the large scale geometry of the geopotential. By simulating the signals obtained from different models of the earth's deep mantle, and comparing them to the expected noise level, we show that their features can be distinguished.
28

Problématiques statistiques rencontrées dans l’étude du traitement antirétroviral des adultes infectés par le VIH en Afrique subsaharienne / Statistical problems encountered in the study of antiretroviral treatment of adults infected with HIV in sub-Saharan Africa

Tchatchueng Mbougua, Jules Brice 12 June 2012 (has links)
Partant de problématiques statistiques rencontrées dans l'étude du traitement antirétroviral des adultes infectés par le virus de l'immunodéficience humaine (VIH) en Afrique subsaharienne, cette thèse cherche, d'une part, à favoriser la vulgarisation d'outils méthodologiques relativement récents auprès d'un public d'utilisateurs moins avertis et, d'autre part, à participer au développement de nouveaux outils. Le premier chapitre présente différentes méthodes de modélisation des données longitudinales dont des méthodes d'analyse de l'évolution d'un critère au cours du temps (les modèles linéaires mixtes généralisés et les modèles d'équations d'estimation généralisées) ou de la survenue d'un évènement au cours du temps (le modèle semi-paramétrique de Cox et ses extensions à la prise en compte des covariables dépendantes du temps et de la censure informative). Le deuxième chapitre s'intéresse aux tests de non-infériorité et propose deux développements de la procédure classique de ces tests pour les cas où la marge de non-infériorité est relative. Enfin, le troisième chapitre aborde la question des données manquantes et propose une extension de la méthode d'imputation multiple par les distributions conditionnelles univariées qui consiste à prendre en compte des effets non-linéaires des covariables dans les modèles d'imputation par des fonctions B-splines. Ces méthodes sont illustrées par des études sur le VIH au Cameroun et au Sénégal. / On the basis of statistical challenges encountered in study of antiretroviral treatment of adults infected with human immunodeficiency virus (HIV) in sub-Saharan Africa, this thesis aims to promote the dissemination of relatively recent methodological tools of less aware audience of users on one hand and to participate to development of new tools on the other hand. The first chapter presents various methods for modeling longitudinal data of which analysis methods for changing of a criterion over time (the generalized linear mixed models and models of generalized estimating equations) or the occurrence of an event over time (the semi-parametric Cox model and its extensions to take into account time-dependent covariates and informative censoring). The second chapter focuses on non-inferiority test and provides two developments of the classical procedure of these tests in cases where the non-inferiority margin is relative. The third chapter addresses the question of missing data and proposes an extension of the multiple imputation method based on fully conditional specification, to take into account nonlinear effects of covariates in the imputation models using B-splines functions. These methods are illustrated by studies on HIV in Cameroon and Senegal.
29

Fast and slow machine learning / Apprentissage automatique rapide et lent

Montiel López, Jacob 07 March 2019 (has links)
L'ère du Big Data a révolutionné la manière dont les données sont créées et traitées. Dans ce contexte, de nombreux défis se posent, compte tenu de la quantité énorme de données disponibles qui doivent être efficacement gérées et traitées afin d’extraire des connaissances. Cette thèse explore la symbiose de l'apprentissage en mode batch et en flux, traditionnellement considérés dans la littérature comme antagonistes, sur le problème de la classification à partir de flux de données en évolution. L'apprentissage en mode batch est une approche bien établie basée sur une séquence finie: d'abord les données sont collectées, puis les modèles prédictifs sont créés, finalement le modèle est appliqué. Par contre, l’apprentissage par flux considère les données comme infinies, rendant le problème d’apprentissage comme une tâche continue (sans fin). De plus, les flux de données peuvent évoluer dans le temps, ce qui signifie que la relation entre les caractéristiques et la réponse correspondante peut changer. Nous proposons un cadre systématique pour prévoir le surendettement, un problème du monde réel ayant des implications importantes dans la société moderne. Les deux versions du mécanisme d'alerte précoce (batch et flux) surpassent les performances de base de la solution mise en œuvre par le Groupe BPCE, la deuxième institution bancaire en France. De plus, nous introduisons une méthode d'imputation évolutive basée sur un modèle pour les données manquantes dans la classification. Cette méthode présente le problème d'imputation sous la forme d'un ensemble de tâches de classification / régression résolues progressivement.Nous présentons un cadre unifié qui sert de plate-forme d'apprentissage commune où les méthodes de traitement par batch et par flux peuvent interagir de manière positive. Nous montrons que les méthodes batch peuvent être efficacement formées sur le réglage du flux dans des conditions spécifiques. Nous proposons également une adaptation de l'Extreme Gradient Boosting algorithme aux flux de données en évolution. La méthode adaptative proposée génère et met à jour l'ensemble de manière incrémentielle à l'aide de mini-lots de données. Enfin, nous présentons scikit-multiflow, un framework open source en Python qui comble le vide en Python pour une plate-forme de développement/recherche pour l'apprentissage à partir de flux de données en évolution. / The Big Data era has revolutionized the way in which data is created and processed. In this context, multiple challenges arise given the massive amount of data that needs to be efficiently handled and processed in order to extract knowledge. This thesis explores the symbiosis of batch and stream learning, which are traditionally considered in the literature as antagonists. We focus on the problem of classification from evolving data streams.Batch learning is a well-established approach in machine learning based on a finite sequence: first data is collected, then predictive models are created, then the model is applied. On the other hand, stream learning considers data as infinite, rendering the learning problem as a continuous (never-ending) task. Furthermore, data streams can evolve over time, meaning that the relationship between features and the corresponding response (class in classification) can change.We propose a systematic framework to predict over-indebtedness, a real-world problem with significant implications in modern society. The two versions of the early warning mechanism (batch and stream) outperform the baseline performance of the solution implemented by the Groupe BPCE, the second largest banking institution in France. Additionally, we introduce a scalable model-based imputation method for missing data in classification. This method casts the imputation problem as a set of classification/regression tasks which are solved incrementally.We present a unified framework that serves as a common learning platform where batch and stream methods can positively interact. We show that batch methods can be efficiently trained on the stream setting under specific conditions. The proposed hybrid solution works under the positive interactions between batch and stream methods. We also propose an adaptation of the Extreme Gradient Boosting (XGBoost) algorithm for evolving data streams. The proposed adaptive method generates and updates the ensemble incrementally using mini-batches of data. Finally, we introduce scikit-multiflow, an open source framework in Python that fills the gap in Python for a development/research platform for learning from evolving data streams.
30

Inférence statistique dans le modèle de mélange à risques proportionnels / Statistical inference in mixture of proportional hazards models

Ben elouefi, Rim 05 September 2017 (has links)
Dans ce travail, nous nous intéressons à l'inférence statistique dans deux modèles semi-paramétrique et non-paramétrique stratifiés de durées de vie censurées. Nous proposons tout d'abord une statistique de test d'ajustement pour le modèle de régression stratifié à risques proportionnels. Nous établissons sa distribution asymptotique sous l'hypothèse nulle d'un ajustement correct du modèle aux données. Nous étudions les propriétés numériques de ce test (niveau, puissance sous différentes alternatives) au moyen de simulations. Nous proposons ensuite une procédure permettant de stratifier le modèle à 1isques proportionnels suivant un seuil inconnu d'une variable de stratification. Cette procédure repose sur l'utilisation du test d'ajustement proposé précédemment. Une étude de simulation exhaustive est conduite pour évaluer les pe1fonnances de cette procédure. Dans une seconde partie de notre travail, nous nous intéressons à l'application du test du logrank stratifié dans un contexte de données manquantes (nous considérons la situation où les strates ne peuvent être observées chez tous les individus de l'échantillon). Nous construisons une version pondérée du logrank stratifié adaptée à ce problème. Nous en établissons la loi limite sous l'hypothèse nulle d'égalité des fonctions de risque dans les différents groupes. Les propriétés de cette nouvelle statistique de test sont évaluée au moyen de simulations. Le test est ensuite appliqué à un jeu de données médicales. / In this work, we are interested in the statistical inference in two semi-parametric and non-parametric stratified models for censored data. We first propose a goodnessof- fit test statistic for the stratified proportional hazards regression model. We establish its asymptotic distribution under the null hypothesis of a correct fit of the model. We investigate the numerical properties of this test (level, power under different alternatives) by means of simulations. Then, we propose a procedure allowing to stratify the proportional hazards model according to an unknown threshold in a stratification variable. This procedure is based on the goodness-of-fit test proposed earlier. An exhaustive simulation study is conducted to evaluate the performance of this procedure. In a second part of our work, we consider the stratified logrank test in a context of missing data (we consider the situation where strata can not be observed on all sample individuals). We construct a weighted version of the stratified logrank, adapted to this problem. We establish its asymptotic distribution under the null hypothesis of equality of the hazards functions in the different groups. The prope1ties of this new test statistic are assessed using simulatious. Finally, the test is applied to a medical dataset.

Page generated in 0.0745 seconds