Global ETD Search

11	Investigation of training data issues in ensemble classification based on margin concept : application to land cover mapping / Investigation des problèmes des données d'apprentissage en classification ensembliste basée sur le concept de marge : application à la cartographie d'occupation du sol Feng, Wei 19 July 2017 (has links) La classification a été largement étudiée en apprentissage automatique. Les méthodes d’ensemble, qui construisent un modèle de classification en intégrant des composants d’apprentissage multiples, atteignent des performances plus élevées que celles d’un classifieur individuel. La précision de classification d’un ensemble est directement influencée par la qualité des données d’apprentissage utilisées. Cependant, les données du monde réel sont souvent affectées par les problèmes de bruit d’étiquetage et de déséquilibre des données. La marge d'ensemble est un concept clé en apprentissage d'ensemble. Elle a été utilisée aussi bien pour l'analyse théorique que pour la conception d'algorithmes d'apprentissage automatique. De nombreuses études ont montré que la performance de généralisation d'un classifieur ensembliste est liée à la distribution des marges de ses exemples d'apprentissage. Ce travail se focalise sur l'exploitation du concept de marge pour améliorer la qualité de l'échantillon d'apprentissage et ainsi augmenter la précision de classification de classifieurs sensibles au bruit, et pour concevoir des ensembles de classifieurs efficaces capables de gérer des données déséquilibrées. Une nouvelle définition de la marge d'ensemble est proposée. C'est une version non supervisée d'une marge d'ensemble populaire. En effet, elle ne requière pas d'étiquettes de classe. Les données d'apprentissage mal étiquetées sont un défi majeur pour la construction d'un classifieur robuste que ce soit un ensemble ou pas. Pour gérer le problème d'étiquetage, une méthode d'identification et d'élimination du bruit d'étiquetage utilisant la marge d'ensemble est proposée. Elle est basée sur un algorithme existant d'ordonnancement d'instances erronées selon un critère de marge. Cette méthode peut atteindre un taux élevé de détection des données mal étiquetées tout en maintenant un taux de fausses détections aussi bas que possible. Elle s'appuie sur les valeurs de marge des données mal classifiées, considérant quatre différentes marges d'ensemble, incluant la nouvelle marge proposée. Elle est étendue à la gestion de la correction du bruit d'étiquetage qui est un problème plus complexe. Les instances de faible marge sont plus importantes que les instances de forte marge pour la construction d'un classifieur fiable. Un nouvel algorithme, basé sur une fonction d'évaluation de l'importance des données, qui s'appuie encore sur la marge d'ensemble, est proposé pour traiter le problème de déséquilibre des données. Cette méthode est évaluée, en utilisant encore une fois quatre différentes marges d'ensemble, vis à vis de sa capacité à traiter le problème de déséquilibre des données, en particulier dans un contexte multi-classes. En télédétection, les erreurs d'étiquetage sont inévitables car les données d'apprentissage sont typiquement issues de mesures de terrain. Le déséquilibre des données d'apprentissage est un autre problème fréquent en télédétection. Les deux méthodes d'ensemble proposées, intégrant la définition de marge la plus pertinente face à chacun de ces deux problèmes majeurs affectant les données d'apprentissage, sont appliquées à la cartographie d'occupation du sol. / Classification has been widely studied in machine learning. Ensemble methods, which build a classification model by integrating multiple component learners, achieve higher performances than a single classifier. The classification accuracy of an ensemble is directly influenced by the quality of the training data used. However, real-world data often suffers from class noise and class imbalance problems. Ensemble margin is a key concept in ensemble learning. It has been applied to both the theoretical analysis and the design of machine learning algorithms. Several studies have shown that the generalization performance of an ensemble classifier is related to the distribution of its margins on the training examples. This work focuses on exploiting the margin concept to improve the quality of the training set and therefore to increase the classification accuracy of noise sensitive classifiers, and to design effective ensemble classifiers that can handle imbalanced datasets. A novel ensemble margin definition is proposed. It is an unsupervised version of a popular ensemble margin. Indeed, it does not involve the class labels. Mislabeled training data is a challenge to face in order to build a robust classifier whether it is an ensemble or not. To handle the mislabeling problem, we propose an ensemble margin-based class noise identification and elimination method based on an existing margin-based class noise ordering. This method can achieve a high mislabeled instance detection rate while keeping the false detection rate as low as possible. It relies on the margin values of misclassified data, considering four different ensemble margins, including the novel proposed margin. This method is extended to tackle the class noise correction which is a more challenging issue. The instances with low margins are more important than safe samples, which have high margins, for building a reliable classifier. A novel bagging algorithm based on a data importance evaluation function relying again on the ensemble margin is proposed to deal with the class imbalance problem. In our algorithm, the emphasis is placed on the lowest margin samples. This method is evaluated using again four different ensemble margins in addressing the imbalance problem especially on multi-class imbalanced data. In remote sensing, where training data are typically ground-based, mislabeled training data is inevitable. Imbalanced training data is another problem frequently encountered in remote sensing. Both proposed ensemble methods involving the best margin definition for handling these two major training data issues are applied to the mapping of land covers. Bagging Classification Apprentissage d’ensemble Marge d’ensemble Données déséquilibrées Données mal étiquetées Forêts aléatoires Télédétection Bagging Classification Ensemble learning Ensemble margin Imbalanced data Mislabeled data Random forests Remote sensing
12	Modélisation et simulation de la croissance de métastases pulmonaires / Lung metastases growth modeling and simulation Jouganous, Julien 23 September 2015 (has links) Cette thèse présente des travaux de modélisation mathématique de la croissance tumorale appliqués aux cas de métastases pulmonaires.La première partie de cette thèse décrit un premier modèle d’équations aux dérivées partielles permettant de simuler la croissance métastatique mais aussi la réponse de la tumeur à certains types de traitements. Une méthode de calibration du modèle à partir de données cliniques issues de l’imagerie médicale est développée et testée sur plusieurs cas cliniques.La deuxième partie de ces travaux introduit une simplification du modèle et de l’algorithme de calibration. Cette méthode, plus robuste, est testée sur un panel de 36 cas test et les résultats sont présentés dans le troisième chapitre. La quatrième et dernière partie développe un algorithme d’apprentissage automatisé permettant de tenir compte de données supplémentaires à celles utilisées par le modèle afin d’affiner l’étape de calibration. / This thesis deals with mathematical modeling and simulation of lung metastases growth.We first present a partial differential equations model to simulate the growth and possibly the response to some types of treatments of metastases to the lung. This model must be personalized to be used individually on clinical cases. Consequently, we developed a calibration technic based on medical images of the tumor. Several applications on clinical cases are presented.Then we introduce a simplification of the first model and the calibration algorithm. This new method, more robust, is tested on 36 clinical cases. The results are presented in the third chapter. To finish, a machine learning algorithm Modélisation Forêts aléatoires Apprentissage automatisé Métastase pulmonaire Croissance tumorale Cancer Simulation numérique Modeling Random forests Machine learning Lung metastasis Tumor growth Cancer Simulation
13	Predictive models for side effects following radiotherapy for prostate cancer / Modèles prédictifs pour les effets secondaires du traitement du cancer de la prostate par radiothérapie Ospina Arango, Juan David 16 June 2014 (has links) La radiothérapie externe (EBRT en anglais pour External Beam Radiotherapy) est l'un des traitements référence du cancer de prostate. Les objectifs de la radiothérapie sont, premièrement, de délivrer une haute dose de radiations dans la cible tumorale (prostate et vésicules séminales) afin d'assurer un contrôle local de la maladie et, deuxièmement, d'épargner les organes à risque voisins (principalement le rectum et la vessie) afin de limiter les effets secondaires. Des modèles de probabilité de complication des tissus sains (NTCP en anglais pour Normal Tissue Complication Probability) sont nécessaires pour estimer sur les risques de présenter des effets secondaires au traitement. Dans le contexte de la radiothérapie externe, les objectifs de cette thèse étaient d'identifier des paramètres prédictifs de complications rectales et vésicales secondaires au traitement; de développer de nouveaux modèles NTCP permettant l'intégration de paramètres dosimétriques et de paramètres propres aux patients; de comparer les capacités prédictives de ces nouveaux modèles à celles des modèles classiques et de développer de nouvelles méthodologies d'identification de motifs de dose corrélés à l'apparition de complications. Une importante base de données de patients traités par radiothérapie conformationnelle, construite à partir de plusieurs études cliniques prospectives françaises, a été utilisée pour ces travaux. Dans un premier temps, la fréquence des symptômes gastro-Intestinaux et génito-Urinaires a été décrite par une estimation non paramétrique de Kaplan-Meier. Des prédicteurs de complications gastro-Intestinales et génito-Urinaires ont été identifiés via une autre approche classique : la régression logistique. Les modèles de régression logistique ont ensuite été utilisés dans la construction de nomogrammes, outils graphiques permettant aux cliniciens d'évaluer rapidement le risque de complication associé à un traitement et d'informer les patients. Nous avons proposé l'utilisation de la méthode d'apprentissage de machine des forêts aléatoires (RF en anglais pour Random Forests) pour estimer le risque de complications. Les performances de ce modèle incluant des paramètres cliniques et patients, surpassent celles des modèle NTCP de Lyman-Kutcher-Burman (LKB) et de la régression logistique. Enfin, la dose 3D a été étudiée. Une méthode de décomposition en valeurs populationnelles (PVD en anglais pour Population Value Decomposition) en 2D a été généralisée au cas tensoriel et appliquée à l'analyse d'image 3D. L'application de cette méthode à une analyse de population a été menée afin d'extraire un motif de dose corrélée à l'apparition de complication après EBRT. Nous avons également développé un modèle non paramétrique d'effets mixtes spatio-Temporels pour l'analyse de population d'images tridimensionnelles afin d'identifier une région anatomique dans laquelle la dose pourrait être corrélée à l'apparition d'effets secondaires. / External beam radiotherapy (EBRT) is one of the cornerstones of prostate cancer treatment. The objectives of radiotherapy are, firstly, to deliver a high dose of radiation to the tumor (prostate and seminal vesicles) in order to achieve a maximal local control and, secondly, to spare the neighboring organs (mainly the rectum and the bladder) to avoid normal tissue complications. Normal tissue complication probability (NTCP) models are then needed to assess the feasibility of the treatment and inform the patient about the risk of side effects, to derive dose-Volume constraints and to compare different treatments. In the context of EBRT, the objectives of this thesis were to find predictors of bladder and rectal complications following treatment; to develop new NTCP models that allow for the integration of both dosimetric and patient parameters; to compare the predictive capabilities of these new models to the classic NTCP models and to develop new methodologies to identify dose patterns correlated to normal complications following EBRT for prostate cancer treatment. A large cohort of patient treated by conformal EBRT for prostate caner under several prospective French clinical trials was used for the study. In a first step, the incidence of the main genitourinary and gastrointestinal symptoms have been described. With another classical approach, namely logistic regression, some predictors of genitourinary and gastrointestinal complications were identified. The logistic regression models were then graphically represented to obtain nomograms, a graphical tool that enables clinicians to rapidly assess the complication risks associated with a treatment and to inform patients. This information can be used by patients and clinicians to select a treatment among several options (e.g. EBRT or radical prostatectomy). In a second step, we proposed the use of random forest, a machine-Learning technique, to predict the risk of complications following EBRT for prostate cancer. The superiority of the random forest NTCP, assessed by the area under the curve (AUC) of the receiving operative characteristic (ROC) curve, was established. In a third step, the 3D dose distribution was studied. A 2D population value decomposition (PVD) technique was extended to a tensorial framework to be applied on 3D volume image analysis. Using this tensorial PVD, a population analysis was carried out to find a pattern of dose possibly correlated to a normal tissue complication following EBRT. Also in the context of 3D image population analysis, a spatio-Temporal nonparametric mixed-Effects model was developed. This model was applied to find an anatomical region where the dose could be correlated to a normal tissue complication following EBRT. Radiothérapie prostatique Effets secondaires Modèles prédictifs Forêts aléatoires Modèles d'effets mélangés Modèles non paramétriques Prostate radiotherapy Side effects Predictive models, random forest Mixed-effects models Non parametric models
14	Caractérisation et cartographie de la structure forestière à partir d'images satellitaires à très haute résolution spatiale / Quantification and mapping of forest structure from Very High Resolution (VHR) satellite images Beguet, Benoît 06 October 2014 (has links) Les images à très haute résolution spatiale (THR) telles que les images Pléiades (50 cm en Panchromatique, 2m en multispectral) rendent possible une description fine de la structure forestière (distribution et dimensions des arbres) à l'échelle du peuplement, en exploitant la relation entre la structure spatiale des arbres et la texture d'image quand la taille du pixel est inférieure à la dimension des arbres. Cette attente répond au besoin d'inventaire spatialisé de la ressource forestière à l'échelle du peuplement et de ses changements dus à la gestion forestière, à l'aménagement du territoire ou aux événements catastrophiques. L'objectif est double: (1) évaluer le potentiel de la texture d'images THR pour estimer les principales variables de structure forestière (diamètre des couronnes, diamètre du tronc, hauteur, densité ou espacement des arbres) à l'échelle du peuplement; (2) sur ces bases, classer les données image, au niveau pixel, par types de structure forestière afin de produire l'information spatialisée la plus fine possible. Les principaux développements portent sur l'automatisation du paramètrage, la sélection de variables, la modélisation par régression multivariable et une approche de classification par classifieurs d'ensemble (Forêts Aléatoires ou Random Forests). Ils sont testés et évalués sur deux sites de la forêt landaise de pin maritime à partir de trois images Pléiades et une Quickbird, acquises dans diverses conditions (saison, position du soleil, angles de visée). La méthodologie proposée est générique. La robustesse aux conditions d'acquisition des images est évaluée. Les résultats montrent que des variations fines de texture caractéristiques de celles de la structure forestière sont bien identifiables. Les performances en terme d'estimation des variables forestières (RMSE) : ~1.1 m pour le diamètre des couronnes, ~3 m pour la hauteur des arbres ou encore ~0.9 m pour leur espacement, ainsi qu'en cartographie des structures forestières (~82 % de taux de bonne classification pour la reconnaissance des 5 classes principales de la structure forestière) sont satisfaisantes d'un point de vue opérationnel. L'application à des images multi-annuelles permettra d'évaluer leur capacité à détecter et cartographier des changements tels que coupe forestière, mitage urbain ou encore dégâts de tempête. / Very High spatial Resolution (VHR) images like Pléiades imagery (50 cm panchromatic, 2m multispectral) allows a detailed description of forest structure (tree distribution and size) at stand level, by exploiting the spatial relationship between tree structure and image texture when the pixel size is smaller than tree dimensions. This information meets the expected strong need for spatial inventory of forest resources at the stand level and its changes due to forest management, land use or catastrophic events. The aim is twofold : (1) assess the VHR satellite images potential to estimate the main variables of forest structure from the image texture: crown diameter, stem diameter, height, density or tree spacing, (2) on these bases, a pixel-based image classification of forest structure is processed in order to produce the finest possible spatial information. The main developments concern parameter optimization, variable selection, multivariate regression modelling and ensemble-based classification (Random Forests). They are tested and evaluated on the Landes maritime pine forest with three Pléiades images and a Quickbird image acquired under different conditions (season, sun angle, view angle). The method is generic. The robustness of the proposed method to image acquisition parameters is evaluated. Results show that fine variations of texture characteristics related to those of forest structure are clearly identifiable. Performances in terms of forest variable estimation (RMSE): ~1,1m for crown diameter, ~3m for tree height and ~0,9m for tree spacing, as well as forest structure mapping (~82% Overall accuracy for the classification of the five main forest structure classes) are satisfactory from an operational perspective. Their application to multi- annual images will assess their ability to detect and map forest changes such as clear cut, urban sprawl or storm damages. Classification Sélection de variables Forêts aléatoires Texture Forêt Pléiades Très haute résolution spatiale Classification Feature selection Random forest Texture Forestry Pléiades Very high spatial resolution
15	Inférence pour les modèles statistiques mal spécifiés, application à une étude sur les facteurs pronostiques dans le cancer du sein / Inference for statistical misspecified models, application to a prognostic factors study for breast cancer Duroux, Roxane 21 September 2016 (has links) Cette thèse est consacrée à l'inférence de certains modèles statistiques mal spécifiés. Chaque résultat obtenu trouve son application dans une étude sur les facteurs pronostiques dans le cancer du sein, grâce à des données collectées par l'Institut Curie. Dans un premier temps, nous nous intéressons au modèle à risques non proportionnels, et exploitons la connaissance de la survie marginale du temps de décès. Ce modèle autorise la variation dans le temps du coefficient de régression, généralisant ainsi le modèle à hasards proportionnels. Dans un deuxième temps, nous étudions un modèle à hasards non proportionnels ayant un coefficient de régression constant par morceaux. Nous proposons une méthode d'inférence pour un modèle à un unique point de rupture, et une méthode d'estimation pour un modèle à plusieurs points de rupture. Dans un troisième temps, nous étudions l'influence du sous-échantillonnage sur la performance des forêts médianes et essayons de généraliser les résultats obtenus aux forêts aléatoires de survie à travers une application. Enfin, nous présentons un travail indépendant où nous développons une nouvelle méthode de recherche de doses, dans le cadre des essais cliniques de phase I à ordre partiel. / The thesis focuses on inference of statistical misspecified models. Every result finds its application in a prognostic factors study for breast cancer, thanks to the data collection of Institut Curie. We consider first non-proportional hazards models, and make use of the marginal survival of the failure time. This model allows a time-varying regression coefficient, and therefore generalizes the proportional hazards model. On a second time, we study step regression models. We propose an inference method for the changepoint of a two-step regression model, and an estimation method for a multiple-step regression model. Then, we study the influence of the subsampling rate on the performance of median forests and try to extend the results to random survival forests through an application. Finally, we present a new dose-finding method for phase I clinical trials, in case of partial ordering. Survie Modèle à risques non proportionnels Modèle avec changepoints Estimation non paramétrique Forêts aléatoires Essais cliniques de phase I Survival analysis Random forests Clinical trials 519.5
16	Analyse des leviers : effets de colinéarité et hiérarchisation des impacts dans les études de marché et sociales / Driver Analysis : consequenses of multicollinearity quantification of relative impact of drivers in market research applications. Wallard, Henri 18 December 2015 (has links) La colinéarité rend difficile l’utilisation de la régression linéaire pour estimer l’importance des variables dans les études de marché. D’autres approches ont donc été utilisées.Concernant la décomposition de la variance expliquée, une démonstration de l’égalité entre les méthodes lmg-Shapley et celle de Johnson avec deux prédicteurs est proposée. Il a aussi été montré que la méthode de Fabbris est différente des méthodes de Genizi et Johnson et que les CAR scores de deux prédicteurs ne s’égalisent pas lorsque leur corrélation tend vers 1.Une méthode nouvelle, weifila (weighted first last) a été définie et publiée en 2015.L’estimation de l’importance des variables avec les forêts aléatoires a également été analysée et les résultats montrent une bonne prise en compte des non-linéarités.Avec les réseaux bayésiens, la multiplicité des solutions et le recours à des restrictions et choix d’expert militent pour utilisation prudente même si les outils disponibles permettent une aide dans le choix des modèles.Le recours à weifila ou aux forêts aléatoires est recommandé plutôt que lmg-Shapley sans négliger les approches structurelles et les modèles conceptuels.Mots clés :régression, décomposition de la variance, importance, valeur de Shapley, forêts aléatoires, réseaux bayésiens. / AbstractLinear regression is used in Market Research but faces difficulties due to multicollinearity. Other methods have been considered.A demonstration of the equality between lmg-Shapley and and Johnson methods for Variance Decomposition has been proposed. Also this research has shown that the decomposition proposed by Fabbris is not identical to those proposed by Genizi and Johnson, and that the CAR scores of two predictors do not equalize when their correlation tends towards 1. A new method, weifila (weighted first last) has been proposed and published in 2015.Also we have shown that permutation importance using Random Forest enables to take into account non linear relationships and deserves broader usage in Marketing Research.Regarding Bayesian Networks, there are multiple solutions available and expert driven restrictions and decisions support the recommendation to be careful in their usage and presentation, even if they allow to explore possible structures and make simulations.In the end, weifila or random forests are recommended instead of lmg-Shapley knowing that the benefit of structural and conceptual models should not be underestimated.Keywords :Linear regression, Variable Importance, Shapley Value, Random Forests, Bayesian Networks Régression Décomposition de la variance Forêts aléatoires Valeur de Shapley Réseaux bayésiens Leviers Regression Variance decomposition Random forests Shapley Value Bayesian networks Driver analysis 004
17	Méthodes Non-Paramétriques de Post-Traitement des Prévisions d'Ensemble / Non-parametric Methods of post-processing for Ensemble Forecasting Taillardat, Maxime 11 December 2017 (has links) En prévision numérique du temps, les modèles de prévision d'ensemble sont devenus un outil incontournable pour quantifier l'incertitude des prévisions et fournir des prévisions probabilistes. Malheureusement, ces modèles ne sont pas parfaits et une correction simultanée de leur biais et de leur dispersion est nécessaire.Cette thèse présente de nouvelles méthodes de post-traitement statistique des prévisions d'ensemble. Celles-ci ont pour particularité d'être basées sur les forêts aléatoires.Contrairement à la plupart des techniques usuelles, ces méthodes non-paramétriques permettent de prendre en compte la dynamique non-linéaire de l'atmosphère.Elles permettent aussi d'ajouter des covariables (autres variables météorologiques, variables temporelles, géographiques...) facilement et sélectionnent elles-mêmes les prédicteurs les plus utiles dans la régression. De plus, nous ne faisons aucune hypothèse sur la distribution de la variable à traiter. Cette nouvelle approche surpasse les méthodes existantes pour des variables telles que la température et la vitesse du vent.Pour des variables reconnues comme difficiles à calibrer, telles que les précipitations sexti-horaires, des versions hybrides de nos techniques ont été créées. Nous montrons que ces versions hybrides (ainsi que nos versions originales) sont meilleures que les méthodes existantes. Elles amènent notamment une véritable valeur ajoutée pour les pluies extrêmes.La dernière partie de cette thèse concerne l'évaluation des prévisions d'ensemble pour les événements extrêmes. Nous avons montré quelques propriétés concernant le Continuous Ranked Probability Score (CRPS) pour les valeurs extrêmes. Nous avons aussi défini une nouvelle mesure combinant le CRPS et la théorie des valeurs extrêmes, dont nous examinons la cohérence sur une simulation ainsi que dans un cadre opérationnel.Les résultats de ce travail sont destinés à être insérés au sein de la chaîne de prévision et de vérification à Météo-France. / In numerical weather prediction, ensemble forecasts systems have become an essential tool to quantifyforecast uncertainty and to provide probabilistic forecasts. Unfortunately, these models are not perfect and a simultaneouscorrection of their bias and their dispersion is needed.This thesis presents new statistical post-processing methods for ensemble forecasting. These are based onrandom forests algorithms, which are non-parametric.Contrary to state of the art procedures, random forests can take into account non-linear features of atmospheric states. They easily allowthe addition of covariables (such as other weather variables, seasonal or geographic predictors) by a self-selection of the mostuseful predictors for the regression. Moreover, we do not make assumptions on the distribution of the variable of interest. This new approachoutperforms the existing methods for variables such as surface temperature and wind speed.For variables well-known to be tricky to calibrate, such as six-hours accumulated rainfall, hybrid versions of our techniqueshave been created. We show that these versions (and our original methods) are better than existing ones. Especially, they provideadded value for extreme precipitations.The last part of this thesis deals with the verification of ensemble forecasts for extreme events. We have shown several properties ofthe Continuous Ranked Probability Score (CRPS) for extreme values. We have also defined a new index combining the CRPS and the extremevalue theory, whose consistency is investigated on both simulations and real cases.The contributions of this work are intended to be inserted into the forecasting and verification chain at Météo-France. Météorologie Statistiques Prévision d'ensemble Régression quantile Forêts aléatoires Événements extrêmes Vérification Meteorology Statistics Ensemble forecasting Quantile regression Random forests Extreme events Verification 551.5
18	Modélisation de l’incertitude sur les trajectoires d’avions / Uncertainty modeling on aircraft trajectories Fouemkeu, Norbert 22 October 2010 (has links) Dans cette thèse, nous proposons des modèles probabilistes et statistiques d’analyse de données multidimensionnelles pour la prévision de l’incertitude sur les trajectoires d’aéronefs. En supposant que pendant le vol, chaque aéronef suit sa trajectoire 3D contenue dans son plan de vol déposé, nous avons utilisé l’ensemble des caractéristiques de l’environnement des vols comme variables indépendantes pour expliquer l’heure de passage des aéronefs sur les points de leur trajectoire de vol prévue. Ces caractéristiques sont : les conditions météorologiques et atmosphériques, les paramètres courants des vols, les informations contenues dans les plans de vol déposés et la complexité de trafic. Typiquement, la variable dépendante dans cette étude est la différence entre les instants observés pendant le vol et les instants prévus dans les plans de vol pour le passage des aéronefs sur les points de leur trajectoire prévue : c’est la variable écart temporel. En utilisant une technique basée sur le partitionnement récursif d’un échantillon des données, nous avons construit quatre modèles. Le premier modèle que nous avons appelé CART classique est basé sur le principe de la méthode CART de Breiman. Ici, nous utilisons un arbre de régression pour construire une typologie des points des trajectoires des vols en fonction des caractéristiques précédentes et de prévoir les instants de passage des aéronefs sur ces points. Le second modèle appelé CART modifié est une version améliorée du modèle précédent. Ce dernier est construit en remplaçant les prévisions calculées par l’estimation de la moyenne de la variable dépendante dans les nœuds terminaux du modèle CART classique par des nouvelles prévisions données par des régressions multiples à l’intérieur de ces nœuds. Ce nouveau modèle développé en utilisant l’algorithme de sélection et d’élimination des variables explicatives (Stepwise) est parcimonieux. En effet, pour chaque nœud terminal, il permet d’expliquer le temps de vol par des variables indépendantes les plus pertinentes pour ce nœud. Le troisième modèle est fondé sur la méthode MARS, modèle de régression multiple par les splines adaptatives. Outre la continuité de l’estimateur de la variable dépendante, ce modèle permet d’évaluer les effets directs des prédicteurs et de ceux de leurs interactions sur le temps de passage des aéronefs sur les points de leur trajectoire de vol prévue. Le quatrième modèle utilise la méthode d’échantillonnage bootstrap. Il s’agit notamment des forêts aléatoires où pour chaque échantillon bootstrap de l’échantillon de données initial, un modèle d’arbre de régression est construit, et la prévision du modèle général est obtenue par une agrégation des prévisions sur l’ensemble de ces arbres. Malgré le surapprentissage observé sur ce modèle, il est robuste et constitue une solution au problème d’instabilité des arbres de régression propre à la méthode CART. Les modèles ainsi construits ont été évalués et validés en utilisant les données test. Leur application au calcul des prévisions de la charge secteur en nombre d’avions entrants a montré qu’un horizon de prévision d’environ 20 minutes pour une fenêtre de temps supérieure à 20 minutes permettait d’obtenir les prévisions avec des erreurs relatives inférieures à 10%. Parmi ces modèles, CART classique et les forêts aléatoires présentaient de meilleures performances. Ainsi, pour l’autorité régulatrice des courants de trafic aérien, ces modèles constituent un outil d’aide pour la régulation et la planification de la charge des secteurs de l’espace aérien contrôlé. / In this thesis we propose probabilistic and statistic models based on multidimensional data for forecasting uncertainty on aircraft trajectories. Assuming that during the flight, aircraft follows his 3D trajectory contained into his initial flight plan, we used all characteristics of flight environment as predictors to explain the crossing time of aircraft at given points on their planned trajectory. These characteristics are: weather and atmospheric conditions, flight current parameters, information contained into the flight plans and the air traffic complexity. Typically, in this study, the dependent variable is difference between actual time observed during flight and planned time to cross trajectory planned points: this variable is called temporal difference. We built four models using method based on partitioning recursive of the sample. The first called classical CART is based on Breiman CART method. Here, we use regression trees to build points typology of aircraft trajectories based on previous characteristics and to forecast crossing time of aircrafts on these points. The second model called amended CART is the previous model improved. This latter is built by replacing forecasting estimated by the mean of dependent variable inside the terminal nodes of classical CART by new forecasting given by multiple regression inside these nodes. This new model developed using Stepwise algorithm is parcimonious because for each terminal node it permits to explain the flight time by the most relevant predictors inside the node. The third model is built based on MARS (Multivariate adaptive regression splines) method. Besides continuity of the dependent variable estimator, this model allows to assess the direct and interaction effects of the explanatory variables on the crossing time on flight trajectory points. The fourth model uses boostrap sampling method. It’s random forests where for each bootstrap sample from the initial data, a tree regression model is built like in CART method. The general model forecasting is obtained by aggregating forecasting on the set of trees. Despite the overfitting observed on this model, it is robust and constitutes a solution against instability problem concerning regression trees obtained from CART method. The models we built have been assessed and validated using data test. Their using to compute the sector load forecasting in term to aircraft count entering the sector shown that, the forecast time horizon about 20 minutes with the interval time larger than 20 minutes, allowed to obtain forecasting with relative errors less than 10%. Among all these models, classical CART and random forests are more powerful. Hence, for regulator authority these models can be a very good help for managing the sector load of the airspace controlled. Trafic aérien Instants de passage Écart temporel CART classique CART modifié Méthode MARS Forêts aléatoires Prévision Modèles probabilistes Statistique Charge secteur Air traffic Crossing time Time difference Classical CART Amended CART MARS method Random Forests Forecast Probabilistic models Statistic Sector load
19	Segmentation d'image par intégration itérative de connaissances / Image segmentation by iterative knowledge integration Chaibou salaou, Mahaman Sani 02 July 2019 (has links) Le traitement d’images est un axe de recherche très actif depuis des années. L’interprétation des images constitue une de ses branches les plus importantes de par ses applications socio-économiques et scientifiques. Cependant cette interprétation, comme la plupart des processus de traitements d’images, nécessite une phase de segmentation pour délimiter les régions à analyser. En fait l’interprétation est un traitement qui permet de donner un sens aux régions détectées par la phase de segmentation. Ainsi, la phase d’interprétation ne pourra analyser que les régions détectées lors de la segmentation. Bien que l’objectif de l’interprétation automatique soit d’avoir le même résultat qu’une interprétation humaine, la logique des techniques classiques de ce domaine ne marie pas celle de l’interprétation humaine. La majorité des approches classiques d’interprétation d’images séparent la phase de segmentation et celle de l’interprétation. Les images sont d’abord segmentées puis les régions détectées sont interprétées. En plus, au niveau de la segmentation les techniques classiques parcourent les images de manière séquentielle, dans l’ordre de stockage des pixels. Ce parcours ne reflète pas nécessairement le parcours de l’expert humain lors de son exploration de l’image. En effet ce dernier commence le plus souvent par balayer l’image à la recherche d’éventuelles zones d’intérêts. Dans le cas échéant, il analyse les zones potentielles sous trois niveaux de vue pour essayer de reconnaitre de quel objet s’agit-il. Premièrement, il analyse la zone en se basant sur ses caractéristiques physiques. Ensuite il considère les zones avoisinantes de celle-ci et enfin il zoome sur toute l’image afin d’avoir une vue complète tout en considérant les informations locales à la zone et celles de ses voisines. Pendant son exploration, l’expert, en plus des informations directement obtenues sur les caractéristiques physiques de l’image, fait appel à plusieurs sources d’informations qu’il fusionne pour interpréter l’image. Ces sources peuvent inclure les connaissent acquises grâce à son expérience professionnelle, les contraintes existantes entre les objets de ce type d’images, etc. L’idée de l’approche présentée ici est que simuler l’activité visuelle de l’expert permettrait une meilleure compatibilité entre les résultats de l’interprétation et ceux de l’expert. Ainsi nous retenons de cette analyse trois aspects importants du processus d’interprétation d’image que nous allons modéliser dans l’approche proposée dans ce travail : 1. Le processus de segmentation n’est pas nécessairement séquentiel comme la plus part des techniques de segmentations qu’on rencontre, mais plutôt une suite de décisions pouvant remettre en cause leurs prédécesseurs. L’essentiel étant à la fin d’avoir la meilleure classification des régions. L’interprétation ne doit pas être limitée par la segmentation. 2. Le processus de caractérisation d’une zone d’intérêt n’est pas strictement monotone i.e. que l’expert peut aller d’une vue centrée sur la zone à vue plus large incluant ses voisines pour ensuite retourner vers la vue contenant uniquement la zone et vice-versa. 3. Lors de la décision plusieurs sources d’informations sont sollicitées et fusionnées pour une meilleure certitude. La modélisation proposée de ces trois niveaux met particulièrement l’accent sur les connaissances utilisées et le raisonnement qui mène à la segmentation des images. / Image processing has been a very active area of research for years. The interpretation of images is one of its most important branches because of its socio-economic and scientific applications. However, the interpretation, like most image processing processes, requires a segmentation phase to delimit the regions to be analyzed. In fact, interpretation is a process that gives meaning to the regions detected by the segmentation phase. Thus, the interpretation phase can only analyze the regions detected during the segmentation. Although the ultimate objective of automatic interpretation is to produce the same result as a human, the logic of classical techniques in this field does not marry that of human interpretation. Most conventional approaches to this task separate the segmentation phase from the interpretation phase. The images are first segmented and then the detected regions are interpreted. In addition, conventional techniques of segmentation scan images sequentially, in the order of pixels appearance. This way does not necessarily reflect the way of the expert during the image exploration. Indeed, a human usually starts by scanning the image for possible region of interest. When he finds a potential area, he analyzes it under three view points trying to recognize what object it is. First, he analyzes the area based on its physical characteristics. Then he considers the region's surrounding areas and finally he zooms in on the whole image in order to have a wider view while considering the information local to the region and those of its neighbors. In addition to information directly gathered from the physical characteristics of the image, the expert uses several sources of information that he merges to interpret the image. These sources include knowledge acquired through professional experience, existing constraints between objects from the images, and so on.The idea of the proposed approach, in this manuscript, is that simulating the visual activity of the expert would allow a better compatibility between the results of the interpretation and those ofthe expert. We retain from the analysis of the expert's behavior three important aspects of the image interpretation process that we will model in this work: 1. Unlike what most of the segmentation techniques suggest, the segmentation process is not necessarily sequential, but rather a series of decisions that each one may question the results of its predecessors. The main objective is to produce the best possible regions classification. 2. The process of characterizing an area of interest is not a one way process i.e. the expert can go from a local view restricted to the region of interest to a wider view of the area, including its neighbors and vice versa. 3. Several information sources are gathered and merged for a better certainty, during the decision of region characterisation. The proposed model of these three levels places particular emphasis on the knowledge used and the reasoning behind image segmentation. Image segmentation Superpixels Mesure de similarité Descripteurs contextuels Descripteurs multi-niveaux Forêts aléatoires Image segmentation Superpixels Similarity measure Region-growing Contextual features Multi-level features Artificial learning Random forests 620
20	Wireless sensor networks for Industrial health assessment based on a random forest approach / Réseaux de capteurs sans fil pour l'évaluation de l'état de santé de systèmes industriels Elghazel, Wiem 09 December 2015 (has links) Une maintenance prédictive efficace se base essentiellement sur la fiabilité des données de surveillance.Dans certains cas, la surveillance des systèmes industriels ne peut pas être assurée à l’aide de capteurs individuels ou filaires. Les Réseaux de Capteurs Sans Fil (RCSF) sont alors une alternative. Vu la nature de communication dans ces réseaux, la perte de données est très probable. Nous proposons un algorithme distribué pour la survie des données dans le réseau. Cet algorithme réduit le risque d’une perte totale des paquets de données et assure la continuité du fonctionnement du réseau. Nous avons aussi simulé de différentes topologies du réseau pour évaluer leur impact sur la complétude des données au niveau du nœud puits. Par la suite, nous avons proposé une démarche d’évaluation de l’état de santé de systèmes physiques basée sur l’algorithme des forêts aléatoires. Cette démarche repose sur deux phases : une phase hors ligne et une phase en ligne. Dans la phase hors ligne, l’algorithme des forêts aléatoires sélectionne les paramètres qui contiennent le plus d’information sur l’état du système. Ces paramètres sont utilisés pour construire les arbres décisionnels qui constituent la forêt. Dans la phase en ligne, l’algorithme évalue l’état actuel du système en utilisant les données capteurs pour parcourir les arbres construits. Chaque arbre dans la forêt fournit une décision, et la classe finale est le résultat d’un vote majoritaire sur l’ensemble de la forêt. Quand les capteurs commencent à tomber en panne, les données décrivant un indicateur de santé deviennent incomplètes ou perdues. En injectant de l’aléatoire dans la base d’apprentissage, l’algorithme aura des points de départ différents, et par la suite les arbres aussi. Ainsi, l’absence des mesures d’un indicateur de santé ne conduit pas nécessairement à l’interruption du processus de prédiction de l’état de santé. / An efficient predictive maintenance is based on the reliability of the monitoring data. In some cases, themonitoring activity cannot be ensured with individual or wired sensors. Wireless sensor networks (WSN) arethen an alternative. Considering the wireless communication, data loss becomes highly probable. Therefore,we study certain aspects of WSN reliability. We propose a distributed algorithm for network resiliency and datasurvival while optimizing energy consumption. This fault tolerant algorithm reduces the risks of data loss andensures the continuity of data transfer. We also simulated different network topologies in order to evaluate theirimpact on data completeness at the sink level. Thereafter, we propose an approach to evaluate the system’sstate of health using the random forests algorithm. In an offline phase, the random forest algorithm selects theparameters holding more information about the system’s health state. These parameters are used to constructthe decision trees that make the forest. By injecting the random aspect in the training set, the algorithm (thetrees) will have different starting points. In an online phase, the algorithm evaluates the current health stateusing the sensor data. Each tree will provide a decision, and the final class is the result of the majority voteof all trees. When sensors start to break down, the data describing a health indicator becomes incompleteor unavailable. Considering that the trees have different starting points, the absence of some data will notnecessarily result in the interruption of the prediction process. Réseaux de capteurs sans fil Evaluation de l’état de santé Tolérance aux pannes Consommation d’énergie Forêts aléatoires Topologies réseau Wireless sensor networks, Health assessment Fault tolerance Energy consumption Random forests Network topologies 629.8

Search results