Spelling suggestions: "subject:"[een] REGRESSION TREES"" "subject:"[enn] REGRESSION TREES""
51 |
Intensive poultry production and highly pathogenic avian influenza H5N1 in Thailand: statistical and process-based models / Production intensive de volailles et influenza aviaire hautement pathogène H5N1 en Thaïlande: approches statistiques et mécanistiquesVan Boeckel, Thomas 26 September 2013 (has links)
Le virus de l’influenza aviaire hautement pathogène (IAHP) de type H5N1 apparu en Chine en 1996 constitue une menace pour la santé humaine en raison de sa circulation endémique dans les volailles domestiques et de son potentiel zoonotique. La sévérité de l'infection liée à l'IAHP H5N1 est variable selon les espèces d'oiseaux: certains anatidés sont porteurs sains et asymptomatiques du virus tandis que dans les élevages de poulets, l'IAHP est fortement contagieux et caractérisé par des taux de mortalité supérieurs à 90%. Chez les humains, l'impact de l'IAHP H5N1 reste à ce jour modéré (630 cas humains dont 375 morts, World Health Organization Juin, 2013) en raison de la faible transmission du virus des volailles aux humains et d'humain à humain. Cependant, étant donné les taux de létalité élevés (>50%), un changement des modalités de transmission pourrait mener à un impact beaucoup plus élevé.<p>Depuis son émergence, l'IAHP H5N1 a eu un impact économique important dans de nombreux pays d’Asie du Sud-Est. La Thaïlande, pays qui fait partie des principaux exportateurs mondiaux de viande de volaille, a été sévèrement touchée par les multiples vagues épidémiques entre 2003 et 2005. Ces épisodes ont eu un impact sur les revenus des petits et moyens producteurs, mais également causé des pertes économiques importantes dans le secteur de la production intensive de volailles en raison de l'embargo imposé par les principaux marchés d'exportation. <p>L'objectif de ce travail est d’étudier quantitativement l'association entre la production intensive de la volaille et la distribution spatio-temporelle de l'IAHP H5N1 en Thaïlande. Deux approches ont été développées pour aborder cette étude: le développement d’une part de modèles statistiques visant à identifier les déterminants du risque d'IAHP H5N1, et d'autre part, de modèles mécanistiques visant à simuler des trajectoires épidémiques sur base de la connaissance des mécanismes de transmission de l'IAHP H5N1, de la structure du secteur de la production de volaille et des mesures d'intervention mises en place. <p>A l’aide de facteurs environnementaux et anthropogéniques, nous montrons que: (i) la distribution des canards domestiques en Asie peut être prédite en utilisant des modèles de régression non-linéaire, et (ii) la production de volailles peut être désagrégée entre production extensive et intensive sur base du nombre de volailles par éleveur. Enfin (iii), nous montrons en utilisant des arbres de régression boostés ("Boosted Regression Trees", BRT) que les principaux déterminants de la distribution du risque d'IAHP H5N1 sont les canards élevés en systèmes intensifs, le nombre de cycles de culture de riz et la proportion d'eau présente dans le paysage. Finalement, nous illustrons les potentialités des modèles mécanistiques pour évaluer l'efficacité des mesures d'intervention implémentées, tester des scénarios alternatifs d'intervention et identifier des stratégies optimales de prévention et d'intervention contre de futures épidémies<p> / Doctorat en Sciences agronomiques et ingénierie biologique / info:eu-repo/semantics/nonPublished
|
52 |
Pénalités minimales pour la sélection de modèle / Minimal penalties for model selectionSorba, Olivier 09 February 2017 (has links)
Dans le cadre de la sélection de modèle par contraste pénalisé, L. Birgé and P. Massart ont prouvé que le phénomène de pénalité minimale se produit pour la sélection libre parmi des variables gaussiennes indépendantes. Nous étendons certains de leurs résultats à la partition d'un signal gaussien lorsque la famille de partitions envisagées est suffisamment riche, notamment dans le cas des arbres de régression. Nous montrons que le même phénomène se produit dans le cadre de l'estimation de densité. La richesse de la famille de modèle s'apparente à une forme d'isotropie. De ce point de vue le phénomène de pénalité minimale est intrinsèque. Pour corroborer et illustrer ce point de vue, nous montrons que le même phénomène se produit pour une famille de modèles d'orientation aléatoire uniforme. / L. Birgé and P. Massart proved that the minimum penalty phenomenon occurs in Gaussian model selection when the model family arises from complete variable selection among independent variables. We extend some of their results to discrete Gaussian signal segmentation when the model family corresponds to a sufficiently rich family of partitions of the signal's support. This is the case of regression trees. We show that the same phenomenon occurs in the context of density estimation. The richness of the model family can be related to a certain form of isotropy. In this respect the minimum penalty phenomenon is intrinsic. To corroborate this point of view, we show that the minimum penalty phenomenon occurs when the models are chosen randomly under an isotropic law.
|
53 |
Assessment of Machine Learning Applied to X-Ray Fluorescence Core Scan Data from the Zinkgruvan Zn-Pb-Ag Deposit, Bergslagen, SwedenSimán, Frans Filip January 2020 (has links)
Lithological core logging is a subjective and time consuming endeavour which could possibly be automated, the question is if and to what extent this automation would affect the resulting core logs. This study presents a case from the Zinkgruvan Zn-Pb-Ag mine, Bergslagen, Sweden; in which Classification and Regression Trees and K-means Clustering on the Self Organising Map were applied to X-Ray Flourescence lithogeochemistry data derived from automated core scan technology. These two methods are assessed through comparison to manual core logging. It is found that the X-Ray Fluorescence data are not sufficiently accurate or precise for the purpose of automated full lithological classification since not all elements are successfully quantified. Furthermore, not all lithologies are possible to distinquish with lithogeochemsitry alone furter hindering the success of automated lithological classification. This study concludes that; 1) K-means on the Self Organising Map is the most successful approach, however; this may be influenced by the method of domain validation, 2) the choice of ground truth for learning is important for both supervised learning and the assessment of machine learning accuracy and 3) geology, data resolution and choice of elements are important parameters for machine learning. Both the supervised method of Classification and Regression Trees and the unsupervised method of K-means clustering applied to Self Organising Maps show potential to assist core logging procedures.
|
54 |
Using Gradient Boosting to Identify Pricing Errors in GLM-Based Tariffs for Non-life Insurance / Identifiering av felprissättningar i GLM-baserade skadeförsäkringstariffer genom Gradient boostingGreberg, Felix, Rylander, Andreas January 2022 (has links)
Most non-life insurers and many creditors use regressions, more specifically Generalized Linear Models (GLM), to price their liabilities. One limitation with GLMs is that interactions between predictors are handled manually, which makes finding interactions a tedious and time-consuming task. This increases the cost of rate making and, more importantly, actuaries can miss important interactions resulting in sub-optimal customer prices. Several papers have shown that Gradient Tree Boosting can outperform GLMs in insurance pricing since it handles interactions automatically. Insurers and creditors are however reluctant to use so-called ”Black-Box” solutions for both regulatory and technical reasons. Tree-based methods have been used to identify pricing errors in regressions, albeit only as ad-hoc solutions. The authors instead propose a systematic approach to automatically identify and evaluate interactions between predictors before adding them to a traditional GLM. The model can be used in three different ways: Firstly, it can create a table of statistically significant candidate interactions to add to a GLM. Secondly, it can automatically and iteratively add new interactions to an old GLM until no more statistically significant interactions can be found. Lastly, it can automatically create a new GLM without an existing pricing model. All approaches are tested on two motor insurance data sets from a Nordic P&C insurer and the results show that all methods outperform the original GLMs. Although the two iterative modes perform better than the first, insurers are recommended to mainly use the first mode since this results in a reasonable trade-off between automating processes and leveraging actuaries’ professional judgment. / De flesta skadeförsäkringsbolag och många långivare använder regressioner, mer specifikt generaliserade linjära modeller (GLM), för att prissätta sina skulder. En begräsning med GLM:er är att interaktioner mellan exogena variabler hanteras manuellt, vilket innebär att hanteringen av dessa är tidskrävande. Detta påverkar försäkringsbolags lönsamhet på flera sätt. För det första ökar kostnaderna för att skapa tariffer och för det andra kan aktuarier missa viktiga interaktioner, vilket resulterar i suboptimala kundpriser. Tidigare forskning visar att Gradient Boosting kan överträffa GLM:er inom försäkringsprissättning eftersom denna metod hanterar interaktioner automatiskt. Försäkringsbolag och kreditgivare är dock motvilliga till att använda så kallade ”Black-box-lösningar” på grund av både regulatoriska och tekniska skäl. Trädbaserade metoder har tidigare använts för att hitta felprissättningar i regressioner, dock endast genom situationsanpassade lösningar. Författarna föreslår i stället en systematisk metod för att automatiskt identifiera och evaluera interaktioner innan de inkluderas i en traditionell GLM. Modellen kan användas på tre olika sätt: Först och främst kan den användas för att skapa en tabell med statistiskt signifikanta interaktioner att addera till en existerande GLM. Utöver detta kan den iterativt och automatiskt lägga till sådana interaktioner tills inga fler återstår. Slutligen kan modellen också användas för att skapa en helt ny GLM från grunden, utan en existerande prissättningsmodell. Metoderna testas på två motorförsäkringsdataset från ett nordiskt skadeförsäkringsbolag och resultaten visar att alla överträffar originalregressionen. Även om de två iterativa metoderna överträffar den första metoden rekommenderas försäkringsbolag att använda den första metoden. Detta eftersom den resulterar i en rimlig avvägning mellan att automatisera processer och att nyttja aktuariers omdömesförmåga.
|
55 |
Use of Adaptive Mobile Applications to Improve MindfulnessBoshoff, Wiehan 08 June 2018 (has links)
No description available.
|
56 |
Development and Evaluation of an Integrated Approach to Study In-Bus Exposure Using Data Mining and Artificial Intelligence MethodsKadiyala, Akhil 24 September 2012 (has links)
No description available.
|
57 |
Alien invaders and reptile traders : risk assessment and modelling of trends, vectors and traits influencing introduction and establishment of alien reptiles and amphibiansVan Wilgen, Nicola Jane 12 1900 (has links)
Thesis (PhD)--Stellenbosch University, 2010. / ENGLISH ABSTRACT: Biological invasions are a growing threat to biodiversity, trade and agriculture in South Africa.
Though alien reptiles and amphibians (herpetofauna) are not currently a major issue, escalating
problems worldwide and increased trade in South Africa suggest a possible increase in future
problems. In this thesis I explore practical measures for risk assessment implementable under
national legislation. I began by documenting record-keeping and legislative differences between
provinces in South Africa. This revealed some serious deficiencies, complicating attempts to
compile accurate inventories and discern import trends. International trade data, however,
revealed an exponential increase in the number of imports to South Africa over the last 30 years.
Characterising the abundance of species in this trade is important as species introduced in large
numbers pose a higher establishment risk. In South Africa, I found a tendency for venomous and
expensive species to be traded in low numbers, whereas species that are easy to breed and handle,
or that are colourful or patterned are traded in higher numbers.
Unlike South Africa, California and Florida have had a large number of well-documented
herpetofaunal introductions. These introductions were used to verify the role of several key
predictors in species establishment. I first evaluated the role of each variable separately. I
examined different approaches for bioclimatic modelling, the predictive power of different sources
of distribution data, and methods of assigning a climate-match score. I also present the first test of
Darwin’s naturalization hypothesis for land vertebrates using two new phylogenies inferred for
native and introduced reptiles in California and Florida. I then used boosted regression trees (BRT)
to infer the relative contribution of each factor to species establishment success. Results from the
BRTs were incorporated into a user-friendly spreadsheet model for use by assessors inexperienced in
complex modelling techniques.
Introduction effort was found to be the strongest contributor to establishment success.
Furthermore, species with short juvenile periods were more likely to establish than species that
started breeding later, as were species with more distant relatives in regional biotas. Average
climate match and life form were also important. Of the herpetofaunal groups, frogs and lizards
were most likely to establish, while snakes and turtles established at much lower rates, though
analysis of all recorded herpetofaunal introductions shows slightly different patterns. Predictions
made by the BRT model to independent data were relatively poor, though this is unlikely to be
unique to this study and can be partially explained by missing data. Though numerous uncertainties
remain in this field, many can be lessened by applying case by case rules rather than generalising
across all herpetofaunal groups. The purpose for import and potential trade volume of a species will
influence the threat it poses. Considering this in conjunction with a species’ environmental
tolerances and previous success of species with similar life histories, should provide a reasonable
and defendable estimate of establishment risk. Finally, a brief summary of the potential impacts of
introduced alien herpetofauna is provided in the thesis. / AFRIKAANSE OPSOMMING: Indringer spesies hou ‘n al groter bedreiging in vir die biodiversiteit, handel en landbou van Suid-
Afrika. Alhoewel uitheemse reptiele en amfibieërs (herpetofauna) tans nie ‘n groot bedreiging in
Suid-Afrika is nie, dui groeiende probleme wêreldwyd asook 'n toename in plaaslike handel op
moontlike toekomstige probleme. In hierdie tesis, ondersoek ek praktiese metodes vir risikobepaling
wat onder nasionale wetgewing toegepas kan word. Ek begin deur die verskille in stoor van rekords
en wetgewing tussen provinsies te dokumenteer. Hierdie proses het ernstige tekortkominge
uitgewys, wat pogings om akkurate inventarisse saam te stel en invoertendense te bepaal,
bemoeilik. Internasionale handelsdata het egter getoon dat daar ‘n eksponensiële toename in die
hoeveelheid invoere na Suid-Afrika oor die laaste 30 jaar was. Die hoeveelheid spesies in hierdie
handel is belangrik omdat spesies wat in groot hoeveelhede ingevoer word, ‘n hoër vestigingsrisiko
het. In Suid-Afrika is ‘n tendens gevind vir handel in giftige en duur spesies teen lae hoeveelhede,
terwyl spesies wat maklik teel, maklik hanteer kan word en kleurvol is of mooi patrone het, in
groter hoeveelhede mee handel gedryf word.
Kalifornië and Florida, in teenstelling met Suid-Afrika, het ‘n hoë aantal goed-gedokumenteerde
gevalle van herpetofauna wat in die natuur vrygestel is. Hierdie introduksies was gebruik om die rol
van verskeie belangrike faktore in die vestiging van populasies te bepaal. Eerstens het ek die rol van
elke faktor apart ondersoek. Ek het verskillende benaderinge vir bioklimatiese model-bou
ondersoek, die akuraatheid van verskillende bronne van distribusiedata getoets en drie metodes om
‘n “climate match score” te bereken, voorgestel. Ek bied ook die eerste toets van Darwin se
naturalisasie-hipotese vir landwerveldiere aan, deur gebruik te maak van twee nuwe filogenieë wat
ek gebou het vir inheemse en ingevoerde reptiele in Kalifornië en Florida. Ek het verder gebruik
gemaak van “boosted regression trees” (BRT) om die relatiewe bydrae van elke faktor tot die
vestigings-potensiaal van spesies te bepaal. Resultate van hierdie BRTs was ingekorporeerd in ‘n
gebruikersvriendelike ontledingstaat wat deur bestuurders, onervare in komplekse
modelboutegnieke, gebruik kan word.
Invoer-hoeveelheid was die faktor wat die sterktste bygedra het tot suksesvolle vestiging. Verder is
spesies met kort jeugperiodes en dié met verlangse familie in streeks-biotas, meer geskik om
suksesvol te vestig. Gemiddelde klimaatooreenstemming en lewensvorm was ook belangrik. Paddas
en akkedisse was die mees waarskynlikste van die herpetofauna groepe om populasies te vestig,
terwyl slange en skilpaaie teen laer tempo’s populasies gevestig het, alhoewel analise van alle
gedokumenteerde gevalle van herpetofauna-invoerings wêreldwyd effens verskillende tendense
toon. Voorspellings wat deur die BRT-model vir onafhangklike data gemaak is was redelik swak,
alhoewel hierdie resultaat onwaarskynlik nie uniek aan die studie is nie, en word gedeeltelik
verduidelik deur die gebrek aan data. Alhoewel talle onsekerhede steeds bestaan, kan dié
verminder word deur geval-tot-geval reëls toe te pas eerder as om vir herpetofauna as ‘n groep te
veralgemeen. Die doel van invoer en potensiële handel-volumes van ‘n spesie, sal die bedreiging
wat die spesie toon, bepaal. Hierdie faktore moet saam met omgewingstoleransie en voorafgaande
sukses van spesies met soortgelyke lewenswyses oorweeg word, om ‘n aanvaarbare en verdedigbare
beraming van vestigingsrisiko te gee. Laastens, word ‘n kort opsomming van die effekte wat
uitheemse herpetofauna mag hê, verskaf.
|
58 |
Informed statistical modelling of habitat suitability for rare and threatened speciesO'Leary, Rebecca A. January 2008 (has links)
In this thesis a number of statistical methods have been developed and applied to habitat suitability modelling for rare and threatened species. Data available on these species are typically limited. Therefore, developing these models from these data can be problematic and may produce prediction biases. To address these problems there are three aims of this thesis. The _rst aim is to develop and implement frequentist and Bayesian statistical modelling approaches for these types of data. The second aim is develop and implement expert elicitation methods. The third aim is to apply these novel approaches to Australian rare and threatened species case studies with the intention of habitat suitability modelling. The _rst aim is ful_lled by investigating two innovative approaches for habitat suitability modelling and sensitivity analysis of the second approach to priors. The _rst approach is a new multilevel framework developed to model the species distribution at multiple scales and identify excess zeros (absences outside the species range). Applying a statistical modelling approach to the identi_cation of excess zeros has not previously been conducted. The second approach is an extension and application of Bayesian classi_cation trees to modelling the habitat suitability of a threatened species. This is the _rst `real' application of this approach in ecology. Lastly, sensitivity analysis of the priors in Bayesian classi_cation trees are examined for a real case study. Previously, sensitivity analysis of this approach to priors has not been examined. To address the second aim, expert elicitation methods are developed, extended and compared in this thesis. In particular, one elicitation approach is extended from previous research, there is a comparison of three elicitation methods, and one new elicitation approach is proposed. These approaches are illustrated for habitat suitability modelling of a rare species and the opinions of one or two experts are elicited. The _rst approach utilises a simple questionnaire, in which expert opinion is elicited on whether increasing values of a covariate either increases, decreases or does not substantively impact on a response. This approach is extended to express this information as a mixture of three normally distributed prior distributions, which are then combined with available presence/absence data in a logistic regression. This is one of the _rst elicitation approaches within the habitat suitability modelling literature that is appropriate for experts with limited statistical knowledge and can be used to elicit information from single or multiple experts. Three relatively new approaches to eliciting expert knowledge in a form suitable for Bayesian logistic regression are compared, one of which is the questionnaire approach. Included in this comparison of three elicitation methods are a summary of the advantages and disadvantages of these three methods, the results from elicitations and comparison of the prior and posterior distributions. An expert elicitation approach is developed for classi_cation trees, in which the size and structure of the tree is elicited. There have been numerous elicitation approaches proposed for logistic regression, however no approaches have been suggested for classi_cation trees. The last aim of this thesis is addressed in all chapters, since the statistical approaches proposed and extended in this thesis have been applied to real case studies. Two case studies have been examined in this thesis. The _rst is the rare native Australian thistle (Stemmacantha australis), in which the dataset contains a large number of absences distributed over the majority of Queensland, and a small number of presence sites that are only within South-East Queensland. This case study motivated the multilevel modelling framework. The second case study is the threatened Australian brush-tailed rock-wallaby (Petrogale penicillata). The application and sensitivity analysis of Bayesian classi_cation trees, and all expert elicitation approaches investigated in this thesis are applied to this case study. This work has several implications for conservation and management of rare and threatened species. Novel statistical approaches addressing the _rst aim provide extensions to currently existing methods, or propose a new approach, for identi _cation of current and potential habitat. We demonstrate that better model predictions can be achieved using each method, compared to standard techniques. Elicitation approaches addressing the second aim ensure expert knowledge in various forms can be harnessed for habitat modelling, a particular bene_t for rare and threatened species which typically have limited data. Throughout, innovations in statistical methodology are both motivated and illustrated via habitat modelling for two rare and threatened species: the native thistle Stemmacantha australis and the brush-tailed rock wallaby Petrogale penicillata.
|
59 |
Estimation robuste de courbes de consommmation électrique moyennes par sondage pour de petits domaines en présence de valeurs manquantes / Robust estimation of mean electricity consumption curves by sampling for small areas in presence of missing valuesDe Moliner, Anne 05 December 2017 (has links)
Dans cette thèse, nous nous intéressons à l'estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l'ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement inobservées.En effet, de nombreuses études réalisées dans le groupe EDF, que ce soit dans une optique commerciale ou de gestion du réseau de distribution par Enedis, se basent sur l'analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes. L'ensemble des consommations électriques de chacun des 35 millions de clients résidentiels et professionnels Français ne pouvant être mesurées pour des raisons de coût et de protection de la vie privée, ces courbes de consommation moyennes sont estimées par sondage à partir de panels. Nous prolongeons les travaux de Lardin (2012) sur l'estimation de courbes moyennes par sondage en nous intéressant à des aspects spécifiques de cette problématique, à savoir l'estimation robuste aux unités influentes, l'estimation sur des petits domaines, et l'estimation en présence de courbes partiellement ou totalement inobservées.Pour proposer des estimateurs robustes de courbes moyennes, nous adaptons au cadre fonctionnel l'approche unifiée d'estimation robuste en sondages basée sur le biais conditionnel proposée par Beaumont (2013). Pour cela, nous proposons et comparons sur des jeux de données réelles trois approches : l'application des méthodes usuelles sur les courbes discrétisées, la projection sur des bases de dimension finie (Ondelettes ou Composantes Principales de l'Analyse en Composantes Principales Sphériques Fonctionnelle en particulier) et la troncature fonctionnelle des biais conditionnels basée sur la notion de profondeur d'une courbe dans un jeu de données fonctionnelles. Des estimateurs d'erreur quadratique moyenne instantanée, explicites et par bootstrap, sont également proposés.Nous traitons ensuite la problématique de l'estimation sur de petites sous-populations. Dans ce cadre, nous proposons trois méthodes : les modèles linéaires mixtes au niveau unité appliqués sur les scores de l'Analyse en Composantes Principales ou les coefficients d'ondelettes, la régression fonctionnelle et enfin l'agrégation de prédictions de courbes individuelles réalisées à l'aide d'arbres de régression ou de forêts aléatoires pour une variable cible fonctionnelle. Des versions robustes de ces différents estimateurs sont ensuite proposées en déclinant la démarche d'estimation robuste basée sur les biais conditionnels proposée précédemment.Enfin, nous proposons quatre estimateurs de courbes moyennes en présence de courbes partiellement ou totalement inobservées. Le premier est un estimateur par repondération par lissage temporel non paramétrique adapté au contexte des sondages et de la non réponse et les suivants reposent sur des méthodes d'imputation. Les portions manquantes des courbes sont alors déterminées soit en utilisant l'estimateur par lissage précédemment cité, soit par imputation par les plus proches voisins adaptée au cadre fonctionnel ou enfin par une variante de l'interpolation linéaire permettant de prendre en compte le comportement moyen de l'ensemble des unités de l'échantillon. Des approximations de variance sont proposées dans chaque cas et l'ensemble des méthodes sont comparées sur des jeux de données réelles, pour des scénarios variés de valeurs manquantes. / In this thesis, we address the problem of robust estimation of mean or total electricity consumption curves by sampling in a finite population for the entire population and for small areas. We are also interested in estimating mean curves by sampling in presence of partially missing trajectories.Indeed, many studies carried out in the French electricity company EDF, for marketing or power grid management purposes, are based on the analysis of mean or total electricity consumption curves at a fine time scale, for different groups of clients sharing some common characteristics.Because of privacy issues and financial costs, it is not possible to measure the electricity consumption curve of each customer so these mean curves are estimated using samples. In this thesis, we extend the work of Lardin (2012) on mean curve estimation by sampling by focusing on specific aspects of this problem such as robustness to influential units, small area estimation and estimation in presence of partially or totally unobserved curves.In order to build robust estimators of mean curves we adapt the unified approach to robust estimation in finite population proposed by Beaumont et al (2013) to the context of functional data. To that purpose we propose three approaches : application of the usual method for real variables on discretised curves, projection on Functional Spherical Principal Components or on a Wavelets basis and thirdly functional truncation of conditional biases based on the notion of depth.These methods are tested and compared to each other on real datasets and Mean Squared Error estimators are also proposed.Secondly we address the problem of small area estimation for functional means or totals. We introduce three methods: unit level linear mixed model applied on the scores of functional principal components analysis or on wavelets coefficients, functional regression and aggregation of individual curves predictions by functional regression trees or functional random forests. Robust versions of these estimators are then proposed by following the approach to robust estimation based on conditional biais presented before.Finally, we suggest four estimators of mean curves by sampling in presence of partially or totally unobserved trajectories. The first estimator is a reweighting estimator where the weights are determined using a temporal non parametric kernel smoothing adapted to the context of finite population and missing data and the other ones rely on imputation of missing data. Missing parts of the curves are determined either by using the smoothing estimator presented before, or by nearest neighbours imputation adapted to functional data or by a variant of linear interpolation which takes into account the mean trajectory of the entire sample. Variance approximations are proposed for each method and all the estimators are compared to each other on real datasets for various missing data scenarios.
|
60 |
Méthodes de modélisation statistique de la durée de vie des composants en génie électrique / Statistical methods for the lifespan modeling of electrical engineering componentsSalameh, Farah 07 November 2016 (has links)
La fiabilité constitue aujourd’hui un enjeu important dans le contexte du passage aux systèmes plus électriques dans des secteurs critiques tels que l’aéronautique, l’espace ou le nucléaire. Il s’agit de comprendre, de modéliser et de prédire les mécanismes de vieillissement susceptibles de conduire les composants à la défaillance et le système à la panne. L’étude des effets des contraintes opérationnelles sur la dégradation des composants est indispensable pour la prédiction de leur durée de vie. De nombreux modèles de durée de vie ont été développés dans la littérature dans le contexte du génie électrique. Cependant, ces modèles présentent des limitations car ils dépendent du matériau étudié et de ses propriétés physiques et se restreignent souvent à un ou deux facteurs de stress, sans intégrer les interactions pouvant exister entre ces facteurs. Cette thèse présente une nouvelle méthodologie pour la modélisation de la durée de vie des composants du génie électrique. Cette méthodologie est générale ; elle s’applique à différents composants sans a priori sur leurs propriétés physiques. Les modèles développés sont des modèles statistiques estimés sur la base de données expérimentales issues de tests de vieillissement accéléré où plusieurs types de stress sont considérés. Les modèles visent alors à étudier les effets des différents facteurs de stress ainsi que de leurs différentes interactions. Le nombre et la configuration des tests de vieillissement nécessaires à construire les modèles (bases d’apprentissage) sont optimisés de façon à minimiser le coût expérimental tout en maximisant la précision des modèles. Des points expérimentaux supplémentaires aléatoirement configurés sont réalisés pour valider les modèles (bases de test). Deux catégories de composants sont testées : deux types d’isolants couramment utilisés dans les machines électriques et des sources de lumière OLED. Différentes formes des modèles de durée de vie sont présentées : les modèles paramétriques, non paramétriques et les modèles hybrides. Tous les modèles développés sont évalués à l’aide de différents outils statistiques permettant, d’une part, d’étudier la pertinence des modèles et d’autre part, d’évaluer leur prédictibilité sur les points des bases de test. Les modèles paramétriques permettent de quantifier les effets des facteurs et de leurs interactions sur la durée de vie à partir d’une expression analytique prédéfinie. Un test statistique permet ensuite d’évaluer la significativité de chacun des paramètres inclus dans le modèle. Ces modèles sont caractérisés par une bonne qualité de prédiction sur leurs bases de test. La relation entre la durée de vie et les contraintes est également modélisée par les arbres de régression comme méthode alternative aux modèles paramétriques. Les arbres de régression sont des modèles non paramétriques qui permettent de classifier graphiquement les points expérimentaux en différentes zones dans lesquelles les contraintes sont hiérarchisées selon leurs effets sur la durée de vie. Ainsi, une relation simple, graphique, et directe entre la durée de vie et les contraintes est obtenue. Cependant, à la différence des modèles paramétriques continus sur le domaine expérimental étudié, les arbres de régression sont constants par morceaux, ce qui dégrade leur qualité de prédiction sur la base de test. Pour remédier à cet inconvénient, une troisième approche consiste à attribuer un modèle linéaire à chacune des zones identifiées avec les arbres de régression. Le modèle résultant, dit modèle hybride, est donc linéaire par morceaux et permet alors de raffiner les modèles paramétriques en évaluant les effets des facteurs dans chacune des zones tout en améliorant la qualité de prédiction des arbres de régression. / Reliability has become an important issue nowadays since the most critical industries such as aeronautics, space and nuclear are moving towards the design of more electrical based systems. The objective is to understand, model and predict the aging mechanisms that could lead to component and system failure. The study of the operational constraints effects on the degradation of the components is essential for the prediction of their lifetime. Numerous lifespan models have been developed in the literature in the field of electrical engineering. However, these models have some limitations: they depend on the studied material and its physical properties, they are often restricted to one or two stress factors and they do not integrate interactions that may exist between these factors. This thesis presents a new methodology for the lifespan modeling of electrical engineering components. This methodology is general; it is applicable to various components without prior information on their physical properties. The developed models are statistical models estimated on experimental data obtained from accelerated aging tests where several types of stress factors are considered. The models aim to study the effects of the different stress factors and their different interactions. The number and the configuration of the aging tests needed to construct the models (learning sets) are optimized in order to minimize the experimental cost while maximizing the accuracy of the models. Additional randomly configured experiments are carried out to validate the models (test sets). Two categories of components are tested: two types of insulation materials that are commonly used in electrical machines and OLED light sources. Different forms of lifespan models are presented: parametric, non-parametric and hybrid models. Models are evaluated using different statistical tools in order to study their relevance and to assess their predictability on the test set points. Parametric models allow to quantify the effects of stress factors and their interactions on the lifespan through a predefined analytical expression. Then a statistical test allows to assess the significance of each parameter in the model. These models show a good prediction quality on their test sets. The relationship between the lifespan and the constraints is also modeled by regression trees as an alternative method to parametric models. Regression trees are non-parametric models that graphically classify experimental points into different zones where the constraints are hierarchized according to their effects on the lifespan. Thus, a simple, graphic and direct relationship between the lifespan and the stress factors is obtained. However, unlike parametric models that are continuous in the studied experimental domain, regression trees are piecewise constant, which degrades their predictive quality with respect to parametric models. To overcome this disadvantage, a third approach consists in assigning a linear model to each of the zones identified with regression trees. The resulting model, called hybrid model, is piecewise linear. It allows to refine parametric models by evaluating the effects of the factors in each of the zones while improving the prediction quality of regression trees.
|
Page generated in 0.0605 seconds