Spelling suggestions: "subject:"régression,"" "subject:"régressions,""
241 |
Application des arbres décisionnels en grappes pour prédire la performance des institutions microfinancières / Application of decision-trees for predicting the performance of microfinance institutionsBou Kheir, Roy 28 June 2013 (has links)
Les performances financières et sociales sont des caractéristiques institutionnelles importantes qui permettent aux pauvres et aux ‘quasi-pauvres' d'avoir accès aux crédits dans des conditions favorables, et aboutissent en même temps à un fonctionnement durable et aux mécanismes efficaces de gouvernances dans les institutions micro financières (IMFs). Dans ce contexte, cette étude a été menée afin de déterminer les variables financières/sociales/gouvernables qui peuvent influer les indicateurs de performance financière et sociale des IMFs à l'échelle mondiale; et de développer pour la première fois des arbres logiques décisionnels (en grappes) simples et pratiques qui peuvent être considérés comme des outils précieux aidant la mise en œuvre de stratégies efficaces pour les différents types des IMFs (à but lucratif et non lucratif) à l'échelle nationale.La première partie de cette thèse expose les données financières et sociales globales qui ont été extraites au cours des cinq dernières années (2007-2011) à partir de plusieurs bases de données bien connues (ex. Microfinance Information Exchange, Mix Market, Rating fund, etc…) pour les IMFs choisies classées comme ayant 4 ou 5 diamants (soit, 263 IMFs à but non lucratif et 135 IMFs à but lucratif) distribuées à travers les continents. Parmi les 263 IMFs à but non lucratif, l'échantillon de données a été composé de 192 organisations non-gouvernementales (ONGs), 42 institutions non bancaires et 29 coopératives. Un grand nombre de variables prédictives (54) ont été recueillies reflétant les aspects de l'environnement financier de ces IMFs (par exemple l'index des dépenses administratives, l'index de solvabilité, le coût par prêt, le nombre des déposants, etc…), les caractéristiques sociales (ex. profondeur, pourcentage des emprunteurs actifs ‘femmes', marché rural/urbain, niveau de pauvreté, etc…) et les mécanismes de gouvernance (ex. la taille de l'entreprise, la taille du conseil, la régulation, l'audit, l'affiliation à un réseau, l'assurance, etc…). Cette 1ère partie compare également l'efficacité de la plupart des méthodes/modèles statistiques les plus utilisés (incluant la régression linéaire, la régression logistique, les méthodes bayésiennes, les réseaux artificiels des neurones, l'analyse en composantes principales, etc….) pour estimer les indicateurs de performance financière et sociale au sein des IMFs. Elle inclue aussi une description détaillée du processus de construction des arbres décisionnels en grappes qui peut être utilisé pour cette estimation ainsi que toutes les étapes reliées (comprenant l'évaluation des divisions, l'assignement des catégories aux nœuds, les valeurs manquantes avec des répartiteurs de substitution, les critères d'arrêt, etc….).La deuxième partie explore les relations quantitatives entre les quatre indicateurs de performance financière les plus couramment utilisés [autosuffisance opérationnelle (operational self-sufficiency OSS), marge bénéficiaire (profit margin PM), rendement des actifs (return on assets ROA), et rendement des capitaux propres (return on equity ROE)] et les principales variables prédictives pour les IMFs choisies à but non lucratif (incluses à partir de 53 pays) à travers l'application de la modélisation par arbre de régression. Pour chaque indicateur de performance financière, plusieurs arbres de régression non élagués (684) ont été développés : (i) en utilisant toutes les variables prédictives, (ii) en utilisant toutes les variables prédictives financières seulement, (iii) en utilisant toutes les variables prédictives sociales seulement, (iv) en utilisant toutes les variables prédictives de gouvernance seulement, (v) en appliquant une seule variable prédictive à la fois, (vi) en excluant chaque variable à la fois du groupe potentiel des variables prédictives, et (vi) en forçant la séparation initiale de l'arbre à travers l'utilisation de la variable prédictive préférée afin d'explorer le pouvoir prédictif ... / Financial and social performances are important institutional characteristics that allow ‘the poor and the near-poor' to have access to credit in favorable conditions, and drives sustainable efficiency and effective governance mechanisms in MFIs (microfinance institutions). In this context, this study was conducted to determine the most influencing financial/social/governance variables (with their relative importance in %) that may affect the financial and social MFI performance indicators on worldwide basis; and to develop simple and practical microfinance tree-models (for the first time) that can be considered valuable tools helping with the implementation of efficient strategies among nonprofit and profit MFIs at a national scale.The first part of this thesis exposes the global financial and social data that has been extracted over the five recent years (2007-2011) from several well-known databases (e.g., Microfinance Information Exchange, Mix Market, Rating fund, etc.) for the chosen MFIs ranked four or five diamonds (i.e., 263 nonprofit MFIs and 135 profit ones) distributed widely over the continents. Among the 263 nonprofit MFIs, the data sample was composed of 192 Non-Governmental Organizations (NGOs), 42 non-bank institutions and 29 cooperatives. A large number of predictor variables (54) have been collected capturing aspects of the financial environment of these MFIs (e.g., administrative expense ratio, ratio of solvency, cost per loan, number of depositors, write-off-ratio, etc.), the social characteristics (e.g., depth, percent of women active borrowers, rural/urban market, poverty level, etc.) and the governance mechanisms (e.g., firm size, board size, regulation, audit, network affiliation, insurance, etc.). This first part compares also the efficiencies of the most used statistical methods/models (including linear regression, logistic regression, Bayesian methods, artificial neural networks, cluster analysis, principal component analysis, decision-trees, etc.) for estimating diverse financial and social performance MFIs' indicators. It includes also a detailed description of the tree building process that has been used for such estimation and all related steps (involving evaluating splits, assigning categories to nodes, missing values with surrogate splitters, stopping criteria, etc.).The second part explores quantitative relationships between the four commonly worldwide used financial performance indicators (operational self-sufficiency OSS, profit margin PM, return on assets ROA, and return on equity ROE) and key financial/social/governance predictor variables for the chosen non-profit MFIs (included from 53 countries) through the application of regression-tree modeling. For each financial performance indicator, several un-pruned regression trees (684) were developed: (i) using all predictor variables, (ii) all financial predictor variables only, (iii) all social predictor variables only, (iv) all governance predictor variables only, (v) applying only a single variable at a time, (vi) excluding each variable one at a time from the potential pool of predictor variables, and (vii) forcing the initial split of the tree using the preferred predictor variable for exploring the predictive power of independent predictors. The obtained results demonstrate that the strongest relationships were associated with ROE and ROA, the proportion of variance explained being equal to 99.8% and 99.5% respectively, followed by PM (97%) and OSS (95%). The second part also showed that the financial predictor variables did interfere differently in building the financial performance regression trees and associated relationships where ; administrative expense ratio influenced ROE (100%) ; average loan balance per borrower affected OSS (100%); cost per borrower, number of depositors, operating expense:loan portfolio, and risk coverage had significant impacts on ROA/ROE (98.5-100%).
|
242 |
Evolution et facteurs pronostiques de la Neurofibromatose 1 / Factors Associated to Neurofibromatosis1Sbidian, Émilie 23 October 2012 (has links)
La Neurofibromatose 1 (NF1) est une maladie autosomique dominante dont l’évolutivité est inconnue. En effet, ni le type de mutation du gène, la gravité d’éventuels cas familiaux, ni une première complication ne permettent de prédire le pronostic de la maladie. L’objectif général de ce travail de thèse était de cibler les malades les plus à risque de morbi-mortalité au cours de la NF1. Méthode. Les différents travaux se sont appuyés sur les données phénotypiques de patients NF1 suivis dans le Réseau NF-France labellisé par le ministère de la Santé. Il s’agit d’une filière nationale monothématique ayant pour mission la prise en charge des malades atteints de NF1. Une cohorte d’environ 2500 malades est actuellement suivie dans ce réseau. Résultats. La mortalité des patients NF1 a tout d’abord été comparée à celle de la population générale française par l’estimation du rapport de mortalité standardisée (SMR). Entre 1980 et 2006, 1 895 patients NF1 ont été rétrospectivement inclus dans la cohorte. Un excès de mortalité était observé chez les [10-20[ ans (SMR=5.2, IC95% : 2.6 – 9.3, p<10-4) et les [20-40[ ans (SMR=4.1, IC95% : 2.8 – 5.8, p<10-4). Les principales causes de décès étaient la transformation de neurofibromes internes en tumeurs malignes des gaines nerveuses (TMGN). Une étude cas témoins portant sur 208 patients NF1 a permis d’expliquer le risque de mortalité accru chez les patients présentant des neurofibromes sous cutanés (SC-NF) en confirmant en IRM la présence chez ces patients de neurofibromes internes à fort risque de transformation en TMGN (OR=4.3, IC95% : 2.2 – 8.2). Cet effet était d’autant plus marqué que le nombre de SC-NF était important et notamment au-delà d’un seuil de 10 (OR=82, IC95% : 10.4 – 647.9) et que les neurofibromes internes étaient diffus (OR=14.7, IC95% : 3.8 – 57.3) et de taille ≥ 3 cm (OR=6.3, IC95% : 2.3 – 17.4). Les patients présentant des SC-NF représentent 20 à 30% de la population NF1. Afin d’identifier les patients à risque de développer une TMGN, nous avons élaboré un score prédictif de la présence des neurofibromes internes à partir des caractéristiques phénotypiques des patients. La présence de SC-NF (OR=4.7, IC95% : 2.1 – 10.5), l’absence de neurofibromes cutanés (OR=2.6, IC95% : 0.9 – 7.5), un âge inférieur ou égal à 30 ans (OR=3.1, IC95% : 1.4 – 6.8) et moins de 6 tâches café au lait (OR=2, IC95% : 0.9 – 4.6) étaient les variables qui constituaient le NF1Score. Le NF1Score = 10*(âge ≤ 30 ans) + 10*(absence de neurofibromes cutanés) + 5*(moins de 6 tâches café-au-lait) + 15*(plus de 2 neurofibrome sous cutanés) avait une excellente adéquation (test C de Hosmer-Lemeshow=4,53 avec 7ddl, p>0,50) et une capacité discriminante satisfaisante (aire sous la courbe ROC non paramétrique = 0,75 [0,68-0,82]). Enfin, l’expression phénotypique variant au cours du temps chez un même patient nous avons réalisé une étude spécifique chez l’enfant. Ainsi, l’âge (OR=1.1, IC95% : 1.0 – 1.2), la présence de xanthogranulomes (OR=4.5, IC95% : 0.9 – 21.7), celle de neurofibromes sous cutanés et plexiformes (OR=5.0, IC95% : 1.8 – 13.6) étaient indépendamment associés à celle des neurofibromes internes chez l’enfant NF1 de moins de 17 ans. Dans cette dernière étude, les neurofibromes internes se développaient de façon exponentielle pendant l’adolescence et plus précocement chez les femmes en accord avec les données de la littérature. Conclusion. La période à risque de développer des neurofibromes internes semblent donc sesituer entre l’adolescence et l’âge de 30 ans. Les recommandations de suivi pourraient prendre en compte le phénotype à risque, mais également la période de survenue de ces complications en réévaluant l’intérêt dans ce contexte d’investigations complémentaires / Neurofibromatosis-1 (NF1) is a common autosomal dominant condition which is a source of various multisystemic manifestations related either to the accumulation of neurofibromas or to specific developmental abnormalities. There are no obvious factors that predict disease progression. Thus, the aim of our project was to characterize the phenotype of NF1 patients with a severe prognosis. Patients were identified among adults with NF-1 followed up in the Réseau NF-France. The Réseau NF-France is a French medical network devoted to neurofibromatosis 1. It has elaborated recommendations for the management of the disease and recommended a coordinated follow-up in specialized multidisciplinary centres. About 2 500 patients were enrolled. We first evaluated the mortality in a large retrospective cohort of NF1 patients. The standardized mortality ratio (SMR) with its 95% confidence interval (CI) was calculated as the ratio of observed over expected numbers of deaths. Between 1980 and 2006, 1895 NF1 patients were seen. The excess mortality occurred among patients aged 10 to 20 years (SMR=5.2; CI, 2.6-9.3; P<10-4) and 20 to 40 years (SMR, 4.1; 2.8-5.8; P<10-4). The main cause of death was the malignant tumors of the nerve sheath (MPNSTs) developing from preexisting internal neurofibromas. Then, a case-control study including 208 patients with NF1 allowed us to explain the increased risk of mortality among NF1 patients harboring subcutaneous neurofibromas (SC-NF) by the presence of internal neurofibromas (NF) at risk of MPNSTs systematically investigated with imaging (MRI) (OR=4.3, IC95% : 2.2 – 8.2). The association with SC-NF was stronger for patients with ten or more SC-NFs (OR=82, IC95% : 10.4 – 647.9) and for diffuse (OR=14.7, IC95% : 3.8 – 57.3), and ≥ 3 cm (OR=6.3, IC95% : 2.3 – 17.4) internal neurofibromas. Patients with SC-NF constituted 20 to 30% of the NF1 population. So, to characterize patients at risk of developping MPNSTs, we developped and validated a clinical score for predicting internal neurofibromas in adults. Four variables were independently associated with internal neurofibromas: at least two subcutaneous neurofibromas (OR=4.7, IC95% : 2.1 – 10.5), age ≤30 years (OR=3.1, IC95% : 1.4 – 6.8), absence of cutaneous neurofibromas (OR=2.6, IC95% : 0.9 – 7.5), and fewer than six café-au-lait spots (OR=2, IC95% : 0.9 – 4.6). The NF1Score was computed as 10 . [age ≤30 years] + 10 • [absence of cutaneous neurofibromas] + 15 • [≥2 subcutaneous neurofibromas] + 5 • [<6 café-au-lait spots]). Calibration was excellent (Hosmer-Lemeshow statistic=4.53; degrees of freedom=7; P>0.5) and discrimination was good (AUC-ROC= 0.75; 95%CI, 0.7-0.8). Finally clinical expressivity is variable and manifestations of NF1 change at different times in an individual’s life. Consequently, a specific study was needed in pediatric patients. We identified easily recognizable clinical characteristics associated with internal neurofibromas in children with NF1. By multivariate analysis, age (OR=1.1, IC95% : 1.0 – 1.2), xanthogranulomas (OR=4.5, IC95% : 0.9 – 21.7), and presence of both subcutaneous and plexiform neurofibromas (OR=5.0, IC95% : 1.8 – 13.6) were independently associated with internal neurofibromas. Moreover internal neurofibromas increased during adolescence. Excess risk of developing internal neurofibromas seems to occur between the adolescence and the age of to 30 in NF1 patients. These clinical features in adults and children would define a new population at risk for complications that may need closer clinical and imaging follow-up
|
243 |
Oculométrie Numérique Economique : modèle d'apparence et apprentissage par variétés / Eye Tracking system : appearance based model and manifold learningLiang, Ke 13 May 2015 (has links)
L'oculométrie est un ensemble de techniques dédié à enregistrer et analyser les mouvements oculaires. Dans cette thèse, je présente l'étude, la conception et la mise en œuvre d'un système oculométrique numérique, non-intrusif permettant d'analyser les mouvements oculaires en temps réel avec une webcam à distance et sans lumière infra-rouge. Dans le cadre de la réalisation, le système oculométrique proposé se compose de quatre modules: l'extraction des caractéristiques, la détection et le suivi des yeux, l'analyse de la variété des mouvements des yeux à partir des images et l'estimation du regard par l'apprentissage. Nos contributions reposent sur le développement des méthodes autour de ces quatre modules: la première réalise une méthode hybride pour détecter et suivre les yeux en temps réel à partir des techniques du filtre particulaire, du modèle à formes actives et des cartes des yeux (EyeMap); la seconde réalise l'extraction des caractéristiques à partir de l'image des yeux en utilisant les techniques des motifs binaires locaux; la troisième méthode classifie les mouvements oculaires selon la variété générée par le Laplacian Eigenmaps et forme un ensemble de données d'apprentissage; enfin, la quatrième méthode calcul la position du regard à partir de cet ensemble d'apprentissage. Nous proposons également deux méthodes d'estimation:une méthode de la régression par le processus gaussien et un apprentissage semi-supervisé et une méthode de la catégorisation par la classification spectrale (spectral clustering). Il en résulte un système complet, générique et économique pour les applications diverses dans le domaine de l'oculométrie. / Gaze tracker offers a powerful tool for diverse study fields, in particular eye movement analysis. In this thesis, we present a new appearance-based real-time gaze tracking system with only a remote webcam and without infra-red illumination. Our proposed gaze tracking model has four components: eye localization, eye feature extraction, eye manifold learning and gaze estimation. Our research focuses on the development of methods on each component of the system. Firstly, we propose a hybrid method to localize in real time the eye region in the frames captured by the webcam. The eye can be detected by Active Shape Model and EyeMap in the first frame where eye occurs. Then the eye can be tracked through a stochastic method, particle filter. Secondly, we employ the Center-Symmetric Local Binary Patterns for the detected eye region, which has been divided into blocs, in order to get the eye features. Thirdly, we introduce manifold learning technique, such as Laplacian Eigen-maps, to learn different eye movements by a set of eye images collected. This unsupervised learning helps to construct an automatic and correct calibration phase. In the end, as for the gaze estimation, we propose two models: a semi-supervised Gaussian Process Regression prediction model to estimate the coordinates of eye direction; and a prediction model by spectral clustering to classify different eye movements. Our system with 5-points calibration can not only reduce the run-time cost, but also estimate the gaze accurately. Our experimental results show that our gaze tracking model has less constraints from the hardware settings and it can be applied efficiently in different real-time applications.
|
244 |
Surrogate-based optimization of hydrofoil shapes using RANS simulations / Optimisation de géométries d’hydrofoils par modèles de substitution construits à partir de simulations RANSPloé, Patrick 26 June 2018 (has links)
Cette thèse présente un framework d’optimisation pour la conception hydrodynamique de forme d’hydrofoils. L’optimisation d’hydrofoil par simulation implique des objectifs d’optimisation divergents et impose des compromis contraignants en raison du coût des simulations numériques et des budgets limités généralement alloués à la conception des navires. Le framework fait appel à l’échantillonnage séquentiel et aux modèles de substitution. Un modèle prédictif est construit en utilisant la Régression par Processus Gaussien (RPG) à partir des données issues de simulations fluides effectuées sur différentes géométries d’hydrofoils. Le modèle est ensuite combiné à d’autres critères dans une fonction d’acquisition qui est évaluée sur l’espace de conception afin de définir une nouvelle géométrie qui est testée et dont les paramètres et la réponse sont ajoutés au jeu de données, améliorant ainsi le modèle. Une nouvelle fonction d’acquisition a été développée, basée sur la variance RPG et la validation croisée des données. Un modeleur géométrique a également été développé afin de créer automatiquement les géométries d’hydrofoil a partir des paramètres déterminés par l’optimiseur. Pour compléter la boucle d’optimisation,FINE/Marine, un solveur fluide RANS, a été intégré dans le framework pour exécuter les simulations fluides. Les capacités d’optimisation ont été testées sur des cas tests analytiques montrant que la nouvelle fonction d’acquisition offre plus de robustesse que d’autres fonctions d’acquisition existantes. L’ensemble du framework a ensuite été testé sur des optimisations de sections 2Dd’hydrofoil ainsi que d’hydrofoil 3D avec surface libre. Dans les deux cas, le processus d’optimisation fonctionne, permettant d’optimiser les géométries d’hydrofoils et confirmant les performances obtenues sur les cas test analytiques. Les optima semblent cependant être assez sensibles aux conditions opérationnelles. / This thesis presents a practical hydrodynamic optimization framework for hydrofoil shape design. Automated simulation based optimization of hydrofoil is a challenging process. It may involve conflicting optimization objectives, but also impose a trade-off between the cost of numerical simulations and the limited budgets available for ship design. The optimization frameworkis based on sequential sampling and surrogate modeling. Gaussian Process Regression (GPR) is used to build a predictive model based on data issued from fluid simulations of selected hydrofoil geometries. The GPR model is then combined with other criteria into an acquisition function that isevaluated over the design space, to define new querypoints that are added to the data set in order to improve the model. A custom acquisition function is developed, based on GPR variance and cross validation of the data.A hydrofoil geometric modeler is also developed to automatically create the hydrofoil shapes based on the parameters determined by the optimizer. To complete the optimization loop, FINE/Marine, a RANS flow solver, is embedded into the framework to perform the fluid simulations. Optimization capabilities are tested on analytical test cases. The results show that the custom function is more robust than other existing acquisition functions when tested on difficult functions. The entire optimization framework is then tested on 2D hydrofoil sections and 3D hydrofoil optimization cases with free surface. In both cases, the optimization process performs well, resulting in optimized hydrofoil shapes and confirming the results obtained from the analytical test cases. However, the optimum is shown to be sensitive to operating conditions.
|
245 |
Use of data analysis techniques to solve specific bioinformatics problems / Apport de techniques d'analyse de données pour résoudre des problèmes spécifiques en bio-informatiqueMoulin, Serge 12 December 2018 (has links)
De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles grâce aux bases de données en ligne. Cette plus grande disponibilité des données ouvre de nouveaux sujets d'étude qui nécessitent de la part des statisticiens et bio-informaticiens de développer des outils adaptés. Par ailleurs, les progrès constants de la statistique, dans des domaines tels que le clustering, la réduction de dimension, ou les régressions entre autres, nécessitent d'être régulièrement adaptés au contexte de la bio-informatique. L’objectif de cette thèse est l’application de techniques avancées de statistiques à des problématiques de bio-informatique. Dans ce manuscrit, nous présentons les résultats de nos travaux concernant le clustering de séquences génétiques via Laplacian eigenmaps et modèle de mélange gaussien, l'étude de la propagation des éléments transposables dans le génome via un processus de branchement, l'analyse de données métagénomiques en écologie via des courbes ROC ou encore la régression polytomique ordonnée pénalisée par la norme l1. / Nowadays, the quantity of sequenced genetic data is increasing exponentially under the impetus of increasingly powerful sequencing tools, such as high-throughput sequencing tools in particular. In addition, these data are increasingly accessible through online databases. This greater availability of data opens up new areas of study that require statisticians and bioinformaticians to develop appropriate tools. In addition, constant statistical progress in areas such as clustering, dimensionality reduction, regressions and others needs to be regularly adapted to the context of bioinformatics. The objective of this thesis is the application of advanced statistical techniques to bioinformatics issues. In this manuscript we present the results of our works concerning the clustering of genetic sequences via Laplacian eigenmaps and Gaussian mixture model, the study of the propagation of transposable elements in the genome via a branching process, the analysis of metagenomic data in ecology via ROC curves or the ordinal polytomous regression penalized by the l1-norm.
|
246 |
Extention de l'analyse de la survie nette au domaine de la recherche clinique / Transferring net survival methods in the field of clinical researchGoungounga, Juste Aristide 03 December 2018 (has links)
La survie nette est un indicateur incontournable pour juger du control du cancer. Par définition, elle correspond à la survie que l’on observerait dans un monde hypothétique où le cancer étudié serait la seule cause possible de décès. L’objectif principal de cette thèse était de montrer l’intérêt de cet indicateur dans le cadre de la recherche clinique en prenant en compte quelques défis méthodologiques qui peuvent être rencontrés dans ce contexte. Nous avons présenté d’abord le concept de survie nette et ses méthodes d’estimation. Par la suite nous nous sommes intéressés à quelques problématiques rencontrées dans les essais cliniques à long terme lorsque l’on s’intéresse à l’estimation de la survie nette. Nous avons étudié également l’impact de l’utilisation de l’approche classique d’estimation de la survie nette dans les essais cliniques, i.e. la méthode cause-spécifique dans différentes configurations d’erreurs de classifications de la cause de décès. La deuxième problématique de cette thèse a porté sur la prise en compte du biais de sélection en termes de mortalité autres causes des patients. Nous avons proposé un modèle de mortalité en excès prenant en compte ce type de biais de sélection. Une troisième problématique qui est complémentaire à la deuxième est de prendre en compte inter-centres en même temps que le biais de sélection. Ce travail propose ainsi de nouveaux outils pouvant aider les spécialistes de la recherche clinique à évaluer de nouvelles stratégies thérapeutiques dans les essais cliniques en cancérologie, mais aussi dans d’autres domaines cliniques d’applications. / Net survival is a key indicator for measuring cancer control. By definition, it corresponds to the survival that would be observed in a hypothetical world where the cancer studied is the only possible cause of death. The main objective of this thesis was to show the interest of this indicator in the context of clinical research taking into account some methodological challenges that can be encountered. In this work, we have first presented the concept of net survival and its estimation methods. Subsequently, we were interested in some of the problems encountered in long-term clinical trials when the interest is in estimating net survival. We studied the impact of using the classic approach when estimating net survival in clinical trials, i.e. the cause-specific method in different configurations of misclassifications of the cause of death. The second objective of this thesis was to take into account the selection bias in terms of other causes mortality in the modeling of excess mortality, because of the noncomparability between patients from general population and those of clinical trials. We proposed an excess hazard model that corrects this type of selection bias. A third problem which is complementary to the second is to take into account the heterogeneity of patients in the different recruitment centers at the same time as the selection bias. This work proposes new tools which can help clinical research specialists to evaluate new therapeutic strategies in cancer clinical trials, but also in other areas of clinical application.
|
247 |
Approche non-paramétrique par noyaux associés discrets des données de dénombrementSenga Kiessé, Tristan 15 October 2008 (has links) (PDF)
Nous introduisons une nouvelle approche non-paramétrique, par noyaux associés discrets, pour les données de dénombrement. Pour cela, nous définissons la notion de noyaux associés discrets à partir d'une loi de probabilité discrète donnée et nous étudions leurs propriétés. De là, nous construisons l'estimateur à noyau discret lequel est l'analogue de certains estimateurs à noyau continu de cette dernière décennie. Nous examinons ses propriétés fondamentales ; en particulier, nous montrons la convergence ponctuelle en moyenne quadratique de l'estimateur. Le choix de fenêtre du lissage discret s'effectue essentiellement par validation croisée et excès de zéros. Nous étudions également le comportement des lois classiques de dénombrement comme noyau associé, par exemple, Poisson, binomiale et binomiale négative. Ainsi, il s'est révélé nécessaire de construire une nouvelle famille de lois discrètes dites triangulaires pour servir de noyaux associés symétriques. Cette méthode des noyaux associés discrets est utilisée dans l'estimation semi-paramétrique des distributions de données de dénombrement, ainsi que pour la régression non-paramétrique sur une variable explicative de dénombrement. Tout au long de ce travail, nous illustrons les résultats à travers des simulations et des jeux de données réelles. Dans le cas d'échantillons de tailles petites et modérées, l'importance et les très bonnes performances des noyaux associés discrets sont mises en évidence, en comparaison avec le noyau du type Dirac et parfois les noyaux continus.
|
248 |
Contributions à la prévision statistiqueFaugeras, Olivier P. 28 November 2008 (has links) (PDF)
Dans une première partie, on s'intéresse à la prévision d'une valeur future, non observée, d'un processus stochastique dont la loi est indexée par un paramètre inconnu, à partir des données passées de sa trajectoire. Plus précisément, on montre sur un modèle additif de régression comment on peut découpler, par un dispositif de séparation temporelle, le problème d'estimation du paramètre inconnu de celui du calcul du prédicteur probabiliste, pour obtenir un prédicteur statistique dont on étudie les propriétés de convergence asymptotiques.<br>Dans une seconde partie, on cherche à prédire, au sens d'expliquer, une variable Y par une variable X. Pour cela, on s'intéresse à l'estimation de la densité conditionnelle de Y sachant X = x, à partir d'un n-échantillon de couples de variables (X_i; Y_i). On propose un nouvel estimateur de forme produit, basé sur la transformation de quantile et la fonction de copule, dont on étudie les propriétés de convergence et de normalité asymptotiques. On compare l'estimateur proposé aux estimateurs concurrents de forme quotient et on en propose des modifications et des extensions. Enfin, on étudie les propriétés des prédicteurs associés à cet estimateur, à savoir le mode, la moyenne et les ensembles de niveau conditionnels. Des applications, liens et perspectives sont aussi esquissées.
|
249 |
Régression non-paramétrique et information spatialement inhomogèneGaiffas, Stéphane 08 December 2005 (has links) (PDF)
Nous étudions l'estimation non-paramétrique d'un signal à partir de<br />données bruitées spatialement inhomogènes (données dont la quantité<br />varie sur le domaine d'estimation). Le prototype d'étude est le modèle<br />de régression avec design aléatoire. Notre objectif est de comprendre<br />les conséquences du caractère inhomogène des données sur le problème<br />d'estimation dans le cadre d'étude minimax. Nous adoptons deux points<br />de vue : local et global. Du point de vue local, nous nous intéressons<br />à l'estimation de la régression en un point avec peu ou beaucoup de<br />données. En traduisant cette propriété par différentes hypothèses sur<br />le comportement local de la densité du design, nous obtenons toute une<br />gamme de nouvelles vitesses minimax ponctuelles, comprenant des<br />vitesses très lentes et des vitesses très rapides. Puis, nous<br />construisons une procédure adaptative en la régularité de la<br />régression, et nous montrons qu'elle converge avec la vitesse minimax<br />à laquelle s'ajoute un coût minimal pour l'adaptation locale. Du point<br />de vue global, nous nous intéressons à l'estimation de la régression<br />en perte uniforme. Nous proposons des estimateurs qui convergent avec<br />des vitesses dépendantes de l'espace, lesquelles rendent compte du<br />caractère inhomogène de l'information dans le modèle. Nous montrons<br />l'optimalité spatiale de ces vitesses, qui consiste en un renforcement<br />de la borne inférieure minimax classique pour la perte uniforme. Nous<br />construisons notamment un estimateur asymptotiquement exact sur une<br />boule de Hölder de régularité quelconque, ainsi qu'une bande de<br />confiance dont la largeur s'adapte à la quantité locale de données.
|
250 |
Modèles additifs parcimonieuxAvalos, Marta 21 December 2004 (has links) (PDF)
De nombreux algorithmes d'estimation fonctionnelle existent pour l'apprentissage statistique supervisé. Cependant, ils ont pour la plupart été développés dans le but de fournir des estimateurs précis, sans considérer l'interprétabilité de la solution. Les modèles additifs permettent d'expliquer les prédictions simplement, en ne faisant intervenir qu'une variable explicative à la fois, mais ils sont difficiles à mettre en ouvre. Cette thèse est consacrée au développement d'un algorithme d'estimation des modèles additifs. D'une part, leur utilisation y est simplifiée, car le réglage de la complexité est en grande partie intégré dans la phase d'estimation des paramètres. D'autre part, l'interprétabilité est favorisée par une tendance à éliminer automatiquement les variables les moins pertinentes. Des stratégies d'accélération des calculs sont également proposées. Une approximation du nombre effectif de paramètres permet l'utilisation de critères analytiques de sélection de modèle. Sa validité est testée par des simulations et sur des données réelles.
|
Page generated in 0.0945 seconds