• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 327
  • 163
  • 35
  • 1
  • Tagged with
  • 517
  • 265
  • 108
  • 94
  • 92
  • 84
  • 80
  • 79
  • 75
  • 74
  • 61
  • 59
  • 58
  • 56
  • 56
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
321

Nonparametric estimation of risk neutral density

DJOSSABA, ADJIMON MARCEL 10 1900 (has links)
Ce mémoire vise à estimer la densité neutre au risque (Risk neutral density (RND) en anglais) par une approche non paramétrique tout en tenant compte de l’endogénéité. Les prix transversaux des options européennes sont utilisés pour l’estimation. Le modèle principal considéré est la régression linéaire fonctionnelle. Nous montrons comment utiliser des variables instrumentales dans ce modèle pour corriger l’endogénéité. En outre, nous avons intégré des variables instrumentales dans le modèle approximant le RND par l’utilisation des fonctions d’Hermite à des fins de comparaison des résultats. Pour garantir un estimateur stable, nous utilisons la technique de régularisation de Tikhonov. Ensuite, nous effectuons des simulations de Monte-Carlo pour étudier l’impact des différents types de distribution RND sur les résultats obtenus. Plus précisément, nous analysons une distribution de mélange lognormale et une distribution de smile de Black-Scholes. Les résultats des simulations démontrent que l’estimateur utilisant des variables instrumentales pour corriger l’endogénéité est plus performant que l’alternative qui ne les utilise pas. En outre, les résultats de la distribution de smile de Black-Scholes sont plus performants que ceux de la distribution de mélange log-normale. Enfin, S&P 500 options sont utilisées pour une application de l’estimateur. / This thesis aims to estimate the risk-neutral density (RND) through a non-parametric approach while accounting for endogeneity. The cross-sectional prices of European options are used for the estimation. The primary model under consideration is functional linear regression. We have demonstrated the use of instrumental variables in this model to address endogeneity. Additionally, we have integrated instrumental variables into the model approximating RND through the use of Hermite functions for the purpose of result comparison. To ensure a stable estimator, we employ the Tikhonov regularization technique. Following this, we conduct Monte- Carlo simulations to investigate the impact of different RND distribution types on the obtained results. Specifically, we analyze a lognormal mixture distribution and a Black-Scholes smile distribution. The simulation results demonstrate that the estimator utilizing instrumental variables to adjust for endogeneity outperforms the non-adjusted alternative. Additionally, outcomes from the Black-Scholes smile distribution exhibit superior performance compared to those from the log-normal mixture distribution. Finally, S&P 500 options are used for an application of the estimator.
322

Obésité et cancer de la prostate : rôle individuel et agrégation familiale

Vallières, Eric 08 1900 (has links)
Le cancer de la prostate est l’un des cancers les plus fréquents chez les hommes. Le rôle de l’obésité dans son étiologie revêt un intérêt grandissant. Les associations observées sont souvent contradictoires selon le type d’obésité (générale ou abdominale), la durée ou le moment de l’exposition et l’agressivité du cancer. L’obésité abdominale figure parmi les pistes de recherche particulièrement prometteuses. L’objectif général de cette thèse était d’examiner la relation entre l’obésité et le cancer de la prostate, tant au niveau individuel que familial. Nous avons utilisé les données de PROtEuS, une étude cas-témoins populationnelle conduite en 2005-2012 à Montréal. Cette étude comprend un large éventail d’informations anthropométriques et liées aux habitudes de vie, recueillies chez 1931 cas et 1994 témoins de la population générale, ainsi que des informations anthropométriques relatives aux membres de leurs familles respectives. Les deux premiers objectifs spécifiques de la thèse visaient à explorer la corrélation entre différents indicateurs d’obésité et à développer une approche alternative à la mesure directe pour décrire l’obésité abdominale au moyen de modèles prédictifs. Les résultats suggèrent que les silhouettes de Stunkard et Sorensen sont étroitement liées à l’indice de masse corporelle (IMC) et au poids rapporté, tant au moment de l’entrevue que dans le passé. Nous avons montré qu’il était possible de prédire l’obésité abdominale relativement bien (R2=0.64), plus particulièrement la circonférence de la taille, à partir de l’IMC, la silhouette et la taille de pantalon. Les objectifs spécifiques 3 et 4 visaient à examiner l’association entre différents indicateurs d’obésité individuelle à plusieurs âges, ainsi que les trajectoires adultes d'obésité générale et abdominale, et le risque de cancer de la prostate. Nos résultats suggèrent un risque réduit de cancer de la prostate chez les personnes en surpoids ou obèses (rapport de cotes (RC) 0,71; intervalle de confiance à 95% (IC 95%) 0,59 - 0,85). À l’opposé, l’obésité abdominale récente, basée sur plusieurs indicateurs, était associée à un risque accru de cancer de haut grade (RC 1,33; IC 95% 1,03 - 1,71 pour une circonférence de la taille ≥ 102 cm). Les objectifs spécifiques 5 et 6 visaient à évaluer le risque de récurrence familiale d’obésité en fonction du nombre de membres de la famille atteints d’un cancer de la prostate et d’évaluer la co-agrégation familiale de l’obésité et du cancer de la prostate, indépendamment des agrégations familiales de l’obésité et du cancer de la prostate elles-mêmes. Le risque de récurrence familiale d’obésité était plus élevé lorsque deux cas ou plus de cancer de la prostate étaient observés dans la famille qu’en l’absence de cancer et ce, peu importe le nombre de cas d’obésité dans la famille. Pour les familles avec 3 parents présentant une obésité, le risque de récurrence d’obésité était de 0,35 (IC 95% 0,32 – 0,37) pour ceux n’ayant aucun cas de cancer dans la famille et de 0,38 (IC 95% 0,33 – 0,43) pour ceux avec au moins 2 cas de cancer dans la famille. La différence entre les risques de récurrence était encore plus marquée lorsque les familles issues du témoin index étaient comparées à celles dont le cas index avaient une tumeur de grade élevé au diagnostic. Pour les familles avec 3 parents présentant une obésité, le risque de récurrence d’obésité était de 0,35 (IC 95% 0,32 – 0,37) pour ceux dont le participant index était un témoin et de 0,41 (IC 95% 0,36 – 0,45) pour ceux dont le cas index avait une tumeur de grade élevé au moment du diagnostic. Nous n’avons pas observé de co-agrégation familiale entre obésité et cancer de la prostate dans son ensemble. Toutefois, cette co-agrégation était présente pour les cancers apparaissant avant l’âge de 55 ans (RC 1,35; IC 95% 1,11 - 1,65). Les résultats de cette thèse renforcent l’hypothèse d’un rôle important de l’obésité dans le développement du cancer de la prostate. Observation fort novatrice, l’obésité semble plus fréquente dans les familles avec plusieurs diagnostics précoces ou tumeurs agressives. La confirmation du rôle de l’obésité, facteur modifiable, dans l’étiologie de ce cancer très répandu aurait des retombées substantielles sur la santé publique. / Prostate cancer is among the most frequently diagnosed solid tumor among men. The role of obesity in its etiology is of mounting interest. The associations observed have been sometimes contradictory, varying according to the type of obesity (general or abdominal), the duration or the moment of exposure, and cancer aggressiveness. Abdominal obesity represents a promising research avenue. The general objective of this thesis was to examine the relationship between obesity and prostate cancer, both at the individual and familial levels. The main data source used was PROtEuS, a population-based case-control study conducted in 2005-2012 in Montreal. It collected a wide range of anthropometric and lifestyle information from 1,931 cases and 1,994 population controls, as well as information on obesity among their respective family members. The first two specific objectives of the thesis aimed to explore the correlation between different obesity indicators, and to develop an alternative approach to direct measurement to describe abdominal obesity using predictive models. Results suggested that Stunkard and Sorensen's silhouettes were closely related to body mass index (BMI) and reported weight, both at the time of the interview and in the past. The comparison of different predictive models showed that it was possible to estimate abdominal obesity relatively well (R2=0.64), more particularly waist circumference, from BMI, silhouette, and trousers size. Specific objectives 3 and 4 of the thesis aimed at examining the association between different indicators of individual obesity at different ages and adult obesity trajectories, and the risk of prostate cancer. Our results suggest a reduced risk of prostate cancer among overweight and obese people (odds ratio (OR) 0.71, 95% confidence interval (CI) 0.59 - 0.85). In contrast, recent abdominal obesity, estimated from various indices, was associated with an increased risk of high-grade prostate cancer (OR 1.33, 95% CI 1.03 – 1.71 for waist circumference ≥ 102 cm). Specific objectives 5 and 6 aimed to assess the familial recurrence risk of obesity according to the number of family members with prostate cancer and to assess the familial coaggregation of obesity and prostate cancer, independently of familial aggregations of obesity and prostate cancer themselves. The familial recurrence risk of obesity was higher when two or more cases of prostate cancer were observed in the family, than in the absence of cancer, regardless of the number of persons with obesity in the family. For families with 3 parents with obesity, the obesity recurrence risk was 0.35 (95% CI 0.32 – 0.37) for those with no cases of cancer in the family and 0.38 (95% CI 0.33 – 0.43) for those with at least 2 cases of cancer in the family. The difference in recurrence risks was even more marked when families whose index participant was a control were compared to those whose index case had a high-grade tumor at diagnosis. For families with 3 parents with obesity, the recurrence risk of obesity was 0.35 (95% CI 0.32 – 0.37) for those whose index participant was a control and 0.41 (95% CI 0.36 – 0.45) for those whose index case had a high-grade tumor at diagnosis. We did not observe familial co-aggregation between obesity and prostate cancer. However, this co-aggregation was present for cancers appearing before the age of 55 (OR 1.35; 95% CI 1.11 - 1.65). Results of this thesis reinforce the hypothesis of an important role of obesity in the development of prostate cancer. A particularly novel observation, obesity seems to be more frequent in families with several early-onset or aggressive tumours. Confirmation of a role of obesity, a modifiable risk factor, in the etiology of this very common cancer, would have substantial implications for public health.
323

Forecasting quantiles of cryptocurrency returns using MCMC algorithms

Chaparro Sepulveda, Carlos Alberto 10 February 2024 (has links)
Ce travail résume les étapes et les technologies nécessaires pour construire une application web dynamique permettant de faire l'analyse de données financières en temps réel à l'aide des langages de programmation R et C++. R est utilisé pour la collecte et traitement des données entrantes ainsi que pour générer tout output. C++ est utilisé pour accélérer les simulations Monte-Carlo. L'output de ce travail consiste en l'application web elle-même et les fonctions permettant d'estimer les paramètres des modèles de régression quantile de la famille CAViaR. Le code pour reproduire ce travail est organisé de la façon suivante : Un paquetage R pour l'application shiny, disponible à l'adresse https://gitlab.com/cacsfre/simulr. Un paquetage R pour estimer les paramètres des modèles de la famille CAViaR, disponible à l'adresse https://gitlab.com/cacsfre/caviarma. Le code R pour générer le présent document avec bookdown, disponible à l'adresse https://gitlab.com/cacsfre/msc. La famille de modèles CAViaR a été utilisée pour obtenir une estimation du quantile q[indice α] au niveau α. Ces modèles s'adressent directement au quantile d'intérêt au lieu de le calculer indirectement comme dans d'autres cas, par exemple les modèles de type GARCH où l'on s'intéresse plutôt à la volatilité σ² . Les résultats obtenus ici sont comparables à ceux se trouvant dans la littérature tel qu'illustré dans les chapitres 3 et 4.
324

Analyse des trajectoires de revenu des parents québécois avant et après une séparation

Guérin, Joanie 13 December 2023 (has links)
Au Québec, comme au Canada et de nombreux pays occidentaux, les séparations de mariages et d'unions libres sont en augmentation depuis plusieurs dizaines d'années. Ces séparations ont des conséquences économiques d'ampleur variable selon les caractéristiques des individus qui les subissent. Dans ce mémoire, nous analysons la trajectoire du revenu net ajusté des parents québécois, sur une période allant de cinq ans avant la séparation jusqu'à trois ans après, en fonction du genre et du statut d'union des individus. Le revenu net ajusté est le revenu net familial divisé par le coefficient d'ajustement du foyer. Le coefficient d'ajustement est déterminé à l'aide d'une échelle d'équivalence selon laquelle une valeur de 1 est attribuée aux adultes et une valeur de 0,5 est attribuée aux enfants. Le coefficient d'ajustement est donc la somme entre le nombre d'enfants dans le foyer multiplié par 0,5 et le nombre d'adultes dans le foyer. Ajuster le revenu net en fonction de la taille du foyer permet de tenir compte du fait que les besoins d'une famille augmentent avec le nombre d'individus la composant. Ainsi, le revenu net ajuste permet de mieux déceler la capacité d'un parent à subvenir aux besoins des membre de son foyer. Pour analyser les trajectoires de revenu voulues, nous disposons de données sur un échantillon de parents québécois aillant vécu une séparation de mariage ou d'union libre entre 2016 et 2018. Ces bases de données proviennent de l'Enquête longitudinale auprès des parents séparés et recomposés du Québec (ELPSRQ) et de Revenu Québec. L'utilisation de l'approche événementielle, qui est en d'autres mots un modèle de régressions linéaires multiples avec effets fixes, permet de déceler une importante perte de revenu de près de 10 000 $ chez les femmes à l'année de la séparation alors que chez les hommes cette perte est de moins de 2 000 $. Le revenu net ajusté des hommes ne subit pas de chute marquée à la suite d'une séparation, contrairement à celui des femmes. Les résultats des régressions montrent également que la différence de revenu entre les individus mariés et ceux en union libre n'est pas significative, autant chez les hommes que chez les femmes.
325

Analyse de l'efficacité d'action emploi par régression discontinue

Vigneault, Thomas 20 April 2018 (has links)
Plusieurs raisons peuvent expliquer les difficultés que rencontrent certains groupes désavantagés à entrer sur le marché du travail : Faible scolarité, intégration sociale chancelante, etc. Récemment, certains gouvernements ont adopté des programmes de subventions directes sur les salaires des individus qui retournent sur le marché du travail. Ceux-ci peuvent inciter au travail et permettre l'acquisition d'habiletés qui augmentent la valeur des travailleurs auprès des employeurs. C'est dans cette optique que le programme Action emploi a été instauré par le gouvernement du Québec. Il consistait en un supplément temporaire au revenu pour les assistés sociaux de longue durée qui parvenaient à trouver un emploi. Le Regression Discontinuity Design, qui réduit le biais de sélection, est utilisé pour en tester l'efficacité. Les résultats confirment l'efficacité du programme, qui augmente significativement le niveau d'emploi de la population visée. Les femmes et les ménages monoparentaux sont ceux qui réagissent le plus au programme.
326

Essays on time series forecasting with neural-network or long-dependence autoregressive models and macroeconomic news effects on bond yields

Nongni Donfack, Morvan 13 December 2023 (has links)
Cette thèse, organisée en trois chapitres, porte sur la modélisation et la prévision des séries chronologiques économiques et financières. Les deux premiers chapitres proposent de nouveaux modèles économétriques pour l'analyse des données économiques et financières en relaxant certaines hypothèses irréalistes habituellement faites dans la littérature. Le chapitre 1 développe un nouveau modèle de volatilité appelé TVP[indice ANN]-GARCH. Ce modèle offre une dynamique riche pour modéliser les données financières en considérant une structure GARCH (Generalized autoregressive conditional heteroscedasticity) dans laquelle les paramètres varient dans le temps selon un réseau de neurones artificiels (ANN). L'utilisation des ANNs permet de résoudre le problème de l'évaluation de la vraisemblance (présent dans les modèles à paramètres variables dans le temps (TVP)) et permet également l'utilisation de variables explicatives supplémentaires. Le chapitre développe également un algorithme Monte Carlo séquentiel (SMC) original et efficace pour estimer le modèle. Une application empirique montre que le modèle se compare favorablement aux processus de volatilité populaires en termes de prévisions de court et de long terme. L'approche peut facilement être étendue à tout modèle à paramètres fixes. Le chapitre 2 développe trois polynômes de retard autorégressifs (AR) parcimonieux qui génèrent des fonctions d'autocorrélation à décroissance lente, comme on l'observe généralement dans les séries chronologiques financières et économiques. La dynamique des polynômes de retard est similaire à celle de deux processus très performants, à savoir le modèle MSM (Multifractal Markov-Switching) et le modèle FHMV (Factorial Hidden Markov Volatility). Ils sont très flexibles car ils peuvent être appliqués à de nombreux modèles populaires tels que les processus ARMA, GARCH et de volatilité stochastique. Une analyse empirique met en évidence l'utilité des polynômes de retard pour la prévision de la moyenne conditionnelle et de la volatilité. Ils devraient être considérés comme des modèles de prévision alternatifs pour les séries chronologiques économiques et financières. Le dernier chapitre s'appuie sur une approche de régression prédictive en deux étapes pour identifier l'impact des nouvelles macroéconomiques américaines sur les rendements obligataires de trois petites économies ouvertes (Canada, Royaume-Uni et Suède). Nos résultats suggèrent que les nouvelles macroéconomiques américaines sont significativement plus importantes pour expliquer la dynamique de la courbe des taux dans les petites économies ouvertes (PEO) que les nouvelles nationales elles-mêmes. Les nouvelles relatives à la politique monétaire américaine ne sont pas les seuls facteurs importants des variations des rendements obligataires des PEO, mais les nouvelles relatives au cycle économique jouent également un rôle significatif. / This thesis, organized in three chapters, focuses on modelling and forecasting economic and financial time series. The first two chapters propose new econometric models for analysing economic and financial data by relaxing unrealistic assumptions usually made in the literature. Chapter 1 develops a new volatility model named TVP[subscript ANN]-GARCH. The model offers rich dynamics to model financial data by allowing for a generalized autoregressive conditional heteroscedasticity (GARCH) structure in which parameters vary over time according to an artificial neural network (ANN). The use of ANNs for parameters dynamics is a valuable contribution as it helps to deal with the problem of likelihood evaluation (exhibited in time-varying parameters (TVP) models). It also allows for the use of additional explanatory variables. The chapter develops an original and efficient Sequential Monte Carlo sampler (SMC) to estimate the model. An empirical application shows that the model favourably compares to popular volatility processes in terms of out-of sample fit. The approach can easily be extended to any fixed-parameters model. Chapter 2 develops three parsimonious autoregressive (AR) lag polynomials that generate slowly decaying autocorrelation functions as generally observed financial and economic time series. The dynamics of the lag polynomials are similar to that of two well performing processes, namely the Markov-Switching Multifractal (MSM) and the Factorial Hidden Markov Volatility (FHMV) models. They are very flexible as they can be applied in many popular models such as ARMA, GARCH, and stochastic volatility processes. An empirical analysis highlights the usefulness of the lag polynomials for conditional mean and volatility forecasting. They could be considered as forecasting alternatives for economic and financial time series. The last chapter relies on a two steps predictive regression approach to identify the impact of US macroeconomic releases on three small open economies (Canada, United Kingdom, and Sweden) bond yields at high and low frequencies. Our findings suggest that US macro news are significantly more important in explaining yield curve dynamics in small open economies (SOEs) than domestic news itself. Not only US monetary policy news are important drivers of SOEs bond yield changes, but business cycle news also play a significant role.
327

Études adaptatives et comparatives de certains algorithmes en optimisation : implémentations effectives et applications

Yassine, Adnan 04 July 1989 (has links) (PDF)
Sont étudiés: 1) l'algorithme s.g.g.p. Pour la résolution d'un programme linéaire général; 2) la méthode de pivotage de Lemke, la methode du gradient conjugue conditionnel et la methode de l'inverse partiel pour la résolution des programmes quadratiques convexes; 3) les méthodes d'approximation extérieure et les méthodes de coupes planes et les méthodes de région de confiance pour l'optimisation non convexe.
328

Méthodes de modélisation statistique de la durée de vie des composants en génie électrique / Statistical methods for the lifespan modeling of electrical engineering components

Salameh, Farah 07 November 2016 (has links)
La fiabilité constitue aujourd’hui un enjeu important dans le contexte du passage aux systèmes plus électriques dans des secteurs critiques tels que l’aéronautique, l’espace ou le nucléaire. Il s’agit de comprendre, de modéliser et de prédire les mécanismes de vieillissement susceptibles de conduire les composants à la défaillance et le système à la panne. L’étude des effets des contraintes opérationnelles sur la dégradation des composants est indispensable pour la prédiction de leur durée de vie. De nombreux modèles de durée de vie ont été développés dans la littérature dans le contexte du génie électrique. Cependant, ces modèles présentent des limitations car ils dépendent du matériau étudié et de ses propriétés physiques et se restreignent souvent à un ou deux facteurs de stress, sans intégrer les interactions pouvant exister entre ces facteurs. Cette thèse présente une nouvelle méthodologie pour la modélisation de la durée de vie des composants du génie électrique. Cette méthodologie est générale ; elle s’applique à différents composants sans a priori sur leurs propriétés physiques. Les modèles développés sont des modèles statistiques estimés sur la base de données expérimentales issues de tests de vieillissement accéléré où plusieurs types de stress sont considérés. Les modèles visent alors à étudier les effets des différents facteurs de stress ainsi que de leurs différentes interactions. Le nombre et la configuration des tests de vieillissement nécessaires à construire les modèles (bases d’apprentissage) sont optimisés de façon à minimiser le coût expérimental tout en maximisant la précision des modèles. Des points expérimentaux supplémentaires aléatoirement configurés sont réalisés pour valider les modèles (bases de test). Deux catégories de composants sont testées : deux types d’isolants couramment utilisés dans les machines électriques et des sources de lumière OLED. Différentes formes des modèles de durée de vie sont présentées : les modèles paramétriques, non paramétriques et les modèles hybrides. Tous les modèles développés sont évalués à l’aide de différents outils statistiques permettant, d’une part, d’étudier la pertinence des modèles et d’autre part, d’évaluer leur prédictibilité sur les points des bases de test. Les modèles paramétriques permettent de quantifier les effets des facteurs et de leurs interactions sur la durée de vie à partir d’une expression analytique prédéfinie. Un test statistique permet ensuite d’évaluer la significativité de chacun des paramètres inclus dans le modèle. Ces modèles sont caractérisés par une bonne qualité de prédiction sur leurs bases de test. La relation entre la durée de vie et les contraintes est également modélisée par les arbres de régression comme méthode alternative aux modèles paramétriques. Les arbres de régression sont des modèles non paramétriques qui permettent de classifier graphiquement les points expérimentaux en différentes zones dans lesquelles les contraintes sont hiérarchisées selon leurs effets sur la durée de vie. Ainsi, une relation simple, graphique, et directe entre la durée de vie et les contraintes est obtenue. Cependant, à la différence des modèles paramétriques continus sur le domaine expérimental étudié, les arbres de régression sont constants par morceaux, ce qui dégrade leur qualité de prédiction sur la base de test. Pour remédier à cet inconvénient, une troisième approche consiste à attribuer un modèle linéaire à chacune des zones identifiées avec les arbres de régression. Le modèle résultant, dit modèle hybride, est donc linéaire par morceaux et permet alors de raffiner les modèles paramétriques en évaluant les effets des facteurs dans chacune des zones tout en améliorant la qualité de prédiction des arbres de régression. / Reliability has become an important issue nowadays since the most critical industries such as aeronautics, space and nuclear are moving towards the design of more electrical based systems. The objective is to understand, model and predict the aging mechanisms that could lead to component and system failure. The study of the operational constraints effects on the degradation of the components is essential for the prediction of their lifetime. Numerous lifespan models have been developed in the literature in the field of electrical engineering. However, these models have some limitations: they depend on the studied material and its physical properties, they are often restricted to one or two stress factors and they do not integrate interactions that may exist between these factors. This thesis presents a new methodology for the lifespan modeling of electrical engineering components. This methodology is general; it is applicable to various components without prior information on their physical properties. The developed models are statistical models estimated on experimental data obtained from accelerated aging tests where several types of stress factors are considered. The models aim to study the effects of the different stress factors and their different interactions. The number and the configuration of the aging tests needed to construct the models (learning sets) are optimized in order to minimize the experimental cost while maximizing the accuracy of the models. Additional randomly configured experiments are carried out to validate the models (test sets). Two categories of components are tested: two types of insulation materials that are commonly used in electrical machines and OLED light sources. Different forms of lifespan models are presented: parametric, non-parametric and hybrid models. Models are evaluated using different statistical tools in order to study their relevance and to assess their predictability on the test set points. Parametric models allow to quantify the effects of stress factors and their interactions on the lifespan through a predefined analytical expression. Then a statistical test allows to assess the significance of each parameter in the model. These models show a good prediction quality on their test sets. The relationship between the lifespan and the constraints is also modeled by regression trees as an alternative method to parametric models. Regression trees are non-parametric models that graphically classify experimental points into different zones where the constraints are hierarchized according to their effects on the lifespan. Thus, a simple, graphic and direct relationship between the lifespan and the stress factors is obtained. However, unlike parametric models that are continuous in the studied experimental domain, regression trees are piecewise constant, which degrades their predictive quality with respect to parametric models. To overcome this disadvantage, a third approach consists in assigning a linear model to each of the zones identified with regression trees. The resulting model, called hybrid model, is piecewise linear. It allows to refine parametric models by evaluating the effects of the factors in each of the zones while improving the prediction quality of regression trees.
329

Quelques contributions à l'estimation des modèles définis par des équations estimantes conditionnelles / Some contributions to the statistical inference in models defined by conditional estimating equations

Li, Weiyu 15 July 2015 (has links)
Dans cette thèse, nous étudions des modèles définis par des équations de moments conditionnels. Une grande partie de modèles statistiques (régressions, régressions quantiles, modèles de transformations, modèles à variables instrumentales, etc.) peuvent se définir sous cette forme. Nous nous intéressons au cas des modèles avec un paramètre à estimer de dimension finie, ainsi qu’au cas des modèles semi paramétriques nécessitant l’estimation d’un paramètre de dimension finie et d’un paramètre de dimension infinie. Dans la classe des modèles semi paramétriques étudiés, nous nous concentrons sur les modèles à direction révélatrice unique qui réalisent un compromis entre une modélisation paramétrique simple et précise, mais trop rigide et donc exposée à une erreur de modèle, et l’estimation non paramétrique, très flexible mais souffrant du fléau de la dimension. En particulier, nous étudions ces modèles semi paramétriques en présence de censure aléatoire. Le fil conducteur de notre étude est un contraste sous la forme d’une U-statistique, qui permet d’estimer les paramètres inconnus dans des modèles généraux. / In this dissertation we study statistical models defined by condition estimating equations. Many statistical models could be stated under this form (mean regression, quantile regression, transformation models, instrumental variable models, etc.). We consider models with finite dimensional unknown parameter, as well as semiparametric models involving an additional infinite dimensional parameter. In the latter case, we focus on single-index models that realize an appealing compromise between parametric specifications, simple and leading to accurate estimates, but too restrictive and likely misspecified, and the nonparametric approaches, flexible but suffering from the curse of dimensionality. In particular, we study the single-index models in the presence of random censoring. The guiding line of our study is a U-statistics which allows to estimate the unknown parameters in a wide spectrum of models.
330

Neural networks regularization through representation learning / Régularisation des réseaux de neurones via l'apprentissage des représentations

Belharbi, Soufiane 06 July 2018 (has links)
Les modèles de réseaux de neurones et en particulier les modèles profonds sont aujourd'hui l'un des modèles à l'état de l'art en apprentissage automatique et ses applications. Les réseaux de neurones profonds récents possèdent de nombreuses couches cachées ce qui augmente significativement le nombre total de paramètres. L'apprentissage de ce genre de modèles nécessite donc un grand nombre d'exemples étiquetés, qui ne sont pas toujours disponibles en pratique. Le sur-apprentissage est un des problèmes fondamentaux des réseaux de neurones, qui se produit lorsque le modèle apprend par coeur les données d'apprentissage, menant à des difficultés à généraliser sur de nouvelles données. Le problème du sur-apprentissage des réseaux de neurones est le thème principal abordé dans cette thèse. Dans la littérature, plusieurs solutions ont été proposées pour remédier à ce problème, tels que l'augmentation de données, l'arrêt prématuré de l'apprentissage ("early stopping"), ou encore des techniques plus spécifiques aux réseaux de neurones comme le "dropout" ou la "batch normalization". Dans cette thèse, nous abordons le sur-apprentissage des réseaux de neurones profonds sous l'angle de l'apprentissage de représentations, en considérant l'apprentissage avec peu de données. Pour aboutir à cet objectif, nous avons proposé trois différentes contributions. La première contribution, présentée dans le chapitre 2, concerne les problèmes à sorties structurées dans lesquels les variables de sortie sont à grande dimension et sont généralement liées par des relations structurelles. Notre proposition vise à exploiter ces relations structurelles en les apprenant de manière non-supervisée avec des autoencodeurs. Nous avons validé notre approche sur un problème de régression multiple appliquée à la détection de points d'intérêt dans des images de visages. Notre approche a montré une accélération de l'apprentissage des réseaux et une amélioration de leur généralisation. La deuxième contribution, présentée dans le chapitre 3, exploite la connaissance a priori sur les représentations à l'intérieur des couches cachées dans le cadre d'une tâche de classification. Cet à priori est basé sur la simple idée que les exemples d'une même classe doivent avoir la même représentation interne. Nous avons formalisé cet à priori sous la forme d'une pénalité que nous avons rajoutée à la fonction de perte. Des expérimentations empiriques sur la base MNIST et ses variantes ont montré des améliorations dans la généralisation des réseaux de neurones, particulièrement dans le cas où peu de données d'apprentissage sont utilisées. Notre troisième et dernière contribution, présentée dans le chapitre 4, montre l'intérêt du transfert d'apprentissage ("transfer learning") dans des applications dans lesquelles peu de données d'apprentissage sont disponibles. L'idée principale consiste à pré-apprendre les filtres d'un réseau à convolution sur une tâche source avec une grande base de données (ImageNet par exemple), pour les insérer par la suite dans un nouveau réseau sur la tâche cible. Dans le cadre d'une collaboration avec le centre de lutte contre le cancer "Henri Becquerel de Rouen", nous avons construit un système automatique basé sur ce type de transfert d'apprentissage pour une application médicale où l'on dispose d’un faible jeu de données étiquetées. Dans cette application, la tâche consiste à localiser la troisième vertèbre lombaire dans un examen de type scanner. L’utilisation du transfert d’apprentissage ainsi que de prétraitements et de post traitements adaptés a permis d’obtenir des bons résultats, autorisant la mise en oeuvre du modèle en routine clinique. / Neural network models and deep models are one of the leading and state of the art models in machine learning. They have been applied in many different domains. Most successful deep neural models are the ones with many layers which highly increases their number of parameters. Training such models requires a large number of training samples which is not always available. One of the fundamental issues in neural networks is overfitting which is the issue tackled in this thesis. Such problem often occurs when the training of large models is performed using few training samples. Many approaches have been proposed to prevent the network from overfitting and improve its generalization performance such as data augmentation, early stopping, parameters sharing, unsupervised learning, dropout, batch normalization, etc. In this thesis, we tackle the neural network overfitting issue from a representation learning perspective by considering the situation where few training samples are available which is the case of many real world applications. We propose three contributions. The first one presented in chapter 2 is dedicated to dealing with structured output problems to perform multivariate regression when the output variable y contains structural dependencies between its components. Our proposal aims mainly at exploiting these dependencies by learning them in an unsupervised way. Validated on a facial landmark detection problem, learning the structure of the output data has shown to improve the network generalization and speedup its training. The second contribution described in chapter 3 deals with the classification task where we propose to exploit prior knowledge about the internal representation of the hidden layers in neural networks. This prior is based on the idea that samples within the same class should have the same internal representation. We formulate this prior as a penalty that we add to the training cost to be minimized. Empirical experiments over MNIST and its variants showed an improvement of the network generalization when using only few training samples. Our last contribution presented in chapter 4 showed the interest of transfer learning in applications where only few samples are available. The idea consists in re-using the filters of pre-trained convolutional networks that have been trained on large datasets such as ImageNet. Such pre-trained filters are plugged into a new convolutional network with new dense layers. Then, the whole network is trained over a new task. In this contribution, we provide an automatic system based on such learning scheme with an application to medical domain. In this application, the task consists in localizing the third lumbar vertebra in a 3D CT scan. A pre-processing of the 3D CT scan to obtain a 2D representation and a post-processing to refine the decision are included in the proposed system. This work has been done in collaboration with the clinic "Rouen Henri Becquerel Center" who provided us with data

Page generated in 0.0501 seconds