Spelling suggestions: "subject:"estimateurs"" "subject:"stimateurs""
81 |
Exogeneity, weak identification and instrument selection in econometricsDoko Tchatoka, Sabro Firmin 02 1900 (has links)
La dernière décennie a connu un intérêt croissant pour les problèmes posés par les variables instrumentales
faibles dans la littérature économétrique, c’est-à-dire les situations où les variables
instrumentales sont faiblement corrélées avec la variable à instrumenter. En effet, il est bien connu
que lorsque les instruments sont faibles, les distributions des statistiques de Student, de Wald, du
ratio de vraisemblance et du multiplicateur de Lagrange ne sont plus standard et dépendent souvent
de paramètres de nuisance. Plusieurs études empiriques portant notamment sur les modèles de rendements
à l’éducation [Angrist et Krueger (1991, 1995), Angrist et al. (1999), Bound et al. (1995),
Dufour et Taamouti (2007)] et d’évaluation des actifs financiers (C-CAPM) [Hansen et Singleton
(1982,1983), Stock et Wright (2000)], où les variables instrumentales sont faiblement corrélées avec
la variable à instrumenter, ont montré que l’utilisation de ces statistiques conduit souvent à des résultats
peu fiables. Un remède à ce problème est l’utilisation de tests robustes à l’identification [Anderson
et Rubin (1949), Moreira (2002), Kleibergen (2003), Dufour et Taamouti (2007)]. Cependant,
il n’existe aucune littérature économétrique sur la qualité des procédures robustes à l’identification
lorsque les instruments disponibles sont endogènes ou à la fois endogènes et faibles. Cela soulève
la question de savoir ce qui arrive aux procédures d’inférence robustes à l’identification lorsque certaines
variables instrumentales supposées exogènes ne le sont pas effectivement. Plus précisément,
qu’arrive-t-il si une variable instrumentale invalide est ajoutée à un ensemble d’instruments valides?
Ces procédures se comportent-elles différemment? Et si l’endogénéité des variables instrumentales
pose des difficultés majeures à l’inférence statistique, peut-on proposer des procédures de tests qui
sélectionnent les instruments lorsqu’ils sont à la fois forts et valides? Est-il possible de proposer
les proédures de sélection d’instruments qui demeurent valides même en présence d’identification
faible?
Cette thèse se focalise sur les modèles structurels (modèles à équations simultanées) et apporte
des réponses à ces questions à travers quatre essais.
Le premier essai est publié dans Journal of Statistical Planning and Inference 138 (2008)
2649 – 2661. Dans cet essai, nous analysons les effets de l’endogénéité des instruments sur deux
statistiques de test robustes à l’identification: la statistique d’Anderson et Rubin (AR, 1949) et la
statistique de Kleibergen (K, 2003), avec ou sans instruments faibles. D’abord, lorsque le paramètre
qui contrôle l’endogénéité des instruments est fixe (ne dépend pas de la taille de l’échantillon), nous
montrons que toutes ces procédures sont en général convergentes contre la présence d’instruments
invalides (c’est-à-dire détectent la présence d’instruments invalides) indépendamment de leur qualité
(forts ou faibles). Nous décrivons aussi des cas où cette convergence peut ne pas tenir, mais
la distribution asymptotique est modifiée d’une manière qui pourrait conduire à des distorsions de
niveau même pour de grands échantillons. Ceci inclut, en particulier, les cas où l’estimateur des
double moindres carrés demeure convergent, mais les tests sont asymptotiquement invalides. Ensuite,
lorsque les instruments sont localement exogènes (c’est-à-dire le paramètre d’endogénéité
converge vers zéro lorsque la taille de l’échantillon augmente), nous montrons que ces tests convergent
vers des distributions chi-carré non centrées, que les instruments soient forts ou faibles. Nous
caractérisons aussi les situations où le paramètre de non centralité est nul et la distribution asymptotique
des statistiques demeure la même que dans le cas des instruments valides (malgré la présence
des instruments invalides).
Le deuxième essai étudie l’impact des instruments faibles sur les tests de spécification du type
Durbin-Wu-Hausman (DWH) ainsi que le test de Revankar et Hartley (1973). Nous proposons une
analyse en petit et grand échantillon de la distribution de ces tests sous l’hypothèse nulle (niveau)
et l’alternative (puissance), incluant les cas où l’identification est déficiente ou faible (instruments
faibles). Notre analyse en petit échantillon founit plusieurs perspectives ainsi que des extensions
des précédentes procédures. En effet, la caractérisation de la distribution de ces statistiques en petit
échantillon permet la construction des tests de Monte Carlo exacts pour l’exogénéité même avec
les erreurs non Gaussiens. Nous montrons que ces tests sont typiquement robustes aux intruments
faibles (le niveau est contrôlé). De plus, nous fournissons une caractérisation de la puissance des
tests, qui exhibe clairement les facteurs qui déterminent la puissance. Nous montrons que les tests
n’ont pas de puissance lorsque tous les instruments sont faibles [similaire à Guggenberger(2008)].
Cependant, la puissance existe tant qu’au moins un seul instruments est fort. La conclusion de
Guggenberger (2008) concerne le cas où tous les instruments sont faibles (un cas d’intérêt mineur
en pratique). Notre théorie asymptotique sous les hypothèses affaiblies confirme la théorie en échantillon
fini.
Par ailleurs, nous présentons une analyse de Monte Carlo indiquant que: (1) l’estimateur des
moindres carrés ordinaires est plus efficace que celui des doubles moindres carrés lorsque les instruments
sont faibles et l’endogenéité modérée [conclusion similaire à celle de Kiviet and Niemczyk
(2007)]; (2) les estimateurs pré-test basés sur les tests d’exogenété ont une excellente performance
par rapport aux doubles moindres carrés. Ceci suggère que la méthode des variables instrumentales
ne devrait être appliquée que si l’on a la certitude d’avoir des instruments forts. Donc, les
conclusions de Guggenberger (2008) sont mitigées et pourraient être trompeuses.
Nous illustrons nos résultats théoriques à travers des expériences de simulation et deux applications
empiriques: la relation entre le taux d’ouverture et la croissance économique et le problème
bien connu du rendement à l’éducation.
Le troisième essai étend le test d’exogénéité du type Wald proposé par Dufour (1987) aux cas
où les erreurs de la régression ont une distribution non-normale. Nous proposons une nouvelle
version du précédent test qui est valide même en présence d’erreurs non-Gaussiens. Contrairement
aux procédures de test d’exogénéité usuelles (tests de Durbin-Wu-Hausman et de Rvankar-
Hartley), le test de Wald permet de résoudre un problème courant dans les travaux empiriques
qui consiste à tester l’exogénéité partielle d’un sous ensemble de variables. Nous proposons deux
nouveaux estimateurs pré-test basés sur le test de Wald qui performent mieux (en terme d’erreur
quadratique moyenne) que l’estimateur IV usuel lorsque les variables instrumentales sont faibles et
l’endogénéité modérée. Nous montrons également que ce test peut servir de procédure de sélection
de variables instrumentales. Nous illustrons les résultats théoriques par deux applications
empiriques: le modèle bien connu d’équation du salaire [Angist et Krueger (1991, 1999)] et les
rendements d’échelle [Nerlove (1963)]. Nos résultats suggèrent que l’éducation de la mère expliquerait
le décrochage de son fils, que l’output est une variable endogène dans l’estimation du coût
de la firme et que le prix du fuel en est un instrument valide pour l’output.
Le quatrième essai résout deux problèmes très importants dans la littérature économétrique.
D’abord, bien que le test de Wald initial ou étendu permette de construire les régions de confiance
et de tester les restrictions linéaires sur les covariances, il suppose que les paramètres du modèle
sont identifiés. Lorsque l’identification est faible (instruments faiblement corrélés avec la variable
à instrumenter), ce test n’est en général plus valide. Cet essai développe une procédure d’inférence
robuste à l’identification (instruments faibles) qui permet de construire des régions de confiance
pour la matrices de covariances entre les erreurs de la régression et les variables explicatives (possiblement
endogènes). Nous fournissons les expressions analytiques des régions de confiance et
caractérisons les conditions nécessaires et suffisantes sous lesquelles ils sont bornés. La procédure
proposée demeure valide même pour de petits échantillons et elle est aussi asymptotiquement
robuste à l’hétéroscédasticité et l’autocorrélation des erreurs.
Ensuite, les résultats sont utilisés pour développer les tests d’exogénéité partielle robustes à
l’identification. Les simulations Monte Carlo indiquent que ces tests contrôlent le niveau et ont
de la puissance même si les instruments sont faibles. Ceci nous permet de proposer une procédure
valide de sélection de variables instrumentales même s’il y a un problème d’identification. La
procédure de sélection des instruments est basée sur deux nouveaux estimateurs pré-test qui combinent
l’estimateur IV usuel et les estimateurs IV partiels. Nos simulations montrent que: (1) tout
comme l’estimateur des moindres carrés ordinaires, les estimateurs IV partiels sont plus efficaces
que l’estimateur IV usuel lorsque les instruments sont faibles et l’endogénéité modérée; (2) les estimateurs
pré-test ont globalement une excellente performance comparés à l’estimateur IV usuel.
Nous illustrons nos résultats théoriques par deux applications empiriques: la relation entre le taux
d’ouverture et la croissance économique et le modèle de rendements à l’éducation. Dans la première
application, les études antérieures ont conclu que les instruments n’étaient pas trop faibles
[Dufour et Taamouti (2007)] alors qu’ils le sont fortement dans la seconde [Bound (1995), Doko et
Dufour (2009)]. Conformément à nos résultats théoriques, nous trouvons les régions de confiance
non bornées pour la covariance dans le cas où les instruments sont assez faibles. / The last decade shows growing interest for the so-called weak instruments problems in the
econometric literature, i.e. situations where instruments are poorly correlated with endogenous explanatory
variables. More generally, these can be viewed as situations where model parameters are
not identified or nearly so (see Dufour and Hsiao, 2008). It is well known that when instruments
are weak, the limiting distributions of standard test statistics - like Student, Wald, likelihood ratio
and Lagrange multiplier criteria in structural models - have non-standard distributions and often
depend heavily on nuisance parameters. Several empirical studies including the estimation of returns
to education [Angrist and Krueger (1991, 1995), Angrist et al. (1999), Bound et al. (1995),
Dufour and Taamouti (2007)] and asset pricing model (C-CAPM) [Hansen and Singleton (1982,
1983), Stock and Wright (2000)], have showed that the above procedures are unreliable in presence
of weak identification. As a result, identification-robust tests [Anderson and Rubin (1949), Moreira
(2003), Kleibergen (2002), Dufour and Taamouti (2007)] are often used to make reliable inference.
However, little is known about the quality of these procedures when the instruments are invalid or
both weak and invalid. This raises the following question: what happens to inference procedures
when some instruments are endogenous or both weak and endogenous? In particular, what happens
if an invalid instrument is added to a set of valid instruments? How robust are these inference
procedures to instrument endogeneity? Do alternative inference procedures behave differently? If
instrument endogeneity makes statistical inference unreliable, can we propose the procedures for selecting
"good instruments" (i.e. strong and valid instruments)? Can we propose instrument selection
procedure which will be valid even in presence of weak identification?
This thesis focuses on structural models and answers these questions through four chapiters.
The first chapter is published in Journal of Statistical Planning and Inference 138 (2008) 2649
– 2661. In this chapter, we analyze the effects of instrument endogeneity on two identificationrobust
procedures: Anderson and Rubin (1949, AR) and Kleibergen (2002, K) test statistics, with
or without weak instruments. First, when the level of instrument endogeneity is fixed (does not
depend on the sample size), we show that all these procedures are in general consistent against
the presence of invalid instruments (hence asymptotically invalid for the hypothesis of interest),
whether the instruments are "strong" or "weak". We also describe situations where this consistency
may not hold, but the asymptotic distribution is modified in a way that would lead to size distortions
in large samples. These include, in particular, cases where 2SLS estimator remains consistent, but
the tests are asymptotically invalid. Second, when the instruments are locally exogenous (the level
of instrument endogeneity approaches zero as the sample size increases), we find asymptotic noncentral
chi-square distributions with or without weak instruments, and describe situations where the
non-centrality parameter is zero and the asymptotic distribution remains the same as in the case of
valid instruments (despite the presence of invalid instruments).
The second chapter analyzes the effects of weak identification on Durbin-Wu-Hausman (DWH)
specification tests an Revankar-Harttley exogeneity test. We propose a finite-and large-sample analysis
of the distribution of DWH tests under the null hypothesis (level) and the alternative hypothesis
(power), including when identification is deficient or weak (weak instruments). Our finite-sample
analysis provides several new insights and extensions of earlier procedures. The characterization
of the finite-sample distribution of the test-statistics allows the construction of exact identificationrobust
exogeneity tests even with non-Gaussian errors (Monte Carlos tests) and shows that such
tests are typically robust to weak instruments (level is controlled).
Furthermore, we provide a characterization of the power of the tests, which clearly exhibits
factors which determine power. We show that DWH-tests have no power when all instruments are
weak [similar to Guggenberger(2008)]. However, power does exist as soon as we have one strong
instruments. The conclusions of Guggenberger (2008) focus on the case where all instruments
are weak (a case of little practical interest). Our asymptotic distributional theory under weaker
assumptions confirms the finite-sample theory.
Moreover, we present simulation evidence indicating: (1) over a wide range cases, including
weak IV and moderate endogeneity, OLS performs better than 2SLS [finding similar to Kiviet and
Niemczyk (2007)]; (2) pretest-estimators based on exogeneity tests have an excellent overall performance
compared with usual IV estimator.
We illustrate our theoretical results through simulation experiment and two empirical applications:
the relation between trade and economic growth and the widely studied problem of returns to
education.
In the third chapter, we extend the generalized Wald partial exogeneity test [Dufour (1987)]
to non-gaussian errors. Testing whether a subset of explanatory variables is exogenous is an important
challenge in econometrics. This problem occurs in many applied works. For example, in
the well know wage model, one should like to assess if mother’s education is exogenous without
imposing additional assumptions on ability and schooling. In the growth model, the exogeneity of
the constructed instrument on the basis of geographical characteristics for the trade share is often
questioned and needs to be tested without constraining trade share and the other variables. Standard
exogeneity tests of the type proposed by Durbin-Wu-Hausman and Revankar-Hartley cannot solve
such problems. A potential cure for dealing with partial exogeneity is the use of the generalized
linear Wald (GW) method (Dufour, 1987). The GW-procedure however assumes the normality of
model errors and it is not clear how robust is this test to non-gaussian errors.
We develop in this chapter, a modified version of earlier procedure which is valid even when
model errors are not normally distributed. We present simulation evidence indicating that when
identification is strong, the standard GW-test is size distorted in presence of non-gaussian errors.
Furthermore, our analysis of the performance of different pretest-estimators based on GW-tests
allow us to propose two new pretest-estimators of the structural parameter. The Monte Carlo simulations indicate that these pretest-estimators have a better performance over a wide range cases
compared with 2SLS. Therefore, this can be viewed as a procedure for selecting variable where a
GW-test is used in the first stage to decide which variables should be instruments and which ones
are valid instruments.
We illustrate our theoretical results through two empirical applications: the well known wage
equation and the returns to scale in electricity supply. The results show that the GW-tests cannot
reject the exogeneity of mother’s education, i.e. mother’s education may constitute a valid IV for
schooling. However, the output in cost equation is endogenous and the price of fuel is a valid IV for
estimating the returns to scale.
The fourth chapter develops identification-robust inference for the covariances between errors
and regressors of an IV regression. The results are then applied to develop partial exogeneity tests
and partial IV pretest-estimators which are more efficient than usual IV estimator.
When more than one stochastic explanatory variables are involved in the model, it is often
necessary to determine which ones are independent of the disturbances. This problem arises in
many empirical applications. For example, in the New Keynesian Phillips Curve, one should like to
assess whether the interest rate is exogenous without imposing additional assumptions on inflation
rate and the other variables. Standard Wu-Durbin-Hausman (DWH) tests which are commonly
used in applied work are inappropriate to deal with such a problem. The generalized Wald (GW)
procedure (Dufour, 1987) which typically allows the construction of confidence sets as well as
testing linear restrictions on covariances assumes that the available instruments are strong. When
the instruments are weak, the GW-test is in general size distorted. As a result, its application in
models where instruments are possibly weak–returns to education, trade and economic growth, life
cycle labor supply, New Keynesian Phillips Curve, pregnancy and the demand for cigarettes–may
be misleading.
To answer this problem, we develop a finite-and large-sample valid procedure for building confidence
sets for covariances allowing for the presence of weak instruments. We provide analytic
forms of the confidence sets and characterize necessary and sufficient conditions under which they
are bounded.
Moreover, we propose two new pretest-estimators of structural parameters based on our above
procedure. Both estimators combine 2SLS and partial IV-estimators. The Monte Carlo experiment
shows that: (1) partial IV-estimators outperform 2SLS when the instruments are weak; (2) pretestestimators
have an excellent overall performance–bias and MSE– compared with 2SLS. Therefore,
this can be viewed as a variable selection method where the projection-based techniques is used to
decide which variables should be instrumented and which ones are valid instruments.
We illustrate our results through two empirical applications: the relation between trade and economic
growth and the widely studied problem of returns to education. The results show unbounded
confidence sets, suggesting that the IV are relatively poor in these models, as questioned in the
literature [Bound (1995)].
|
82 |
Fonctions de perte en actuariatCraciun, Geanina January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
|
83 |
Inégalités de déviations, principe de déviations modérées et théorèmes limites pour des processus indexés par un arbre binaire et pour des modèles markoviensBitseki Penda, Siméon Valère 20 November 2012 (has links) (PDF)
Le contrôle explicite de la convergence des sommes convenablement normalisées de variables aléatoires, ainsi que l'étude du principe de déviations modérées associé à ces sommes constituent les thèmes centraux de cette thèse. Nous étudions principalement deux types de processus. Premièrement, nous nous intéressons aux processus indexés par un arbre binaire, aléatoire ou non. Ces processus ont été introduits dans la littérature afin d'étudier le mécanisme de la division cellulaire. Au chapitre 2, nous étudions les chaînes de Markov bifurcantes. Ces chaînes peuvent être vues comme une adaptation des chaînes de Markov "usuelles'' dans le cas où l'ensemble des indices à une structure binaire. Sous des hypothèses d'ergodicité géométrique uniforme et non-uniforme d'une chaîne de Markov induite, nous fournissons des inégalités de déviations et un principe de déviations modérées pour les chaînes de Markov bifurcantes. Au chapitre 3, nous nous intéressons aux processus bifurcants autorégressifs d'ordre p (). Ces processus sont une adaptation des processus autorégressifs linéaires d'ordre p dans le cas où l'ensemble des indices à une structure binaire. Nous donnons des inégalités de déviations, ainsi qu'un principe de déviations modérées pour les estimateurs des moindres carrés des paramètres "d'autorégression'' de ce modèle. Au chapitre 4, nous traitons des inégalités de déviations pour des chaînes de Markov bifurcantes sur un arbre de Galton-Watson. Ces chaînes sont une généralisation de la notion de chaînes de Markov bifurcantes au cas où l'ensemble des indices est un arbre de Galton-Watson binaire. Elles permettent dans le cas de la division cellulaire de prendre en compte la mort des cellules. Les hypothèses principales que nous faisons dans ce chapitre sont : l'ergodicité géométrique uniforme d'une chaîne de Markov induite et la non-extinction du processus de Galton-Watson associé. Au chapitre 5, nous nous intéressons aux modèles autorégressifs linéaires d'ordre 1 ayant des résidus corrélés. Plus particulièrement, nous nous concentrons sur la statistique de Durbin-Watson. La statistique de Durbin-Watson est à la base des tests de Durbin-Watson, qui permettent de détecter l'autocorrélation résiduelle dans des modèles autorégressifs d'ordre 1. Nous fournissons un principe de déviations modérées pour cette statistique. Les preuves du principe de déviations modérées des chapitres 2, 3 et 4 reposent essentiellement sur le principe de déviations modérées des martingales. Les inégalités de déviations sont établies principalement grâce à l'inégalité d'Azuma-Bennet-Hoeffding et l'utilisation de la structure binaire des processus. Le chapitre 5 est né de l'importance qu'a l'ergodicité explicite des chaînes de Markov au chapitre 3. L'ergodicité géométrique explicite des processus de Markov à temps discret et continu ayant été très bien étudiée dans la littérature, nous nous sommes penchés sur l'ergodicité sous-exponentielle des processus de Markov à temps continu. Nous fournissons alors des taux explicites pour la convergence sous exponentielle d'un processus de Markov à temps continu vers sa mesure de probabilité d'équilibre. Les hypothèses principales que nous utilisons sont : l'existence d'une fonction de Lyapunov et d'une condition de minoration. Les preuves reposent en grande partie sur la construction du couplage et le contrôle explicite de la queue du temps de couplage.
|
84 |
Modèles autorégressifs à changements de régimes markoviens. Applications aux séries tempo-relles de ventAilliot, Pierre 15 November 2004 (has links) (PDF)
Dans cette thèse, plusieurs modèles originaux, utilisant les modèles autorégressifs à change-ments de régimes markoviens, sont proposés pour les séries temporelles de vent. L'étude théorique de ces modèles fait l'objet du premier chapitre. Nous abordons en particulier les problèmes du calcul numérique des estimateurs du maximum de vraisemblance, de l'étude de leurs comportements asymptotiques ainsi que celui de la validation de modèle. Dans le deuxième chapitre, nous proposons divers modèles autorégressifs à changements de régimes markoviens permettant de décrire l'évolution du vent en un point fixé, puis dans le troisième chapitre son évolution spatio-temporelle. Pour chacun des modèles proposés, nous vérifions l'interprétabilité météorologique des différents paramètres et leur capacité à simuler des nouvelles séquences artificielles réalistes. Ces résultats sont comparés avec ceux corre-spondant aux modèles usuellement utilisés dans la littérature.
|
85 |
Etude d'estimations d'erreur a posteriori et d'adaptivité basée sur des critères d'arrêt et raffinement de maillages pour des problèmes d'écoulements multiphasiques et thermiques. Application aux procédés de récupération assistée d'huileYousef, Soleiman 10 December 2013 (has links) (PDF)
L'objectif de cette thèse est l'analyse d'erreur a posteriori et la proposition de stratégies d'adaptivité basées sur des critères d'arrêt et de raffinement local de maillage. Nous traitons une classe d'équations paraboliques dégénér ées multidimensionnelles modélisant des problèmes importants pour l'industrie. Au chapitre 1 nous considérons le problème de Stefan instationaire a deux phases qui modélise un processus de changement de phase régi par la loi de Fourier. Nous régularisons la relation entre l'enthalpie et la température et nous discrétisons le problème par la méthode d'Euler implicite en temps et un schéma numérique conforme en espace tel que les élément finis conformes, ou les volumes finis centrés aux sommets du maillage. Nous démontrons une borne supérieure de la norme duale du résidu, de l'erreur sur l'enthalpie dans L2(0; T;H-1) et de l'erreur sur la température dans L2(0; T;L2), par des estimateurs d'erreur entièrement calculables. Ces estimateurs comprennent : un estimateur associé à l'erreur de régularisation, un estimateur associé à l'erreur d'une méthode de linéarisation (par exemple, la méthode de Newton), un estimateur associé à l'erreur en temps et un estimateur associé à l'erreur du schéma en espace. Par conséquent, ces estimateurs permettent de formuler un algorithme adaptatif de résolution où les erreurs associées peuvent être équilibrées. Nous proposons également une stratégie de raffinement local de maillages. En fin, nous prouvons l'efficacité de nos estimations d'erreur a posteriori. Un test numérique illustre l'efficacité de nos estimateurs et la performance de l'algorithme adaptatif. En particulier, des indices d'efficacité proches de la valeur optimale de 1 sont obtenus. Au chapitre 2 nous développons des estimations d'erreur a posteriori pour l'écoulement de Darcy polyphasique et isothermique, décrit par un système couplé d'équations aux dérivées partielles non linéaires et d'équations algébriques non linéaires. Ce système est discrétisé en espace par une méthode de volume finis centrés par maille et la méthode d'Euler implicite en temps. Nous etablissons une borne supérieure d'une norme duale du résidu augmentée d'un terme qui tiens compte de la non-conformité des volumes finis par des estimateurs d'erreur a posteriori entièrement calculables. Dans ce chapitre, nous nous concentrons sur la formulation d'un critère d'arrêt de l'algorithme de linéarisation du problème discrète (tel que la méthode de Newton) avec un critère d'arrêt du solveur algébrique de résolution du système linéarité (par exemple la méthode GMRes), de sort que les contributions des estimateurs d'erreur correspondant n'affectent plus la somme globale des estimateurs d'erreur de manière significative. Nous appliquons notre analyse sur des exemples réalistes d'ingénierie de réservoir pour confirmer qu'en général notre ajustement des critères d'arrêt apporte une économie significative (jusqu'au un ordre de magnitude en termes du nombre total des itérations du solveur algébrique), déjà sur des maillages fixes, et ceci sans perte notable de précision. Au chapitre 3 nous complétons le modèle décrit au chapitre 2 en considérant une condition non-isothermique pour l'écoulement a fin de traiter le modèle général d'écoulement polyphasique thermique dans les milieux poreux. Pour ce problème, nous développons des estimateurs d'erreur analogues a ceux du chapitre 2 pour lesquels nous établissons une borne supérieure d'erreur entièrement calculable, pour une norme duale du résidu complétée par un terme d'évaluation de la non-conformité. Nous montrons ensuite comment estimer séparément chaque composante d'erreur, ce qui nous permet d'ajuster les critères d'arrêt et d'équilibrer les contributions des différents estimateurs d'erreur : erreur d'approximation en temps, erreur d'approximation en espace, erreur de linéarisation et erreur du solveur algébrique. Ce chapitre se termine par une application des estimateurs au modèle d'huile morte. La preuve de l'efficacité de notre estimation a postiriori est egalement fournie. Finalement, au chapitre 4 nous considérons les procédés de récupération assistée d'huile. Plus précisément, nous étudions une technique de récupération thermique d'huile de type huile morte par injection de vapeur destinée a augmenter la mobilité des hydrocarbures. Dans ce chapitre, nous appliquons l'analyse a posteriori des chapitres 2 et 3, nous proposons une formule de quadrature pour simplifier l'évaluation des estimateurs, nous proposons un algorithme adaptatif de raffinement de maillages en espace et en temps basé sur les estimateurs et nous illustrons pas des essais numériques sur des exemples réalistes la performance de cette stratégie de raffinement. Notamment, des gains significatifs sont réalisés en terme du nombre de mailles nécessaires pour la simulation sur des exemples en dimension trois.
|
86 |
Contributions to Monocular Deformable 3D Reconstruction : Curvilinear Objects and Multiple Visual Cues / Contributions à la reconstruction 3D déformable monoculaire : objets curvilinéaires et indices visuels multiplesGallardo, Mathias 20 September 2018 (has links)
La reconstruction 3D monoculaire déformable est le problème général d'estimation de forme 3D d'un objet déformable à partir d'images 2D. Plusieurs scénarios ont émergé : le Shape-from-Template (SfT) et le Non-Rigid Structure-from-Motion (NRSfM) sont deux approches qui ont été grandement étudiées pour leur applicabilité. La première utilise une seule image qui montre un objet se déformant et un patron (une forme 3D texturée de l'objet dans une pose de référence). La seconde n'utilise pas de patron, mais utilise plusieurs images et estime la forme 3D dans chaque image. Les deux approches s'appuient sur le mouvement de points de correspondances entre les images et sur des a priori de déformations, restreignant ainsi leur utilisation à des surfaces texturées qui se déforment de manière lisse. Cette thèse fait avancer l'état de l'art du SfT et du NRSfM dans deux directions. La première est l'étude du SfT dans le cas de patrons 1D (c’est-à-dire des courbes comme des cordes et des câbles). La seconde direction est le développement d'algorithmes de SfT et de NRSfM qui exploitent plusieurs indices visuels et qui résolvent des cas réels et complexes non-résolus précédemment. Nous considérons des déformations isométriques et reconstruisons la partie extérieure de l'objet. Les contributions techniques et scientifiques de cette thèse sont divisées en quatre parties.La première partie de cette thèse étudie le SfT curvilinéaire, qui est le cas du patron curvilinéaire plongé dans un espace 2D ou 3D. Nous proposons une analyse théorique approfondie et des solutions pratiques pour le SfT curvilinéaire. Malgré son apparente simplicité, le SfT curvilinéaire s'est avéré être un problème complexe : il ne peut pas être résolu à l'aide de solutions locales non-holonomes d'une équation différentielle ordinaire et ne possède pas de solution unique, mais un nombre fini de solutions ambiguës. Une contribution technique majeure est un algorithme basé sur notre théorie, qui génère toutes les solutions ambiguës. La deuxième partie de cette thèse traite d'une limitation des méthodes de SfT : la reconstruction de plis. Cette limitation vient de la parcimonie de la contrainte de mouvement et de la régularisation. Nous proposons deux contributions qui s'appuient sur un cadre de minimisation d'énergie non-convexe. Tout d'abord, nous complétons la contrainte de mouvement avec une contrainte robuste de bord. Ensuite, nous modélisons implicitement les plis à l'aide d'une représentation dense de la surface basée maillage et d'une contrainte robuste de lissage qui désactive automatiquement le lissage de la courbure sans connaître a priori la position des plis.La troisième partie de cette thèse est dédiée à une autre limitation du SfT : la reconstruction de surfaces peu texturées. Cette limitation vient de la difficulté d'obtenir des correspondances (parcimonieuses ou denses) sur des surfaces peu texturées. Comme l'ombrage révèle les détails sur des surfaces peu texturées, nous proposons de combiner l'ombrage avec le SfT. Nous présentons deux contributions. La première est une initialisation en cascade qui estime séquentiellement la déformation de la surface, l'illumination de la scène, la réponse de la caméra et enfin les albédos de la surface à partir d'images monoculaires où la surface se déforme. La seconde est l'intégration de l'ombrage à notre précédent cadre de minimisation d'énergie afin de raffiner simultanément les paramètres photométriques et de déformation.La dernière partie de cette thèse relâche la connaissance du patron et aborde deux limitations du NRSfM : la reconstruction de surfaces peu texturées avec des plis. Une contribution majeure est l'extension du second cadre d'optimisation pour la reconstruction conjointe de la forme 3D de la surface sur toutes les images d'entrée et des albédos de la surface sans en connaître un patron. / Monocular deformable 3D reconstruction is the general problem of recovering the 3D shape of a deformable object from monocular 2D images. Several scenarios have emerged: the Shape-from-Template (SfT) and the Non-Rigid Structure-from-Motion (NRSfM) are two approaches intensively studied for their practicability. The former uses a single image depicting the deforming object and a template (a textured 3D shape of this object in a reference pose). The latter does not use a template, but uses several images and recovers the 3D shape in each image. Both approaches rely on the motion of correspondences between the images and deformation priors, which restrict their use to well-textured surfaces which deform smoothly. This thesis advances the state-of-the-art in SfT and NRSfM in two main directions. The first direction is to study SfT for the case of 1D templates (i.e. curved, thin structures such as ropes and cables). The second direction is to develop algorithms in SfT and NRSfM that exploit multiple visual cues and can solve complex, real-world cases which were previously unsolved. We focus on isometric deformations and reconstruct the outer part of the object. The technical and scientific contributions of this thesis are divided into four parts. The first part of this thesis studies the case of a curvilinear template embedded in 2D or 3D space, referred to Curve SfT. We propose a thorough theoretical analysis and practical solutions for Curve SfT. Despite its apparent simplicity, Curve SfT appears to be a complex problem: it cannot be solved locally using exact non-holonomic partial differential equation and is only solvable up to a finite number of ambiguous solutions. A major technical contribution is a computational solution based on our theory, which generates all the ambiguous solutions.The second part of this thesis deals with a limitation of SfT methods: reconstructing creases. This is due to the sparsity of the motion constraint and regularization. We propose two contributions which rely on a non-convex energy minimization framework. First, we complement the motion constraint with a robust boundary contour constraint. Second, we implicitly model creases with a dense mesh-based surface representation and an associated robust smoothing constraint, which deactivates curvature smoothing automatically where needed, without knowing a priori the crease location. The third part of this thesis is dedicated to another limitation of SfT: reconstructing poorly-textured surfaces. This is due to correspondences which cannot be obtained so easily on poorly-textured surfaces (either sparse or dense). As shading reveals details on poorly-textured surfaces, we propose to combine shading and SfT. We have two contributions. The first is a cascaded initialization which estimates sequentially the surface's deformation, the scene illumination, the camera response and then the surface albedos from deformed monocular images. The second is to integrate shading to our previous energy minimization framework for simultaneously refining deformation and photometric parameters.The last part of this thesis relaxes the knowledge of the template and addresses two limitations of NRSfM: reconstructing poorly-textured surfaces with creases. Our major contribution is an extension of the second framework to recover jointly the 3D shapes of all input images and the surface albedos without any template.
|
87 |
Estimation robuste de courbes de consommmation électrique moyennes par sondage pour de petits domaines en présence de valeurs manquantes / Robust estimation of mean electricity consumption curves by sampling for small areas in presence of missing valuesDe Moliner, Anne 05 December 2017 (has links)
Dans cette thèse, nous nous intéressons à l'estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l'ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement inobservées.En effet, de nombreuses études réalisées dans le groupe EDF, que ce soit dans une optique commerciale ou de gestion du réseau de distribution par Enedis, se basent sur l'analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes. L'ensemble des consommations électriques de chacun des 35 millions de clients résidentiels et professionnels Français ne pouvant être mesurées pour des raisons de coût et de protection de la vie privée, ces courbes de consommation moyennes sont estimées par sondage à partir de panels. Nous prolongeons les travaux de Lardin (2012) sur l'estimation de courbes moyennes par sondage en nous intéressant à des aspects spécifiques de cette problématique, à savoir l'estimation robuste aux unités influentes, l'estimation sur des petits domaines, et l'estimation en présence de courbes partiellement ou totalement inobservées.Pour proposer des estimateurs robustes de courbes moyennes, nous adaptons au cadre fonctionnel l'approche unifiée d'estimation robuste en sondages basée sur le biais conditionnel proposée par Beaumont (2013). Pour cela, nous proposons et comparons sur des jeux de données réelles trois approches : l'application des méthodes usuelles sur les courbes discrétisées, la projection sur des bases de dimension finie (Ondelettes ou Composantes Principales de l'Analyse en Composantes Principales Sphériques Fonctionnelle en particulier) et la troncature fonctionnelle des biais conditionnels basée sur la notion de profondeur d'une courbe dans un jeu de données fonctionnelles. Des estimateurs d'erreur quadratique moyenne instantanée, explicites et par bootstrap, sont également proposés.Nous traitons ensuite la problématique de l'estimation sur de petites sous-populations. Dans ce cadre, nous proposons trois méthodes : les modèles linéaires mixtes au niveau unité appliqués sur les scores de l'Analyse en Composantes Principales ou les coefficients d'ondelettes, la régression fonctionnelle et enfin l'agrégation de prédictions de courbes individuelles réalisées à l'aide d'arbres de régression ou de forêts aléatoires pour une variable cible fonctionnelle. Des versions robustes de ces différents estimateurs sont ensuite proposées en déclinant la démarche d'estimation robuste basée sur les biais conditionnels proposée précédemment.Enfin, nous proposons quatre estimateurs de courbes moyennes en présence de courbes partiellement ou totalement inobservées. Le premier est un estimateur par repondération par lissage temporel non paramétrique adapté au contexte des sondages et de la non réponse et les suivants reposent sur des méthodes d'imputation. Les portions manquantes des courbes sont alors déterminées soit en utilisant l'estimateur par lissage précédemment cité, soit par imputation par les plus proches voisins adaptée au cadre fonctionnel ou enfin par une variante de l'interpolation linéaire permettant de prendre en compte le comportement moyen de l'ensemble des unités de l'échantillon. Des approximations de variance sont proposées dans chaque cas et l'ensemble des méthodes sont comparées sur des jeux de données réelles, pour des scénarios variés de valeurs manquantes. / In this thesis, we address the problem of robust estimation of mean or total electricity consumption curves by sampling in a finite population for the entire population and for small areas. We are also interested in estimating mean curves by sampling in presence of partially missing trajectories.Indeed, many studies carried out in the French electricity company EDF, for marketing or power grid management purposes, are based on the analysis of mean or total electricity consumption curves at a fine time scale, for different groups of clients sharing some common characteristics.Because of privacy issues and financial costs, it is not possible to measure the electricity consumption curve of each customer so these mean curves are estimated using samples. In this thesis, we extend the work of Lardin (2012) on mean curve estimation by sampling by focusing on specific aspects of this problem such as robustness to influential units, small area estimation and estimation in presence of partially or totally unobserved curves.In order to build robust estimators of mean curves we adapt the unified approach to robust estimation in finite population proposed by Beaumont et al (2013) to the context of functional data. To that purpose we propose three approaches : application of the usual method for real variables on discretised curves, projection on Functional Spherical Principal Components or on a Wavelets basis and thirdly functional truncation of conditional biases based on the notion of depth.These methods are tested and compared to each other on real datasets and Mean Squared Error estimators are also proposed.Secondly we address the problem of small area estimation for functional means or totals. We introduce three methods: unit level linear mixed model applied on the scores of functional principal components analysis or on wavelets coefficients, functional regression and aggregation of individual curves predictions by functional regression trees or functional random forests. Robust versions of these estimators are then proposed by following the approach to robust estimation based on conditional biais presented before.Finally, we suggest four estimators of mean curves by sampling in presence of partially or totally unobserved trajectories. The first estimator is a reweighting estimator where the weights are determined using a temporal non parametric kernel smoothing adapted to the context of finite population and missing data and the other ones rely on imputation of missing data. Missing parts of the curves are determined either by using the smoothing estimator presented before, or by nearest neighbours imputation adapted to functional data or by a variant of linear interpolation which takes into account the mean trajectory of the entire sample. Variance approximations are proposed for each method and all the estimators are compared to each other on real datasets for various missing data scenarios.
|
88 |
Plans d'expérience optimaux en régression appliquée à la pharmacocinétique / Optimal sampling designs for regression applied to pharmacokineticBelouni, Mohamad 09 October 2013 (has links)
Le problème d'intérêt est d'estimer la fonction de concentration et l'aire sous la courbe (AUC) à travers l'estimation des paramètres d'un modèle de régression linéaire avec un processus d'erreur autocorrélé. On construit un estimateur linéaire sans biais simple de la courbe de concentration et de l'AUC. On montre que cet estimateur construit à partir d'un plan d'échantillonnage régulier approprié est asymptotiquement optimal dans le sens où il a exactement la même performance asymptotique que le meilleur estimateur linéaire sans biais (BLUE). De plus, on montre que le plan d'échantillonnage optimal est robuste par rapport à la misspecification de la fonction d'autocovariance suivant le critère du minimax. Lorsque des observations répétées sont disponibles, cet estimateur est consistant et a une distribution asymptotique normale. Les résultats obtenus sont généralisés au processus d'erreur de Hölder d'indice compris entre 0 et 2. Enfin, pour des tailles d'échantillonnage petites, un algorithme de recuit simulé est appliqué à un modèle pharmacocinétique avec des erreurs corrélées. / The problem of interest is to estimate the concentration curve and the area under the curve (AUC) by estimating the parameters of a linear regression model with autocorrelated error process. We construct a simple linear unbiased estimator of the concentration curve and the AUC. We show that this estimator constructed from a sampling design generated by an appropriate density is asymptotically optimal in the sense that it has exactly the same asymptotic performance as the best linear unbiased estimator (BLUE). Moreover, we prove that the optimal design is robust with respect to a misspecification of the autocovariance function according to a minimax criterion. When repeated observations are available, this estimator is consistent and has an asymptotic normal distribution. All those results are extended to the error process of Hölder with index including between 0 and 2. Finally, for small sample sizes, a simulated annealing algorithm is applied to a pharmacokinetic model with correlated errors.
|
89 |
Approches variationnelles statistiques spatio-temporelles pour l'analyse quantitative de la perfusion myocardique en IRM / Spatio-temporal statistical variational models for the quantitative assessment of myocardial perfusion in magnetic resonance imagingHamrouni-Chtourou, Sameh 11 July 2012 (has links)
L'analyse quantitative de la perfusion myocardique, i.e. l'estimation d'indices de perfusion segmentaires puis leur confrontation à des valeurs normatives, constitue un enjeu majeur pour le dépistage, le traitement et le suivi des cardiomyopathies ischémiques --parmi les premières causes de mortalité dans les pays occidentaux. Dans la dernière décennie, l'imagerie par résonance magnétique de perfusion (IRM-p) est la modalité privilégiée pour l'exploration dynamique non-invasive de la perfusion cardiaque. L'IRM-p consiste à acquérir des séries temporelles d'images cardiaques en incidence petit-axe et à plusieurs niveaux de coupe le long du grand axe du cœur durant le transit d'un agent de contraste vasculaire dans les cavités et le muscle cardiaques. Les examens IRM-p résultants présentent de fortes variations non linéaires de contraste et des artefacts de mouvements cardio-respiratoires. Dans ces conditions, l'analyse quantitative de la perfusion myocardique est confrontée aux problèmes complexes de recalage et de segmentation de structures cardiaques non rigides dans des examens IRM-p. Cette thèse se propose d'automatiser l’analyse quantitative de la perfusion du myocarde en développant un outil d'aide au diagnostic non supervisé dédié à l'IRM de perfusion cardiaque de premier passage, comprenant quatre étapes de traitement : -1.sélection automatique d'une région d'intérêt centrée sur le cœur; -2.compensation non rigide des mouvements cardio-respiratoires sur l'intégralité de l'examen traité; -3.segmentation des contours cardiaques; -4.quantification de la perfusion myocardique. Les réponses que nous apportons aux différents défis identifiés dans chaque étape s'articulent autour d'une idée commune : exploiter l'information liée à la cinématique de transit de l'agent de contraste dans les tissus pour discriminer les structures anatomiques et guider le processus de recalage des données. Ce dernier constitue le travail central de cette thèse. Les méthodes de recalage non rigide d'images fondées sur l'optimisation de mesures d'information constituent une référence en imagerie médicale. Leur cadre d'application usuel est l'alignement de paires d'images par appariement statistique de distributions de luminance, manipulées via leurs densités de probabilité marginales et conjointes, estimées par des méthodes à noyaux. Efficaces pour des densités jointes présentant des classes individualisées ou réductibles à des mélanges simples, ces approches atteignent leurs limites pour des mélanges non-linéaires où la luminance au pixel s’avère être un attribut trop frustre pour permettre une décision statistique discriminante, et pour des données mono-modal avec variations non linéaires et multi-modal. Cette thèse introduit un modèle mathématique de recalage informationnel multi-attributs/multi-vues générique répondant aux défis identifiés: (i) alignement simultané de l'intégralité de l'examen IRM-p analysé par usage d'un atlas, naturel ou synthétique, dans lequel le cœur est immobile et en utilisant les courbes de rehaussement au pixel comme ensemble dense de primitives; et (ii) capacité à intégrer des primitives image composites, spatiales ou spatio-temporelles, de grande dimension. Ce modèle, disponible dans le cadre classique de Shannon et dans le cadre généralisé d'Ali-Silvey, est fondé sur de nouveaux estimateurs géométriques de type k plus proches voisins des mesures d'information, consistants en dimension arbitraire. Nous étudions leur optimisation variationnelle en dérivant des expressions analytiques de leurs gradients sur des espaces de transformations spatiales régulières de dimension finie et infinie, et en proposant des schémas numériques et algorithmiques de descente en gradient efficace. Ce modèle de portée générale est ensuite instancié au cadre médical ciblé, et ses performances, notamment en terme de précision et de robustesse, sont évaluées dans le cadre d'un protocole expérimental tant qualitatif que quantitatif / Quantitative assessment of moycardium perfusion, i.e. computation of perfusion parameters which are then confronted to normative values, is a key issue for the diagnosis, therapy planning and monitoring of ischemic cardiomyopathies --the leading cause of death in Western countries. Within the last decade, perfusion magnetic resonance imaging (p-MRI) has emerged as a reference modality for reliably assessing myocardial perfusion in a noninvasive and accurate way. In p-MRI acquisitions, short-axis image sequences are captured at multiple slice levels along the long-axis of the heart during the transit of a vascular contrast agent through the cardiac chambers and muscle. Resulting p-MRI exams exhibit high nonlinear contrast variations and complex cardio-thoracic motions. Perfusion assessment is then faced with the complex problems of non rigid registration and segmentation of cardiac structures in p-MRI exams. The objective of this thesis is enabling an automated quantitative computer-aided diagnosis tool for first pass cardiac perfusion MRI, comprising four processing steps: -1.automated cardiac region of interest extraction; -2.non rigid registration of cardio-thoracic motions throughout the whole sequence; -3.cardiac boundaries segmentation; -4.quantification of myocardial perfusion. The answers we give to the various challenges identified in each step are based on a common idea: investigating information related to the kinematics of contrast agent transit in the tissues for discriminating the anatomical structures and driving the alignment process. This latter is the main work of this thesis. Non rigid image registration methods based on the optimization of information measures provide versatile solutions for robustly aligning medical data. Their usual application setting is the alignment of image pairs by statistically matching luminance distributions, handled using marginal and joint probability densities estimated via kernel techniques. Though efficient for joint densities exhibiting well-separated clusters or reducible to simple mixtures, these approaches reach their limits for nonlinear mixtures where pixelwise luminance appears to be a too coarse feature for allowing unambiguous statistical decisions, and for mono-modal with nonlinear variations and multi-modal data. This thesis presents a unified mathematical model for the information-theoretic multi-feature/multi-view non rigid registration, addressing the identified challenges : (i) simultaneous registration of the whole p-MRI exam, using a natural or synthetic atlas generated as a motion-free exam depicting the transit of the vascular contrast agent through cardiac structures and using local contrast enhancement curves as a feature set; (ii) can be easily generalized to richer feature spaces combining radiometric and geometric information. The resulting model is based on novel consistent k-nearest neighbors estimators of information measures in high dimension, for both classical Shannon and generalized Ali-Silvey frameworks. We study their variational optimization by deriving under closed-form their gradient flows over finite and infinite dimensional smooth transform spaces, and by proposing computationally efficient gradient descent schemas. The resulting generic theoretical framework is applied to the groupwise alignment of cardiac p-MRI exams, and its performances, in terms of accuracy and robustness, are evaluated in an experimental qualitative and quantitative protocol
|
90 |
Regression modeling with missing outcomes : competing risks and longitudinal data / Contributions aux modèles de régression avec réponses manquantes : risques concurrents et données longitudinalesMoreno Betancur, Margarita 05 December 2013 (has links)
Les données manquantes sont fréquentes dans les études médicales. Dans les modèles de régression, les réponses manquantes limitent notre capacité à faire des inférences sur les effets des covariables décrivant la distribution de la totalité des réponses prévues sur laquelle porte l'intérêt médical. Outre la perte de précision, toute inférence statistique requière qu'une hypothèse sur le mécanisme de manquement soit vérifiée. Rubin (1976, Biometrika, 63:581-592) a appelé le mécanisme de manquement MAR (pour les sigles en anglais de « manquant au hasard ») si la probabilité qu'une réponse soit manquante ne dépend pas des réponses manquantes conditionnellement aux données observées, et MNAR (pour les sigles en anglais de « manquant non au hasard ») autrement. Cette distinction a des implications importantes pour la modélisation, mais en général il n'est pas possible de déterminer si le mécanisme de manquement est MAR ou MNAR à partir des données disponibles. Par conséquent, il est indispensable d'effectuer des analyses de sensibilité pour évaluer la robustesse des inférences aux hypothèses de manquement.Pour les données multivariées incomplètes, c'est-à-dire, lorsque l'intérêt porte sur un vecteur de réponses dont certaines composantes peuvent être manquantes, plusieurs méthodes de modélisation sous l'hypothèse MAR et, dans une moindre mesure, sous l'hypothèse MNAR ont été proposées. En revanche, le développement de méthodes pour effectuer des analyses de sensibilité est un domaine actif de recherche. Le premier objectif de cette thèse était de développer une méthode d'analyse de sensibilité pour les données longitudinales continues avec des sorties d'étude, c'est-à-dire, pour les réponses continues, ordonnées dans le temps, qui sont complètement observées pour chaque individu jusqu'à la fin de l'étude ou jusqu'à ce qu'il sorte définitivement de l'étude. Dans l'approche proposée, on évalue les inférences obtenues à partir d'une famille de modèles MNAR dits « de mélange de profils », indexés par un paramètre qui quantifie le départ par rapport à l'hypothèse MAR. La méthode a été motivée par un essai clinique étudiant un traitement pour le trouble du maintien du sommeil, durant lequel 22% des individus sont sortis de l'étude avant la fin.Le second objectif était de développer des méthodes pour la modélisation de risques concurrents avec des causes d'évènement manquantes en s'appuyant sur la théorie existante pour les données multivariées incomplètes. Les risques concurrents apparaissent comme une extension du modèle standard de l'analyse de survie où l'on distingue le type d'évènement ou la cause l'ayant entrainé. Les méthodes pour modéliser le risque cause-spécifique et la fonction d'incidence cumulée supposent en général que la cause d'évènement est connue pour tous les individus, ce qui n'est pas toujours le cas. Certains auteurs ont proposé des méthodes de régression gérant les causes manquantes sous l'hypothèse MAR, notamment pour la modélisation semi-paramétrique du risque. Mais d'autres modèles n'ont pas été considérés, de même que la modélisation sous MNAR et les analyses de sensibilité. Nous proposons des estimateurs pondérés et une approche par imputation multiple pour la modélisation semi-paramétrique de l'incidence cumulée sous l'hypothèse MAR. En outre, nous étudions une approche par maximum de vraisemblance pour la modélisation paramétrique du risque et de l'incidence sous MAR. Enfin, nous considérons des modèles de mélange de profils dans le contexte des analyses de sensibilité. Un essai clinique étudiant un traitement pour le cancer du sein de stade II avec 23% des causes de décès manquantes sert à illustrer les méthodes proposées. / Missing data are a common occurrence in medical studies. In regression modeling, missing outcomes limit our capability to draw inferences about the covariate effects of medical interest, which are those describing the distribution of the entire set of planned outcomes. In addition to losing precision, the validity of any method used to draw inferences from the observed data will require that some assumption about the mechanism leading to missing outcomes holds. Rubin (1976, Biometrika, 63:581-592) called the missingness mechanism MAR (for “missing at random”) if the probability of an outcome being missing does not depend on missing outcomes when conditioning on the observed data, and MNAR (for “missing not at random”) otherwise. This distinction has important implications regarding the modeling requirements to draw valid inferences from the available data, but generally it is not possible to assess from these data whether the missingness mechanism is MAR or MNAR. Hence, sensitivity analyses should be routinely performed to assess the robustness of inferences to assumptions about the missingness mechanism. In the field of incomplete multivariate data, in which the outcomes are gathered in a vector for which some components may be missing, MAR methods are widely available and increasingly used, and several MNAR modeling strategies have also been proposed. On the other hand, although some sensitivity analysis methodology has been developed, this is still an active area of research. The first aim of this dissertation was to develop a sensitivity analysis approach for continuous longitudinal data with drop-outs, that is, continuous outcomes that are ordered in time and completely observed for each individual up to a certain time-point, at which the individual drops-out so that all the subsequent outcomes are missing. The proposed approach consists in assessing the inferences obtained across a family of MNAR pattern-mixture models indexed by a so-called sensitivity parameter that quantifies the departure from MAR. The approach was prompted by a randomized clinical trial investigating the benefits of a treatment for sleep-maintenance insomnia, from which 22% of the individuals had dropped-out before the study end. The second aim was to build on the existing theory for incomplete multivariate data to develop methods for competing risks data with missing causes of failure. The competing risks model is an extension of the standard survival analysis model in which failures from different causes are distinguished. Strategies for modeling competing risks functionals, such as the cause-specific hazards (CSH) and the cumulative incidence function (CIF), generally assume that the cause of failure is known for all patients, but this is not always the case. Some methods for regression with missing causes under the MAR assumption have already been proposed, especially for semi-parametric modeling of the CSH. But other useful models have received little attention, and MNAR modeling and sensitivity analysis approaches have never been considered in this setting. We propose a general framework for semi-parametric regression modeling of the CIF under MAR using inverse probability weighting and multiple imputation ideas. Also under MAR, we propose a direct likelihood approach for parametric regression modeling of the CSH and the CIF. Furthermore, we consider MNAR pattern-mixture models in the context of sensitivity analyses. In the competing risks literature, a starting point for methodological developments for handling missing causes was a stage II breast cancer randomized clinical trial in which 23% of the deceased women had missing cause of death. We use these data to illustrate the practical value of the proposed approaches.
|
Page generated in 0.0465 seconds