Spelling suggestions: "subject:"aximum dde resemblance"" "subject:"aximum dee resemblance""
21 |
MULTIPLES MÉTAMODÈLES POUR L'APPROXIMATION ET L'OPTIMISATION DE FONCTIONS NUMÉRIQUES MULTIVARIABLESGinsbourger, David 26 March 2009 (has links) (PDF)
Cette thèse s'inscrit dans la thématique de planification d'expériences numériques. Elle porte plus précisément sur l'optimisation de simulateurs numériques coûteux à évaluer, par des stratégies d'échantillonnage basées sur des représentations simplifiées du simulateur, les metamodèles. Une fois choisi un metamodèle parmi les familles existantes (polynômes, splines, modèles additifs, Krigeage, réseaux de neurones), on estime les paramètres du metamodèle. On dispose alors d'une représentation simplifiée du simulateur, que l'on pourra faire évoluer en fonction des informations apportées par de nouvelles évaluations. Etant donné qu'il est difficile de savoir a priori quel sera le type de metamodèle capable de guider au mieux un algorithme d'optimisation, une des motivations de ce travail est d'examiner comment une construction ad hoc de la structure du metamodèle, voire la prise en compte de plusieurs metamodèles, peuvent améliorer les méthodes d'approximation et les stratégies d'optimisation globale actuellement employées. Cela soulève à la fois des questions mathématiques et statistiques de sélection de modèle (quelles familles de métamodèles considérer ? Comment estimer les termes de covariance et/ou de tendance d'un métamodèle de Krigeage, et selon quels critères les évaluer ? Comment prendre en compte certaines formes d'instationnarité dans la covariance de Krigeage que sont les symétries et la présence de bruits d'observation hétérogènes ?), de combinaison de modèles (Une fois un ensemble de metamodèles choisis, comment agrège-ton les pseudo-informations qu'ils nous apportent ?), et de définition de critères décisionnels pour guider les évaluations au sein d'algorithmes d'optimisation (Comment paralléliser EGO ou des procédures similaires d'exploration sur base de Krigeage ?).
|
22 |
Estimations pour les modèles de Markov cachés et approximations particulaires. Application à la cartographie et à la localisation simultanées.Le Corff, Sylvain 28 September 2012 (has links) (PDF)
Dans cette thèse, nous nous intéressons à l'estimation de paramètres dans les chaînes de Markov cachées dans un cadre paramétrique et dans un cadre non paramétrique. Dans le cas paramétrique, nous imposons des contraintes sur le calcul de l'estimateur proposé : un premier volet de cette thèse est l'estimation en ligne d'un paramètre au sens du maximum de vraisemblance. Le fait d'estimer en ligne signifie que les estimations doivent être produites sans mémoriser les observations. Nous proposons une nouvelle méthode d'estimation en ligne pour les chaînes de Markov cachées basée sur l'algorithme Expectation Maximization appelée Block Online Expectation Maximization (BOEM). Cet algorithme est défini pour des chaînes de Markov cachées à espace d'état et espace d'observations généraux. La consistance de l'algorithme ainsi que des vitesses de convergence en probabilité ont été prouvées. Dans le cas d'espaces d'états généraux, l'implémentation numérique de l'algorithme BOEM requiert d'introduire des méthodes de Monte Carlo séquentielles - aussi appelées méthodes particulaires - pour approcher des espérances conditionnelles sous des lois de lissage qui ne peuvent être calculées explicitement. Nous avons donc proposé une approximation Monte Carlo de l'algorithme BOEM appelée Monte Carlo BOEM. Parmi les hypothèses nécessaires à la convergence de l'algorithme Monte Carlo BOEM, un contrôle de la norme Lp de l'erreur d'approximation Monte Carlo explicite en fonction du nombre d'observations T et du nombre de particules N est nécessaire. Par conséquent, une seconde partie de cette thèse a été consacrée à l'obtention de tels contrôles pour plusieurs méthodes de Monte Carlo séquentielles : l'algorithme Forward Filtering Backward Smoothing et l'algorithme Forward Filtering Backward Simulation. Ensuite, nous considérons des applications de l'algorithme Monte Carlo BOEM à des problèmes de cartographie et de localisation simultanées. Ces problèmes se posent lorsqu'un mobile se déplace dans un environnement inconnu. Il s'agit alors de localiser le mobile tout en construisant une carte de son environnement. Enfin, la dernière partie de cette thèse est relative à l'estimation non paramétrique dans les chaînes de Markov cachées. Le problème considéré a été très peu étudié et nous avons donc choisi de l'aborder dans un cadre précis. Nous supposons que la chaîne (Xk) est une marche aléatoire sur un sous-espace compact de Rm dont la loi des incréments est connue à un facteur d'échelle a près. Nous supposons également que, pour tout k, Yk est une observation dans un bruit additif gaussien de f(Xk), où f est une fonction à valeurs dans Rl que nous cherchons à estimer. Le premier résultat que nous avons établi est l'identifiabilité du modèle statistique considéré. Nous avons également proposé une estimation de la fonction f et du paramètre a à partir de la log-vraisemblance par paires des observations. Nous avons prouvé la convergence en probabilité de ces estimateurs lorsque le nombre d'observations utilisées tend vers l'infini.
|
23 |
Caractérisation géométrique et morphométrique 3-D par analyse d'image 2-D de distributions dynamiques de particules convexes anisotropes. Application aux processus de cristallisation.Presles, Benoit 09 December 2011 (has links) (PDF)
La cristallisation en solution est un procédé largement utilisé dans l'industrie comme opération de séparation et de purification qui a pour but de produire des solides avec des propriétés spécifiques. Les propriétés concernant la taille et la forme ont un impact considérable sur la qualité finale des produits. Il est donc primordial de pouvoir déterminer la distribution granulométrique (DG) des cristaux en formation. En utilisant une caméra in situ, il est possible de visualiser en temps réel les projections 2D des particules 3D présentes dans la suspension. La projection d'un objet 3D sur un plan 2D entraîne nécessairement une perte d'informations : déterminer sa taille et sa forme à partir de ses projections 2D n'est donc pas aisé. C'est tout l'enjeu de ce travail: caractériser géométriquement et morphométriquement des objets 3D à partir de leurs projections 2D. Tout d'abord, une méthode basée sur le maximum de vraisemblance des fonctions de densité de probabilité de mesures géométriques projetées a été développée pour déterminer la taille d'objets 3D convexes. Ensuite, un descripteur de forme stéréologique basé sur les diagrammes de forme a été proposé. Il permet de caractériser la forme d'un objet 3D convexe indépendamment de sa taille et a notamment été utilisé pour déterminer les facteurs d'anisotropie des objets 3D convexes considérés. Enfin, une combinaison des deux études précédentes a permis d'estimer à la fois la taille et la forme des objets 3D convexes. Cette méthode a été validée grâce à des simulations, comparée à une méthode de la littérature et utilisée pour estimer des DGs d'oxalate d'ammonium qui ont été comparées à d'autres méthodes granulométriques.
|
24 |
Méthodes efficaces pour reconstruire de grandes phylogénies suivant le principe du maximum de vraisemblanceRanwez, Vincent 06 November 2002 (has links) (PDF)
La reconstruction de phylogénies moléculaires consiste à retrouver l'arbre évolutif (ou phylogénie) d'un ensemble de séquences homologues. La méthode de reconstruction la plus fiable actuellement, semble être la méthode du maximum de vraisemblance. Les méthodes classiques pour rechercher la phylogénie de vraisemblance maximale deviennent, rapidement, très coûteuses en temps de calcul lorsque le nombre de séquences augmente. Elles ne peuvent donc pas traiter de grandes phylogénies. Actuellement, les deux types de méthodes qui permettent de reconstruire de grandes phylogénies suivant le principe du maximum de vraisemblance sont : les méthodes de distances et les méthodes de quadruplets. Toutes deux divisent le problème initial en sous-problèmes contenant peu de séquences. Elles peuvent alors résoudre rapidement (suivant le principe du maximum de vraisemblance) chacun de ces sous-problèmes, puis combiner les solutions obtenues pour proposer une phylogénie de l'ensemble des séquences. Après avoir présenté les principales méthodes de reconstruction phylogenetique, nous décrivons une nouvelle méthode de quadruplets (Weight Optimization) qui possède de bonnes propriétés théoriques et reconstruit des arbres plus fiables que Quartet Puzzling (une méthode de quadruplets très populaire). Nous expliquons ensuite en quoi les méthodes de quadruplets sont mal adaptées pour reconstruire de grandes phylogénies suivant le principe du maximum de vraisemblance, et comment ces méthodes peuvent résoudre efficacement d'autres problèmes. Puis, nous proposons une approche qui combine de manière originale les méthodes de distances et du maximum de vraisemblance. Cette approche que nous appelons TripleML permet d'améliorer la fiabilité de différentes méthodes de distances en remplaçant les distances qu'elles utilisent par des distances qui sont estimées en optimisant localement la vraisemblance de triplets de séquences (ou de groupes de séquences).
|
25 |
Détection et Estimation en Environnement non GaussienPascal, Frédéric 04 December 2006 (has links) (PDF)
Dans le contexte très général de la détection radar, les détecteurs classiques, basés sur l'hypothèse d'un bruit Gaussien, sont souvent mis en défaut dès lors que l'environnement (fouillis de sol, de mer) devient inhomogène, voire impulsionnel, s'écartant très vite du modèle Gaussien. Des modèles physiques de fouillis basés sur les modèles de bruit composé (SIRP, Compound Gaussian Processes) permettent de mieux représenter la réalité (variations spatiales de puissance et nature de fouillis, transitions, ...). Ces modèles dépendent cependant de paramètres (matrice de covariance, loi de texture, paramètres de "disturbance") qu'il devient nécessaire d'estimer. Une fois ces paramètres estimés, il est possible de construire des détecteurs radar optimaux (Generalized Likelihood Ratio Test - Linear Quadratic) pour ces environnements. Cette thèse, qui s'appuie sur ces modèles, propose une analyse complète de diverses procédures d'estimation de matrices de covariance, associées à ce problème de détection. Une étude statistique des principaux estimateurs de matrice de covariance, utilisés actuellement, est réalisée. De plus, un nouvel estimateur est proposé: l'estimateur du point fixe, très attractif grâce à ses bonnes propriétés statistiques et "radaristiques".<br />Elle décrit également les performances et les propriétés théoriques (SIRV-CFAR) du détecteur GLRT-LQ construits avec ces nouveaux estimateurs. En particulier, on montre l'invariance du détecteur à la loi de la texture mais également à la matrice de covariance régissant les propriétés spectrales du fouillis. Ces nouveaux détecteurs sont ensuite analysés sur des données simulées mais également testés sur des données réelles de fouillis de sol.
|
26 |
Estimation paramétrique de la fonction de covariance dans le modèle de Krigeage par processus Gaussiens. Application à la quantification des incertitudes en simulation numériqueBachoc, François 03 October 2013 (has links) (PDF)
L'estimation paramétrique de la fonction de covariance d'un processus Gaussien est étudiée, dans le cadre du modèle de Krigeage. Les estimateurs par Maximum de Vraisemblance et Validation Croisée sont considérés. Le cas correctement spécifié, dans lequel la fonction de covariance du processus Gaussien appartient à l'ensemble paramétrique de fonctions de covariance, est d'abord traité dans un cadre asymptotique par expansion. Le plan d'expériences considéré est une grille régulière multidimensionnelle perturbée aléatoirement. Un résultat de consistance et de normalité asymptotique est montré pour les deux estimateurs. Il est ensuite mis en évidence que des amplitudes de perturbation importantes sont toujours préférables pour l'estimation par Maximum de Vraisemblance. Le cas incorrectement spécifié, dans lequel l'ensemble paramétrique utilisé pour l'estimation ne contient pas la fonction de covariance du processus Gaussien, est ensuite étudié. Il est montré que la Validation Croisée est alors plus robuste que le Maximum de Vraisemblance. Enfin, deux applications du modèle de Krigeage par processus Gaussiens sont effectuées sur des données industrielles. Pour un problème de validation du modèle de frottement pariétal du code de thermohydraulique FLICA 4, en présence de résultats expérimentaux, il est montré que la modélisation par processus Gaussiens de l'erreur de modèle du code FLICA 4 permet d'améliorer considérablement ses prédictions. Enfin, pour un problème de métamodélisation du code de thermomécanique GERMINAL, l'intérêt du modèle de Krigeage par processus Gaussiens, par rapport à des méthodes par réseaux de neurones, est montré
|
27 |
Caractérisation de la diversité d'une population à partir de mesures quantifiées d'un modèle non-linéaire. Application à la plongée hyperbare / Characterisation of population diversity from quantified measures of a nonlinear model. Application to hyperbaric divingBennani, Youssef 10 December 2015 (has links)
Cette thèse propose une nouvelle méthode pour l'estimation non-paramétrique de densité à partir de données censurées par des régions de formes quelconques, éléments de partitions du domaine paramétrique. Ce travail a été motivé par le besoin d'estimer la distribution des paramètres d'un modèle biophysique de décompression afin d'être capable de prédire un risque d'accident. Dans ce contexte, les observations (grades de plongées) correspondent au comptage quantifié du nombre de bulles circulant dans le sang pour un ensemble de plongeurs ayant exploré différents profils de plongées (profondeur, durée), le modèle biophysique permettant de prédire le volume de gaz dégagé pour un profil de plongée donné et un plongeur de paramètres biophysiques connus. Dans un premier temps, nous mettons en évidence les limitations de l'estimation classique de densité au sens du maximum de vraisemblance non-paramétrique. Nous proposons plusieurs méthodes permettant de calculer cet estimateur et montrons qu'il présente plusieurs anomalies : en particulier, il concentre la masse de probabilité dans quelques régions seulement, ce qui le rend inadapté à la description d'une population naturelle. Nous proposons ensuite une nouvelle approche reposant à la fois sur le principe du maximum d'entropie, afin d'assurer une régularité convenable de la solution, et mettant en jeu le critère du maximum de vraisemblance, ce qui garantit une forte attache aux données. Il s'agit de rechercher la loi d'entropie maximale dont l'écart maximal aux observations (fréquences de grades observées) est fixé de façon à maximiser la vraisemblance des données. / This thesis proposes a new method for nonparametric density estimation from censored data, where the censing regions can have arbitrary shape and are elements of partitions of the parametric domain. This study has been motivated by the need for estimating the distribution of the parameters of a biophysical model of decompression, in order to be able to predict the risk of decompression sickness. In this context, the observations correspond to quantified counts of bubbles circulating in the blood of a set of divers having explored a variety of diving profiles (depth, duration); the biophysical model predicts of the gaz volume produced along a given diving profile for a diver with known biophysical parameters. In a first step, we point out the limitations of the classical nonparametric maximum-likelihood estimator. We propose several methods for its calculation and show that it suffers from several problems: in particular, it concentrates the probability mass in a few regions only, which makes it inappropriate to the description of a natural population. We then propose a new approach relying both on the maximum-entropy principle, in order to ensure a convenient regularity of the solution, and resorting to the maximum-likelihood criterion, to guarantee a good fit to the data. It consists in searching for the probability law with maximum entropy whose maximum deviation from empirical averages is set by maximizing the data likelihood. Several examples illustrate the superiority of our solution compared to the classic nonparametric maximum-likelihood estimator, in particular concerning generalisation performance.
|
28 |
Self-assembly of enveloped virus : theoretical dynamics and methods for fluorescence measurements analysis / Autoassemblage des virus enveloppés : dynamique théorique et méthodes d'analyse des mesures par fluorescenceVerdier, Timothée 13 November 2015 (has links)
Cette thèse porte sur la description de l'assemblage des virus dans le cadre de la physique statistique ainsi que sur les méthodes de mesure de cet assemblage utilisant les marqueurs fluorescents. Nous nous y attachons à décrire la dynamique de l'agrégation des protéines aux échelles de la population et du virus unique. Nous proposons deux méthodes pour mesurer les grandeurs physiques associées : taille et forme de la structure finale d'une part, taux d'agrégation au cours de la croissance d'autre part. Dans ce travail, nous nous sommes intéressés à la description physique de l'auto-assemblage des protéines virales. La physique de l'auto-assemblage in-vitro des virus sphériques, dont la structure est déterminée par l'agencement régulier de leurs constituants protéiques, a été théoriquement et expérimentalement caractérisée auparavant par des modèles d'agrégation. Les modèles existants décrivaient l'assemblage à quantité de composants viraux fixée dans un système ferme à partir des constituants élémentaires du virus. In-vivo, la situation est bien entendu différente. Abstraction faite de la grande complexité du milieu cellulaire, les virus s'échappent de la cellule une fois formés pour aller infecter de nouvelles cellules. De plus, la quantité de constituants est sans cesse modifiée par la fabrication ou la dégradation des protéines virales. Enfin les méthodes de mesures utilisées in-vitro ne sont généralement plus envisageables in-vivo. Nous avons donc étudié les effets d'un flux de matière dans système ouvert via le calcul de l'état stationnaire, et via la résolution numérique des équations d'évolution des populations d'agrégats qui décrivent la cinétique d'agrégation des protéines virales. Dans ce cadre, nous avons mis en valeur le lien entre la description de l'état général du système en termes de populations et le devenir individuel d'un virus en formation pour le suivi duquel des méthodes expérimentales existent. Nous nous sommes alors attachés à proposer un traitement approprié de telles données expérimentales pour déterminer les valeurs des paramètres physiques du modèle / In this thesis work, we study the self-assembly of viral particles and focus on the analysis of measurements based on fluorescence labeling of viral proteins. We propose a theoretical model of the dynamic of viral proteins self-assembly at the cell membrane based on previous models developed to describe the in-vitro assembly of spherical viruses. We study the evolution of the populations in the successive stages of viral budding as well as the evolution of single particle within this framework. We also provide various data analysis to measure the physical values involved in the process: rate of aggregation during the bud growth, size and shape of the eventual structure. Viruses are biological objects unable to replicate without infecting an host cell since they lack part of the molecular machinery mandatory for genetic code replication and proteins production. Originally aimed at controlling the diseases they cause, the study of viruses is now rich of applications in medical and technological field (gene therapy, phage therapy, targeted therapy, bio-templating, cargo specific encapsulation, etc.). The existent models describing the self-assembly of viral proteins have successfully captured many features observed in the in-vitro experiments. We study the expected evolution when an open system is considered with an input flux of proteins and an output flux of released virion, characteristic of the in-vivo situation. We derive the population distribution at steady state and numerically study their dynamic under constant viral protein input flux. We also study the case of a single bud evolution which can be followed by its fluorescence emission. We study the possibility to estimate shape parameters at the single viral particle level such as radius and completion for the human immunodeficiency virus (HIV) from single molecule localization superresolution microscopy. These techniques known as (f)PALM or (d)STORM, record labeled proteins position with a precision of few to tens of nanometers. We propose an approach base on the maximum likelihood statistical method which is tested on both real and simulated images of fully formed particles. Our results suggest that it can offer a precision on the determination of the global structure finner than the positioning precision of the single proteins. This efficiency is however tempered when the parameter of interest does not affect the figures of merit to which the method is sensitive such as the apparent area and the image contours
|
29 |
Distribution de la non-linéarité des fonctions booléennes / Distribution of Boolean functions NonlinearityDib, Stephanie 11 December 2013 (has links)
Parmi les différents critères qu'une fonction booléenne doit satisfaire en cryptographie, on s'intéresse à la non-linéarité. Pour une fonction booléenne donnée, cette notion mesure la distance de Hamming qui la sépare des fonctions de degré au plus 1. C'est un critère naturel pour évaluer la complexité d'une fonction cryptographique, celle-ci ne devant pas admettreune approximation qui soit simple, comme par une fonction de degré 1, ou plus généralement une fonction de bas degré. Ainsi, il est important de considérer plus généralement, la non-linéarité d'ordre supérieur, qui pour un ordre donné r, mesure la distance d'une fonction donnée à l'ensemble des fonctions de degré au plus r. Cette notion est également importante pour les fonctions vectorielles, i.e., celles à plusieurs sorties. Quand le nombre de variables est grand, presque toutes les fonctions ont une non-linéarité (d'ordre 1) voisine d'une certaine valeur, assez élevée. Dans un premier travail, on étend ce résultat à l'ordre 2. Cette méthode qui consiste à observer comment les boules de Hamming recouvrent l'hypercube des fonctions booléennes, nous conduit naturellement vers une borne de décodage théorique des codes de Reed-Muller d'ordre 1, coïncidant au même endroit où se concentre la non-linéarité de presque toutes les fonctions ; une approche nouvelle pour un résultat pas entièrement nouveau. On étudie aussi la non-linéarité des fonctions vectorielles. On montre avec une approche différente, que le comportement asymptotique est le même que celui des fonctions booléennes: une concentration de la non-linéarité autour d'une valeur assez élevée. / Among the different criteria that a Boolean function must satisfy in symmetric cryptography, we focus on the nonlinearity of these. This notion measures the Hamming distance between a given function and the set of functions with degree at most 1. It is a natural criterion to evaluate the complexity of a cryptographic function that must not have a simple approximation as by a function of degree 1, or more generally, a function of low degree. Hence, it is important to consider the higher order nonlinearity, which for a given order r, measures the distance between a given function and the set of all functions of degree at most r. This notion is equally important for multi-output Boolean functions. When the number of variables is large enough, almost all Boolean functions have nonlinearities lying in a small neighbourhood of a certain high value. We prove that this fact holds when considering the second-order nonlinearity. Our method which consists in observing how the Hamming balls pack the hypercube of Boolean functions led quite naturally to a theoretical decoding bound for the first-order Reed-Muller code, coinciding with the concentration point of the nonlinearity of almost all functions. This was a new approach for a result which is not entirely new. We also studied the nonlinearity of multi-output functions. We proved with a different approach, that the asymptotic behaviour of multi-output functions is the same as the single-output ones: a concentration of the nonlinearity around a certain large value.
|
30 |
Spatial statistics in discrete-choice models, application to UADT cancers in northern France / Statistiques spatiales dans les modèles à choix discrets, application aux cancers de l'UADT dans le nord de la FranceDarwich, Emad Aldeen 11 December 2017 (has links)
Ce mémoire de thèse concerne l’identification des facteurs de risque d’une maladie spécifique présentant une hétérogénéité spatiale au sein d’une région donnée. Plus particulièrement,nous nous sommes intéressés aux cancers des voies aéro-digestives supérieures(VADS) dans la région Nord-Pas-de-Calais (NPDC) en France. Pour cela, une étude cas témoins a d’abord été réalisée à partir de la création d’un échantillon d’individus sains qui n’étaient pas affectés par des tumeurs cancéreuses (les témoins) et d’un échantillon d’individus atteints du cancer (les cas - ou patients), recrutés dans les centres de soins dans le cadre des projets de recherche DEREDIA et NOFARIS. Concernant la méthodologie,des modèles binaires spatiaux répondant à l’objectif ont été développés à partir de travaux issus des domaines de recherche en statistique/économétrie des comportements(analyse des décisions) ainsi qu’en statistique spatiale. Un des apports méthodologiques de la thèse repose sur la combinaison de techniques provenant de ces deux champs de recherche. Dans une première partie, nous avons utilisé un modèle spatial binaire paramétrique contenant une variable spatiale latente de choix dans le cadre d’un échantillonnage des données. Ce problème est connu sous le nom de "Choice-Based Sampling" (CBS) dans les modèles discrets. Contrairement à l’échantillon aléatoire où tous les éléments de la population ont la même probabilité d’être choisi, l’échantillonnage CBS dans le modèle discret est un type d’échantillonnage dans lequel la classification de la population est faite sous forme de sous-ensembles (strates) basés sur des choix alternatifs. Dans ce contexte,l’utilisation de la procédure d’estimation par maximum de vraisemblance standard (MLE)dans le CBS pourrait mener à des estimations incohérentes (asymptotiquement biaisées).Nous avons adopté ainsi le principe du maximum de vraisemblance auprès de l’étude de scas-témoins spatiaux. Nous avons également fourni un estimateur des moments généralisés(GMM), basé sur les résidus généralisés. Dans une seconde partie, un modèle spatial binaire semi-paramétrique a été considéré. Nous présentons dans ces parties, une simulation de Monte Carlo pour étudier la performance des méthodes d’estimation au sein d’un échantillon final, que nous avons ensuite appliqué aux données du cancer VADS dans la région Nord-Pas-de-Calais. La troisième partie est consacrée à l’étude d’une fonction de risque spatiale en présence de données entachées d’erreurs. En effet, dans le cadre des données cas-témoins considérées, nous supposons que certaines données de type déclarative ne soient pas correctes. Une application de cette méthode à la cartographie du risque de développer un cancer VADS dans la région Nord-Pas-de-Calais a été étudiée. La dernière partie est consacrée à un modèle de durée spatial et son application aux données considérées. / This thesis concerns the identification of risk factors for a certain type of diseasepresenting a certain spatial heterogeneity in a given region.. More specifically, we are interested in cancers of the upper aerodigestive tract (UADT) cancers in the Nord-Pasde-Calais region (NPDC), France. For this, a case-control study was first carried out bycreating a sample of healthy individuals who are not affected by cancerous tumors (thecontrols) and a sample of individuals with cancer (Cases or patients), recruited in healthcenters as part of DEREDIA and NOFARIS research projects. From a methodologicalpoint of view, spatial binary models which meet the objective have been developed onthe basis of studies in statistical/behavioral econometrics (decision analysis) and spatialstatistics. One of the methodological contributions of the thesis on this plan is the combinationof techniques from these two fields of research.In the first part, we used a spatial binary parametric models containing spatial latentchoice variable in a context of sampling data. This problem is known as Choice-BasedSampling (CBS) in discrete choice model. Unlike the random sample where all items in the population have the same probability of being chosen, the Choice-Based Sampling indiscrete choice model is a type of sampling where the classification of the population intosubsets to be sampled is based on the choices or outcomes. In this context, the use ofstandard Maximum likelihood estimation (MLE) procedure in CBS could lead to an inconsistent(asymptotically biased) estimation. Thus, we adapt the principle of maximumlikelihood in our context of spatial case-control studies. We also provide a GMM estimatorbased on the generalized residuals.In the second part, a spatial semi-parametric binary model was considered. We present inthese parts a Monte Carlo experiment to investigate the finite sample performance of theseestimation methods, then we apply to the (UADT) cancer data in the Nord-Pas-de-Calaisregion.The third part is devoted to the study of a spatial risk function in the presence of datacontaminated by measurement errors. Indeed, in the context of the considered case-controlstudy, it is very likely that certain data transmitted by the patients is not correct. Anapplication of this method to the mapping of the risk of having UADT cancer in the Nord-Pas-de-Calais region was studied. The last part is devoted to a spatial duration modeland its application to the real data was considered.
|
Page generated in 0.0668 seconds