Global ETD Search

131	Non- and semiparametric models for conditional probabilities in two-way contingency tables / Modèles non-paramétriques et semiparamétriques pour les probabilités conditionnelles dans les tables de contingence à deux entrées Geenens, Gery 04 July 2008 (has links) This thesis is mainly concerned with the estimation of conditional probabilities in two-way contingency tables, that is probabilities of type P(R=i,S=j\|X=x), for (i,j) in {1, . . . , r}×{1, . . . , s}, where R and S are the two categorical variables forming the contingency table, with r and s levels respectively, and X is a vector of explanatory variables possibly associated with R, S, or both. Analyzing such a conditional distribution is often of interest, as this allows to go further than the usual unconditional study of the behavior of the variables R and S. First, one can check an eventual effect of these covariates on the distribution of the individuals through the cells of the table, and second, one can carry out usual analyses of contingency tables, such as independence tests, taking into account, and removing in some sense, this effect. This helps for instance to identify the external factors which could be responsible for an eventual association between R and S. This also gives the possibility to adapt for a possible heterogeneity in the population of interest, when analyzing the table. Chi-square test Conditional independence Likelihood-ratio test Régression non-paramétrique Régression semiparamétrique Nonparametric regression Indépendence conditionnelle Test du rapport de vraisemblance Test du chi-carré Semiparametric regression Single-index model
132	Contribution à la modélisation de la qualité de l'orge et du malt pour la maîtrise du procédé de maltage / Modeling contribution of barley and malt quality for the malting process control Ajib, Budour 18 December 2013 (has links) Dans un marché en permanente progression et pour répondre aux besoins des brasseurs en malt de qualité, la maîtrise du procédé de maltage est indispensable. La qualité du malt est fortement dépendante des conditions opératoires, en particulier des conditions de trempe, mais également de la qualité de la matière première : l'orge. Dans cette étude, nous avons établi des modèles polynomiaux qui mettent en relation les conditions opératoires et la qualité du malt. Ces modèles ont été couplés à nos algorithmes génétiques et nous ont permis de déterminer les conditions optimales de maltage, soit pour atteindre une qualité ciblée de malt (friabilité), soit pour permettre un maltage à faible teneur en eau (pour réduire la consommation en eau et maîtriser les coûts environnementaux de production) tout en conservant une qualité acceptable de malt. Cependant, la variabilité de la matière première est un facteur limitant de notre approche. Les modèles établis sont en effet très sensibles à l'espèce d'orge (printemps, hiver) ou encore à la variété d'orge utilisée. Les modèles sont surtout très dépendants de l'année de récolte. Les variations observées sur les propriétés d'une année de récolte à une autre sont mal caractérisées et ne sont donc pas intégrées dans nos modèles. Elles empêchent ainsi de capitaliser l'information expérimentale au cours du temps. Certaines propriétés structurelles de l'orge (porosité, dureté) ont été envisagées comme nouveaux facteurs pour mieux caractériser la matière première mais ils n'ont pas permis d'expliquer les variations observés en malterie.Afin de caractériser la matière première, 394 échantillons d'orge issus de 3 années de récolte différentes 2009-2010-2011 ont été analysés par spectroscopie MIR. Les analyses ACP ont confirmé l'effet notable des années de récolte, des espèces, des variétés voire des lieux de culture sur les propriétés de l'orge. Une régression PLS a permis, pour certaines années et pour certaines espèces, de prédire les teneurs en protéines et en béta-glucanes de l'orge à partir des spectres MIR. Cependant, ces résultats, pourtant prometteurs, se heurtent toujours à la variabilité. Ces nouveaux modèles PLS peuvent toutefois être exploités pour mettre en place des stratégies de pilotage du procédé de maltage à partir de mesures spectroscopiques MIR / In a continuously growing market and in order to meet the needs of Brewers in high quality malt, control of the malting process is a great challenge. Malt quality is highly dependent on the malting process operating conditions, especially on the steeping conditions, but also the quality of the raw material: barley. In this study, we established polynomial models that relate the operating conditions and the malt quality. These models have been coupled with our genetic algorithms to determine the optimal steeping conditions, either to obtain a targeted quality of malt (friability), or to allow a malting at low water content while maintaining acceptable quality of malt (to reduce water consumption and control the environmental costs of malt production). However, the variability of the raw material is a limiting factor for our approach. Established models are very sensitive to the species (spring and winter barley) or to the barley variety. The models are especially highly dependent on the crop year. Variations on the properties of a crop from one to another year are poorly characterized and are not incorporated in our models. They thus prevent us to capitalize experimental information over time. Some structural properties of barley (porosity, hardness) were considered as new factors to better characterize barley but they did not explain the observed variations.To characterize barley, 394 samples from 3 years of different crops 2009-2010-2011 were analysed by MIR spectroscopy. ACP analyses have confirmed the significant effect of the crop-years, species, varieties and sometimes of places of harvest on the properties of barley. A PLS regression allowed, for some years and for some species, to predict content of protein and beta-glucans of barley using MIR spectra. These results thus still face product variability, however, these new PLS models are very promising and could be exploited to implement control strategies in malting process using MIR spectroscopic measurements Orge Maltage Moyen infrarouge spectroscopie (MIR) Régression multiliniaiare (MLR) Barley Malting Middle infrared spectroscopy (MIR) Multilinear regression (MLR) Principal component analysis (PCA) Partial least square regression (PLS)
133	Contributions à la réduction de dimension Kuentz, Vanessa 20 November 2009 (has links) Cette thèse est consacrée au problème de la réduction de dimension. Cette thématique centrale en Statistique vise à rechercher des sous-espaces de faibles dimensions tout en minimisant la perte d'information contenue dans les données. Tout d'abord, nous nous intéressons à des méthodes de statistique multidimensionnelle dans le cas de variables qualitatives. Nous abordons la question de la rotation en Analyse des Correspondances Multiples (ACM). Nous définissons l'expression analytique de l'angle de rotation planaire optimal pour le critère de rotation choisi. Lorsque le nombre de composantes principales retenues est supérieur à deux, nous utilisons un algorithme de rotations planaires successives de paires de facteurs. Nous proposons également différents algorithmes de classification de variables qualitatives qui visent à optimiser un critère de partitionnement basé sur la notion de rapports de corrélation. Un jeu de données réelles illustre les intérêts pratiques de la rotation en ACM et permet de comparer empiriquement les différents algorithmes de classification de variables qualitatives proposés. Puis nous considérons un modèle de régression semiparamétrique, plus précisément nous nous intéressons à la méthode de régression inverse par tranchage (SIR pour Sliced Inverse Regression). Nous développons une approche basée sur un partitionnement de l'espace des covariables, qui est utilisable lorsque la condition fondamentale de linéarité de la variable explicative est violée. Une seconde adaptation, utilisant le bootstrap, est proposée afin d'améliorer l'estimation de la base du sous-espace de réduction de dimension. Des résultats asymptotiques sont donnés et une étude sur des données simulées démontre la supériorité des approches proposées. Enfin les différentes applications et collaborations interdisciplinaires réalisées durant la thèse sont décrites. / This thesis concentrates on dimension reduction approaches, that seek for lower dimensional subspaces minimizing the lost of statistical information. First we focus on multivariate analysis for categorical data. The rotation problem in Multiple Correspondence Analysis (MCA) is treated. We give the analytic expression of the optimal angle of planar rotation for the chosen criterion. If more than two principal components are to be retained, this planar solution is used in a practical algorithm applying successive pairwise planar rotations. Different algorithms for the clustering of categorical variables are also proposed to maximize a given partitioning criterion based on correlation ratios. A real data application highlights the benefits of using rotation in MCA and provides an empirical comparison of the proposed algorithms for categorical variable clustering. Then we study the semiparametric regression method SIR (Sliced Inverse Regression). We propose an extension based on the partitioning of the predictor space that can be used when the crucial linearity condition of the predictor is not verified. We also introduce bagging versions of SIR to improve the estimation of the basis of the dimension reduction subspace. Asymptotic properties of the estimators are obtained and a simulation study shows the good numerical behaviour of the proposed methods. Finally applied multivariate data analysis on various areas is described. Statistique multidimensionnelle Données qualitatives Rotation Classification de variables Régression semiparamétrique Condition de linéarité Bootstrap
134	Contrôle des fausses découvertes lors de la sélection de variables en grande dimension / Control of false discoveries in high-dimensional variable selection Bécu, Jean-Michel 10 March 2016 (has links) Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. / In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection. Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches
135	Relation entre tableaux de données : exploration et prédiction / Relating datasets : exploration and prediction El Ghaziri, Angélina 20 October 2016 (has links) La recherche développée dans le cadre de cette thèse aborde différents aspects relevant de l’analyse statistique de données. Dans un premier temps, une analyse de trois indices d’associations entre deux tableaux de données est développée. Par la suite, des stratégies d’analyse liées à la standardisation de tableaux de données avec des applications en analyse en composantes principales (ACP) et en régression, notamment la régression PLS sont présentées. La première stratégie consiste à proposer une standardisation continuum des variables. Une standardisation plus générale est aussi abordée consistant à réduire de manière graduelle non seulement les variances des variables mais également les corrélations entre ces variables. De là, une approche continuum de régression a été élaborée regroupant l’analyse des redondances et la régression PLS. Par ailleurs, cette dernière standardisation a inspiré une démarche de régression biaisée dans le cadre de régression linéaire multiple. Les propriétés d’une telle démarche sont étudiées et les résultats sont comparés à ceux de la régression Ridge. Dans le cadre de l’analyse de plusieurs tableaux de données, une extension de la méthode ComDim pour la situation de K+1 tableaux est développée. Les propriétés de cette méthode, appelée P-ComDim, sont étudiées et comparées à celles de Multiblock PLS. Enfin, la situation où il s’agit d’évaluer l’effet de plusieurs facteurs sur des données multivariées est considérée et une nouvelle stratégie d’analyse est proposée. / The research developed in this thesis deals with several statistical aspects for analyzing datasets. Firstly, investigations of the properties of several association indices commonly used by practitioners are undergone. Secondly, different strategies related to the standardization of the datasets with application to principal component analysis (PCA) and regression, especially PLS-regression were developed. The first strategy consists of a continuum standardization of the variables. The interest of such standardization in PCA and PLS-regression is emphasized.A more general standardization is also discussed which consists in reducing gradually not only the variances of the variables but also their correlations. Thereafter, a continuum approach was developed combining Redundancy Analysis and PLS-regression. Moreover, this new standardization inspired a biased regression model in multiple linear regression. Properties related to this approach are studied and the results are compared on the basis of case studies with those of Ridge regression. In the context of the analysis of several datasets in an exploratory perspective, the method called ComDim, has certainly raised interest among practitioners. An extension of this method for the analysis of K+1 datasets was developed. Properties related to this method, called P-ComDim, are studied and compared to Multiblock PLS. Finally, for the analysis of datasets depending on several factors, a new approach based on PLS regression is proposed. Comparaison de deux tableaux Tableaux multiples Régression PLS ComDim Analyse des Redondances Régression biaisée Analyse en Composante Principale Comparison between two datasets Multi-Blocks datasets PLS-Regression ComDim Redundancy Analysis Biased regression Principal Component Analysis
136	Quelques contributions en classification, régression et étude d'un problème inverse en finance Monnier, Jean-Baptiste 06 December 2011 (has links) (PDF) On s'intéresse aux problèmes de régression, classification et à un problème inverse en finance. Nous abordons dans un premier temps le problème de régression en design aléatoire à valeurs dans un espace euclidien et dont la loi admet une densité inconnue. Nous montrons qu'il est possible d'élaborer une stratégie d'estimation optimale par projections localisées sur une analyse multi-résolution. Cette méthode originale offre un avantage calculatoire sur les méthodes d'estimation à noyau traditionnellement utilisées dans un tel contexte. On montre par la même occasion que le classifieur plug-in construit sur cette nouvelle procédure est optimal. De plus, il hérite des avantages calculatoires mentionnés plus haut, ce qui s'avère être un atout crucial dans de nombreuses applications. On se tourne ensuite vers le problème de régression en design aléatoire uniformément distribué sur l'hyper-sphère et on montre comment le tight frame de needlets permet de généraliser les méthodes traditionnelles de régression en ondelettes à ce nouveau contexte. On s'intéresse finalement au problème d'estimation de la densité risque-neutre à partir des prix d'options cotés sur les marchés. On exhibe une décomposition en valeurs singulières explicite d'opérateurs de prix restreints et on montre qu'elle permet d'élaborer une méthode d'estimation de la densité risque-neutre qui repose sur la résolution d'un simple programme quadratique. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory Classification binaire supervisée Régression en design aléatoire Analyse multi-résolution Ondelettes Régression sur l'hyper-sphère Needlets Problème inverse Décomposition en valeurs singulières Programmation quadratique
137	Semiparametric estimation for extreme values Bouquiaux, Christel 05 September 2005 (has links) Nous appliquons la théorie asymptotique des expériences statistiques à des problèmes liés aux valeurs extrêmes. Quatre modèles semi-paramétriques sont envisagés. Tout d'abord le modèle d'échantillonnage de fonction de répartition de type Pareto. L'index de Pareto est le paramètre d'intérêt tandis que la fonction à variation lente, qui intervient dans la décomposition de la fonction de survie, joue le rôle de nuisance. Nous considérons ensuite des observations i.i.d. de fonction de répartition de type Weibull. Le troisième modèle étudié est un modèle de régression. On considère des couples d'observations $(Y_i,X_i)$ indépendants, les v.a. $X_i$ sont i.i.d. de loi connue et on suppose que la fonction de répartition de la loi de $Y$ conditionnellement à $X$ est de type Pareto, avec une fonction à variation lente et un index $gamma$ qui dépendent de $X$. On fait l'hypothèse que la fonction $gamma$ a une forme quelconque mais connue, qui dépend d'un paramètre $\ / Doctorat en sciences, Orientation statistique / info:eu-repo/semantics/nonPublished Mathématiques Asymptotic expansions Extreme value theory Regression analysis -- Asymptotic theory Weibull distribution Développements asymptotiques Valeurs extrêmes, Théorie des Weibull, Loi de modèle linéaire Weibull modèle de régression Pareto LAN
138	Prédictions génomiques des interactions Génotype x Environnement à l'aide d'indicateurs agro-climatiques chez le blé tendre (Triticum aestivum L.) / Genomic Predictions of Genotype x Environment interactions using weather data in wheat (Triticum aestivum L.) Ly, Delphine 25 January 2016 (has links) Un des principaux enjeux de l’amélioration des plantes consiste aujourd’hui à faire face au changement climatique, en assurant un rendement élevé et plus stable dans des systèmes agricoles économes en intrants (eau, fertilisants) et respectueux de l’environnement. Les nouvelles variétés de blé devront non seulement être tolérantes aux stress hydriques et aux fortes températures, mais aussi continuer à être productives avec des apports limités en fertilisation, tout en maintenant une qualité du grain adaptés aux différents usages. De nouvelles méthodes de prédiction des réponses des blés à ces stress sont indispensables pour avancer dans cette direction. Dans ce travail, nous avons tout d’abord identifié les stress qui régissaient les interactions entre génotypes et les environnements (GxE) dans les essais considérés, puis développé un modèle génomique de l’adaptation à un stress environnemental (Factorial Regression genomic Best Linear Unbiased Prediction ou FR-gBLUP), en particulier pour le stress hydrique. En émettant l’hypothèse que plus des variétés de blés sont génétiquement proches, plus elles répondront de façon similaire à un stress environnemental donné, nous avons mesuré par validation croisée des gains de précision de prédiction par rapport à un modèle additif variant entre 3.5% et 15.4%. Des simulations complètent l’étude en démontrant que plus la part de variance expliquée par les réponses au stress considéré est importante, plus le modèle FR-gBLUP apporte un gain de précision. Pour prédire les réponses variétales à un stress particulier, les environnements doivent être finement caractérisés pour les stress limitant le développement des plantes. En nous intéressant plus particulièrement au stress azoté en France, nous avons établi des indicateurs de stress à partir d’un modèle de culture, et les avons comparés à des indicateurs classiques, tels que le type de conduite azotée ou l’azote disponible. Nous avons ainsi mis en évidence l’intérêt des modèles de culture pour caractériser les interactions GxE et pour prédire la réponse génomique au stress azoté, à condition que le signal d’interaction soit assez fort. Au-delà de l’application potentielle de ces méthodes pour la sélection ou la recommandation de variétés de blés plus adaptées ou plus résistantes au changement climatique, les résultats de ce travail démontrent aussi l’intérêt de la complémentarité des approches éco-physiologiques et génétiques. / In a climate change context, assuring high and stable yield in more sustainable agricultural systems is a major challenge for plant breeding. We are aiming for future wheat varieties which will be heat and drought tolerant, and also productive in limited fertilization input environments. New prediction methods of the response to these stresses are needed to move forward. In this study, we first identified stresses that generated interactions between genotypes and environments (GxE) in our experimental trials and then developed a genomic model for adaptation to a particular environmental stress (Factorial Regression genomic Best Linear Unbiased Prediction ou FR-gBLUP), in our case drought. This model hypothesizes that the more individuals are genetically close, the more their response to a stress will resemble. We used cross-validations to measure prediction accuracy gains compared to an additive model and observed gains between 3.5% and 15.4%. Besides, simulation studies showed that the more the variance explained by the responses to the stress is important, the more the FR-gBLUP model will improve the additive model. Furthermore, fine characterization of the stresses limiting the plants’ growth is required to predict varietal responses to a particular stress. We focused on the particular case of nitrogen stress in France. By establishing crop model based stress indicators and comparing them to classical indicators, such as the management system or the available nitrogen, we pointed out the interest of crop model to characterize GxE interactions and to predict the genomic response to nitrogen stress, as long as the GxE interaction signal is strong enough. Beyond the potential applications of these methods for breeding or recommendation for varieties more adapted or tolerant to environmental stresses, this study also raises the interest of coupling eco-physiological and genetics approaches. Interaction génotype x environnement Prédiction génomique Stress abiotique Régression factorielle Régression aléatoire Modèle de culture Caractérisation environnementale Genotype x environment interaction Genomic prediction Abiotic stress Factorial regression Random regression Crop model Environmental characterization
139	Estimation de fonctions de régression : sélection d'estimateurs ridge, étude de la procédure PLS1 et applications à la modélisation de la signature génique du cancer du poumon / Estimation of regression functions : ridge estimators selection, study of PLS1 procedure and applications on modelling the genetic signature of lung cancer Binard, Carole 04 May 2016 (has links) Cette thèse porte sur l’estimation d'une fonction de régression fournissant la meilleure relation entredes variables pour lesquelles on possède un certain nombre d’observations. Une première partie portesur une étude par simulation de deux méthodes automatiques de sélection du paramètre de laprocédure d'estimation ridge. D'un point de vue plus théorique, on présente et compare ensuite deuxméthodes de sélection d'un multiparamètre intervenant dans une procédure d'estimation d'unefonction de régression sur l'intervalle [0,1]. Dans une deuxième partie, on étudie la qualité del'estimateur PLS1, d'un point de vue théorique, à travers son risque quadratique et, plus précisément,le terme de variance dans la décomposition biais/variance de ce risque. Enfin, dans une troisièmepartie, une étude statistique sur données réelles est menée afin de mieux comprendre la signaturegénique de cellules cancéreuses à partir de la signature génique des sous-types cellulaires constituantle stroma tumoral associé / This thesis deals with the estimation of a regression function providing the best relationship betweenvariables for which we have some observations. In a first part, we complete a simulation study fortwo automatic selection methods of the ridge parameter. From a more theoretical point of view, wethen present and compare two selection methods of a multiparameter, that is used in an estimationprocedure of a regression function on [0,1]. In a second part, we study the quality of the PLS1estimator through its quadratic risk and, more precisely, the variance term in its bias/variancedecomposition. In a third part, a statistical study is carried out in order to explain the geneticsignature of cancer cells thanks to the genetic signatures of cellular subtypes which compose theassociated tumor stroma Estimateurs ridge par morceaux Fonction de régression Microdissection biologique in silico Procédure PLS Régression ridge Risque quadratique Sélection d'estimateurs Signature génique Simulations Piecewise ridge estimators Regression fuction In silico bilogical microdissection PLS1 procedure Ridge regression Quadratic risk Estimator selection Genetic signature Simulations
140	Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires Bailly, Kévin 09 July 2010 (has links) (PDF) Cette thèse s'inscrit dans le cadre de PILE, un projet médical d'analyse du regard, des gestes, et des productions vocales d'enfants en bas âge. Dans ce contexte, nous avons conçu et développé des méthodes de détermination de l'orientation de la tête, pierre angulaire des systèmes d'estimation de la direction du regard. D'un point de vue méthodologique, nous avons proposé BISAR (Boosted Input Selection Algorithm for Regression), une méthode de sélection de caractéristiques adaptée aux problèmes de régression. Elle consiste à sélectionner itérativement les entrées d'un réseau de neurones incrémental. Chaque entrée est associée à un descripteur sélectionné à l'aide d'un critère original qui mesure la dépendance fonctionnelle entre un descripteur et les valeurs à prédire. La complémentarité des descripteurs est assurée par un processus de boosting qui modifie, à chaque itération, la distribution des poids associés aux exemples d'apprentissage. Cet algorithme a été validé expérimentalement au travers de deux méthodes d'estimation de la pose de la tête. La première approche apprend directement la relation entre l'apparence d'un visage et sa pose. La seconde aligne un modèle de visage dans une image, puis estime géométriquement l'orientation de ce modèle. Le processus d'alignement repose sur une fonction de coût qui évalue la qualité de l'alignement. Cette fonction est apprise par BISAR à partir d'exemples de modèles plus ou moins bien alignés. Les évaluations de ces méthodes ont donné des résultats équivalents ou supérieurs aux méthodes de l'état de l'art sur différentes bases présentant de fortes variations de pose, d'identité, d'illumination et de conditions de prise de vues. pose de la tête modèle déformable alignement sélection de descripteurs régression réseau de neurones incrémental apprentissage automatique boosting

Search results