11 |
Étude du choix d'un modèle d'arborescence en régression logistique 4-nomiale selon l'effet de la valeur des paramètresStafford, Marie-Christine January 2008 (has links) (PDF)
Ce mémoire traite de modèles d'arborescences en régression logistique 4-nomiale pour rendre compte du cas où les résultats proviennent de séquences d'expérience multinomiales consécutives ou parallèles. Dans le premier chapitre, nous rappelons le modèle général de régression logistique multinomiale et présentons une méthode d'estimation individuelle des paramètres. Le chapitre suivant rapporte les recherches de Rousseau et Sankoff sur les modèles d'arborescences en régression logistique et présente du même coup le cadre dans lequel la présente étude s'inscrit.. Le troisième chapitre porte sur différents résultats qui caractérisent les paramètres pour lesquels certaines structures d'arborescences sont équivalentes. Finalement, le dernier chapitre présente une étude de simulations Monte-Carlo effectuée pour comprendre et mettre en évidence les facteurs influençant l'ordre (selon le maximum de vraisemblance) dans lequel les arborescences sont sélectionnées. Ces simulations ont permis d'identifier certains principes auxquels cet ordre obéit, selon la forme du vecteur des paramètres et la grandeur de ces derniers. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Régression logistique, Arborescences, Modèles réduits.
|
12 |
Évolution temporelle de la rétrodiffusion radar bande c, causée par l'humidité du sol et par les changements dans la morphologie du couvertDupont, Patrick January 1990 (has links)
Résumé : Les résultats d'une étude expérimentale sur les possibilités d'utilisation des systèmes radar dans l'évolution temporelle de l'humidité du sol sont présentés. Une campagne de terrain a été conduite durant tout un cycle de croissance sur un couvert de blé. Les mesures ont été obtenues à l'aide d'un diffusomètre radar à 5.17 GHz, en polarisation HH, pour six angles d'incidence. Les données incluent deux directions d'illumination, l'une parallèle à l'orientation des rangs (13=0°) et l'autre perpendiculaire (13=90°). Des analyses de régression et une analyse graphique de l'évolution temporelle de a° ont démontré que la conversion des données radar en valeur d'humidité du sol devient difficile lorsque le taux d'humidité se situe en deça d'un certain seuil (-20%). Il a été démontré également que les changements dans la morphologie de la plante peuvent causer des variations extrêmes des valeurs de rétrodiffusion et présenter de ce fait une ambiguïté dans l'interprétation de l'humidité du sol. ||Abstract : The results of experimental studies on the use of radar to mesure the temporal evolution of soil moisture are presented. An experiment was conducted using the FM microwave scatterometer of the Canada Centre for Remote Sensing. The radar measurements were made during all growing season at 5.17 GHz, HH polarization, and at six incidence angles. Two row aspects of the wheat fields were included, one parallel to the furrows (13=0°) and the other perpendicular (13=90°). Regression analysis followed by graphic analysis of the temporal evolution of a° show that for a certain range of soil moisture the temporal evolution is ambiguous. This occurs when soil moisture is relatively low, resulting in saturation of the radar backscatter. A positive inversion of the curve is observed when soil humidity is lower than a certain threshold 20%). Moreover it is shown that temporal plant morphology variations can cause extreme variations in the values of the scattering coefficient
|
13 |
Contribution à la classification de variables dans les modèles de régression en grande dimension / Contribution to variable clusteringin high dimensional linear regression modelsYengo, Loïc 28 May 2014 (has links)
Cette thèse propose une contribution originale au domaine de la classification de variables en régression linéaire. Cette contribution se base sur une modélisation hiérarchique des coefficients de régression. Cette modélisation permet de considérer ces derniers comme des variables aléatoires distribuées selon un mélange de lois Gaussiennes ayant des centres différents mais des variances égales. Nous montrons dans cette thèse que l'algorithme EM, communément utilisé pour estimer les paramètres d'un modèle hiérarchique ne peut s'appliquer. En effet, l'étape E de l'algorithme n'est pas explicite pour notre modèle.Nous avons donc proposé une approche plus efficace pour l'estimation des paramètres grâce à l'utilisation de l'algorithme SEM-Gibbs. En plus de cette amélioration computationnelle, nous avons introduit une contrainte dans le modèle pour permettre d'effectuer une sélection de variables simultanément. Notre modèle présente de très bonnes qualités prédictives relativement aux approches classiques pour la réduction de la dimension en régression linéaire. Cette thèse présente aussi une extension de notre méthodologie dans le cadre de la régression Probit pour données binaires. Notre modèle modèle a de plus été généralisé en relâchant l'hypothèse de l'égalité des variances pour les composantes du mélange Gaussien. Les performances de ce modèle généralisé ont été comparées à celles du modèle initial à travers différents scénarios de simulations. Ce travail de recherche a conduit au développement du package R clere. Ce dernier package met en œuvre tous les algorithmes décrits dans cette thèse. / We proposed in this thesis an original contribution to the field of variable clustering in linear regression through a model-based approach. This contribution was made via a hierarchical modeling of the regression coefficients as random variables drawn from a mixture of Gaussian distributions with equal variances. Parameter estimation in the proposed model was shown to be challenging since the classical EM algorithm could not apply. We then developped a more efficient algorithm for parameter estimation, through the use of the SEM-Gibbs algorithm. Along with this computational improvement, we also enhanced our model to allow variable selection. Given the good predictive performances of the CLERE method compared to standard techniques for dimension reduction, we considred an extension of the latter to binary response data. This extension was studied in the context of Probit regression. We generalized our model by relaxing the assumption of equal variance for the components in the mixture of Gaussians. The performances of this generalization were compared to those of the initial model under different scenarios on simulated data. This research led to the development of the R package clere which implements most of the algorithms described in this thesis.
|
14 |
Contribution to the statistical analysis of compositional data with an application to political economy / Contribuation à l'analyse statistique de données de composition avec une application à l'économie politiqueNguyen, Thi Huong An 14 October 2019 (has links)
L’objectif de cette thèse est d’étudier le résultat d’élections et l’impact des facteurs socio-économiques sur les parts de vote dans le système multipartite d’un point de vue mathématique. Les votes de l’élection départementale en France en 2015 forment un vecteur appelé composition. Ainsi, le modèle de régression classique ne peut pas être utilisé directement pour modéliser ces parts de vote en raison de contraintes de données de composition. Au chapitre 2, nous présentons un modèle de régression dans lequel la variable dépendante est une variable de composition et les variables explicatives contiennent à la fois des variables classiques et des variables de composition. Nous analysons les impacts des facteurs socio-économiques sur l’issue de l’élection en prédisant les parts de vote en fonction d’une variable explicative classique ou d’une variable explicative de composition. Quelques techniques graphiques sont également présentées. Néanmoins, il serait plus judicieux d’interpréter les coefficients du modèle de régression sur le simplexe. Par ailleurs, certains auteurs montrent que les données électorales présentent souvent un comportement extrême. Nous proposons donc de remplacer la distribution Normale par la distribution de Student. Cependant, il existe deux versions de la distribution Student : la distribution Student non corrélée (UT) et la distribution Independent Student(IT). Dans la troisième partie, nous présentons un résumé complet de la distribution Student, comprenant les distributions Student univariée et multivariée, IT et UT à degrés de liberté fixes. Nous prouvons que l’estimateur de maximum de vraisemblance de la matrice de covariance dans le modèle UT est asymptotiquement biaisé. Nous fournissons également un algorithme itératif repondéré pour calculer l’estimateur du maximum de vraisemblance du paramètre du modèle IT. Une simulation est fournie et certains tests de Kolmogorov – Smirnov basés sur la distance de Mahalanobis sont effectués pour sélectionner le bon modèle. Cependant, cela ne fonctionne pas pour le modèle UT en raison d’une seule réalisation de n observations de la distribution multivariée. Enfin, nous étudions l’hypothèse d’indépendance statistique entre unités territoriales, qui peut être mise en doute du fait de l’autocorrélation spatiale potentielle des données de composition. Nous développons un modèle autorégressif spatial simultané pour les données de composition qui permet à la fois la corrélation spatiale et les corrélations entre équations en utilisant des méthodes de moindres carrés à deux étages et à trois étages. Nous présentons une étude de simulation pour illustrer ces méthodes. Une application à un ensemble de données de l’élection départementale française de 2015 est également présentée. Il reste encore du travail à faire pour surmonter le problème des zéros dans les parts de vote. Ce problème est déjà présent pour les élections départementales françaises au niveau cantonal lorsque l’on regroupe les partis électoraux en trois catégories. Cela aurait été encore plus grave si l’on considérait les partis politiques d’origine sans agrégation. En outre, une autre direction consiste à examiner la distribution multivariée de Student pour le modèle spatial. / The objective of this thesis is to investigate the outcome of an election and the impacts of the socio-economics factors on the vote shares in the multiparty system from mathematical point of view. The vote shares of the departmental election in France in 2015 form a vector called composition. Thus, the classical regression model cannot be used directly to model these vote shares because of contraints of compositional data. In Chapter 2, we present a regression model in which the dependent variable is a compositional variable and the set of explanatory variables contains both classical variables and compositional variables. We analyze the impacts of socio-economic factors on the outcome of the election through predicting the vote shares according to either a classical explanatory variable or a compositional explanatory variable. Some graphical techniques are also presented. However, it would be more appreciated to interpret the coefficients of regression model on the simplex. Furthermore, some authors show that electoral data often exhibit heavy tail behavior. Thus, we propose to replace the Normal distribution by the Student distribution. However, there are two versions of the Student distribution: the uncorrelated Student(UT) distribution and the independent Student (IT) distribution. In Chapter 3, we present a complete summary for the Student distributions which includes the univariate and multivariate Student, the IT and the UT distribution with fixed degrees of freedom. We prove that the maximum likelihood estimator of the covariance matrix in the UTmodel is asymptotically biased. We also provide an iterative reweighted algorithm to compute the maximum likelihood estimator of parameter of the IT model. A simulation is provided and some Kolmogorov–Smirnov tests based on the Mahalanobis distance are carried out to select the right model. However, this does not work for the UT model because of a single realization of n observation of the multivariate distribution. In Chapter 4, we apply the multivariate Student (IT) regression model to our political economy data. We then compare this model to the multivariate Normal regression model. We also apply the Kolmogorov–Smirnov tests based on the Mahalanobis distance which is proposed in chapter 3 to select a better model. Finally, we investigate the assumption of statistical independence across territorial units which may be questionable due to potential spatial autocorrelation for compositional data. We develop a simultaneous spatial autoregressive model for compositional data which allows for both spatial correlation and correlations across equations by using two-stage and three-stage least squares methods. We present a simulation study to illustrate these methods. An application to a data set from the 2015 French departmental election are also showed. There is still work to continue in the direction of overcoming the problem of zeros in vote shares. This problem is already present for the departmental French elections at the canton level when aggregating the electoral parties in three categories. It would have been even more serious when considering the original political parties with no aggregation. Besides, another direction consists in considering the multivariate Student distribution for a spatial model.
|
15 |
Critère de validation croisée pour le choix des modèles des petits domaines au niveau des unitésPieugueu, Romanic 24 April 2018 (has links)
Ce mémoire s’intéresse à l’étude du critère de validation croisée pour le choix des modèles relatifs aux petits domaines. L’étude est limitée aux modèles de petits domaines au niveau des unités. Le modèle de base des petits domaines est introduit par Battese, Harter et Fuller en 1988. C’est un modèle de régression linéaire mixte avec une ordonnée à l’origine aléatoire. Il se compose d’un certain nombre de paramètres : le paramètre β de la partie fixe, la composante aléatoire et les variances relatives à l’erreur résiduelle. Le modèle de Battese et al. est utilisé pour prédire, lors d’une enquête, la moyenne d’une variable d’intérêt y dans chaque petit domaine en utilisant une variable auxiliaire administrative x connue sur toute la population. La méthode d’estimation consiste à utiliser une distribution normale, pour modéliser la composante résiduelle du modèle. La considération d’une dépendance résiduelle générale, c’est-à-dire autre que la loi normale donne une méthodologie plus flexible. Cette généralisation conduit à une nouvelle classe de modèles échangeables. En effet, la généralisation se situe au niveau de la modélisation de la dépendance résiduelle qui peut être soit normale (c’est le cas du modèle de Battese et al.) ou non-normale. L’objectif est de déterminer les paramètres propres aux petits domaines avec le plus de précision possible. Cet enjeu est lié au choix de la bonne dépendance résiduelle à utiliser dans le modèle. Le critère de validation croisée sera étudié à cet effet. / This thesis focuses on the study of a cross-validation criterion for the choice of models for small areas. The study is limited to models of small areas at the unit level. The standard model for this problem has been introduced by Battese, Harter and Fuller in 1988. It is a mixed linear regression model with random intercepts. Its consists of a number of parameters: β a regression parameter for the fixed part, the random component and the variances for the residual error. The model of Battese et al. is used to predict in the average of a study variable y in each small area using an administrative auxiliary variable x known throughout the population. The standard estimation method consists of using a normal distribution for modelling the experimental errors. The consideration of a non normal dependence gives more accurate estimates. This new model might lead to better prediction of the mean of y within small areas. Indeed, the generalization lies in modelling the residual dependency with a non normal exchangeable model. The model selection is an issue and this work investigates crossvalidationas a method to choose a model.
|
16 |
L'outil RBAC et la prédiction de la récidive criminelle : une analyse par l'intelligence artificielleBacon, Félix 04 June 2024 (has links)
L'objectif de la recherche est de fournir un cadre d'analyse supplémentaire aux commissaires à la libération conditionnelle de façon à mieux prédire la probabilité de récidives au Québec. Dans la recherche, nous travaillons avec plusieurs modèles d'intelligence artificielle dans le but de classer les détenus dans les prisons Québécoises. La classification est binaire, soit nous prédisons que le détenu a une probabilité élevée de commettre une récidive ; soit le cas contraire. Les évaluations réalisées sur les prisonniers sont au cœur de la recherche. Les documents remplis par les évaluateurs permettent d'établir un score basé sur la réponse aux questions. Au Québec, le nom de cette évaluation est le RBAC-PCQ et c'est celle-ci qui remplace son prédécesseur le LS-CMI. À l'aide de celle-ci, nous avons programmé plusieurs algorithmes ayant comme objectif de classifier les détenus. Grâce aux informations qui nous étaient fournies, nous avons commencé par établir la règle de décision générale permettant de reproduire la situation actuelle du Québec et nous l'avons ensuite comparé avec un modèle logistique de régression. Les résultats à ce stade démontraient une nette amélioration de la classification des détenus. Nous avons ensuite développé plusieurs modèles d'apprentissage machine afin d'approfondir la qualité de classification des détenus. Au final, l'analyse des modèles permet d'arriver à la conclusion que seulement 6 questions sont importantes pour établir la probabilité de récidive au Québec.
|
17 |
Les modèles de régression angulaireBach, Jessica 20 April 2018 (has links)
En statistique directionnelle, on utilise trois types de régression : des modèles angle-linéaire, linéaire-angle et angle-angle, selon la nature des données. Ainsi, si la variable explicative et la variable réponse sont des angles, la régression angle-angle permet d’expliquer la relation entre ces variables. Plusieurs modèles de régression ont été développés en statistique directionnelle. Trois d’entre eux font l’objet de ce mémoire : le prédicteur décentré de Rivest (1997), le modèle de Möbius de Downs & Mardia (2002) et la régression non paramétrique de Di Marzio et al. (2012). Des méthodes d’estimation sont mises de l’avant pour les paramètres de chacun de ces modèles. On compare les modèles entre eux à l’aide de simulations et d’exemples utilisant des données réelles. / For the analysis of directional data, there are three types of regression models: angular-linear, linear-angular and angular-angular. The type of regression depends on the nature of the data. Hence, if the explanatory variable and the response variable are angles, the angular-angular regression model can explain the relationship between these variables. Several models have been developed for this purpose and in this paper, three of these directional models are discussed: the decentred predictor of Rivest (1997), the Mobius model Downs & Mardia (2002) and the nonparametric regression of Di Marzio et al. (2012). Estimation procedures are highlighted for the parameters of each of these models. We compare the models together with simulations and examples using real data.
|
18 |
Moyennage bayésien de modèles de régression linéaire simpleDragomir, Elena Alice January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
19 |
Inférence statistique par lissage linéaire local pour une fonction de régression présentant des discontinuitésHamrouni, Zouhir 20 January 1999 (has links) (PDF)
Nous nous intéressons dans cette thèse à l'estimation, dans un cadre non paramétrique, d'une fonction de régression présentant des discontinuités et, plus précisément aux pro\-blè\-mes de détection de ruptures, d'estimation des paramètres de rupture (nombre, localisations, amplitudes) et de segmentation de la fonction de régression (reconstitution de la fonction). La méthode utilisée est basée sur les propriétés du processsus de saut estimé, $\hat(\gamma)(t)$, défini en tout $t$ comme la différence entre un estimateur à droite et un estimateur à gauche, ces estimateurs étant obtenus régression linéaire locale.\par Dans un premier temps, nous considérons la situation d'une seule discontinuité et étudions les propriétés de l'estimateur de l'amplitude de la discontinuité lorsque la localisation est connue. Nous donnons l'expression de l'erreur quadratique moyenne asymptotique et montrons la convergence et la normalité asymptotique de l'estimateur. Lorsque la localisation $\tau$ n'est pas connue, nous construisons un estimateur de $\tau$ à l'aide du processus de déviation locale associé à $\hat(\gamma)(t)$ et montrons que cet estimateur converge avec une vitesse en $n^(-1)$ ou arbitrairement proche de $n^(-1)$ selon le noyau utilisé. Nous proposons ensuite trois tests d'existence d'une rupture : un test strictement local, un test local et un test global, tous trois définis en terme d'une statistique construite à l'aide du processus de saut estimé. Concernant le problème d'estimation du nombre de ruptures nous élaborons une procédure permettant à la fois d'estimer le nombre $p$ de ruptures et les localisations $\tau_1,\dots,\tau_p$. Nous montrons la convergence presque sûre de ces estimateurs et donnons aussi des résultats sur les vitesses de convergence. Enfin nous proposons une méthode de reconstitution d'une fonction de régression présentant des discontinuités basée sur la segmentation des observations. Nous montrons qu'en utilisant la procédure d'estimation du nombre de ruptures et des localisations développée auparavant, nous obtenons un estimateur de la fonction de régression qui a la même vitesse de convergence qu'en l'absence de ruptures. Des expérimentations numériques sont fournies pour chacun des problèmes étudiés de manière à mettre en évidence les propriétés des procédures étudiées et leur sensibilité aux divers paramètres.
|
20 |
Réduction de la dimension en régression / Dimension reduction in regressionPortier, François 02 July 2013 (has links)
Dans cette thèse, nous étudions le problème de réduction de la dimension dans le cadre du modèle de régression suivant Y=g(B X,e), où X est un vecteur de dimension p, Y appartient à R, la fonction g est inconnue et le bruit e est indépendant de X. Nous nous intéressons à l'estimation de la matrice B, de taille dxp où d est plus petit que p, (dont la connaissance permet d'obtenir de bonnes vitesses de convergence pour l'estimation de g). Ce problème est traité en utilisant deux approches distinctes. La première, appelée régression inverse nécessite la condition de linéarité sur X. La seconde, appelée semi-paramétrique ne requiert pas une telle condition mais seulement que X possède une densité lisse. Dans le cadre de la régression inverse, nous étudions deux familles de méthodes respectivement basées sur E[X f(Y)] et E[XX^T f(Y)]. Pour chacune de ces familles, nous obtenons les conditions sur f permettant une estimation exhaustive de B, aussi nous calculons la fonction f optimale par minimisation de la variance asymptotique. Dans le cadre de l'approche semi-paramétrique, nous proposons une méthode permettant l'estimation du gradient de la fonction de régression. Sous des hypothèses semi-paramétriques classiques, nous montrons la normalité asymptotique de notre estimateur et l'exhaustivité de l'estimation de B. Quel que soit l'approche considérée, une question fondamentale est soulevée : comment choisir la dimension de B ? Pour cela, nous proposons une méthode d'estimation du rang d'une matrice par test d'hypothèse bootstrap. / In this thesis, we study the problem of dimension reduction through the following regression model Y=g(BX,e), where X is a p dimensional vector, Y belongs to R, the function g is unknown and the noise e is independent of X. We are interested in the estimation of the matrix B, with dimension d times p where d is smaller than p (whose knowledge provides good convergence rates for the estimation of g). This problem is processed according to two different approaches. The first one, called the inverse regression, needs the linearity condition on X. The second one, called semiparametric, do not require such an assumption but only that X has a smooth density. In the context of inverse regression, we focus on two families of methods respectively based on E[X f(Y)] and E[XX^T f(Y)]. For both families, we provide conditions on f that allow an exhaustive estimation of B, and also we compute the better function f by minimizing the asymptotic variance. In the semiparametric context, we give a method for the estimation of the gradient of the regression function. Under some classical semiparametric assumptions, we show the root n consistency of our estimator, the exhaustivity of the estimation and the convergence in the processes space. Within each point, an important question is raised : how to choose the dimension of B ? For this we propose a method that estimates of the rank of a matrix by bootstrap hypothesis testing.
|
Page generated in 0.058 seconds