Global ETD Search

91	Modèles à variables latentes pour des données issues de tiling arrays. Applications aux expériences de ChIP-chip et de transcriptome. Bérard, Caroline 30 November 2011 (has links) (PDF) Les puces tiling arrays sont des puces à haute densité permettant l'exploration des génomes à grande échelle. Elles sont impliquées dans l'étude de l'expression des gènes et de la détection de nouveaux transcrits grâce aux expériences de transcriptome, ainsi que dans l'étude des mécanismes de régulation de l'expression des gènes grâce aux expériences de ChIP-chip. Dans l'objectif d'analyser des données de ChIP-chip et de transcriptome, nous proposons une modélisation fondée sur les modèles à variables latentes, en particulier les modèles de Markov cachés, qui sont des méthodes usuelles de classification non-supervisée. Les caractéristiques biologiques du signal issu des puces tiling arrays telles que la dépendance spatiale des observations le long du génome et l'annotation structurale sont intégrées dans la modélisation. D'autre part, les modèles sont adaptés en fonction de la question biologique et une modélisation est proposée pour chaque type d'expériences. Nous proposons un mélange de régressions pour la comparaison de deux échantillons dont l'un peut être considéré comme un échantillon de référence (ChIP-chip), ainsi qu'un modèle gaussien bidimensionnel avec des contraintes sur la matrice de variance lorsque les deux échantillons jouent des rôles symétriques (transcriptome). Enfin, une modélisation semi-paramétrique autorisant des distributions plus flexibles pour la loi d'émission est envisagée. Dans un objectif de classification, nous proposons un contrôle de faux-positifs dans le cas d'une classification à deux groupes et pour des observations indépendantes. Puis, nous nous intéressons à la classification d'un ensemble d'observations constituant une région d'intérêt, telle que les gènes. Les différents modèles sont illustrés sur des jeux de données réelles de ChIP-chip et de transcriptome issus d'une puce NimbleGen couvrant le génome entier d'Arabidopsis thaliana. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Classification non supervisée HMM Tiling arrays
92	Tests d’hypothèses statistiquement et algorithmiquement efficaces de similarité et de dépendance / Statistically and computationally efficient hypothesis tests for similarity and dependency Bounliphone, Wacha 30 January 2017 (has links) Cette thèse présente de nouveaux tests d’hypothèses statistiques efficaces pour la relative similarité et dépendance, et l’estimation de la matrice de précision. La principale méthodologie adoptée dans cette thèse est la classe des estimateurs U-statistiques.Le premier test statistique porte sur les tests de relative similarité appliqués au problème de la sélection de modèles. Les modèles génératifs probabilistes fournissent un cadre puissant pour représenter les données. La sélection de modèles dans ce contexte génératif peut être difficile. Pour résoudre ce problème, nous proposons un nouveau test d’hypothèse non paramétrique de relative similarité et testons si un premier modèle candidat génère un échantillon de données significativement plus proche d’un ensemble de validation de référence.La deuxième test d’hypothèse statistique non paramétrique est pour la relative dépendance. En présence de dépendances multiples, les méthodes existantes ne répondent qu’indirectement à la question de la relative dépendance. Or, savoir si une dépendance est plus forte qu’une autre est important pour la prise de décision. Nous présentons un test statistique qui détermine si une variable dépend beaucoup plus d’une première variable cible ou d’une seconde variable.Enfin, une nouvelle méthode de découverte de structure dans un modèle graphique est proposée. En partant du fait que les zéros d’une matrice de précision représentent les indépendances conditionnelles, nous développons un nouveau test statistique qui estime une borne pour une entrée de la matrice de précision. Les méthodes existantes de découverte de structure font généralement des hypothèses restrictives de distributions gaussiennes ou parcimonieuses qui ne correspondent pas forcément à l’étude de données réelles. Nous introduisons ici un nouveau test utilisant les propriétés des U-statistics appliqués à la matrice de covariance, et en déduisons une borne sur la matrice de précision. / The dissertation presents novel statistically and computationally efficient hypothesis tests for relative similarity and dependency, and precision matrix estimation. The key methodology adopted in this thesis is the class of U-statistic estimators. The class of U-statistics results in a minimum-variance unbiased estimation of a parameter.The first part of the thesis focuses on relative similarity tests applied to the problem of model selection. Probabilistic generative models provide a powerful framework for representing data. Model selection in this generative setting can be challenging. To address this issue, we provide a novel non-parametric hypothesis test of relative similarity and test whether a first candidate model generates a data sample significantly closer to a reference validation set.Subsequently, the second part of the thesis focuses on developing a novel non-parametric statistical hypothesis test for relative dependency. Tests of dependence are important tools in statistical analysis, and several canonical tests for the existence of dependence have been developed in the literature. However, the question of whether there exist dependencies is secondary. The determination of whether one dependence is stronger than another is frequently necessary for decision making. We present a statistical test which determine whether one variables is significantly more dependent on a first target variable or a second.Finally, a novel method for structure discovery in a graphical model is proposed. Making use of a result that zeros of a precision matrix can encode conditional independencies, we develop a test that estimates and bounds an entry of the precision matrix. Methods for structure discovery in the literature typically make restrictive distributional (e.g. Gaussian) or sparsity assumptions that may not apply to a data sample of interest. Consequently, we derive a new test that makes use of results for U-statistics and applies them to the covariance matrix, which then implies a bound on the precision matrix. U-statistiques Tests d’hypothèses statistiques Dépendance Similarité Méthodes à noyau U-statistics Hypothesis testing Dependency Similarity Kernel methods
93	Modélisation asymétrique de titres financiers Jbili, Walid 13 April 2018 (has links) La théorie de Markowitz a toujours été au centre de la théorie de gestion de portefeuilles. Cependant, elle est l'objet de plusieurs critiques. Dans ce mémoire, on se propose de revoir certains postulats de la théorie de Markowitz. L'approche que préconise ce mémoire est de modéliser le portefeuille dans sa globalité au lieu des titres individuels. Cette approche vise à identifier une loi s'ajustant aux rendements (ou à une transformation puissance des rendements) des portefeuilles. L'identification de la loi s'appuiera sur des portefeuilles simulés et d'autres réels. Plusieurs méthodes seront exploitées pour identifier et vérifier l'adéquation de cette loi. QA 3.5 UL 2008 J42
94	Comparaisons multidimensionnelles de bien-être et de pauvreté : méthodes, inférence et applications Maweki Batana, Yélé 13 April 2018 (has links) L'objectif de cette thèse est de proposer une démarche statistique adéquate pour réaliser des comparaisons robustes en bien-être lorsqu'on traite de distributions multivariées. Après une revue critique des inférences statistiques basées sur des hypothèses composites, la formulation de type intersection-union a été retenue pour établir des comparaisons robustes et univoques en termes de dominance stricte. Davidson et Duclos (2006) proposent dans ce sens, une méthode basée sur le ratio de vraisemblance empirique pour tester la dominance stochastique dans le contexte de distributions univariées. Cette méthode est étendue ici aux distributions multivariées, ce qui, dans le cadre de l'analyse de la pauvreté et du bien-être, concorde avec l'évolution récente de la littérature qui favorise l'usage de plusieurs dimensions pour étudier la répartition du bien-être. Un premier exercice consiste à analyser les performances de la démarche proposée dans le contexte bidimensionnel. La démarche, basée sur la maximisation d'une fonction de vraisemblance empirique, teste l'hypothèse nulle de non dominance contre l'alternative de dominance. La statistique de test est pivotale, ce qui permet de réaliser des tests de bootstrap. Des simulations de Monte Carlo permettent d'étudier le niveau et la puissance des tests. Une fois les performances du test jugées acceptables, des applications sont réalisées pour analyser* les relations de dominance stochastique en pauvreté entre quelques pays africains. Pour définir les distributions, les deux dimensions considérées sont le statut nutritionnel et un indice de richesse estimé par les méthodes d'analyse factorielle à partir de données EDS (Enquêtes démographie et santé). Un troisième volet consiste à considérer le cas où l'une des deux dimensions de la distribution est une variable discrète. L'on teste alors des relations de dominance stochastique séquentielle en bien-être et en pauvreté, en utilisant une démarche statistique analogue à celle du chapitre précédent. Enfin, un dernier exercice analyse le phénomène de la mobilité qui constitue un aspect dynamique de la distribution de bien-être. Des conditions de dominance stochastique en mobilité au premier et au second ordre sont dérivées et des tests sont à nouveau réalisés sous l'hypothèse nulle de non dominance contre l'alternative de dominance. L'application est faite à partir des données américaines du PSID (Panel Studies of Income Dynamics). HB 31.5 UL 2008 M462 Bien-être -- Méthodes statistiques Pauvreté -- Méthodes statistiques Pauvreté -- Mesure Économie du bien-être
95	The evolution of hourly compensation in Canada between 1980 and 2010 Pellerin, Mathieu 23 April 2018 (has links) Nous étudions l’évolution des salaires horaires au Canada au cours des trois dernières décennies à l’aide de données confidentielles du recensement et de l’Enquête nationale sur les ménages. Nous trouvons que le coefficient de variation des salaires chez les travailleurs à temps plein a presque doublé entre 1980 et 2010. La croissance rapide du 99,9e centile est le principal facteur expliquant cette hausse. Les changements dans la composition de la population active expliquent moins de 25% de la hausse de l’inégalité. Toutefois, des effets de composition expliquent la majorité de la hausse du salaire horaire moyen sur la période, alors que les salaires stagnent pour un niveau de compétence donné. / We consider changes in the distribution of hourly compensation in Canada over the last three decades using confidential census data and the recent National Household Survey. We find that the coefficient of variation of wages among full-time workers has almost doubled between 1980 and 2010. The rapid growth of the 99.9th percentile is the main driver of that increase. Changes in the composition of the workforce explain less than 25% of the rise in wage inequality. However, composition changes explain most of the increase in average hourly compensation over those three decades, while wages stagnate within skill groups. HB 31.5 UL 2015 Salaires -- Enquêtes -- Canada
96	Critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte lorsque la structure des effets aléatoires est inconnue Benouari, Ouassima 28 March 2024 (has links) Nous évaluons la perfomance du critère récemment proposé meanAIC comme critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte. Il s’agit d’un critère basé sur l’information d’Akaike, calculable lorsque le modèle est ajusté à l’aide d’une méthode d’estimation en deux étapes. En outre, le calcul de meanAIC ne nécessite pas la spécification de la structure des effets aléatoires ; il est donc d’une grande utilité comme premier filtre pour les variables dans une première analyse où la structure des effets aléatoires est typiquement inconnue. Ce travail a été motivé par les applications en écologie, où la sélection de variables est traditionnellement basée sur les critères d’information plutôt que sur les méthodes de régularisation. Ces études utilisent les données télémétriques de déplacement animal collectées selon un plan d’échantillonnage cas-témoins apparié et analysées à l’aide d’un modèle de régression logistique conditionnelle mixte. Nous effectuons une étude de simulation pour évaluer la capacité de meanAIC à correctement identifier les covariables potentiellement importantes dans le modèle et nous illustrons son utilisation à l’aide de données de sélection d’habitat collectées sur des caribous / We assess the perfomance of the recently proposed criterion meanAIC as a variable selection criterion for mixed conditional logistic regression models. It is a criterion based on Akaike’s information, computable when the model is fitted with a two-step estimation method. In addition, the calculation of meanAIC does not require the specification of the random effects structure; it is thus of great use as a first covariates filter in the early stage of the analysis when the random effects structure is typically unknown. This work is motivated by applications in ecology where the model selection is traditionally based on information criteria rather than on regularization. These studies use animal movement telemetric data collected using a matched case-control sampling design that are analyzed with a mixed conditional logistic regression model. We conduct a simulation study to assess the ability of meanAIC to correctly identify potentially important covariates and illustrate its use by analyzing habitat selection data collected on caribou. QA 3.5 UL 2019 Régression logistique. Variables (Mathématiques)
97	Prévalence du VIH et facteurs associés chez les travailleuses du sexe de la région sanitaire de l'artibonite à Haïti Ouedraogo, Mahamadou Lamine 12 April 2018 (has links) Dans le cadre du projet d'appui à la lutte contre les IST/VIH/SIDA en Haïti (PALIH) visant les travailleuses du sexe (TS), une étude descriptive transversale a été réalisée en 2006 dans quatre villes de la région sanitaire de l’Artibonite (St Marc, Gonaïves, Montrouis, Pontsondé) auprès de 521 TS, afin de connaître la prévalence du VIH, ainsi que les caractéristiques sociodémographiques et comportementales qui y sont associées. La prévalence globale était de 11,8%, soit cinq fois plus élevée que dans la population générale. Les prévalences observées dans les différentes villes, quoi qu'élevées n'étaient pas différentes significativement. Il s'agit principalement d'une prostitution affichée et visible, à couleur nationale, pratiquée majoritairement par des femmes jeunes, peu ou pas scolarisées, exerçant sur plusieurs sites et vivant exclusivement des revenus de leur métier. L'étude montre une utilisation insuffisante du condom lors des rapports sexuels payants (67,9%) et non payants (45,7%) et une forte proportion de TS non dépistées pour le VIH (64,0%). En analyse multivariée par régression logistique, la prévalence du VIH était significativement associée à l'âge plus avancé (p= 0,04; test de tendance), à une faible scolarité [Rapport de cote de prévalence (RCP)= 3,5 ; Intervalle de confiance à 95% (IC9s%): 1,55-8,00), au nombre de clients durant les sept derniers jours (>5) (RCP= 2,5; IC95o/o : 1,07-5,76) et au fait de se croire à risque d'infection (RCP= 3,6; IG^ , : 1,27- 10,02). L'étude confirme les TS de la région sanitaire de l’Artibonite comme des groupes vulnérables et à haut risque d'infection, nécessitant des interventions ciblées afin de limiter la propagation de l'infection.
98	Analyse des précipitations en Afrique occidentale : étude statistique des anomalies pluviométriques Doukouré, Ibrahima Kalil. 04 November 2024 (has links) Les variations climatiques importantes qui ont lieu au cours des dernières décennies dans toute la zone intertropicale en général et en Afrique de l'Ouest en particulier ont suscité l'intérêt de nombreux scientifiques et chercheurs de disciplines diverses. Toutes ces recherches ont donné lieu à une multitude d'explications sur les causes des fluctuations climatiques sur cette région. Ces études vont de quelques années d'observations (Nicholson, 1978) à des millénaires (Biassing, I.J., 1975) et présentent même des scénarios de climats futurs (Flohn, H.). Le but de ce travail de recherche n'est pas de donner raison à telle ou telle théorie, mais d'examiner grâce aux méthodes d'analyses factorielles, les anomalies majeures qui ponctuèrent l'évolution chronologique des précipitations en Afrique Occidentale durant les 35 dernières années. Les résultats de l'analyse factorielle révèlent d'abord que les anomalies excédentaires ou déficitaires se rencontrent autant dans les zones humides que dans les zones sèches, même si les phénomènes sont amplifiés dans les dernières années. Ces mêmes analyses permettent, en outre, de relier l'origine des anomalies à des persistances de certains types de circulations régionales au-dessus de plusieurs zones de l'Afrique Occidentale. G60 UL 1981 D737 Climat -- Changements -- Statistiques. Afrique occidentale -- Climat.
99	Analyse de sensibilité et réduction de dimension. Application à l'océanographie Janon, Alexandre 15 November 2012 (has links) (PDF) Les modèles mathématiques ont pour but de décrire le comportement d'un système. Bien souvent, cette description est imparfaite, notamment en raison des incertitudes sur les paramètres qui définissent le modèle. Dans le contexte de la modélisation des fluides géophysiques, ces paramètres peuvent être par exemple la géométrie du domaine, l'état initial, le forçage par le vent, ou les coefficients de frottement ou de viscosité. L'objet de l'analyse de sensibilité est de mesurer l'impact de l'incertitude attachée à chaque paramètre d'entrée sur la solution du modèle, et, plus particulièrement, identifier les paramètres (ou groupes de paramètres) og sensibles fg. Parmi les différentes méthodes d'analyse de sensibilité, nous privilégierons la méthode reposant sur le calcul des indices de sensibilité de Sobol. Le calcul numérique de ces indices de Sobol nécessite l'obtention des solutions numériques du modèle pour un grand nombre d'instances des paramètres d'entrée. Cependant, dans de nombreux contextes, dont celui des modèles géophysiques, chaque lancement du modèle peut nécessiter un temps de calcul important, ce qui rend inenvisageable, ou tout au moins peu pratique, d'effectuer le nombre de lancements suffisant pour estimer les indices de Sobol avec la précision désirée. Ceci amène à remplacer le modèle initial par un emph{métamodèle} (aussi appelé emph{surface de réponse} ou emph{modèle de substitution}). Il s'agit d'un modèle approchant le modèle numérique de départ, qui nécessite un temps de calcul par lancement nettement diminué par rapport au modèle original. Cette thèse se centre sur l'utilisation d'un métamodèle dans le cadre du calcul des indices de Sobol, plus particulièrement sur la quantification de l'impact du remplacement du modèle par un métamodèle en terme d'erreur d'estimation des indices de Sobol. Nous nous intéressons également à une méthode de construction d'un métamodèle efficace et rigoureux pouvant être utilisé dans le contexte géophysique. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:CO] Statistics/Computation [STAT:CO] Statistiques/Calcul Analyse de sensibilité Réduction de dimension Calcul scientifique Statistiques
100	Agrégation d'estimateurs et de classificateurs : théorie et méthodes Guedj, Benjamin 04 December 2013 (has links) (PDF) Ce manuscrit de thèse est consacré à l'étude des propriétés théoriques et méthodologiques de différentes procédures d'agrégation d'estimateurs. Un premier ensemble de résultats vise à étendre la théorie PAC-bayésienne au contexte de la grande dimension, dans les modèles de régression additive et logistique. Nous prouvons dans ce contexte l'optimalité, au sens minimax et à un terme logarithmique près, de nos estimateurs. La mise en \oe uvre pratique de cette stratégie, par des techniques MCMC, est étayée par des simulations numériques. Dans un second temps, nous introduisons une stratégie originale d'agrégation non linéaire d'estimateurs de la fonction de régression. Les qualités théoriques et pratiques de cette approche --- dénommée COBRA --- sont étudiées, et illustrées sur données simulées et réelles. Enfin, nous présentons une modélisation bayésienne --- et l'implémentation MCMC correspondante --- d'un problème de génétique des populations. Les différentes approches développées dans ce document sont toutes librement téléchargeables depuis le site de l'auteur. [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning [MATH:MATH_ST] Mathematics/Statistics Agrégation régression classification inégalités oracles théorie PAC-bayésienne COBRA MCMC parcimonie

Search results