Global ETD Search

21	Probing sequence-level instructions for gene expression / Etude des instructions pour l’expression des gènes présentes dans la séquence ADN Taha, May 28 November 2018 (has links) La régulation des gènes est fortement contrôlée afin d’assurer une large variété de types cellulaires ayant des fonctions spécifiques. Ces contrôles prennent place à différents niveaux et sont associés à différentes régions génomiques régulatrices. Il est donc essentiel de comprendre les mécanismes à la base des régulations géniques dans les différents types cellulaires, dans le but d’identifier les régulateurs clés. Plusieurs études tentent de mieux comprendre les mécanismes de régulation en modulant l’expression des gènes par des approches épigénétiques. Cependant, ces approches sont basées sur des données expérimentales limitées à quelques échantillons, et sont à la fois couteuses et chronophages. Par ailleurs, les constituants nécessaires à la régulation des gènes au niveau des séquences ne peut pas être capturées par ces approches. L’objectif principal de cette thèse est d’expliquer l’expression des ARNm en se basant uniquement sur les séquences d’ADN.Dans une première partie, nous utilisons le modèle de régression linéaire avec pénalisation Lasso pour prédire l’expression des gènes par l’intermédiaire des caractéristique de l’ADN comme la composition nucléotidique et les sites de fixation des facteurs de transcription. La précision de cette approche a été mesurée sur plusieurs données provenant de la base de donnée TCGA et nous avons trouvé des performances similaires aux modèles ajustés aux données expérimentales. Nous avons montré que la composition nucléotidique a un impact majeur sur l’expression des gènes. De plus, l’influence de chaque régions régulatrices est évaluée et l’effet du corps de gène, spécialement les introns semble être clé dans la prédiction de l’expression. En second partie, nous présentons une tentative d’amélioration des performances du modèle. D’abord, nous considérons inclure dans le modèles les interactions entres les différents variables et appliquer des transformations non linéaires sur les variables prédictives. Cela induit une légère augmentation des performances du modèles. Pour aller plus loin, des modèles d’apprentissage profond sont étudiés. Deux types de réseaux de neurones sont considérés : Les perceptrons multicouches et les réseaux de convolutions.Les paramètres de chaque neurone sont optimisés. Les performances des deux types de réseaux semblent être plus élevées que celles du modèle de régression linéaire pénalisée par Lasso. Les travaux de cette thèse nous ont permis (i) de démontrer l’existence des instructions au niveau de la séquence en relation avec l’expression des gènes, et (ii) de fournir différents cadres de travail basés sur des approches complémentaires. Des travaux complémentaires sont en cours en particulier sur le deep learning, dans le but de détecter des informations supplémentaires présentes dans les séquences. / Gene regulation is tightly controlled to ensure a wide variety of cell types and functions. These controls take place at different levels and are associated with different genomic regulatory regions. An actual challenge is to understand how the gene regulation machinery works in each cell type and to identify the most important regulators. Several studies attempt to understand the regulatory mechanisms by modeling gene expression using epigenetic marks. Nonetheless, these approaches rely on experimental data which are limited to some samples, costly and time-consuming. Besides, the important component of gene regulation based at the sequence level cannot be captured by these approaches. The main objective of this thesis is to explain mRNA expression based only on DNA sequences features. In a first work, we use Lasso penalized linear regression to predict gene expression using DNA features such as transcription factor binding site (motifs) and nucleotide compositions. We measured the accuracy of our approach on several data from the TCGA database and find similar performance as that of models fitted with experimental data. In addition, we show that nucleotide compositions of different regulatory regions have a major impact on gene expression. Furthermore, we rank the influence of each regulatory regions and show a strong effect of the gene body, especially introns.In a second part, we try to increase the performances of the model. We first consider adding interactions between nucleotide compositions and applying non-linear transformations on predictive variables. This induces a slight increase in model performances.To go one step further, we then learn deep neuronal networks. We consider two types of neural networks: multilayer perceptrons and convolution networks. Hyperparameters of each network are optimized. The performances of both types of networks appear slightly higher than those of a Lasso penalized linear model. In this thesis, we were able to (i) demonstrate the existence of sequence-level instructions for gene expression and (ii) provide different frameworks based on complementary approaches. Additional work is ongoing, in particular with the last direction based on deep learning, with the aim of detecting additional information present in the sequence. Extraction des variables de la séquence Regression avec une penalisation Lasso Apprentissage profond Réseaux de convolution Interactions Gene regulation modeling Sequence feature extraction Lasso penalized regression Deep learning Convolution networks Ineractions
22	Comparison of the 1st and 2nd order Lee–Carter methods with the robust Hyndman–Ullah method for fitting and forecasting mortality rates Willersjö Nyfelt, Emil January 2020 (has links) The 1st and 2nd order Lee–Carter methods were compared with the Hyndman–Ullah method in regards to goodness of fit and forecasting ability of mortality rates. Swedish population data was used from the Human Mortality Database. The robust estimation property of the Hyndman–Ullah method was also tested with inclusion of the Spanish flu and a hypothetical scenario of the COVID-19 pandemic. After having presented the three methods and making several comparisons between the methods, it is concluded that the Hyndman–Ullah method is overall superior among the three methods with the implementation of the chosen dataset. Its robust estimation of mortality shocks could also be confirmed. Mortality rate Death rate Data fitting Lee-Carter 2nd order Lee–Carter Hyndman–Ullah Modeling ARIMA Random walk Singular Value Decomposition Penalized Regression Splines Forecasting Spanish flu COVID-19 Mathematics Matematik
23	Inférence de réseaux de régulation orientés pour les facteurs de transcription d'Arabidopsis thaliana et création de groupes de co-régulation / Inference of directed regulatory networks on the transcription factors of Arabidopsis thaliana and setting up of co-regulation groups Vasseur, Yann 08 December 2017 (has links) Dans cette thèse, nous cherchons à caractériser les facteurs de transcription de la plante Arabidopsis thaliana, gènes importants pour la régulation de l'expression du génome. À l'aide de données d'expression, notre objectif biologique est de classer ces facteurs de transcription en groupes de gènes co-régulateurs et en groupes de gènes co-régulés. Nous procédons en deux phases pour y parvenir. La première phase consiste à construire un réseau de régulation entre les facteurs de transcription. La seconde phase consiste en la classification des facteurs de transcription selon les liens de régulation établis par ce réseau. D'un point de vue statistique, les facteurs de transcription sont les variables et les données d'expression sont les observations. Nous représentons le réseau à inférer par un graphe orienté dont les nœuds sont les variables. L'estimation de ses arêtes est vue comme un problème de sélection de variables en grande dimension avec un faible nombre d'unités statistiques. Nous traitons ce problème à l'aide de régressions linéaires pénalisées de type LASSO. Une approche préliminaire qui consiste à sélectionner un ensemble de variables du chemin de régularisation par le biais de critères de vraisemblance pénalisée s'avère être instable et fournit trop de variables explicatives. Pour contrecarrer cela, nous proposons et mettons en compétition deux procédures de sélection, adaptées au problème de la haute dimension et mêlant régression linéaire pénalisée et rééchantillonnage. L'estimation des différents paramètres de ces procédures a été effectuée dans le but d'obtenir des ensembles de variables stables. Nous évaluons la stabilité des résultats à l'aide de jeux de données simulés selon notre modèle graphique. Nous faisons appel ensuite à une méthode de classification non supervisée sur chacun des graphes orientés obtenus pour former des groupes de nœuds vus comme contrôleurs et des groupes de nœuds vus comme contrôlés. Pour évaluer la proximité entre les classifications doubles des nœuds obtenus sur différents graphes, nous avons développé un indice de comparaison de couples de partition dont nous éprouvons et promouvons la pertinence. D'un point de vue pratique, nous proposons une méthode de simulation en cascade, exigée par la complexité de notre modèle et inspirée du bootstrap paramétrique, pour simuler des jeux de données en accord avec notre modèle. Nous avons validé notre modèle en évaluant la proximité des classifications obtenues par application de la procédure statistique sur les données réelles et sur ces données simulées. / This thesis deals with the characterisation of key genes in gene expression regulation, called transcription factors, in the plant Arabidopsis thaliana. Using expression data, our biological goal is to cluster transcription factors in groups of co-regulator transcription factors, and in groups of co-regulated transcription factors. To do so, we propose a two-step procedure. First, we infer the network of regulation between transcription factors. Second, we cluster transcription factors based on their connexion patterns to other transcriptions factors.From a statistical point of view, the transcription factors are the variables and the samples are the observations. The regulatory network between the transcription factors is modelled using a directed graph, where variables are nodes. The estimation of the nodes can be interpreted as a problem of variables selection. To infer the network, we perform LASSO type penalised linear regression. A preliminary approach selects a set of variable along the regularisation path using penalised likelihood criterion. However, this approach is unstable and leads to select too many variables. To overcome this difficulty, we propose to put in competition two selection procedures, designed to deal with high dimension data and mixing linear penalised regression and subsampling. Parameters estimation of the two procedures are designed to lead to select stable set of variables. Stability of results is evaluated on simulated data under a graphical model. Subsequently, we use an unsupervised clustering method on each inferred oriented graph to detect groups of co-regulators and groups of co-regulated. To evaluate the proximity between the two classifications, we have developed an index of comparaison of pairs of partitions whose relevance is tested and promoted. From a practical point of view, we propose a cascade simulation method required to respect the model complexity and inspired from parametric bootstrap, to simulate data under our model. We have validated our model by inspecting the proximity between the two classifications on simulated and real data. Grande dimension Réseaux de gènes Sélection de modèles Régression pénalisée Classification de graphes orientés High dimension Gene networks Model selection Penalized regression Directed graphs clustering Comparison index for pairs of partitions
24	Quelques contributions à l'estimation des modèles définis par des équations estimantes conditionnelles / Some contributions to the statistical inference in models defined by conditional estimating equations Li, Weiyu 15 July 2015 (has links) Dans cette thèse, nous étudions des modèles définis par des équations de moments conditionnels. Une grande partie de modèles statistiques (régressions, régressions quantiles, modèles de transformations, modèles à variables instrumentales, etc.) peuvent se définir sous cette forme. Nous nous intéressons au cas des modèles avec un paramètre à estimer de dimension finie, ainsi qu’au cas des modèles semi paramétriques nécessitant l’estimation d’un paramètre de dimension finie et d’un paramètre de dimension infinie. Dans la classe des modèles semi paramétriques étudiés, nous nous concentrons sur les modèles à direction révélatrice unique qui réalisent un compromis entre une modélisation paramétrique simple et précise, mais trop rigide et donc exposée à une erreur de modèle, et l’estimation non paramétrique, très flexible mais souffrant du fléau de la dimension. En particulier, nous étudions ces modèles semi paramétriques en présence de censure aléatoire. Le fil conducteur de notre étude est un contraste sous la forme d’une U-statistique, qui permet d’estimer les paramètres inconnus dans des modèles généraux. / In this dissertation we study statistical models defined by condition estimating equations. Many statistical models could be stated under this form (mean regression, quantile regression, transformation models, instrumental variable models, etc.). We consider models with finite dimensional unknown parameter, as well as semiparametric models involving an additional infinite dimensional parameter. In the latter case, we focus on single-index models that realize an appealing compromise between parametric specifications, simple and leading to accurate estimates, but too restrictive and likely misspecified, and the nonparametric approaches, flexible but suffering from the curse of dimensionality. In particular, we study the single-index models in the presence of random censoring. The guiding line of our study is a U-statistics which allows to estimate the unknown parameters in a wide spectrum of models. Analyse de Survie Direction révélatrice unique Données censurées Equations de moments conditionnels Fonctionnelles de Kaplan-Meier Lissage par noyau Méthodes itératives Modèles de régression Réduction de la dimension Rééchantillonnage Régression pénalisée U-Statistiques Bootstrap Censoring Conditional moment equations Dimension reduction Iterative methods Kaplan-Meier functionals Kernel smoothing Penalized regression Regression models Single-Index assumptions Survival analysis U-Statistics
25	Medium term load forecasting in South Africa using Generalized Additive models with tensor product interactions Ravele, Thakhani 21 September 2018 (has links) MSc (Statistics) / Department of Statistics / Forecasting of electricity peak demand levels is important for decision makers in Eskom. The overall objective of this study was to develop medium term load forecasting models which will help decision makers in Eskom for planning of the operations of the utility company. The frequency table of hourly daily demands was carried out and the results show that most peak loads occur at hours 19:00 and 20:00, over the period 2009 to 2013. The study used generalised additive models with and without tensor product interactions to forecast electricity demand at 19:00 and 20:00 including daily peak electricity demand. Least absolute shrinkage and selection operator (Lasso) and Lasso via hierarchical interactions were used for variable selection to increase the model interpretability by eliminating irrelevant variables that are not associated with the response variable, this way also over tting is reduced. The parameters of the developed models were estimated using restricted maximum likelihood and penalized regression. The best models were selected based on smallest values of the Akaike information criterion (AIC), Bayesian information criterion (BIC) and Generalized cross validation (GCV) along with the highest Adjusted R2. Forecasts from best models with and without tensor product interactions were evaluated using mean absolute percentage error (MAPE), mean absolute error (MAE) and root mean square error (RMSE). Operational forecasting was proposed to forecast the demand at hour 19:00 with unknown predictor variables. Empirical results from this study show that modelling hours individually during the peak period results in more accurate peak forecasts compared to forecasting daily peak electricity demand. The performance of the proposed models for hour 19:00 were compared and the generalized additive model with tensor product interactions was found to be the best tting model. / NRF Generalized additive models Lazeso Lazeso via hierarchical interaction Medium term load forecasting Penalized regression Restricted maximum likelihood Tensor product interactions Time series 333.79320968 Electric power-plants -- Load Electric utilities -- South Africa Electric power -- Rates -- South Africa Electricity -- South Africa

Page generated in 0.0899 seconds