• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 119
  • 21
  • 20
  • 11
  • 7
  • 6
  • 3
  • 3
  • 3
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 230
  • 74
  • 53
  • 45
  • 44
  • 38
  • 36
  • 30
  • 29
  • 29
  • 27
  • 25
  • 23
  • 20
  • 20
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Regularized methods for high-dimensional and bi-level variable selection

Breheny, Patrick John 01 July 2009 (has links)
Many traditional approaches cease to be useful when the number of variables is large in comparison with the sample size. Penalized regression methods have proved to be an attractive approach, both theoretically and empirically, for dealing with these problems. This thesis focuses on the development of penalized regression methods for high-dimensional variable selection. The first part of this thesis deals with problems in which the covariates possess a grouping structure that can be incorporated into the analysis to select important groups as well as important members of those groups. I introduce a framework for grouped penalization that encompasses the previously proposed group lasso and group bridge methods, sheds light on the behavior of grouped penalties, and motivates the proposal of a new method, group MCP. The second part of this thesis develops fast algorithms for fitting models with complicated penalty functions such as grouped penalization methods. These algorithms combine the idea of local approximation of penalty functions with recent research into coordinate descent algorithms to produce highly efficient numerical methods for fitting models with complicated penalties. Importantly, I show these algorithms to be both stable and linear in the dimension of the feature space, allowing them to be efficiently scaled up to very large problems. In the third part of this thesis, I extend the idea of false discovery rates to penalized regression. The Karush-Kuhn-Tucker conditions describing penalized regression estimates provide testable hypotheses involving partial residuals. I use these hypotheses to connect the previously disparate elds of multiple comparisons and penalized regression, develop estimators for the false discovery rates of methods such as the lasso and elastic net, and establish theoretical results. Finally, the methods from all three sections are studied in a number of simulations and applied to real data from gene expression and genetic association studies.
32

Grouped variable selection in high dimensional partially linear additive Cox model

Liu, Li 01 December 2010 (has links)
In the analysis of survival outcome supplemented with both clinical information and high-dimensional gene expression data, traditional Cox proportional hazard model fails to meet some emerging needs in biological research. First, the number of covariates is generally much larger the sample size. Secondly, predicting an outcome with individual gene expressions is inadequate because a gene's expression is regulated by multiple biological processes and functional units. There is a need to understand the impact of changes at a higher level such as molecular function, cellular component, biological process, or pathway. The change at a higher level is usually measured with a set of gene expressions related to the biological process. That is, we need to model the outcome with gene sets as variable groups and the gene sets could be partially overlapped also. In this thesis work, we investigate the impact of a penalized Cox regression procedure on regularization, parameter estimation, variable group selection, and nonparametric modeling of nonlinear eects with a time-to-event outcome. We formulate the problem as a partially linear additive Cox model with high-dimensional data. We group genes into gene sets and approximate the nonparametric components by truncated series expansions with B-spline bases. After grouping and approximation, the problem of variable selection becomes that of selecting groups of coecients in a gene set or in an approximation. We apply the group Lasso to obtain an initial solution path and reduce the dimension of the problem and then update the whole solution path with the adaptive group Lasso. We also propose a generalized group lasso method to provide more freedom in specifying the penalty and excluding covariates from being penalized. A modied Newton-Raphson method is designed for stable and rapid computation. The core programs are written in the C language. An user-friendly R interface is implemented to perform all the calculations by calling the core programs. We demonstrate the asymptotic properties of the proposed methods. Simulation studies are carried out to evaluate the finite sample performance of the proposed procedure using several tuning parameter selection methods for choosing the point on the solution path as the nal estimator. We also apply the proposed approach on two real data examples.
33

Quelques questions de sélection de variables autour de l'estimateur LASSO

Hebiri, Mohamed 30 June 2009 (has links) (PDF)
Le problème général étudié dans cette thèse est celui de la régression linéaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés pénalisés par la norme ℓ1 des coefficients, connu sous le nom de LASSO. Les contributions de la thèse portent sur l'étude de variantes de l'estimateur LASSO pour prendre en compte soit des informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, structure d'ordre sur les variables ou regroupements entre variables) ; ii) la construction d'estimateurs adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la définition de l'estimateur LASSO. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotique ; nous prouvons notamment que les estimateurs construits vérifient des Inégalités de Sparsité Oracles. Ces inégalités ont pour particularité de dépendre du nombre de composantes non-nulles du paramètre cible. Un contrôle sur la probabilité d'erreur d'estimation du support du paramètre de régression est également établi. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation.
34

Expression-based reverse engineering of plant transcriptional networks

Giorgi, Federico Manuel January 2011 (has links)
Regulation of gene transcription plays a major role in mediating cellular responses and physiological behavior in all known organisms. The finding that similar genes are often regulated in a similar manner (co-regulated or "co-expressed") has directed several "guilt-by-association" approaches in order to reverse-engineer the cellular transcriptional networks using gene expression data as a compass. This kind of studies has been considerably assisted in the recent years by the development of high-throughput transcript measurement platforms, specifically gene microarrays and next-generation sequencing. In this thesis, I describe several approaches for improving the extraction and interpretation of the information contained in microarray based gene expression data, through four steps: (1) microarray platform design, (2) microarray data normalization, (3) gene network reverse engineering based on expression data and (4) experimental validation of expression-based guilt-by-association inferences. In the first part test case is shown aimed at the generation of a microarray for Thellungiella salsuginea, a salt and drought resistant close relative to the model plant Arabidopsis thaliana; the transcripts of this organism are generated on the combination of publicly available ESTs and newly generated ad-hoc next-generation sequencing data. Since the design of a microarray platform requires the availability of highly reliable and non-redundant transcript models, these issues are addressed consecutively, proposing several different technical solutions. In the second part I describe how inter-array correlation artifacts are generated by the common microarray normalization methods RMA and GCRMA, together with the technical and mathematical characteristics underlying the problem. A solution is proposed in the form of a novel normalization method, called tRMA. The third part of the thesis deals with the field of expression-based gene network reverse engineering. It is shown how different centrality measures in reverse engineered gene networks can be used to distinguish specific classes of genes, in particular essential genes in Arabidopsis thaliana, and how the use of conditional correlation can add a layer of understanding over the information flow processes underlying transcript regulation. Furthermore, several network reverse engineering approaches are compared, with a particular focus on the LASSO, a linear regression derivative rarely applied before in global gene network reconstruction, despite its theoretical advantages in robustness and interpretability over more standard methods. The performance of LASSO is assessed through several in silico analyses dealing with the reliability of the inferred gene networks. In the final part, LASSO and other reverse engineering methods are used to experimentally identify novel genes involved in two independent scenarios: the seed coat mucilage pathway in Arabidopsis thaliana and the hypoxic tuber development in Solanum tuberosum. In both cases an interesting method complementarity is shown, which strongly suggests a general use of hybrid approaches for transcript expression-based inferences. In conclusion, this work has helped to improve our understanding of gene transcription regulation through a better interpretation of high-throughput expression data. Part of the network reverse engineering methods described in this thesis have been included in a tool (CorTo) for gene network reverse engineering and annotated visualization from custom transcription datasets. / Die Regulation der Gentranskription spielt eine wichtige Rolle bei der Steuerung des physiologischen Verhaltens in allen Organismen. Dass ähnliche Gene oft in gleicher Weise reguliert werden (koreguliert oder koexpimiert), hat zu diversen „guilt-by-association“-Ansätzen zur Rekonstruktion von zellulären Transkriptionsnetzwerken geführt, die Genexpressionsdaten zur Orientierung nutzen. Studien dieser Art wurden in den letzten Jahren durch die Entwicklung von Hochdurchsatzmessungen von Transkriptmengen mittels Mikroarrays und ‚Next Generation‘ Sequenziertechniken stark gefördert. In der vorliegenden Arbeit werden verschiedene Ansätze zur Verbesserung der Extraktion und Interpretation von Mikroarray-basierten Genexpressionsdaten in vier Schritten beschrieben: (1) Mikroarray-Sonden-Design, (2) Mikroarray Datennormalisierung, (3) Rekonstruktion von Gennetzwerken unter Verwendung von Expressionsdaten und (4) experimentelle Überprüfung von expressionsbasierten „guilt-by-association“ Schlussfolgerungen. Im ersten Teil wird ein Beispiel zur Erstellung eines Mikroarrays für Thelungiella salsuginea gezeigt, einem salz- und trockenresistenten Verwandten von Arabidopsis thaliana. Zur Rekonstruktion der Transkripte wurden sowohl öffentliche ESTs (‚expressed sequence tags‘) als auch neu erzeugte ‚Next Generation‘ Sequenzierdaten genutzt. Da das Design von Mikroarrays speziesspezifische, nicht-redundante Transkriptmodelle erfordert, werden diese Aufgaben nacheinander abgearbeitet und verschiedene technische Lösungsmöglichkeiten aufgezeigt. Im zweiten Teil wird beschrieben, wie übliche Mikroarray-Normalisierungsverfahren wie RMA und GCRMA zu Korrelationsartefakten führen können. Technische sowie mathematische Hintergründe werden erläutert und zur Lösung des Problems wird mit tRMA eine neue Normalisierungsmethode vorgestellt. Der dritte Teil der Arbeit beschäftigt sich der expressionsbasierten Rekonstruktion von Gennetzwerken. Es wird demonstriert, wie dabei verschiedene „Zentralitäten“ bei zur Unterscheidung von spezifischen Genklassen, hier beispielhaft essentielle Gene von Arabidopsis thaliana, genutzt werden können und wie die Verwendung von konditioneller Korrelation tieferes Verständnis des der Transkriptionsregulation zugrundeliegenden Informationsflusses ermöglicht. Weiterhin werden Ansätze zur Netzwerkrekonstruktion verglichen. Besonderes Augenmerk liegt dabei auf der LASSO Technik, einer Art linearer Regression, die trotz ihren theoretischen Vorteilen in Robustheit und Interpretierbarkeit gegenüber Standardmethoden bisher selten zur Rekonstruktion von globalen Gennetzwerken genutzt wurde. Die Leistungsfähigkeit von LASSO wird durch in silico Analysen der Zuverlässigkeit der erstellten Gennetzwerke gemessen. Im letzten Teil der Arbeit wurden LASSO und andere Rekonstruktionsmethoden genutzt um experimentell neue Gene der folgenden zwei Szenarien zu identifizieren: im Samenschleim von Arabidopsis thaliana und während der Knollenentwicklung von Solanum tuberosum unter Sauerstoffmangel. In beiden Fällen wird eine interessante Methodenkomplementarität gezeigt, nach welcher eine Mischung mehrerer Ansätze zu empfehlen ist um Schlüsse aufgrund von Transkriptexpression zu ziehen. Zusammenfassend zielt diese Arbeit darauf ab, das Verständnis der Regulation von Gentranskriptionsnetzwerken durch bessere Interpretation von Hochdurchsatzexpressionsdaten zu verbessern. Ein Teil der in dieser Arbeit beschriebenen Methoden wurden im Programm CorTo zur Gennetzwerkrekonstruktion und annotierten Visualisierung von benutzerdefinierten Transkriptionsdaten verarbeitet.
35

Algorithmes d'Ensemble Actif pour le LASSO

Loth, Manuel 08 July 2011 (has links) (PDF)
Cette thèse aborde le calcul de l'opérateur LASSO (Least Absolute Shrinkage and Selection Operator), ainsi que des problématiques qui lui sont associées, dans le domaine de la régression. Cet opérateur a suscité une attention croissante depuis son introduction par Robert Tibshirani en 1996, par sa capacité à produire ou identi fier des modèles linéaires parcimonieux à partir d'observations bruitées, la parcimonie signi fiant que seules quelques unes parmi de nombreuses variables explicatives apparaissent dans le modèle proposé. Cette sélection est produite par l'ajout à la méthode des moindres-carrés d'une contrainte ou pénalisation sur la somme des valeurs absolues des coe fficients linéaires, également appelée norme l1 du vecteur de coeffi cients. Après un rappel des motivations, principes et problématiques de la régression, des estimateurs linéaires, de la méthode des moindres-carrés, de la sélection de modèle et de la régularisation, les deux formulations équivalentes du LASSO contrainte ou régularisée sont présentées; elles dé finissent toutes deux un problème de calcul non trivial pour associer un estimateur à un ensemble d'observations et un paramètre de sélection. Un bref historique des algorithmes résolvant ce problème est dressé, et les deux approches permettant de gérer la non-di fferentiabilité de la norme l1 sont présentées, ainsi que l'équivalence de ces problèmes avec un programme quadratique. La seconde partie se concentre sur l'aspect pratique des algorithmes de résolution du LASSO. L'un d'eux, proposé par Michael Osborne en 2000, est reformulé. Cette reformulation consiste à donner une défi nition et explication générales de la méthode d'ensemble actif, qui généralise l'algorithme du simplex à la programmation convexe, puis à la spéci fier progressivement pour la programmation LASSO, et à adresser les questions d'optimisation des calculs algébriques. Bien que décrivant essentiellement le même algorithme que celui de Michael Osborne, la présentation qui en est faite ici a l'ambition d'en exposer clairement les mécanismes, et utilise des variables di fférentes. Outre le fait d'aider à mieux comprendre cet algorithme visiblement sous-estimé, l'angle par lequel il est présenté éclaire le fait nouveau que la même méthode s'applique naturellement à la formulation régularisée du LASSO, et non uniquement à la formulation contrainte. La populaire méthode par homotopie (ou LAR-LASSO, ou LARS) est ensuite présentée comme une dérivation de la méthode d'ensemble actif, amenant une formulation alternative et quelque peu simpli fiée de cet algorithme qui fournit les solutions du LASSO pour chaque valeur de son paramètre. Il est montré que, contrairement aux résultats d'une étude récente de Jerome H. Friedman, des implémentations de ces algorithmes suivant ces reformulations sont plus effi caces en terme de temps de calcul qu'une méthode de descente par coordonnées. La troisième partie étudie dans quelles mesures ces trois algorithmes (ensemble actif, homotopie, et descente par coordonnées) peuvent gérer certains cas particuliers, et peuvent être appliqués à des extensions du LASSO ou d'autres problèmes similaires. Les cas particuliers incluent les dégénérescences, comme la présence de variables lineairement dépendantes, ou la sélection/désélection simultanée de variables. Cette dernière problématique, qui était délaissée dans les travaux précédents, est ici expliquée plus largement et une solution simple et efficace y est apportée. Une autre cas particulier est la sélection LASSO à partir d'un nombre très large, voire infi ni de variables, cas pour lequel la méthode d'ensemble actif présente un avantage majeur. Une des extensions du LASSO est sa transposition dans un cadre d'apprentissage en ligne, où il est désirable ou nécessaire de résoudre le problème sur un ensemble d'observations qui évolue dans le temps. A nouveau, la flexibilité limitée de la méthode par homotopie la disquali fie au pro fit des deux autres. Une autre extension est l'utilisation de la pénalisation l1 sur d'autres fonction coûts que la norme l2 du résidu, ou en association avec d'autres pénalisations, et il est rappelé ou établi dans quelles mesures et de quelle façon chaque algorithme peut être transposé à ces problèmes.
36

Lasso peptides from Actinobacteria - Chemical diversity and ecological role / Peptides lasso des actinobactéries - diversité chimique et rôle écologique

Mevaere, Jimmy 14 November 2016 (has links)
Les peptides lasso sont des peptides bioactifs bactériens issus de la voie de biosynthèse ribosomale et subissant des modifications post-traductionnelles, caractérisés par une structure entrelacée dite en lasso. Ils possèdent un cycle macrolactame en position N-terminale, traversé par la queue C-terminale. Cette topologie de type rotaxane, maintenue par piégeage de la queue C-terminale dans le cycle via des acides aminés encombrant et/ou des ponts disulfure, confère à ces peptides une structure compacte et stable. Les actinobactéries recèlent la plus grande diversité et gamme d'activités biologiques parmi les peptides lasso (antibactériens, anti-VIH, antagonistes de récepteurs..), et l'exploration de génomes suggère une diversité encore plus grande, puisque certains clusters portent des gènes codant des enzymes de modifications post-traductionnelles jamais observées auparavant. Cependant, l'expression de ces peptides semble être rigoureusement contrôlée, rendant leur production en laboratoire difficile à partir de la bactérie productrice. Le rôle écologique et les mécanismes de régulation des peptides lasso ne sont pas très documentés. Leur compréhension permettrait d'améliorer la production et de mieux exploiter les activités biologiques des peptides lasso. / Lasso peptides are ribosomally synthesized and post-translationally modified peptides produced by bacteria, characterized by a remarkable mechanically-interlocked structure. The lasso topology, reminiscent to a rotaxane, consists in an N-terminal macrolactam ring threaded by a C-terminal tail. This compact and stable structure is stabilized by steric entrapping of the tail in the ring, through bulky amino acid(s) and/or disulphide bonds. Lasso peptides produced by Actinobacteria display the greatest chemical diversity and a range of biological activities (antibacterial, anti-HIV, receptor antagonist…), therefore are of high pharmaceutical interest. Genome mining revealed that Actinobacteria have enormous potential to biosynthesize novel lasso peptides, e.g. harbouring new post-translational modifications. However, the expression of these peptides is generally controlled by complex regulatory systems, making their production under laboratory conditions difficult. Understanding the ecological role and regulation mechanisms of lasso peptides would help to improve production and better exploit the biotechnological potential of these molecules. The first part of my work deals with the identification of new lasso peptides from Actinobacteria, using heterologous expression in Streptomyces hosts. The second part of my work deals with the regulation mechanism and ecological role of lasso peptides using sviceucin, a lasso peptide produced by Streptomyces sviceus, as the model for study.
37

Scoring pour le risque de crédit : variable réponse polytomique, sélection de variables, réduction de la dimension, applications / Scoring for credit risk : polytomous response variable, variable selection, dimension reduction, applications

Vital, Clément 11 July 2016 (has links)
Le but de cette thèse était d'explorer la thématique du scoring dans le cadre de son utilisation dans le monde bancaire, et plus particulièrement pour contrôler le risque de crédit. En effet, la diversification et la globalisation des activités bancaires dans la deuxième moitié du XXe siècle ont conduit à l'instauration d'un certain nombre de régulations, afin de pouvoir s'assurer que les établissements bancaires disposent de capitaux nécessaires à couvrir le risque qu'ils prennent. Cette régulation impose ainsi la modélisation de certains indicateurs de risque, dont la probabilité de défaut, qui est pour un prêt en particulier la probabilité que le client se retrouve dans l'impossibilité de rembourser la somme qu'il doit. La modélisation de cet indicateur passe par la définition d'une variable d'intérêt appelée critère de risque, dénotant les "bons payeurs" et les "mauvais payeurs". Retranscrit dans un cadre statistique plus formel, cela signifie que nous cherchons à modéliser une variable à valeurs dans {0,1} par un ensemble de variables explicatives. Cette problématique est en pratique traitée comme une question de scoring. Le scoring consiste en la définition de fonction, appelées fonctions de score, qui retransmettent l'information contenue dans l'ensemble des variables explicatives dans une note de score réelle. L'objectif d'une telle fonction sera de donner sur les individus le même ordonnancement que la probabilité a posteriori du modèle, de manière à ce que les individus ayant une forte probabilité d'être "bons" aient une note élevée, et inversement que les individus ayant une forte probabilité d'être "mauvais" (et donc un risque fort pour la banque) aient une note faible. Des critères de performance tels que la courbe ROC et l'AUC ont été définis, permettant de quantifier à quel point l'ordonnancement produit par la fonction de score est pertinent. La méthode de référence pour obtenir des fonctions de score est la régression logistique, que nous présentons ici. Une problématique majeure dans le scoring pour le risque de crédit est celle de la sélection de variables. En effet, les banques disposent de larges bases de données recensant toutes les informations dont elles disposent sur leurs clients, aussi bien sociodémographiques que comportementales, et toutes ne permettent pas d'expliquer le critère de risque. Afin d'aborder ce sujet, nous avons choisi de considérer la technique du Lasso, reposant sur l'application d'une contrainte sur les coefficients, de manière à fixer les valeurs des coefficients les moins significatifs à zéro. Nous avons envisagé cette méthode dans le cadre des régressions linéaires et logistiques, ainsi qu'une extension appelée Group Lasso, permettant de considérer les variables explicatives par groupes. Nous avons ensuite considéré le cas où la variable réponse n'est plus binaire, mais polytomique, c'est-à-dire avec plusieurs niveaux de réponse possibles. La première étape a été de présenter une définition du scoring équivalente à celle présentée précédemment dans le cas binaire. Nous avons ensuite présenté différentes méthodes de régression adaptées à ce nouveau cas d'étude : une généralisation de la régression logistique binaire, des méthodes semi-paramétriques, ainsi qu'une application à la régression logistique polytomique du principe du Lasso. Enfin, le dernier chapitre est consacré à l'application de certaines des méthodes évoquées dans le manuscrit sur des jeux de données réelles, permettant de les confronter aux besoins réels de l'entreprise. / The objective of this thesis was to explore the subject of scoring in the banking world, and more precisely to study how to control credit risk. The diversification and globalization of the banking business in the second half of the twentieth century led to introduce regulations, which require banks to make reserves to cover the risk they take. These regulations also dictate that they should model different risk indicators, among which the probability of default. This indicator represents the probability for a client to find himself in the incapacity to pay back his debt. In order to predict this probability, one should define a risk criterion, that allows to distinguish the "bad clients" from the "good clients". In a more formal statistical approach, that means we want to model a binary variable by an ensemble of explanatory variables. This problem is usually treated as a scoring problem. It consists in the definition of functions, called scoring functions, which interpret the information contained in the explanatory variables and transform it into a real-value score note. The goal of such a function is to induce the same order on the observations than the a posteriori probability, so that the observations that have a high probability to be "good" have a high score, and those that have a high probability to be "bad" (and thus a high risk for the bank) have a low score. Performance criteria such as the ROC curve and the AUC allow us to quantify the quality of the order given by the scoring function. The reference method to obtain such scoring functions is the logistic regression, which we present here. A major subject in credit scoring is the variable selection. The banks have access to large databases, which gather information on the profile of their clients and their past behavior. However, those variables may not all be discriminating regarding the risk criterion. In order to select the variables, we proposed to use the Lasso method, based on the restriction of the coefficients of the model, so that the less significative coefficients will be fixed to zero. We applied the Lasso method on linear regression and logistic regression. We also considered an extension of the Lasso method called Group Lasso on logistic regression, which allows us to select groups of variables rather than individual variables. Then, we considered the case in which the response variable is not binary, but polytomous, that is to say with more than two response levels. The first step in this new context was to extend the scoring problem as we knew in the binary case to the polytomous case. We then presented some models adapted to this case: an extension of the binary logistic regression, semi-parametric methods, and an application of the Lasso method on the polytomous logistic regression. Finally, the last chapter deals with some application studies, in which the methods presented in this manuscript are applied to real data from the bank, to see how they meet the needs of the real world.
38

Modélisation de phénomènes biologiques complexes : application à l'étude de la réponse antigénique de lymphocytes B sains et tumoraux / Modeling complex biological phenomena : application to the study of the antigenic response of healthy and tumor B lymphocytes

Jung, Nicolas 03 December 2014 (has links)
La biologie des systèmes complexes est le cadre idéal pour l'interdisciplinarité. Dans cette thèse, les modèles et les théories statistiques répondent aux modèles et aux expérimentations biologiques. Nous nous sommes intéressés au cas particulier de la leucémie lymphoïde chronique à cellules B, qui est une forme de cancer des cellules du sang. Nous avons commencé par modéliser le programme génique tumoral sous-jacent à cette maladie et nous l'avons comparé au programme génique d'individus sains. Pour ce faire, nous avons introduit la notion de réseau en cascade. Nous avons ensuite démontré notre capacité à contrôler ce système complexe, en prédisant mathématiquement les effets d'une expérience d'intervention consistant à inhiber l'expression d'un gène. Cette thèse s'achève sur la perspective d'une modulation orientée, c'est-à-dire le choix d'expériences d'intervention permettant de « reprogrammer » le programme génique tumoral vers un état normal. / System biology is a well-suited context for interdisciplinary. In this thesis, statistical models and theories closely meet biological models and experiments. We focused on a specific complex system model: the chronic B-cell chronic lymphocytic leukemia disease which is a cancer of the blood cells. We started by modeling the genetic program which underlies this disease and we compared it to the healthy one. This conduced us to introduce the concept of cascade networks. We then showed our ability to control this complex system by predicting with our mathematical model the effects of a gene inhibition experiment. This thesis ends with the perspective of oriented modulation, i.e. targeted interventional experiments on genes allowing to “reprogram” the cancerous genetic program toward a healthy normal state.
39

Sparse Ridge Fusion For Linear Regression

Mahmood, Nozad 01 January 2013 (has links)
For a linear regression, the traditional technique deals with a case where the number of observations n more than the number of predictor variables p (n > p). In the case n < p, the classical method fails to estimate the coefficients. A solution of the problem is the case of correlated predictors is provided in this thesis. A new regularization and variable selection is proposed under the name of Sparse Ridge Fusion (SRF). In the case of highly correlated predictor, the simulated examples and a real data show that the SRF always outperforms the lasso, eleastic net, and the S-Lasso, and the results show that the SRF selects more predictor variables than the sample size n while the maximum selected variables by lasso is n size.
40

Index replication within Corporate Investment Grade - With implementation of Lasso regression in order to analyze the impact of key figures / Replikering av index inom Corporate Investment Grade - Med implementering av Lasso regression för att analysera effekterna av nyckeltal

Faiqi, Shaida January 2021 (has links)
The fixed income market is not as exploited as other markets and has a more complex structure compared with the equity market. On the other hand, it has been seen that demand for research for the fixed income market has increased, which in turn has created greater interest in studying the characteristics of holdings in the market. This work studies whether it is possible to replicate indices through requirements for credit rating, sectors and mathematical key figures such as Duration, convexity, duration time spread (DTS) and option adjusted spread (OAS). Replication is made through linear programming in the program Python. By implementing lasso regression, this study examines whether it is possible to exceed the return by reducing the requirements for key figures that are not selected efter selection of variables in the regression. The investment company Alfred Berg has provided relevant data for this report. The data consists of information on all assets included in the index EUR Investment grade (ER00) over the period 2017-2021. The result of the replication follows the index returns, with small deviations, and the lasso regression selects the key figures DTS and OAS in its model. It is difficult to excess index return by focusing only on the key figures DTS and OAS. Analysis of other key figures and variables selected by the lasso regression can possibly create better results, as a suggestion for further work. / Räntemarknaden är inte lika exploaterad som andra marknader och har en mer komplex struktur jämfört med aktiemarknaden. Däremot har man sett att efterfrågan på forskning för räntemarknaden har ökat, vilket i sin tur skapat ett större intresse att studera egenskaperna av innehaven på marknaden. Detta arbete studerar om det går att replikera index genom krav på credit rating, sektor och matematiska nyckeltal som Duration, convexity, duration times spread (DTS) och option adjusted spread (OAS). Replikeringen sker genom linjär programmering i programmet Python. Genom att implementera Lasso regression undersöker detta arbete även om det går att överträffa vakastningen genom att minska kraven på nyckeltal som inte väljts ut efter urval av variabler i regressionen. Investmentbolaget Alfred Berg har bidragit med data för denna rapport. Datan består av information om alla tillgångar som ingår i indexet EUR Investment Grade (ER00) under perioden 2017-2021. Resultatet visar att replikeringen av index är möjlig, med små avvikelser, och lasso regressionen väljer nyckeltalen DTS och OAS i sin modell. Det är svårt att överträffa index genom att endast fokusera på nyckeltalen DTS och OAS. Analys av andra nyckeltal och variabler som väljs ut av lasso regressionen kan skapa ett bättre resultat.

Page generated in 0.0347 seconds