Global ETD Search

1	Development of statistical methods for DNA copy number analysis in cancerology / Développement de méthodes statistiques pour l'analyse du nombre de copies d'ADN en cancérologie Pierre-Jean, Morgane 02 December 2016 (has links) Les données génomiques issues d'expériences de puces à ADN ou de séquençage ont deux caractéristiques principales: leur grande dimension (le nombre de marqueurs dépassant de plusieurs ordres de grandeurs le nombre d'observations), et leur forte structuration (notamment via les dépendances entre marqueurs). La prise en compte de cette structuration est un enjeu clé pour le développement de méthodes performantes en grande dimension.Cette thèse est axée sur les données présentant une forte structure le long du génome. C'est le cas des données de nombres de copies d'ADN, mais aussi des données de génotypes. La thèse couvre à la fois le développement de méthodes statistiques, l'implémentation logicielle, et l'application des méthodes développées à des jeux de données réelles. Nous avons, en particulier, étudié des méthodes de segmentation, et de dictionary learning. Toutes les implémentations logiciel de ces méthodes sont librement disponibles sous forme de packages R. / Genomic data from DNA microarray or sequencing technologies have two major characteristics: their high dimension (number of markers larger than the number of observations), and their strong structuration (dependence between markers). Taking into account this structuration, it is a challenging issue for the development of efficient methods.This work is focused on the data with a strong spatial structuration, namely DNA copy number data in tumor samples. We developed statistical models, software implementations and we applied these developments to real data. We explored in particular segmentation models and dictionary learning methods. All the software Implementations of these methods are freely available as R packages. Dictionary learning Données génomiques à forte structure
2	Contributions à la cryptographie ADN : applications à la transmission sécurisée du texte et de l'image / Contributions to DNA cryptography : applications to text and image secure transmission Tornea, Olga 13 November 2013 (has links) La cryptographie ADN est un domaine nouveau et prometteur pour la sécurité de l'information. C'est une combinaison des solutions classiques de cryptographie avec les avantages du matériel génétique. En effet, il est possible de bénéficier des avantages des systèmes cryptographiques classiques et de les rendre plus efficaces sur certaines méthodes grâce à l’utilisation de l'ADN. Il y a différentes façons d'utiliser l'ADN pour sécuriser le contenu de l'information. Cette thèse propose deux solutions différentes pour utiliser l'ADN dans la cryptographie : sous sa forme biologique ou alors sous forme numérique. D ‘une part, l'ADN biologique peut être utilisé pour le stockage et pour cacher des données à l'intérieur de celui-ci. L'information secrète est placée dans une molécule de l'ADN et caché parmi d'autres molécules d'ADN. D’autre part, les nombres aléatoires peuvent être générés à partir de séquences numériques d'ADN. Ils représentent une solution pour la génération et la transmission des clés OTP (One-Time-Pad) symétriques. La transmission d'une très longue clé de cryptage n'est pas nécessaire, car chaque séquence possède un numéro d'identification unique dans la base de données. Ce numéro, ou une combinaison de ces numéros, peut alors être transmis. Enfin, la sécurité et la compression sont très importantes lors de la transmission et du stockage des données informatiques. Cependant, la plupart des systèmes de cryptage peuvent augmenter la taille des données, ou encore augmenter la complexité calcul. Ces inconvénients peuvent être résolus en combinant la compression de données avec le cryptage dans un seul processus ou en effectuant le cryptage sélectif des données. / DNA cryptography is a new and promising field in information security. It combines classical solutions in cryptography with the strength of the genetic material. By introducing DNA into the common symmetric key cryptography, it is possible to benefit from the advantages of the classical cryptosystems and solve some of its limitations. There are different ways how DNA can be used to secure information content. It is about using the biological medium of DNA for storing and hiding data. Secret information can be placed in microscopic size of DNA and hidden among a great amount of other DNA structures. Biomolecular computation is possible with specially designed DNA structures. Random numbers can be generated from DNA sequences which can be found in genetic databases in digital form. Genetic databases represent a feasible solution to the One-Time-Pad (OTP) symmetric key generation and transmission problem. The one-time use is ensured due to the great variety of the publicly available, very long (thousands of bases) sequences. Transmission of a very long key is not required because each sequence has a unique identification number in the database and this number can be sent instead. Compression along with information security have always been topics of interest because, as technology advances, the amount of data that is desired to be transmitted, stored, or used in real time applications is becoming greater. Some of the encryption schemes can increase the size of the data, or bring unwanted additional computations. These drawbacks can be solved by several techniques to combine compression with encryption in one process or by performing a selective encryption of the data. Cryptographie Base de données génomiques ADN Compression des données Cryptography Genomic database One time pad Compression
3	Contributions à la cryptographie ADN : applications à la transmission sécurisée du texte et de l'image Tornea, Olga 13 November 2013 (has links) (PDF) La cryptographie ADN est un domaine nouveau et prometteur pour la sécurité de l'information. C'est une combinaison des solutions classiques de cryptographie avec les avantages du matériel génétique. En effet, il est possible de bénéficier des avantages des systèmes cryptographiques classiques et de les rendre plus efficaces sur certaines méthodes grâce à l'utilisation de l'ADN. Il y a différentes façons d'utiliser l'ADN pour sécuriser le contenu de l'information. Cette thèse propose deux solutions différentes pour utiliser l'ADN dans la cryptographie : sous sa forme biologique ou alors sous forme numérique. D 'une part, l'ADN biologique peut être utilisé pour le stockage et pour cacher des données à l'intérieur de celui-ci. L'information secrète est placée dans une molécule de l'ADN et caché parmi d'autres molécules d'ADN. D'autre part, les nombres aléatoires peuvent être générés à partir de séquences numériques d'ADN. Ils représentent une solution pour la génération et la transmission des clés OTP (One-Time-Pad) symétriques. La transmission d'une très longue clé de cryptage n'est pas nécessaire, car chaque séquence possède un numéro d'identification unique dans la base de données. Ce numéro, ou une combinaison de ces numéros, peut alors être transmis. Enfin, la sécurité et la compression sont très importantes lors de la transmission et du stockage des données informatiques. Cependant, la plupart des systèmes de cryptage peuvent augmenter la taille des données, ou encore augmenter la complexité calcul. Ces inconvénients peuvent être résolus en combinant la compression de données avec le cryptage dans un seul processus ou en effectuant le cryptage sélectif des données. [SPI:OTHER] Engineering Sciences/Other Cryptographie Base de données génomiques ADN Compression des données
4	Intégration de données génomiques (mutations, gènes majeurs, marqueurs SNP, haplotypes) dans les modèles d'évaluations génétiques des chèvres laitières pour améliorer l'efficacité de la sélection / Integration of genomic data (QTL, major gene, SNPs, haplotypes) in genomic evaluation models to improve efficiency of selection in French dairy goats Teissier, Marc 05 February 2019 (has links) Suite aux travaux de Céline Carillier (2012-2015), des évaluations ssGBLUP ont été mises en place en 2018 pour les races caprines Alpine et Saanen. L’objectif est d’améliorer les précisions des évaluations pour maximiser le progrès génétique pour les caractères d’intérêt. Pour notre première étude, nous nous sommes intéressés à l’effet de la taille de la population de référence (limitée pour ces races) sur les précisions des évaluations. L’accroissement de la population d’apprentissage ne s’est pas systématiquement accompagné d’une hausse des précisions. Le ssGBLUP présente des biais et tend à surestimer ou sous-estimer les valeurs génomiques. Des hyperparamètres ont été introduits dans la construction de la matrice génomique du ssGBLUP pour limiter ces biais. Ces hyperparamètres (, et ) peuvent améliorer les biais tout en affectant de manière limitée les précisions. Pour les races Alpine et Saanen, les biais sont proches de 1 pour un compris entre 0,1 et 0,3 et un compris entre 3 et 4. L’hyperparamètre a peu d’effet sur les précisions et les biais, sa valeur par défaut (0,95) semble être optimale. Dans une deuxième partie, nous nous sommes intéressés à l’intégration de mutations causales ou de QTLs dans les modèles d’évaluations pour améliorer les précisions. Des mutations causales et des QTLs ont été détectés dans les races caprines. On peut citer le gène de la caséine s1 pour le taux protéique ou DGAT1 pour le taux butyreux. D’autres études ont identifié un QTL, localisé sur le chromosome 19, en Saanen. Il a été détecté pour les caractères : quantités de lait et de matières (grasses et protéiques), la distance plancher-jarret et pour la qualité de l’attache arrière. L’utilisation des génotypes de la caséine s1 ou DGAT1 dans les modèles d’évaluations (gene content) a été inefficace pour améliorer les précisions des évaluations. Le gene content est une méthode multicaractère où le « gene content » est un second caractère corrélé au caractère en sélection. Pour le taux protéique ou butyreux, les précisions avec le gene content sont entre -11 % et 0 % inférieures aux précisions du ssGBLUP. En pondérant les SNPs de manière adéquate avec un ssGBLUP (appelée Weighted ssGBLUP et notée WssGBLUP), les précisions des évaluations ont été améliorées. Cette méthode attribue des poids aux SNPs en fonction de leur association aux caractères. Ces poids sont intégrés dans la construction de la matrice de parenté génomique. Des gains jusqu’à +5 % et +14 % (Alpine et Saanen) ont été observés par rapport au ssGBLUP. Le WssGBLUP est plus adapté pour la race Saanen car des QTLs sont présents sur la majorité des caractères. Pour la race Alpine, le WssGBLUP s’est avéré intéressant pour le taux protéique. Le ssGBLUP reste la meilleure méthode lorsque le caractère a une architecture génétique polygénique. Enfin, nous nous sommes intéressés à des modèles d’évaluation génomiques haplotypiques. Les haplotypes ont été construits en regroupant plusieurs SNPs consécutifs ou en se basant sur le déséquilibre de liaison entre SNPs. Les haplotypes sont utilisés pour construire une matrice de parenté haplotypique ou convertis en pseudo-SNPs, pour construire une matrice de parenté génomique. En Alpine, les précisions du ssGBLUP haplotypiques (ou pseudo-SNPs) ont évolué entre -1 % et 19 % par rapport au ssGBLUP basé sur l’information des SNPs. En Saanen, les précisions ont évolué entre -3 % et +6 % par rapport au ssGBLUP. Nous avons appliqué le WssGBLUP avec des pseudo-SNPs. En Saanen, une amélioration des précisions jusqu’à +16 % par rapport au ssGBLUP a été observée. Les gains les plus forts (supérieurs à +10 %) sont obtenus pour les caractères avec un QTL identifié (lait, matières grasses et protéiques, taux protéique, qualité de l’attache arrière et distance entre le plancher et le jarret). En Alpine, des gains de précision entre -8 % et +5 % ont été observés par rapport au ssGBLUP selon le caractère excepté pour les matières grasses (+19 %). / Following Céline Carillier’s PhD (2012-2015), genomic evaluations based on the ssGBLUP were implemented in 2018 in the dairy goat breeds Alpine and Saanen. The objective of breeders is to improve the accuracy of genomic evaluations in order to maximize genetic gain for traits of interest. In our first study, we looked at the effect of the size of the reference population (limited for these breeds) on the accuracy of genomic evaluations. The increase of the training population was not systematically associated with an increase of genomic accuracies. The ssGBLUP has some biases and tends to overestimate or underestimate genomic value estimates. To avoid these biases, hyperparameters were introduced into the construction of the ssGBLUP genomic relationship matrix. An analysis of these hyperparameters (, and ) was carried out and we found that the choice of them improves bias while having a limited impact on genomic accuracy. For the Alpine and Saanen breeds, the biases are close to 1 for a between 0.1 and 0.3 and a between 3 and 4. The hyperparameter has little effect on accuracy and bias and its default value (0,95) seems to be optimal. In a second part of my thesis, we focused on the integration of causal mutations or QTLs into genomic evaluation models to improve genomic accuracy. Causal mutations and QTLs were detected in the Alpine and Saanen breeds such as the s1 casein gene for protein content or DGAT1 for fat content. Other studies have shown a QTL, located on chromosome 19, in the Saanen breed. It was detected for different traits: milk, fat and protein content, udder floor position and rear udder attachment. The use of genotypes for s1 casein or DGAT1 in genomic evaluation models (gene content) was inefficient in improving evaluation accuracy. The gene content is a multi-trait method where the "gene content" is a second trait correlated to the selected trait. Whether for protein or fat content, accuracies with gene content were between -11% and 0% lower than the ssGBLUP accuracies for the Alpine and Saanen breeds. We have shown by adequately weighting SNPs in an ssGBLUP (approach called Weighted ssGBLUP and noted WssGBLUP), the accuracy of evaluations could be improved. This method assigns weights to SNPs based on their association with traits. These weights are integrated into the construction of the genomic relationship matrix. Gains up to +5% for the Alpine breed and +14% for the Saanen breed were observed compared to the ssGBLUP. The WssGBLUP is more suitable for the Saanen breed because QTLs are present on the majority of traits. For the Alpine breed, WssGBLUP was interesting for the protein content. The ssGBLUP remained the most interesting method when the trait had a polygenic genetic architecture. Finally, in the last study, we focused on haplotype genomic evaluation models. Haplotypes were constructed either by grouping several consecutive SNPs or by using the linkage disequilibrium (LD) between SNPs. The haplotypes are then used to build a haplotypic relationship matrix or converted to pseudo-SNPs to build a genomic relationship matrix. In the Alpine breed, the accuracy of the haplotypic ssGBLUP (or pseudo-SNPs) was increased between -1% and 19% compared to an ssGBLUP based on SNP information. On the other hand, in the Saanen breed, the accuracy was increased between -3% and +6% compared to a ssGBLUP. Finally, we applied the WssGBLUP approach using pseudo-SNPs. In the Saanen breed, an improvement in accuracy up to +16% compared to a ssGBLUP was observed. The highest gains (above +10%) were obtained for traits with an identified QTL (milk, fat and protein yields, protein content, udder floor position and rear udder attachment). In the Alpine breed, accuracy gains between -8% and +5% were observed compared to ssGBLUP depending on the trait except for fat yield and fat content where the gains reach +19%. Evaluation génétiques Données génomiques Chèvres laitières française Genetics evaluation Genomics data French dairy goats
5	Pronostic moléculaire basé sur l'ordre des gènes et découverte de biomarqueurs guidé par des réseaux pour le cancer du sein / Rank-based Molecular Prognosis and Network-guided Biomarker Discovery for Breast Cancer Jiao, Yunlong 11 September 2017 (has links) Le cancer du sein est le deuxième cancer le plus répandu dans le monde et la principale cause de décès due à un cancer chez les femmes. L'amélioration du pronostic du cancer a été l'une des principales préoccupations afin de permettre une meilleure gestion et un meilleur traitement clinique des patients. Avec l'avancement rapide des technologies de profilage génomique durant ces dernières décennies, la disponibilité aisée d'une grande quantité de données génomiques pour la recherche médicale a motivé la tendance actuelle qui consiste à utiliser des outils informatiques tels que l'apprentissage statistique dans le domaine de la science des données afin de découvrir les biomarqueurs moléculaires en lien avec l'amélioration du pronostic. Cette thèse est conçue suivant deux directions d'approches destinées à répondre à deux défis majeurs dans l'analyse de données génomiques pour le pronostic du cancer du sein d'un point de vue méthodologique de l'apprentissage statistique : les approches basées sur le classement pour améliorer le pronostic moléculaire et les approches guidées par un réseau donné pour améliorer la découverte de biomarqueurs. D'autre part, les méthodologies développées et étudiées dans cette thèse, qui concernent respectivement l'apprentissage à partir de données de classements et l'apprentissage sur un graphe, apportent une contribution significative à plusieurs branches de l'apprentissage statistique, concernant au moins les applications à la biologie du cancer et la théorie du choix social. / Breast cancer is the second most common cancer worldwide and the leading cause of women's death from cancer. Improving cancer prognosis has been one of the problems of primary interest towards better clinical management and treatment decision making for cancer patients. With the rapid advancement of genomic profiling technologies in the past decades, easy availability of a substantial amount of genomic data for medical research has been motivating the currently popular trend of using computational tools, especially machine learning in the era of data science, to discover molecular biomarkers regarding prognosis improvement. This thesis is conceived following two lines of approaches intended to address two major challenges arising in genomic data analysis for breast cancer prognosis from a methodological standpoint of machine learning: rank-based approaches for improved molecular prognosis and network-guided approaches for enhanced biomarker discovery. Furthermore, the methodologies developed and investigated in this thesis, pertaining respectively to learning with rank data and learning on graphs, have a significant contribution to several branches of machine learning, concerning applications across but not limited to cancer biology and social choice theory. Cancer du sein Pronostic moléculaire Découverte de biomarqueurs Réseau biologique Apprentissage statistique Analyse de données génomiques Breast Cancer Molecular Prognosis Biomarker Discovery Biological Network Machine Learning Genomic Data Analysis 570.15

1

Page generated in 0.3255 seconds