Spelling suggestions: "subject:"séquence""
21 |
Assessment of supervised classification methods for the analysis of RNA-seq data / Développement, évaluation et application de méthodes statistiques pour l'analyse de données multidimensionnelles de comptage produites par les technologies de séquençage à haut débit ("Next Generation Sequencing")Abuelqumsan, Mustafa 20 December 2018 (has links)
Les technologies « Next Generation Sequencing» (NGS), qui permettent de caractériser les séquences génomiques à un rythme sans précédent, sont utilisées pour caractériser la diversité génétique humaine et le transcriptome (partie du génome transcrite en acides ribonucléiques). Les variations du niveau d’expression des gènes selon les organes et circonstances, sous-tendent la différentiation cellulaire et la réponse aux changements d’environnement. Comme les maladies affectent souvent l’expression génique, les profils transcriptomiques peuvent servir des fins médicales (diagnostic, pronostic). Différentes méthodes d’apprentissage artificiel ont été proposées pour classer des individus sur base de données multidimensionnelles (par exemple, niveau d’expression de tous les gènes dans des d’échantillons). Pendant ma thèse, j’ai évalué des méthodes de « machine learning » afin d’optimiser la précision de la classification d’échantillons sur base de profils transcriptomiques de type RNA-seq. / Since a decade, “Next Generation Sequencing” (NGS) technologies enabled to characterize genomic sequences at an unprecedented pace. Many studies focused of human genetic diversity and on transcriptome (the part of genome transcribed into ribonucleic acid). Indeed, different tissues of our body express different genes at different moments, enabling cell differentiation and functional response to environmental changes. Since many diseases affect gene expression, transcriptome profiles can be used for medical purposes (diagnostic and prognostic). A wide variety of advanced statistical and machine learning methods have been proposed to address the general problem of classifying individuals according to multiple variables (e.g. transcription level of thousands of genes in hundreds of samples). During my thesis, I led a comparative assessment of machine learning methods and their parameters, to optimize the accuracy of sample classification based on RNA-seq transcriptome profiles.
|
22 |
Exploring optimal snoRNA profiling using Next Generation Sequencing methods / Exploration des méthodes de séquençage pour une identification optimale des snoRNAsDupuis Sandoval, Fabien January 2018 (has links)
Abstract: Recent advances in Next-Generation Sequencing protocols have opened a variety of ways
to generate data. However, each newly developed methodology is most suited to represent
a certain phenomenon or molecule. The object of this analysis is to identify the most
appropriate way to generate and process data to study the snoRNAs, or small nucleolar
RNA. Recently, snoRNAs have been revealed as taking part in a variety of unexpected
alternative functions such as splicing, resistance to oxidative shock and chromatin
unwinding. Finding a method to generate and treat a large quantity of data containing
snoRNAs and their potential interactors could highlight some of their unexplored roles
within the cell. To tackle the problem, a new protocol was put forward. This new pipeline
relies on a reverse transcriptase isolated from a bacterial group II intron which boasts a
better representation of structured small RNAs such as tRNAs and snoRNAs. Indeed, when
compared to data created by using the standard small RNA preparation protocol, the
sequencing data generated through the group II intron retrotranscriptase gives a much fairer
representation. These improvements are also present in the bioinformatics pipeline. The
workflow was changed to facilitate the detection of ncRNAs. These modifications rescue
millions of reads, further increasing the power of the analysis. Ultimately, such corrections
increase the predictive power of sequencing data. / Des avancées récentes dans le domaine du séquençage de prochaine génération ont ouvert une panoplie de façons de générer des données. Toutefois, chaque nouvelle méthode dévelopée est souvent appropriée à la caractérisation d’un seul type de phénomène ou de molécules. L’objectif de cette analyse est d’identifier la manière la plus appropriée de générer et traiter les données pour étudier les petits ARNs nucléolaires, snoRNAs. Récemment, ceux-ci ont été révélés comme des acteurs dans une variété de fonctions alternatives comme l’épissage alternatif, la résistance au choc oxidatif et l’état de la chromatine. Il est donc impératif de trouver une méthode qui puisse traiter une large quantité de données contenant les snoRNAs et leurs intéracteurs pour découvrir les rôles encore inexplorés des snoRNAs. Dans cette optique, un nouveau protocole a été élaboré. Cette nouvelle suite d’analyses s’appuie sur une reverse transcriptase isolée d’un intron de groupe II bactérien qui affiche une meilleure représentation des petits ARNs structurés comme les tRNAs et les snoRNAs. En effet, quand les données générées à travers la méthode de préparation des libraries pour petits ARNs standard est comparée à celle basée sur la reverse transcriptase bactérienne, cette dernière donne une meilleure représentation du compte des espèces. Ces avancées sont aussi présentes dans la méthode d’analyse informatique. La suite d’outils a été modifiée afin de permettre une meilleure détection des petits ARN non-codants. Ces modifications permettent de récupérer des millions de lectures par ensemble de données ce qui augmente le pouvoir prédictif de l’analyse.
|
23 |
Déterminant génomique de la résistance aux antituberculeux à Madagascar : caractérisation du résistome national pour guider l’utilisation des outils diagnostiques et des régimes thérapeutiquesCloutier Charette, William 06 1900 (has links)
La tuberculose (TB) est une maladie mortelle qui frappe en grande partie les pays en développement. Près d’un quart de la population serait touché par la TB dans sa forme active ou latente. L’émergence de la résistance bactérienne rend ce problème de santé publique encore plus important. Certaines souches multirésistantes (MDR-TB) et extensivement résistantes (XDR- TB) sont en circulation dans certaines zones géographiques plus à risque.
En collaboration avec l’Institut Pasteur de Madagascar, les objectifs de ce travail étaient premièrement de brosser le portrait global des mutations résistance aux antituberculeux circulant à Madagascar, et deuxièmement, d’effectuer une analyse comparative entre une méthode de séquençage ciblée (Deeplex—MycTB) et une méthode de séquençage du génome complet pour l’antibiogramme génotypique de la TB. L’analyse a été réalisée avec des souches MDR-TB ainsi que des souches sensibles aux antituberculeux en provenance de Madagascar. Les outils bio-informatiques Mykrobe et Clockwork ainsi que le test de séquençage ciblé Deeplex Myc- TB® ont été utilisés.
Nos résultats ont permis de dresser la liste exhaustive des mutations de résistance circulantes à Madagascar entre 2012 et 2021 en plus d’évaluer la performance relative de deux méthodes de séquençage pour l’antibiogramme génotypique. / Tuberculosis (TB) is a deadly disease predominantly affecting developing countries. Close to one quarter of the population would be affected by TB in its active or latent form. The emergence of bacterial resistance has made this public health issue even more important. Multi-drug resistant (MDR-TB) and extensively drug resistant (XDR-TB) strains are circulating in some high-risk areas.
With the collaboration with the Institute Pasteur of Madagascar, the goals of this project was first to describe the drug resistance mutations circulating in Madagascar, and second, to perform a comparative analysis between a targeted sequencing method (Deeplex—MycTB) and a whole genome sequencing method for TB genotypic drug susceptibility testing methods.
Our analyses generated the comprehensive list of circulating resistance mutations in Madagascar between 2012 and 2021 and allowed to evaluate the relative performance of two sequencing methods for genotypic drug susceptibility testing.
|
24 |
Exploration génétique de l'hypothyroïdie congénitale par dysgénésie thyroïdienneMagne, Fabien 10 1900 (has links)
L'hypothyroïdie congénitale par dysgénésie thyroïdienne (HCDT, ectopie dans plus de 80 %) a une prévalence de 1 cas sur 4000 naissances vivantes. L’HCDT est la conséquence d'une défaillance de la thyroïde embryonnaire à se différencier, à se maintenir ou à migrer vers sa localisation anatomique (partie antérieure du cou), qui aboutit à une absence totale de la thyroïde (athyréose) ou à une ectopie thyroïdienne (linguale ou sublinguale). Les HCDT sont principalement non-syndromiques (soit 98% des cas sont non-familiale), ont un taux de discordance de 92% chez les jumeaux monozygotes, et ont une prédominance féminine et ethnique (i.e., Caucasienne). La majorité des cas d’HCDT n’a pas de cause connue, mais est associée à un déficit sévère en hormones thyroïdiennes (hypothyroïdie). Des mutations germinales dans les facteurs de transcription liés à la thyroïde (NKX2.1, FOXE1, PAX8, NKX2.5) ont été identifiées dans seulement 3% des patients atteints d’HCDT sporadiques et l’analyse de liaisons exclue ces gènes dans les rares familles multiplex avec HCDT. Nous supposons que le manque de transmission familiale claire d’HCDT peut résulter de la nécessité d’au moins deux « hits » génétiques différents dans des gènes importants pour le développement thyroïdien.
Pour répondre au mieux nos questions de recherche, nous avons utilisé deux approches différentes: 1) une approche gène candidat, FOXE1, seul gène impliqué dans l’ectopie dans le modèle murin et 2) une approche en utilisant les techniques de séquençage de nouvelle génération (NGS) afin de trouver des variants génétiques pouvant expliquer cette pathologie au sein d’une cohorte de patients avec HCDT.
Pour la première approche, une étude cas-contrôles a été réalisée sur le promoteur de FOXE1. Il a récemment été découvert qu’une région du promoteur de FOXE1 est différentiellement méthylée au niveau de deux dinucléotides CpG consécutifs, définissant une zone cruciale de contrôle de l’expression de FOXE1. L’analyse d’association basée sur les haplotypes a révélé qu’un haplotype (Hap1: ACCCCCCdel1C) est associé avec le HCDT chez les Caucasiens (p = 5x10-03). Une réduction significative de l’activité luciférase est observée pour Hap1 (réduction de 68%, p<0.001) comparé au promoteur WT de FOXE1. Une réduction de 50% de l’expression de FOXE1 dans une lignée de cellules thyroïdienne humaine est suffisante pour réduire significativement la migration cellulaire (réduction de 55%, p<0.05). Un autre haplotype (Hap2: ACCCCCCC) est observé moins fréquemment chez les Afro-Américain comparés aux Caucasiens (p = 1.7x10-03) et Hap2 diminue l’activité luciférase (réduction de 26%, p<0.001). Deux haplotypes distincts sont trouvés fréquemment dans les contrôles Africains (Black-African descents). Le premier haplotype (Hap3: GTCCCAAC) est fréquent (30.2%) chez les contrôles Afro-Américains comparés aux contrôles Caucasiens (6.3%; p = 2.59 x 10-9) tandis que le second haplotype (Hap4: GTCCGCAC) est trouvé exclusivement chez les contrôles Afro-Américains (9.4%) et est absent chez les contrôles Caucasiens (P = 2.59 x 10-6).
Pour la deuxième approche, le séquençage de l’exome de l’ADN leucocytaire entre les jumeaux MZ discordants n’a révélé aucune différence. D'où l'intérêt du projet de séquençage de l’ADN et l’ARN de thyroïdes ectopiques et orthotopiques dans lesquelles de l'expression monoallélique aléatoire dans a été observée, ce qui pourrait expliquer comment une mutation monoallélique peut avoir des conséquences pathogéniques. Finalement, le séquençage de l’exome d’une cohorte de 36 cas atteints d’HCDT a permis d’identifier de nouveaux variants probablement pathogéniques dans les gènes récurrents RYR3, SSPO, IKBKE et TNXB. Ces quatre gènes sont impliqués dans l’adhésion focale (jouant un rôle dans la migration cellulaire), suggérant un rôle direct dans les défauts de migration de la thyroïde. Les essais de migration montrent une forte diminution (au moins 60% à 5h) de la migration des cellules thyroïdiennes infectées par shRNA comparés au shCtrl dans 2 de ces gènes. Des zebrafish KO (-/- et +/-) pour ces nouveaux gènes seront réalisés afin d’évaluer leur impact sur l’embryologie de la thyroïde. / Congenital hypothyroidism by thyroid dysgenesis (CHTD) is a common disorder with prevalence at birth of 1 in 4000 live births. CHTD is the consequence of a failure of embryonic thyroid to differentiate or to migrate to its anatomical location (front of the neck), which leads to a total lack of thyroid (athyreosis) or an ectopic thyroid (lingual or sublingual). The most common category is ectopic thyroid diagnosis (up 85%). Most cases of CHTD have no known cause, but are associated with severe deficiency of thyroid hormones (hypothyroidism). The clinical diagnosis of hypothyroidism is usually possible only when permanent brain damage is already present. On the other hand, biochemical screening on the second day of life allows initiating replacement therapy from the second week of life, pre-empting severe intellectual deficit associated with the congenital hypothyroidism. Even with early treatment (an average of 9 days), loss of IQ, which is not exclusively due to the severity of hypothyroidism, can still be observed. Molecular markers may identify patients at risk for intellectual deficit (by e.g., genes involved in neuronal migration and the thyroid during development). These patients might benefit from early intervention to stimulate their neurocognitive development.
Cases of CHTD are mainly non-syndromic and sporadic (in 98% of cases, there is no other affected in the family), have a discordant rate of 92% in monozygotic twins, and a female and ethnic (Caucasian) dominance. Germline mutations in thyroid-related transcription factors have been identified in only 3% of patients with sporadic CHTD, and linkage analysis has excluded these genes in rare multiplex families with CHTD. In addition, non-penetrating mutations among close relatives (for Nkx2.5 gene) suggest that modifying genes as germline variants de novo copy number (CNV) and / or somatic mutations are associated with CHTD.
To respond to this research questions, we used two different approaches: 1) a candidate gene approach studying FOXE1, the only gene involved in ectopic thyroid in the mouse model and, 2) an approach using next generation sequencing techniques (NGS) to find genetic variants that could explain this pathology using a cohort of mostly sporadic CHTD. Variants and genes discovered by these two different approaches have been validated and their functional impact on the thyroid gland was evaluated by several experiments.
|
25 |
Identification de gènes responsables d'épilepsies de l'enfant / Identification of genes implicated in childhood epilepsiesDimassi, Sarra 10 July 2017 (has links)
L'épilepsie est une affection neurologique chronique qui se définit par la répétition de crises épileptiques, signe de l'hyperactivité paroxystique d'un groupe de neurones corticaux. Ces dernières années, plusieurs gènes responsables d'épilepsies monogéniques ont été mis en évidence. Notre travail avait pour objectif l'identification d'anomalies génétiques responsables ou favorisants certaines formes d'épilepsies de l'enfant. Ce travail est composé de quatre études complémentaires. La première était l'exploration pangénomique d'une cohorte de 47 patients porteurs d'épilepsie à paroxysme rolandique (EPR) par CGH array, à la recherche de variations de nombre de copies (CNV) récurrentes. Nous avons ainsi pu mettre en évidence plusieurs CNVs emportant des gènes impliqués dans l'épilepsie, dont PRRT2 et GRIN2A. La deuxième reposait sur la même approche appliquée à une cohorte de 8 patients tunisiens présentant des spasmes infantiles. Elle a permis d'identifier une délétion 9q34.3 emportant le gène EHMT1, responsable du syndrome de Kleefstra et une duplication 15q13.1, région impliquée dans des troubles du neurodéveloppement. Pour la troisième étude, nous avons comparé deux techniques de capture pour séquençage à haut débit d'un panel de gènes impliqués dans les épilepsies de l'enfant, à partir des échantillons de 24 patients épileptiques. Cette approche nous a permis de mettre au point un logiciel d'analyse de couverture, que nous avons nommé DeCovA. Lors de la dernière étude, nous avons appliqué une stratégie de séquençage d'exome en trio pour explorer 10 patients porteurs des spasmes infantiles. Nous avons ainsi pu mettre en évidence des variants pathogènes de novo chez quatre patients,impliquant les gènes KCNQ2, SCN1A, NR2F1 et ALG13. Nos résultats confirment ainsi la place importante de la génétique et l'intérêt majeur des nouvelles technologies dans l'exploration étiologique des épilepsies de l'enfant / Epilepsy is a chronic neurological disorder characterized by repeated epileptic seizures, a sign of cortical neurons paroxysmal hyperactivity. In recent years, several monogenic genes involved in epilepsy have been identified. The aim of our work is to identify new genetic abnormalities responsible for childhood epilepsies. This work is divided into four complementary studies. First, we searched copy number variation (CNV) by pangenomic exploration of a cohort of 47 patients with Rolandic epilepsy (RE) using CGH array. We identified several CNVs carrying genes involved in epilepsy, including PRRT2 and GRIN2A (genes). Secondly, the same approach was applied to a cohort of 8 Tunisian patients with infantile spasms. It allowed the identification of a 9q34.3 deletion includingEHMT1, implicated in Kleefstra syndrome and a 15q13.1 duplication, known to be involved in neurodevelopment disorders. For the third study, we compared two library-building methods for a gene-targeted panel for the diagnosis of Monogenic childhood epilepsies, in a cohort of 24 epileptic patients. This approach allowed us to develop a coverage analysis software, which we named DeCovA. In the last study, we used a trio-based exome-sequencing approach to look for de novo mutations in 10 patients with infantile spasms. We found de novo pathogenic variants in four patients, involving KCNQ2, SCN1A, NR2F1, and ALG13. Our results confirm the increasing role of genetics and the major interest of new technologies in the etiological exploration of childhood epilepsy
|
26 |
Caractérisation du microbiome respiratoire et de la diversité génomique virale au cours des formes de grippes sévères / Respiratory microbiome and viral genomic diversity : characterization in severe forms of influenza diseasesPichon, Maxime 05 December 2018 (has links)
La grippe est une infection respiratoire responsable de complications respiratoires ou neurologiques nécessitant une prise en charge rapide et adaptée. L’émergence des technologies de séquençage à haut débit (NGS) permet l’étude des communautés microbiennes résidentes ainsi qu’une étude approfondie du génome des pathogènes impliqués. Cette thèse a pour objectif de caractériser le microbiome respiratoire et la diversité génomique virale des patients infectés par les virus grippaux, en corrélant les données clinicobiologiques recueillies. Après recueil des prélèvements respiratoires d’enfants hospitalisés entre 2010 et 2014, le séquençage de leur microbiome respiratoire a mis en évidence une augmentation de la diversité microbienne ainsi qu’une signature microbienne différentielle entre formes cliniques. Une répartition différentielle de taxons (OTU) permet la prédiction de complications chez les enfants infectés. L’étude d’échantillons respiratoires de patients adultes permettra de compléter la signature prédictive. Après validation des processus analytiques et bioinformatiques par reconstitution artificielles de quasi espèces et recueil de 125 prélèvements cliniques respiratoires, le séquençage du génome entier par NGS des virus grippaux permet de différencier les diversités initiales en fonction de la nature du virus infectant et de la complication. En comparaison du prélèvement initial précoce les échantillons prélevés successivement mettent en évidence une diversification différentielle entre les différents segments des virus grippaux infectant les patients, que ce soit chez les patients immunocompétents ou chez un patient immunodéprimé à l’excrétion prolongé / Influenza is a respiratory infection responsible for respiratory or neurological complications and require rapid and adapted management. The emergence of next-generation sequencing (NGS) allows the study of resident microbial communities as well as an in-depth study of the genome of the pathogens. This thesis aimed to characterize the respiratory microbiome and the viral genomic diversity of influenza virus infected patients, correlating these data to the collected clinical data. After sampling of respiratory specimens from hospitalized children between 2010 and 2014, the sequencing of their respiratory microbiome revealed an increase in microbial diversity and a differential microbial signature between clinical forms. A differential taxon distribution (OTU) allows the prediction of complications in infected children. The study of adult respiratory samples will complete the predictive signature.After validation of the analytical and bioinformatic processes by artificial reconstitution of quasi-species and collection of 125 respiratory clinical specimens, the sequencing of the whole genome by NGS of the influenza viruses allow to differentiate the initial diversities according to the nature of the infecting virus and the complication. Compared to early samples, specimen sampled successively show a differential diversification between the different segments of influenza viruses, whether in immunocompetent patients or in an immunocompromised patient with prolonged excretion
|
27 |
Etude des variants résistants minoritaires aux antirétroviraux : impact sur la réponse virologique au traitement / Study of minority resistant variants to antiretroviral : impact on virologic response to treatmentTodesco, Eve 18 December 2015 (has links)
Les mutations de résistance pour une molécule sont produites avant que la molécule en question ne soit utilisée, et c’est sous « pression de sélection » que la souche résistante va être sélectionnée. Des données récentes montrent que des variants résistants minoritaires (VRMs) peuvent être une source d’échec virologique. Les nouvelles techniques de séquençage sont bien plus sensibles que les techniques classiques de séquençage et permettent la détection des VRMs. Afin d’évaluer l’intérêt de l’utilisation de ces techniques, nous avons étudié les prélèvements de patients en situation d’échec virologique après traitement par deux combinaisons antirétrovirales très utilisées (tenofovir/emtricitabine/efarirenz et tenofovir/emtricitabine/rilpivirine). De nombreux variants de résistance supplémentaires ont été détectés, touchant principalement la classe des Inhibiteurs Nucléosidiques de la Transcriptase Inverse (INTIs), avec un impact potentiel sur le choix du traitement de relais. Nous avons également étudié la prévalence des mutations de résistance transmise sur le gène de la protéase et de la transcriptase inverse chez des patients naïfs chroniquement infectés, chez deux groupes de transmission : des patients hommes ayant des rapports avec d’autres hommes (HSH), et des patients hétérosexuels. Nous avons retrouvé une prévalence plus élevée de mutations touchant les INTIs dans le groupe des patients hétérosexuels. Parmi les patients HSH, ceux infectés par un virus de sous-type B étaient plus fréquemment infectés par un virus résistant. Cette thèse met en avant la puissance des ces techniques, dont les conditions d'utilisation ne sont pas encore complètement définies. / Resistance mutations for a given molecule are produced before the molecule is used, and it is under "selection pressure" that the resistant strain will be selected. Recent data show that minority resistant variants (MRV) can be a source of virologic failure. New sequencing techniques are much more sensitive than conventional sequencing techniques and allow MRV detection. To assess the value of these new techniques, we studied samples from patients experiencing virologic failure after treatment with two antiretroviral combinations widely used (tenofovir/emtricitabine/efarirenz et tenofovir/emtricitabine/rilpivirine). Many additional resistance variants affecting the class of nucleoside reverse transcriptase inhibitors (NRTIs) were detected, with a potential impact on the choice of the subsequent regimen. We also studied the prevalence of transmitted resistance mutations in the protease and reverse transcriptase genes among naive patients chronically infected, among two groups of transmission: patients of men who have sex with men (MSM) and heterosexual patients. We found a higher prevalence of NRTI mutations among the heterosexual group. Among MSM patients, those infected with subtype B viruses were more frequently infected with a resistant virus. This thesis highlights the power of these techniques, the conditions of use are not yet fully defined.
|
28 |
Hereditary spastic paraplegias : clinical spectrum in Sudan, further deciphering of the molecular bases of autosomal recessive forms and new genes emerging / Paraplégies spastiques héréditaires : exploration clinique au Soudan, études des origines moléculaires des formes autosomiques récessives et identification de nouveaux gènes en causeElbaghir Omer Elsayed, Liena 27 April 2016 (has links)
Les paraplégies spastiques héréditaires (PSH) font partie d’un groupe plus large de pathologies neurodégénératives associant une spasticité. J’ai exploré la variabilité clinique et moléculaire de ces pathologies à l’aide d’une cohorte de familles soudanaises. Nous avons recruté 41 familles soudanaises [337 individus/106 atteints de PSH]. J’ai extrait l’ADN génomique et constitué une banque. Le criblage de gènes candidats a été réalisé dans 4 familles en fonction du phénotype des patients. La technologie de séquençage de nouvelle génération (SNG) appliquée à 74 gènes de PSH a ensuite été appliquée aux 37 cas restants. Enfin, le séquençage de l’exome a permis de rechercher les gènes en cause dans les cas négatifs. Dans certains cas, des études fonctionnelles ont été utilisées afin de valider l’effet biologique des mutations. J’ai pu identifier la cause génétique dans 17 familles. Dans 12 familles, la mutation concernait un gène de PSH connu. Dans 3 familles, un nouveau gène a été identifié. 5 gènes candidats restent à départager dans 2 familles. Il est à noter que parfois, de multiple mutations ou maladies génétiques ségrégaient dans nos familles, dans la même branche ou dans des branches séparées. La complexité de ces familles fortement consanguines a rendu l’analyse des données du SNG difficile. Une autre particularité a été l’hétérogénéité clinique associée à des mutations du même gène entre patients de la même famille ou en comparaison avec la littérature. Ce travail est la première étude à grande échelle de patients soudanais avec PSH et rapporte de nouveaux gènes en cause, prérequis pour mieux comprendre dans le futur les mécanismes sous-jacents. / Hereditary spastic paraplegias (HSP), a heterogeneous group of spastic neurodegenerative disorders which impose diagnostic challenges. I explored the clinical varieties and genetic pathways of spastic neurodegeneration in a familial Sudanese cohort. We recruited 41 Sudanese families [337 individuals/106 HSP patients]. I have established a genomic DNA bank and when necessary, skin biopsies and fibroblasts were also obtained. A phenotype-based candidate gene approach was followed in 4 families. A targeted next generation sequencing (NGS) for 74 HSP-related genes was the main screening strategy in all-remaining 37 families. Whole exome sequencing (WES) was done in search for novel mutations in new genes in families with negative screening results. Occasionally, functional studies were conducted when feasible and relevant. I identified the genetic cause in 17/41 families. In 12 families, the mutated genes were known HSP genes. In 3 families, novel genes were identified mutated. 5 candidate genes segregated with disease in 2 other families with more experiments needed to conclude. Analysis of the NGS screening panel and of WES data imposed certain challenges as multiple genetic disorders were sometimes found running in parallel in the same/different branches of highly inbred families. We could expand the phenotypic heterogeneity of these disorders due to clinical differences observed between Sudanese patients and patients of other origins even when caused by mutations by the same gene/variant. This is the first genetic screening in a large set of HSP families in Sudan. It describes new causative genes, paving the way for further deciphering of the underlying mechanisms.
|
29 |
Apprentissage d'atlas cellulaires par la méthode de Factorized embeddingsTrofimov, Assya 02 1900 (has links)
Le corps humain contient plus de 3.72X10^13 cellules qui se distinguent par leur morphologie, fonction et état. Leur catalogage en atlas cellulaires c'est entamé il y a plus de 150 ans, avec l'invention des colorants cellulaires en microscopie. Notre connaissance des types cellulaires et leur phénotypes moléculaires nous permet de connaître et prédire leurs fonctions et patrons d'interactions. Ces connaissances sont à la base de la capacité à poser des diagnostics, créer des médicaments et même faire pousser des organes en biologie synthétique. Surprenamment, notre connaissance est loin d'être complète et c'est pourquoi la caractérisation systématique des cellules et l'assemblage des connaissances en atlas cellulaires est nécessaire. Le développement du séquençage à haut débit a révolutionné la biologie des systèmes et ce type de données est parfait pour la construction d'atlas cellulaires entièrement basés sur les données. Un tel atlas cellulaire contiendra une représentation des cellules par des vecteurs de nombres, où chaque vecteur encode le profil moléculaire capturant des informations biologiques de chaque cellule. Chaque expérience de séquençage d'ARN (RNA-Seq) produit des dizaines de milliers de mesures extrêmement riches en information dont l'analyse demeure non-triviale. Des algorithmes de réduction de dimensionnalité, entre autres, permettent d'extraire des données des patrons importants et encoder les échantillons dans des espaces plus interprétables. De cette manière, les cellules similaires sont groupés sur la base d'une multitude de mesures qu'offre le RNA-Seq. Nous avons donc créé un modèle, le Factorized Embedding (FE), qui permet d'organiser les données de séquençage d'ARN de la sorte. Le modèle apprend simultanément deux espaces d'encodage: un pour les échantillons et l'autre pour les gènes. Nous avons observé qu'une fois entraîné, que ce modèle groupe les échantillons sur la base de leur similarité d'expression génique et permet l'interpolation dans l'espace d'encodage et donc une certaine interprétabilité de l'espace d'encodage. Du côté de l'encodage des gènes, nous avons remarqué que les gènes se regroupaient selon leurs patrons de co-expression ainsi que selon des similarité de fonctions, trouvées via des ontologies de gènes (Gene Ontology, GO). Nous avons ensuite exploré les propriétés d'une modification du modèle FE, baptisée le Transcriptome Latent (TLT, de l'anglais The Latent Transcriptome), où l'encodage des gènes est remplacé par une fonction d'encodage de k-mers provenant de données brutes de RNA-Seq. Cette modification du modèle capture dans son espace d'encodage des séquence à la fois de l'information sur la similarité et l'abondance des séquences ADN. L'espace d'encodage a ainsi permis de détecter des anormalités génomiques tels les translocations, ainsi que des mutations spécifiques au patient, rendant cet espace de représentation utile autant pour la visualisation que pour l'analyse de données. Finalement, la dernière itération explorée dans cette thèse, du modèle FE, baptisée cette fois-ci le TCRome, encode des séquences TCR (récepteurs de cellules T) plutôt que des k-mers, venant du séquençage de répertoires immuns (TCR-Seq). Une irrégularité dans la performance du modèle a mené à une analyse des séquences plus approfondie et à la détection de deux sous-types de TCR. Nous avons analysé les répertoires TCR de plus de 1000 individus et rapportons que le répertoire TCR est composé de deux types de TCR ontogéniquement et fonctionellement distincts. Nous avons découvert des patrons distincts dans les abondances de l'un ou l'autre type, changeant en fonction du sexe, l'âge et dans le cadre de maladies telles chez les sujets portant des mutations dans le gène AIRE et dans le cadre de la maladie du greffon contre l'hôte (GVHD). Ces résultats pointent vers la nécessité d'utiliser des données de séquençage multi-modales pour la construction d'atlas cellulaires, c'est à dire en plus des séquence TCR, des données sur l'expression génique ainsi que des caractérisation moléculaires seront probablement utiles, mais leur intégration sera non-triviale. Le modèle FE (et ses modifications) est un bon candidat pour ce type d'encodage, vu sa flexibilité d'architecture et sa résilience aux données manquantes. / The human body contains over 3.72 x 10^13 cells, that distinguish themselves by their morphology, function and state.
Their cataloguing into cell atlases has started over 150 years ago, with the invention of cellular stains for microscopy.
Our knowledge of cell types and molecular phenotypes allows is to better know and predict their functions and interaction patterns.
This knowledge is at the basis of the ability to diagnose disease, create drugs and even grow organs in synthetic biology.
Surprisingly, our knowledge is far from complete and this is why a systematic characterization of cells and the assembly of cell atlases is important.
The development of high throughput sequencing has revolutionized systems biology and this type of data is perfect for the construction of entirely data-driven cell atlases.
Such an atlas will contain a representation of cells by vectors of numbers, where each vector encodes a molecular profile, capturing biological data about each cell.
Each sequencing experiment yields tens of thousands of measurements, extremely rich in information, but their analysis remains non-trivial.
Dimensionnality reduction algorithms allow to extract from the data important patterns and encode samples into interpretable spaces.
This way, similar cells are grouped on the basis of a multitude of measurements that comes from high throughput sequencing.
We have created a model, the Factorized Embedding (FE), that allows to organize RNA sequencing (RNA-Seq) data in such a way.
The FE model learns simultaneously two encoding spaces: one for samples and one for genes.
We have found that the model groups samples on the basis of similar gene expression and allows for smooth interpolation in the encoding space and thus some manner of interpretability.
As for the gene encoding space, we observed that gene coordinates were grouped according to co-expression patterns as well as similarity in function, found via gene ontology (GO).
We then explored a modification of the FE model, names The Latent Transcriptome (TLT), where the gene encoding function is replaced by a function encoding k-mers, calculated from raw RNA-Seq data.
This modification of the model captured in the k-mer encoding space both sequence similarity and sequence abundance.
The encoding space allowed for the detection of genomic abnormalities such as translocations, as well as patient-specific mutations, making the encoding space useful for both visualisation and data analysis.
Finally, the last iteration of the FE model that we explored, called TCRome, encodes amino-acid TCR sequences rather than k-mers.
An irregularity in the model's performance led us to discover two TCR subtypes, entirely based on their sequence.
We have thus analyzed TCR repertoires of over 1000 individuals and report that the TCR repertoire is composed of two ontogenically and functionally distinct types.
We have discovered distinct pattens in the abundances of each of the sub-types, changing with age, sex and in the context of some diseases such as in individuals carrying a mutated AIRE gene and in graft versus host disease (GVHD).
Collectively, these results point towards the necessity to use multi-modal sequencing data for the construction of cell atlases, namely gene expression data, TCR sequencing data and possibly various molecular characterizations.
The integration of all this data will however be non-trivial.
The FE model (and its modifications) is a good candidate for this type of data organisation, namely because of its flexibility in architecture and resilience to missing data.
|
30 |
Résolution de conflits et séquençage d'avions par algorithmes évolutionnaires multiobjectifsLachance, Étienne January 2014 (has links)
L'augmentation grandissante du trafic aérien rend le travail des contrôleurs aériens de plus en plus ardu, spécialement en ce qui a trait aux tâches de résolution de conflits et de séquençage d'avions en arrivée. L'automatisation de la résolution de conflits et du séquençage reste toujours un problème ouvert aujourd'hui. L'automatisation de ces deux problèmes permettrait d'une part de mieux modéliser le comportement des contrôleurs aériens dans un simulateur de vol, ou d'améliorer les outils de gestion du trafic aérien. Les caractéristiques combinatoires de ces problèmes conduisent à l'utilisation de techniques numériques stochastiques, plus spécifiquement des algorithmes évolutionnaires. De plus, les nombreux paramètres intervenant dans une situation de gestion de trafic aérien incitent à l'utilisation d'algorithmes multiobjectif. Dans un premier temps, un algorithme génétique multiobjectif (SPEA-MOD) et un algorithme de colonies de particules (PSO-MO) également multiobjectif ont été développés. Ces deux algorithmes ont été comparés à des problèmes multiobjectif contraints et non-contraints. Les résultats ont montré que SPEA-MOD et PSO-MO sont en général supérieurs à ce que l'on rapporte dans la littérature. Dans un deuxième temps, les deux algorithmes ont résolu plusieurs situations conflictuelles de la phase de vol en route (régime de croisière). Les instructions fournies par les algorithmes peuvent être en deux ou en trois dimensions. Les objectifs et les contraintes représentent des paramètres tels que la minimisation d'instructions fournies aux avions et une séparation minimale entre les avions. De ces solutions numériques réalisées, l'algorithme SPEA-MOD s'est avéré particulièrement efficace à des problèmes fortement contraints. Une modélisation novatrice de trajectoires complexes a permis de résoudre des problèmes de séquençage d'avions dans la phase d'arrivée. Le séquençage d'avions en arrivée par un algorithme évolutionnaire fut réalisé pour la première fois dans le cadre de cette recherche. Cette modélisation a également rendu possible la résolution de conflits de deux flux d'avions se croisant.
|
Page generated in 0.1384 seconds