Global ETD Search

51	Análise da expressão de RNAs não-codificadores intrônicos em tumores de mama / Gene expression analysis of intronic non-coding RNAs in breast tumors Egídio, Camila de Moura 05 August 2008 (has links) O câncer de mama é o carcinoma que mais acomete mulheres no Brasil. Os tratamentos disponíveis são recomendados a partir da análise de fatores de prognóstico como a classificação pelo sistema TNM, tipo histológico, status de receptores hormonais e marcadores de proliferação tumoral. No entanto, a classificação dos tumores de mama é muito variável e o poder prognóstico dos marcadores tumorais atuais ainda é limitado, levando muitas pacientes à terapia adjuvante desnecessária. Portanto, novos métodos de prognóstico mais sensíveis são necessários para melhorar a tomada de decisão na clínica oncológica de pacientes com câncer de mama. Do ponto de vista de ciência básica, as modificações transcricionais associadas à oncogênese e progressão do câncer de mama ainda são pouco conhecidas. Além da alteração na expressão de genes codificadores para proteínas, evidências recentes sugerem que RNAs não-codificadores (ncRNAs) podem ter um papel importante na transformação maligna. Este projeto teve como principais objetivos: i) investigar a expressão de ncRNAs intrônicos em amostras de adenocarcinoma de mama e ii) identificar assinaturas de expressão gênica associadas a características anatomo-patológicas e clínicas de tumores de mama com potencial aplicação clínica. Para isso, foram comparados os perfis de expressão gênica de 58 amostras de tecido tumoral de mama, com seguimento clínico conhecido, utilizando uma plataforma de microarranjos de cDNA, enriquecida em ncRNAs provenientes de regiões intrônicas de genes humanos conhecidos. 9 Durante o projeto foram testadas diferentes metodologias para análise da expressão gênica utilizando microarranjos de cDNA com uma ou duas cores. O desenho experimental das hibridizações incluiu a co-hibridização de cada microarranjo com alvos fluorescentes representando o transcritoma da amostra de tumor juntamente com um oligonucleotídeo referência complementar a uma região presente em todas as sondas de cDNA (RefOligo). Este desenho experimental permitiu a avaliação de duas abordagens de análise da expressão gênica: a primeira baseada nas intensidades diretas de cada transcrito (One-Color) e a segunda baseada em razões de expressão onde a intensidade de cada transcrito foi normalizada pelo oligonucleotídeo referência (RefOligo). A utilização direta das intensidades se mostrou mais reprodutível e sensível para a detecção de assinaturas de expressão correlacionadas com características das amostras de mama, e essa abordagem foi escolhida para as análises subseqüentes. Os dados provenientes dos experimentos de microarranjos revelaram níveis de expressão ubíqüos dos transcritos intrônicos nas amostras analisadas, extendendo para o câncer de mama a relevância do estudo desta classe de ncRNAs. Além disso, foi identificada uma assinatura contendo 95 transcritos, correlacionada com o status de expressão do receptor de estrogênio (REr), dos quais cerca de 15% correspondem a ncRNAs. Utilizando apenas amostras com seguimento clínico superior a 4 anos, foi identificada uma assinatura com 113 transcritos, dos quais cerca de 30% são ncRNAs intrônicos, capaz de distinguir com 100% de acurácia pacientes que desenvolveram metástase daqueles que permaneceram livres da doença. Além de contribuir com novos candidatos a marcadores de prognóstico no câncer de mama, este estudo aponta para a participação de ncRNAs intrônicos em complexas redes transcricionais, possivelmente modulando a expressão de genes codificadores para proteínas. A caracterização detalhada da função de ncRNAs com expressão correlacionada a características fenotípicas e clínicas dos tumores de mama deverá fornecer novas informações sobre as bases moleculares da tumorigênese e progressão desta neoplasia. / Breast carcinoma is the most frequently occurring cancer amongst women in Brazil. The treatments available for breast cancer are prescribed based on the results of prognostic factors, such as the TNM classification system, histological type, hormonal receptor status and tumoral markers for cell proliferation. Nevertheless, breast cancer classification can be variable and inconsistent, and the prognosis power of tumoral markers is still limited, resulting in many patients unnecessarily undergoing adjuvant therapy. Therefore, there is an urge for new prognosis methods that are more sensitive, as well as accurate, in order to improve treatment decisions for breast cancer patients. From a basic science perspective, transcriptional modifications associated with oncogenesis and breast cancer progression are still poorly understood. Beyond alterations of the expression of protein-coding genes, recent evidences suggest that non-coding RNAs (ncRNAs) might have an important role in malignant transformation. The main goals of this project are: i) to investigate the expression of intronic ncRNAs in breast cancer tissue and ii) to identify gene expression signatures correlated to anatomo-pathological and clinical characteristics of human breast tumors, with a potential clinical aplication. To achieve this, gene expression profiles of 58 breast tumor samples with clinical follow-up were compared using a microarray platform enriched in non-coding RNAs (ncRNAs) derived from intronic regions of known human genes. During this project different gene expression methodologies were tested for the analysis of one- or two-color cDNA microarrays. The experimental design included the co-hybridization of the microarrays with fluorescent targets representing the tumor sample transcriptome with a reference oligonucleotide that is complementary to a 12 common region present in all cDNA probes (RefOligo). This experimental design permited the evaluation of two gene expression analysis approaches: the first based on direct intensities of each transcript (One-Color) and the second based in expression ratios where the intensity of each transcript is normalized by the reference oligonucleotide (RefOligo). One-Color methodology has shown to provide a more reproducible and sensitive gene expression signatures correlated to the breast samples characteristics and, therefore, this approach was chosen for subsequent analysis. The data provided by the microarray experiments revealed that ubiquitous expression of intronic ncRNAs was observed, confirming the relevance of investigating the role of this class of ncRNAs in breast cancer. Furthermore, a gene expression signature comprising 95 transcripts and correlated to the estrogen receptor status of breast tumor samples was identified, from which approximately 15% are ncRNAs. Using only samples from patients with known follow-up, a signature of 113 transcripts was identified, of which 30% are ncRNAs. This gene expression signature was able to distinguish with 100% accuracy patients that developed metastasis from those that remained disease-free up to 4 years after surgery. Besides the contribution of new molecular prognostic markers for breast cancer, the present study indicates that intronic ncRNAs might play a role in complex transcriptional networks, possibly regulating the expression of protein-coding genes. The detailed caracterization of the functional roles of ncRNAs, whose expression levels are correlated to fenotypical and clinical characteristics of breast tumors, is likely to provide new insigths on the molecular basis of tumorigenesis and progression of this neoplasia. Antisense transcription Breast cancer Câncer de mama DNA microarrays Expressão Gênica Gene expression Intronic non-coding RNAs Marcadores moleculares Microarranjos de DNA Molecular markers Neoplasias mamárias Receptor de esteróides RNA mensageiro RNAs não codificadores intrônicos Steroid receptor Transcrição antisenso
52	SIMTar: uma ferramenta para predição de SNPs interferindo em sítios alvos de microRNAs / SIMTar: a tool for prediction of SNPs interfering on microRNA target sites Piovezani, Amanda Rusiska 12 September 2013 (has links) Polimorfismos de um nucleotídeo (SNPs) podem alterar, além de códons de leitura da tradução de genes, posições genômicas importantes do processo de regulação gênica, como sítios de iniciação de transcrição, de splicing e, mais especificamente, sítios alvos de microRNAs (miRNAs). Em parti- cular, a identificação de SNPs alterando sítios alvos de miRNAs é um problema em aberto, embora venha ganhando um importante destaque nos últimos anos decorrente dos avanços descobertos sobre a capacidade dos miRNAs como elementos reguladores do genoma, associados inclusive a muitas doenças como o câncer e vários transtornos psiquiátricos. Os recursos computacionais atualmente disponíveis para esta finalidade (alguns bancos de dados e uma ferramenta) estão restritos à análise de SNPs na região 3UTR (UnTranslated Regions) de RNAs mensageiros, onde miRNAs geralmente se ligam para reprimir sua tradução. No entanto, essa é uma simplificação do problema, dado que já se conhece a regulação por miRNAs ativando ou reprimindo a transcrição gênica quando ligados à sua região promotora, aumentando a efetividade da regulação negativa da tradução quando ligados à região codificante do gene ou ainda miRNAs se ligando a RNAs não codificantes. Esses recursos se limitam também à identificação de SNPs na região seed dos sítios de miRNAs, e portanto só identificam criação ou ruptura de sítios. Porém, SNPs localizados fora dessa região não só podem colaborar na criação e ruptura de sítios como também interferir na estabilidade de ligação de miRNAs e, por- tanto, na efetividade da regulação. Além disso, considerando toda a extensão do sítio, não somente a seed , é possível ocorrer mais de um SNP e, sendo assim, a combinação desses SNPs pode ter uma influência ainda maior na ligação com o miRNA. Os recursos atuais também não informam quais alelos dos SNPs, muito menos quais combinações deles, estão causando qual efeito. Por fim, tais recursos estão restritos a Homo sapiens e Mus musculus. Assim, este trabalho apresenta a ferramenta computacional SIMTar (SNPs Interfering in MicroRNA Targets), desenvolvida para identificar SNPs que alteram sítios alvos de miRNAs e que preenche as lacunas mencionadas. Além disso, é descrita uma aplicação de SIMTar na análise de 114 SNPs associados à esquizofrenia, na qual todos foram preditos interferindo em sítios alvos de miRNAs. / Single nucleotide polymorphisms (SNPs) can be involved in alteration of not only open reading frame but also important genomic positions of gene regulation process such as transcription initiation sites, splicing sites and microRNA target sites. In particular, the identification of SNPs interfering on microRNA target sites is still an open problem, despite its increasing prominence in recent years due to the discoveries about the microRNA abilities as regulatory elements in the genome and association with severals diseases such as cancer and psychiatric disorders. The computational resources currently available for this purpose (four databases and one tool) are restricted to the analysis of SNPs in the 3UTR (UnTranslated Regions) of mRNAs, where the microRNAs typically bind in order to repress their translation. However, this is a simplification of the problem, since it is already known the gene transcription activation by microRNAs bound to its promoter region, increasing of the effectiveness of negative regulation of translation when microRNAs are bound to the coding region of the gene or binding of microRNA into non-coding RNAs. These resources are also limited to the identification of SNPs in the seed region of miRNAs, and therefore they can only identify sites creation or disruption. However, SNPs located outside this region can not only create and disrupt target sites but also interfere on the stability of miRNAs binding and therefore on the regulation effectiveness. Moreover, considering the target site length, more than one SNP can occur inside of a site and thus, the combination of these SNPs can have an even greater influence on the microRNA binding. Also, current resources do not display which alleles of SNPs or what combinations of them are causing which effect. Finally, these features are restricted to the Homo sapiens and Mus musculus species. This work presents the computational tool SIMTar (SNPs Interfering on MicroRNA Targets), developed to identify SNPs that alter miRNA target sites and fills the mentioned gaps. Finally, it is described an application of SIMTar on the analysis of 114 SNPs associated with schizophrenia, all of them being predicted interfering with miRNA target sites. microRNAs microRNAs microRNAs target prediction predição de alvos de microRNAs SNPs SNPs SNPs em sítios alvos de microRNAs SNPs in microRNA target sites
53	Biogênese, estabilidade e localização sub-celular de RNAs não-codificadores longos expressos em regiões intrônicas do genoma humano / Biogenesis, stability and sub-cellular localization of long non-coding RNAs expressed in intronic regions of the human genome Ana Carolina Ayupe de Oliveira 26 March 2012 (has links) Trabalhos recentes indicam que a maior parte do transcriptoma de células de mamíferos é composto por RNAs não-codificadores de proteínas (ncRNAs). Nosso grupo tem identificado e caracterizado ncRNAs longos (>200 nt), sem splicing, expressos em regiões intrônicas de genes codificadores de proteína. Contudo, a biogênese, processamento e localização sub-celular desta classe de RNAs permanecem desconhecidos. Este trabalho teve como objetivos i) investigar a contribuição da RNA Polimerase II (RNAP II) na transcrição de ncRNAs intrônicos, ii) avaliar a meia-vida destes ncRNAs em relação a mRNAs, e iii) verificar a distribuição sub-celular de ncRNAs intrônicos. Os resultados obtidos indicaram que ncRNAs intrônicos são predominantemente transcritos pela RNAP II a partir de regiões promotoras funcionalmente semelhantes as que controlam a transcrição de mRNAs. Ensaios de estabilidade revelaram que, em média, ncRNAs intrônicos possuem meia-vida igual ou maior (3,4h a 4,2h) do que mRNAs (3,1h). A maior parte dos ncRNAs intrônicos possui estrutura cap 5\', sugerindo que sejam estabilizados para desempenhar papéis na biologia da célula que não dependam de um rápido turnover. A maior parte dos ncRNAs intrônicos é exportada para o citoplasma, indicando que devam exercer alguma função biológica neste compartimento. Em conjunto, este trabalho fornece informações novas a respeito da biogênese, estabilidade e localização sub-celular ncRNAs intrônicos expressos em células humanas, contribuindo para avançar o conhecimento sobre esta classe de transcritos celulares. / Recent studies have shown that most of the mammalian transcriptome is comprised of non-coding RNAs (lncRNAs). Our group has identified and characterized long (>200 nt), unspliced lncRNAs expressed in intronic regions of protein coding genes. However, the biogenesis, processing, stability and subcellular localization of members from this RNA class remain unknown. The aims of this work were i) to investigate the contribution of RNA Polymerase II (RNAP II) to the transcription of intronic, ii) to evaluate the half-life of these ncRNAs relative to mRNAs, and iii) determine their subcellular distribution. Our results indicate that intronic ncRNAs are predominantly transcribed by RNAP II from promoter regions functionally similar to those that control the transcription of mRNAs. Stability assays revealed that intronic ncRNAs have an average half-life equal or greater (3.4h to 4.2h) than mRNAs (3.1h). The majority of intronic ncRNAs have 5\' cap modification suggesting that these transcripts are stabilized, possibly to exert roles in the biology of the cell that does not depend on a rapid turnover. Although intronic ncRNAs do not encode proteins, most of these transcripts are transported to the cytoplasm which indicates that they may perform some biological function in this compartment. Altogether, this study reveals with novel information regarding the biogenesis, stability and subcellular localization of intronic ncRNAs expressed in human cells, thus contributing to advance the knowledge on this class of cellular transcripts. Estabilidade de RNAs Expressão gênica Localização sub-celular de RNAs Oligoarranjos de DNA RNAs não-codificadores intrônicos Transcrição eucariótica Transcriptoma DNA oligoarrays Eukaryotic transcription Gene expression Intronic non-coding RNAs RNA stability RNA subcellular localization Transcriptome
54	Approches de fractionnement biochimique couplé à la transcriptomique dans l’étude systématique de la localisation subcellulaire et extracellulaire des ARNs Lefebvre, Fabio Alexis 08 1900 (has links) No description available. ARN Vésicules extracellulaires exosomes régulation post-transcriptionnelle Développement embryonnaire Drosophile Histones RNA localization Posttranscriptional regulation Systems biology Transcriptomics Non-coding RNAs Extracellular vesicles Embryonic development Drosophila
55	Análise da expressão de RNAs não-codificadores intrônicos em tumores de mama / Gene expression analysis of intronic non-coding RNAs in breast tumors Camila de Moura Egídio 05 August 2008 (has links) O câncer de mama é o carcinoma que mais acomete mulheres no Brasil. Os tratamentos disponíveis são recomendados a partir da análise de fatores de prognóstico como a classificação pelo sistema TNM, tipo histológico, status de receptores hormonais e marcadores de proliferação tumoral. No entanto, a classificação dos tumores de mama é muito variável e o poder prognóstico dos marcadores tumorais atuais ainda é limitado, levando muitas pacientes à terapia adjuvante desnecessária. Portanto, novos métodos de prognóstico mais sensíveis são necessários para melhorar a tomada de decisão na clínica oncológica de pacientes com câncer de mama. Do ponto de vista de ciência básica, as modificações transcricionais associadas à oncogênese e progressão do câncer de mama ainda são pouco conhecidas. Além da alteração na expressão de genes codificadores para proteínas, evidências recentes sugerem que RNAs não-codificadores (ncRNAs) podem ter um papel importante na transformação maligna. Este projeto teve como principais objetivos: i) investigar a expressão de ncRNAs intrônicos em amostras de adenocarcinoma de mama e ii) identificar assinaturas de expressão gênica associadas a características anatomo-patológicas e clínicas de tumores de mama com potencial aplicação clínica. Para isso, foram comparados os perfis de expressão gênica de 58 amostras de tecido tumoral de mama, com seguimento clínico conhecido, utilizando uma plataforma de microarranjos de cDNA, enriquecida em ncRNAs provenientes de regiões intrônicas de genes humanos conhecidos. 9 Durante o projeto foram testadas diferentes metodologias para análise da expressão gênica utilizando microarranjos de cDNA com uma ou duas cores. O desenho experimental das hibridizações incluiu a co-hibridização de cada microarranjo com alvos fluorescentes representando o transcritoma da amostra de tumor juntamente com um oligonucleotídeo referência complementar a uma região presente em todas as sondas de cDNA (RefOligo). Este desenho experimental permitiu a avaliação de duas abordagens de análise da expressão gênica: a primeira baseada nas intensidades diretas de cada transcrito (One-Color) e a segunda baseada em razões de expressão onde a intensidade de cada transcrito foi normalizada pelo oligonucleotídeo referência (RefOligo). A utilização direta das intensidades se mostrou mais reprodutível e sensível para a detecção de assinaturas de expressão correlacionadas com características das amostras de mama, e essa abordagem foi escolhida para as análises subseqüentes. Os dados provenientes dos experimentos de microarranjos revelaram níveis de expressão ubíqüos dos transcritos intrônicos nas amostras analisadas, extendendo para o câncer de mama a relevância do estudo desta classe de ncRNAs. Além disso, foi identificada uma assinatura contendo 95 transcritos, correlacionada com o status de expressão do receptor de estrogênio (REr), dos quais cerca de 15% correspondem a ncRNAs. Utilizando apenas amostras com seguimento clínico superior a 4 anos, foi identificada uma assinatura com 113 transcritos, dos quais cerca de 30% são ncRNAs intrônicos, capaz de distinguir com 100% de acurácia pacientes que desenvolveram metástase daqueles que permaneceram livres da doença. Além de contribuir com novos candidatos a marcadores de prognóstico no câncer de mama, este estudo aponta para a participação de ncRNAs intrônicos em complexas redes transcricionais, possivelmente modulando a expressão de genes codificadores para proteínas. A caracterização detalhada da função de ncRNAs com expressão correlacionada a características fenotípicas e clínicas dos tumores de mama deverá fornecer novas informações sobre as bases moleculares da tumorigênese e progressão desta neoplasia. / Breast carcinoma is the most frequently occurring cancer amongst women in Brazil. The treatments available for breast cancer are prescribed based on the results of prognostic factors, such as the TNM classification system, histological type, hormonal receptor status and tumoral markers for cell proliferation. Nevertheless, breast cancer classification can be variable and inconsistent, and the prognosis power of tumoral markers is still limited, resulting in many patients unnecessarily undergoing adjuvant therapy. Therefore, there is an urge for new prognosis methods that are more sensitive, as well as accurate, in order to improve treatment decisions for breast cancer patients. From a basic science perspective, transcriptional modifications associated with oncogenesis and breast cancer progression are still poorly understood. Beyond alterations of the expression of protein-coding genes, recent evidences suggest that non-coding RNAs (ncRNAs) might have an important role in malignant transformation. The main goals of this project are: i) to investigate the expression of intronic ncRNAs in breast cancer tissue and ii) to identify gene expression signatures correlated to anatomo-pathological and clinical characteristics of human breast tumors, with a potential clinical aplication. To achieve this, gene expression profiles of 58 breast tumor samples with clinical follow-up were compared using a microarray platform enriched in non-coding RNAs (ncRNAs) derived from intronic regions of known human genes. During this project different gene expression methodologies were tested for the analysis of one- or two-color cDNA microarrays. The experimental design included the co-hybridization of the microarrays with fluorescent targets representing the tumor sample transcriptome with a reference oligonucleotide that is complementary to a 12 common region present in all cDNA probes (RefOligo). This experimental design permited the evaluation of two gene expression analysis approaches: the first based on direct intensities of each transcript (One-Color) and the second based in expression ratios where the intensity of each transcript is normalized by the reference oligonucleotide (RefOligo). One-Color methodology has shown to provide a more reproducible and sensitive gene expression signatures correlated to the breast samples characteristics and, therefore, this approach was chosen for subsequent analysis. The data provided by the microarray experiments revealed that ubiquitous expression of intronic ncRNAs was observed, confirming the relevance of investigating the role of this class of ncRNAs in breast cancer. Furthermore, a gene expression signature comprising 95 transcripts and correlated to the estrogen receptor status of breast tumor samples was identified, from which approximately 15% are ncRNAs. Using only samples from patients with known follow-up, a signature of 113 transcripts was identified, of which 30% are ncRNAs. This gene expression signature was able to distinguish with 100% accuracy patients that developed metastasis from those that remained disease-free up to 4 years after surgery. Besides the contribution of new molecular prognostic markers for breast cancer, the present study indicates that intronic ncRNAs might play a role in complex transcriptional networks, possibly regulating the expression of protein-coding genes. The detailed caracterization of the functional roles of ncRNAs, whose expression levels are correlated to fenotypical and clinical characteristics of breast tumors, is likely to provide new insigths on the molecular basis of tumorigenesis and progression of this neoplasia. Câncer de mama Expressão Gênica Marcadores moleculares Microarranjos de DNA Neoplasias mamárias Receptor de esteróides RNA mensageiro RNAs não codificadores intrônicos Transcrição antisenso Antisense transcription Breast cancer DNA microarrays Gene expression Intronic non-coding RNAs Molecular markers Steroid receptor
56	Métodos de validação tradicional e temporal aplicados à avaliação de classificadores de RNAs codificantes e não codificantes / Traditional and time validation methods applied to the evaluation of coding and non-coding RNA classifiers Clebiano da Costa Sá 23 March 2018 (has links) Os ácidos ribonucleicos (RNAs) podem ser classificados em duas classes principais: codificante e não codificante de proteína. Os codificantes, representados pelos RNAs mensageiros (mRNAs), possuem a informação necessária à síntese proteica. Já os RNAs não codificantes (ncRNAs) não são traduzidos em proteínas, mas estão envolvidos em várias atividades celulares distintas e associados a várias doenças tais como cardiopatias, câncer e desordens psiquiátricas. A descoberta de novos ncRNAs e seus papéis moleculares favorece avanços no conhecimento da biologia molecular e pode também impulsionar o desenvolvimento de novas terapias contra doenças. A identificação de ncRNAs é uma ativa área de pesquisa e um dos correntes métodos é a classificação de sequências transcritas utilizando sistemas de reconhecimento de padrões baseados em suas características. Muitos classificadores têm sido desenvolvidos com este propósito, especialmente nos últimos três anos. Um exemplo é o Coding Potential Calculator (CPC), baseado em Máquinas de Vetores de Suporte (SVM). No entanto, outros algoritmos robustos são também reconhecidos pelo seu potencial em tarefas de classificação, como por exemplo Random Forest (RF). O método mais utilizado para avaliação destas ferramentas tem sido a validação cruzada k-fold. Uma questão não considerada nessa forma de validação é a suposição de que as distribuições de frequências dentro do banco de dados, em termos das classes das sequências e outras variáveis, não se alteram ao longo do tempo. Caso essa premissa não seja verdadeira, métodos tradicionais como a validação cruzada e o hold-out podem subestimar os erros de classificação. Constata-se, portanto, a necessidade de um método de validação que leve em consideração a constante evolução dos bancos de dados ao longo do tempo, para proporcionar uma análise de desempenho mais realista destes classificadores. Neste trabalho comparamos dois métodos de avaliação de classificadores: hold-out temporal e hold-out tradicional (atemporal). Além disso, testamos novos modelos de classificação a partir da combinação de diferentes algoritmos de indução com características de classificadores do estado da arte e um novo conjunto de características. A partir dos testes das hipóteses, observamos que tanto a validação hold-out tradicional quanto a validação hold-out temporal tendem a subestimar os erros de classificação, que a avaliação por validação temporal é mais fidedigna, que classificadores treinados a partir de parâmetros calibrados por validação temporal não melhoram a classificação e que nosso modelo de classificação baseado em Random Forest e treinado com características de classificadores do estado da arte e mais um novo conjunto de características proporcionou uma melhora significativa na discriminação dos RNAs codificantes e não codificantes. Por fim, destacamos o potencial do algoritmo Random Forest e das características utilizadas, diante deste problema de classificação, e sugerimos o uso do método de validação hold-out temporal para a obtenção de estimativas de desempenho mais fidedignas para os classificadores de RNAs codificantes e não codificantes de proteína. / Ribonucleic acids (RNAs) can be classified into two main classes: coding and non-coding of protein. The coding, represented by messenger RNAs (mRNAs), has the necessary information for protein synthesis. Non-coding RNAs (ncRNAs) are not translated into proteins but are involved in several distinct cellular activities associated with various diseases such as heart disease, cancer and psychiatric disorders. The discovery of new ncRNAs and their molecular roles favors advances in the knowledge of molecular biology and may also boost the development of new therapies against diseases. The identification of ncRNAs is an active area of research and one of the current methods is the classification of transcribed sequences using pattern recognition systems based on their characteristics. Many classifiers have been developed for this purpose, especially in the last three years. An example is the Coding Potential Calculator (CPC), based on Supporting Vector Machines (SVM). However, other robust algorithms are also recognized for their potential in classification tasks, such as Random Forest (RF). The most commonly used method for evaluating these tools has been cross-validation k-fold. An issue not considered in this form of validation is the assumption that frequency distributions within the database, in terms of sequence classes and other variables, do not change over time. If this assumption is not true, traditional methods such as cross-validation and hold-out may underestimate classification errors. The need for a validation method that takes into account the constant evolution of databases over time is therefore needed to provide a more realistic performance analysis of these classifiers. In this work we compare two methods of evaluation of classifiers: time hold-out and traditional hold-out (without considering the time). In addition, we tested new classification models from the combination of different induction algorithms with state-ofthe-art classifier characteristics and a new set of characteristics. From the hypothesis tests, we observe that both the traditional hold-out validation and the time hold-out validation tend to underestimate the classification errors, that the time validation evaluation is more reliable, than classifiers trained from parameters calibrated by time validation did not improve classification and that our Random Forest-based classification model trained with state-of-the-art classifier characteristics and a new set of characteristics provided a significant improvement in the discrimination of the coding and non-coding RNAs. Finally, we highlight the potential of the Random Forest algorithm and the characteristics used, in view of this classification problem, and we suggest the use of the time hold-out validation method to obtain more reliable estimates of the protein coding and non-coding RNA classifiers. Aprendizado supervisionado Classificação de RNAs Hold-out temporal Hold-out tradicional Reconhecimento de padrões RNAs não codificantes Classification of RNAs Non-coding RNAs Pattern recognition Supervised learning Time Hold-out Traditional hold-out
57	Identification de marqueurs de susceptibilité dans les formes chroniques de la maladie de Chagas / Identification of genetic markers in chronic chagas cardiomyopathy Laugier, Laurie 02 October 2017 (has links) La maladie de Chagas est une maladie parasitaire causée par le protozoaire Trypanosoma cruzi et transmise par des insectes hématophages . Elle est composée de 2 phases : la phase aiguë et la phase chronique. Parmi les individus infectés, 30 % développent la forme chronique de la maladie. Les patients présentent des atteintes cardiaques, digestives (œsophage, côlon) et cardiodigestives. Notre étude a été focalisée sur les patients atteints de cardiomyopathie chagasique (CCC). Notre objectif est d’identifier des gènes de susceptibilité pouvant être impliqués dans le développement des formes chroniques. Notre étude a permis de mettre en évidence une variation d’expression de certains gènes entre les CCC et les contrôles. Nous nous sommes également intéressés aux processus épigénétiques pouvant réguler l’expression des gènes. Une étude de la méthylation de l’ADN croisée avec l’étude du transcriptome nous ont permis d’identifier des gènes présentant à la fois des variations d’expression et de méthylation. Pour certains de ces gènes, nous avons démontré que la méthylation est responsable de la variation d’expression observée. Enfin, nous avons étudié un ARN long non-codant, MIAT. Nous avons démontré qu’il est surexprimé chez les CCC par rapport aux contrôles et dans un modèle murin infecté par T. cruzi. De plus, l’analyse de l’expression de micro-ARNs couplée à une analyse de transcriptome nous a permis d'identifier plusieurs micro-ARNs indispensables à la régulation de l’expression des gènes. Enfin, une étude protéomique nous a permis de mettre en évidence une augmentation de la production de protéine pour certains gènes, en lien avec l’augmentation de l’expression observée. / Chagas disease is a parasitic disease caused by the protozoan Trypanosoma cruzi and transmitted by the hematophagous insects. The disease is composed by acute and chronic phases. Among the infected individuals, 30 % develop chronic form. They suffer from heart, digestive (esophagus, colon) and cardiodigestives injury. Our study was focused on patients with dilated chagasic cardiomyopathy (CCC). Our goal is to identify susceptibility genes that may be involved in the development of chronic forms. Our study revealed a variation in the expression of certain genes between CCC group and controls. We are also interested in epigenetic processes that can regulate the expression of genes. A study of the DNA methylation crossed with the transcriptome allowed us to identify genes presenting both variations in expression and methylation. For some of these genes we demonstrated that methylation is responsible for the expression variation observed. Finally, we studied a long non-coding RNA called MIAT. Our study demonstrated that it is overexpressed in CCC compared to controls and in a murine model infected by T. cruzi. Furthermore, the analysis of the expression of micro-RNAs crossed with transcriptome analysis allowed us to identify several micro-RNAs whose functions are essential in the regulation of gene expression. Finally, a proteomic study allowed us to demonstrate an increase in the production of protein for certain genes, correlated with the increase in expression levels observed. Maladie de Chagas Trypanosoma cruzi Cardiomyopathie dilatée Transcriptome Méthylation de l’ADN Micro-ARNs ARNs longs non-Codants Protéine. Chagas disease Trypanosoma cruzi Dilated cardiomyopathy Transcriptome DNA methylation Micro-RNAs Long non-Coding RNAs Protein.
58	Clusters de gènes de résistance aux maladies chez le haricot commun : bases moléculaires, régulation et évolution / Disease resistance gene clusters in common bean : molecular basis, regulation and evolution Richard, Manon 16 December 2014 (has links) Le haricot commun est la légumineuse à graine la plus consommée au monde en alimentation humaine. Le génome du haricot possède plusieurs énormes clusters de gènes de résistance (R) qui ont la particularité de se cartographier en extrémité de groupes de liaison. Le génome du haricot commun (génotype Andin G19833) a été récemment séquencé et nous avons participé à ce projet en annotant la famille des NB-LRR (NL), classe prépondérante des gènes de résistance. Ces données génomiques nous ont permis de réaliser les 3 études suivantes. (i) L’identification des bases moléculaires de Co-x un gène R vis-à-vis d’une souche très virulente de C. lindemuthianum chez JaloEEP558 a été initiée. La cartographie fine de Co-x suivie du séquençage de la région cible chez JaloEEP558 (Co-x) a permis d’identifier un gène candidat codant une kinase atypique qui pourrait être la cible d’un effecteur fongique, gardée par un gène R. (ii) Des études récentes ont mis en évidence l’implication de petits ARNs (miRNAs induisant la production de phased siRNAs) dans la régulation de l’expression des NL. Le séquençage et l’analyse de banques de sRNAs de haricot nous ont permis d’identifier ce mécanisme et de mettre le doigt sur un nouveau mécanisme de régulation des NL impliquant des sRNAs de 24 nt. (iii) Des ADN satellites ont été étudiés à l’échelle du génome du haricot. L’étude des centromères de haricot a permis de mettre en évidence l’existence de 2 ADN satellites différents, Nazca et CentPv2. Nous avons également étudié un ADN satellite subtélomérique khipu précédemment identifié au niveau de 2 clusters de gènes R du haricot. L’étude de khipu à l’échelle du génome suggère l’existence d’échanges fréquents de séquences entre subtélomères de chromosomes non homologues. Ces résultats nous ont amenés à proposer que des éléments structuraux et une combinaison de mécanismes de régulation (TGS et PTGS) permettent la prolifération des NL sans effet néfaste pour la plante, conduisant à l’obtention de très gros clusters de NL dans le génome du haricot. / Common bean is the main source of protein for human consumption in many developing countries. Several huge disease resistance (R) gene clusters have been mapped at the end of common bean linkage groups. The common bean genome (Andean genotype G19833) has recently been sequenced. Access to the complete genome sequence of common bean allowed us to annotate the Nucleotide Binding-Leucine Rich Repeat (NL) encoding gene family, the prevalent class of disease R genes in plants, and to perform the 3 following studies: (i) We have investigated the molecular basis of Co-x, an anthracnose R gene to a highly virulent strain of C. lindemuthianum, previously identified in the Andean cultivar JaloEEP558. Fine mapping of Co-x and sequencing of the target region in JaloEEP558, allowed us to identify a candidate gene encoding an atypical kinase. We hypothesised that this atypical kinase is a fungal effector target. (ii) Several recent studies have highlighted the role of small RNA (miRNAs that triggered phased siRNAs production) in the regulating of NL gene expression. Analyses of small RNAs libraries of common bean led to the identification of this mechanism in common bean and also allowed us to propose a new NL regulation pathway involving 24 nt sRNAs. (iii) We have studied centromeric and subtelomeric satellite DNAs at common bean genome level. We have identified 2 different satellite DNAs in common bean centromeres, Nazca and CentPv2. We have also conducted the analyze of the subtelomeric satellite khipu, previously identified in common bean R clusters and confirmed that frequent sequence exchange occurs between non-homologous chromosome ends in common bean genome. Together, these results led us to propose that both structural elements and a combination of regulatory mechanisms (TGS, PTGS) allow the amplification of NL sequences without detrimental effect for the plant leading to the large NL clusters observed in common bean. Haricot commun Phaseolus vulgaris Anthracnose Séquence du génome Gènes de résistance NB-LRR Petits ARNs non codants ADN satellite Common bean Phaseolus vulgaris Anthracnose Complete genome sequence Resistance genes NB-LRR Small non coding RNAs Satellite ADN
59	SIMTar: uma ferramenta para predição de SNPs interferindo em sítios alvos de microRNAs / SIMTar: a tool for prediction of SNPs interfering on microRNA target sites Amanda Rusiska Piovezani 12 September 2013 (has links) Polimorfismos de um nucleotídeo (SNPs) podem alterar, além de códons de leitura da tradução de genes, posições genômicas importantes do processo de regulação gênica, como sítios de iniciação de transcrição, de splicing e, mais especificamente, sítios alvos de microRNAs (miRNAs). Em parti- cular, a identificação de SNPs alterando sítios alvos de miRNAs é um problema em aberto, embora venha ganhando um importante destaque nos últimos anos decorrente dos avanços descobertos sobre a capacidade dos miRNAs como elementos reguladores do genoma, associados inclusive a muitas doenças como o câncer e vários transtornos psiquiátricos. Os recursos computacionais atualmente disponíveis para esta finalidade (alguns bancos de dados e uma ferramenta) estão restritos à análise de SNPs na região 3UTR (UnTranslated Regions) de RNAs mensageiros, onde miRNAs geralmente se ligam para reprimir sua tradução. No entanto, essa é uma simplificação do problema, dado que já se conhece a regulação por miRNAs ativando ou reprimindo a transcrição gênica quando ligados à sua região promotora, aumentando a efetividade da regulação negativa da tradução quando ligados à região codificante do gene ou ainda miRNAs se ligando a RNAs não codificantes. Esses recursos se limitam também à identificação de SNPs na região seed dos sítios de miRNAs, e portanto só identificam criação ou ruptura de sítios. Porém, SNPs localizados fora dessa região não só podem colaborar na criação e ruptura de sítios como também interferir na estabilidade de ligação de miRNAs e, por- tanto, na efetividade da regulação. Além disso, considerando toda a extensão do sítio, não somente a seed , é possível ocorrer mais de um SNP e, sendo assim, a combinação desses SNPs pode ter uma influência ainda maior na ligação com o miRNA. Os recursos atuais também não informam quais alelos dos SNPs, muito menos quais combinações deles, estão causando qual efeito. Por fim, tais recursos estão restritos a Homo sapiens e Mus musculus. Assim, este trabalho apresenta a ferramenta computacional SIMTar (SNPs Interfering in MicroRNA Targets), desenvolvida para identificar SNPs que alteram sítios alvos de miRNAs e que preenche as lacunas mencionadas. Além disso, é descrita uma aplicação de SIMTar na análise de 114 SNPs associados à esquizofrenia, na qual todos foram preditos interferindo em sítios alvos de miRNAs. / Single nucleotide polymorphisms (SNPs) can be involved in alteration of not only open reading frame but also important genomic positions of gene regulation process such as transcription initiation sites, splicing sites and microRNA target sites. In particular, the identification of SNPs interfering on microRNA target sites is still an open problem, despite its increasing prominence in recent years due to the discoveries about the microRNA abilities as regulatory elements in the genome and association with severals diseases such as cancer and psychiatric disorders. The computational resources currently available for this purpose (four databases and one tool) are restricted to the analysis of SNPs in the 3UTR (UnTranslated Regions) of mRNAs, where the microRNAs typically bind in order to repress their translation. However, this is a simplification of the problem, since it is already known the gene transcription activation by microRNAs bound to its promoter region, increasing of the effectiveness of negative regulation of translation when microRNAs are bound to the coding region of the gene or binding of microRNA into non-coding RNAs. These resources are also limited to the identification of SNPs in the seed region of miRNAs, and therefore they can only identify sites creation or disruption. However, SNPs located outside this region can not only create and disrupt target sites but also interfere on the stability of miRNAs binding and therefore on the regulation effectiveness. Moreover, considering the target site length, more than one SNP can occur inside of a site and thus, the combination of these SNPs can have an even greater influence on the microRNA binding. Also, current resources do not display which alleles of SNPs or what combinations of them are causing which effect. Finally, these features are restricted to the Homo sapiens and Mus musculus species. This work presents the computational tool SIMTar (SNPs Interfering on MicroRNA Targets), developed to identify SNPs that alter miRNA target sites and fills the mentioned gaps. Finally, it is described an application of SIMTar on the analysis of 114 SNPs associated with schizophrenia, all of them being predicted interfering with miRNA target sites. microRNAs predição de alvos de microRNAs SNPs SNPs em sítios alvos de microRNAs microRNAs microRNAs target prediction SNPs SNPs in microRNA target sites
60	Réponse des agents non codants du génome – éléments transposables et petits ARN – à un événement d'allopolyploïdie : le génome du colza (Brassica napus) comme modèle d'étude / Response of non-coding components of the genome – transposable elements and small non-coding RNAs – to a new allopolyploidisation event : the genome of oilseed rape (Brassica napus) as a model of study Martinez Palacios, Paulina 28 March 2014 (has links) Le succès évolutif de la polyploïdie, notamment de l’allopolyploïdie (où la duplication de génome complet est associée à une hybridation entre génomes différenciés) est en partie lié au fait que cet événement s’accompagne de nombreux changements dans l'organisation du génome et la régulation de l'expression des gènes. On parle du « choc génomique » de l’hybridation interspécifique et de l’allopolyploïdie. Ces sources de diversité génétique, à la fois structurale et fonctionnelle, apparaissent utiles et nécessaires à l'adaptation et l’évolution des espèces. Alors que de nombreuses études portant sur la compréhension des mécanismes moléculaires à l’origine du succès des allopolyploïdes ont concerné les modifications de l’expression des gènes, mes travaux de thèse ont porté sur les agents non codants du génome que sont les éléments transposables et les petits ARN non codants. Le modèle d'étude est le colza (Brassica napus, AACC), espèce allotétraploïde issue de l'hybridation entre les espèces diploïdes navette (B. rapa, AA) et chou (B. oleracea, CC). Nous disposions de colzas néo-synthétisés, étudiés à différentes générations d’autofécondation, permettant de caractériser les changements génomiques accompagnant la formation puis l’évolution du génome néo-allopolyploïde. Une étude a tout d’abord été menée sur un élément transposable (ET) spécifique du génome C, Bot1, en vue d’identifier de nouvelles transpositions survenant chez les colzas néo-synthétisés par rapport aux parents diploïdes, par une approche SSAP. Quelques rares événements de transposition ont été identifiés. Ces résultats, confrontés à ceux obtenus sur deux autres ET, ont permis de mettre en évidence un impact modéré de l’allopolyploïdie sur la transposition de ces différents ET. Par contre, il est apparu que des changements de méthylation auraient accompagné cette allopolyploïdisation, sans doute à l’origine de la réactivation et la transposition de quelques copies de Bot1. Les petits ARN non codants ont été suggérés comme impliqués dans les différents événements génomiques accompagnant la formation d’un génome allopolyploïde. Pour étudier la dynamique d’expression des petits ARN chez des colzas néo-synthétisés pris à deux générations d’autofécondation (S1, S5) en comparaison de leurs parents diploïdes, j’ai exploité des données de séquençage haut débit obtenues pour 11 banques construites à partir des tiges de ces différents génotypes. J’ai ainsi démontré, qu’à une échelle globale, les petits ARN présentaient une réponse immédiate mais transitoire à l’événement d’allopolyploïdie. Les fractions particulièrement affectées par l’allopolyploïdie se sont révélées correspondre (1) à des petits ARN interférents dérivés d’éléments transposables avec une baisse de leur abondance en génération précoce S1, et (2) à des populations de petits ARN de 21 nucléotides exprimées uniquement de manière très précoce, de l’hybride F1 à la génération S1. Nous avons notamment identifié des transcrits de type viral correspondant à ces petits ARN de 21-nt, et présentant les mêmes profils d’expression (de l’hybride F1 à la génération S1), suggérant une réactivation d’éléments viraux endogènes (EVE) en réponse à l’hybridation et l’allopolyploïdie. L’ensemble de mon étude a démontré la mise en place d’une succession des voies de régulation par petits ARN où ET et EVE, réactivés au niveau transcriptionnel, sont immédiatement soumis à une répression post-transcriptionnelle (PTGS), renforcée ensuite par une répression de leur transcription (TGS). L’hypothèse d’une absence de cette régulation par petits ARN lors des phénomènes de nécrose et létalité hybride, amène à envisager ces populations de petits ARN comme les clés de la réussite de la formation d’un génome hybride, où la répression immédiate et efficace des ET et autres endovirus, réactivés suite au choc génomique, se révèle être une nécessité. / The evolutionary success of polyploid species is partly due to the dynamic changes in genome organization and gene expression patterns that occur at the onset of the polyploid formation. These changes are promoted by the merging of divergent genomes into a single nucleus (i.e. allopolyploidy) that causes a “genomic shock”; they are thought to provide a rich source of new genetic material upon which selection can act to promote adaptation and evolution. Many studies have thus aimed to uncover molecular mechanisms that are responsible for the evolutionary success of allopolyploid species, most of them focusing on gene expression changes. In the present PhD thesis, my interest has been concentrated on the non-coding components of the genome: transposable elements and small non-coding RNAs. My study involves oilseed rape (Brassica napus, AACC), a relatively young allopolyploid species that originated from hybridizations between B. rapa (AA) and B. oleracea (CC). Specifically, I have used resynthesized B. napus polyploids advanced by self-pollination of single plants for several generations; I have analyzed these plants at different generations for genomic changes accompanying polyploid formation and subsequent evolution. In a first part, sequence-specific amplification polymorphism (SSAP) targeting the C genome-specific transposable element Bot1, was used to evaluate transposition rate of Bot1 in resynthesized B. napus in comparison with the diploid parents. Only a few transposition events were identified. When combined with the results obtained for two other TEs, this work suggests that allopolyploidy has only a moderate impact on TE transposition and restructuring. The changes observed in SSAP profiles led us to hypothesize that some of them resulted from changes in DNA methylation, resulting in rare but highly specific TE activation and transposition. In a second part, I have concentrated on small non-coding RNAs (sRNAs), which are thought to mediate different aspects of the response to the “genomic shock” induced by allopolyploid formation. Comprehensive analyses of sRNA expression in resynthesized B. napus allopolyploids have been carried out by deep sequencing sRNAs from 11 libraries prepared from stems of three allotetraploids (surveyed at the two generations S1 and S5) and the two diploid parents. Characterization of sRNA distributions in these plants indicates that sRNAs show an immediate but transient response to allopolyploidy. The sRNAs derived from transposable elements (down-regulated in the S1) or targeting unknown sequences (no Blast hit against any available public database) were particularly affected. The use of B. napus mRNAseq data revealed that these latest unknown candidates, which are 21-nt long and over-expressed in the earliest generations (F1, S0, S1) were derived from endogenous viral elements (EVE). We confirmed that these EVEs showed the same expression patterns as the 21-nt long sRNAs that specifically target them (over-expression in the F1, S0 and S1). These results suggest that (at least) some EVEs might be reactivated as a response to the merging of divergent genomes (in interspecific hybrids and newly formed allopolyploids). Altogether, our results have demonstrated a succession of sRNA pathways that counteract the reactivation of some specific TEs and/or EVEs at the onset of polyploid formation; reactivated TEs and/or EVEs being immediately repressed at the post-transcriptional level (PTGS), and then fully repressed by transcriptional gene silencing (TGS) in the subsequent generations. Such data lead to hypothesize that sRNAs are essential to overcome interspecific hybrid incompatibilities due to the uncontrolled and deleterious reactivation of TEs / EVEs. Therefore, sRNAs should be considered as the guardians of genome integrity even in newly-formed allopolyploids. Allopolyploïdie Brassica Éléments transposables Éléments viraux endogènes (EVE) Micro ARN (miRNAs) Petits ARN interférents (siRNAs) Petits ARN non codants Séquençage haut débit (NGS) Allopolyploidy Brassica Transposable elements Endogenous viral elements (EVEs) Micro RNAs (miRNAs) Small interfering RNAs (siRNAs) Small non-coding RNAs Next generation sequencing (NGS)

Search results