• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 492
  • 28
  • 26
  • 14
  • 8
  • 7
  • 7
  • 7
  • 7
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 566
  • 311
  • 93
  • 79
  • 70
  • 57
  • 56
  • 53
  • 53
  • 45
  • 43
  • 43
  • 43
  • 42
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
331

Análise global do perfil transcricional e splicing alternativo no dermatófito Trichophyton rubrum exposto à doses subinibitórias de ácido undecanóico / Comprehensive analysis of the transcriptional profile and alternative splicing in the dermatophytes Trichophyton rubrum exposed to subinibitory doses of undecanoic acid

Niege Silva Mendes 18 March 2016 (has links)
O dermatófito Trichophyton rubrum é um fungo filamentoso, antropofílico, que invade tecidos queratinizados causando infecções superficiais e cutâneas. Algumas drogas são usadas para o tratamento das dermatofitoses, sendo o ácido undecanóico (AUN) uma delas. O AUN é o mais tóxico dos ácidos graxos saturados de cadeia média, utilizado como medicamento de uso tópico. O estudo de expressão gênica e mecanismos regulatórios são fundamentais para ampliar o conhecimento dos mecanismos moleculares envolvidos na resposta à exposição a estes agentes citotóxicos. Portanto, o objetivo deste trabalho foi caracterizar os mecanismos moleculares envolvidos no processo adaptativo da exposição ao ácido undecanóico, através da análise global do transcriptoma e mecanismos regulatórios como o processamento alternativo. Para tanto o micélio de T.rubrum foi submetido ao ácido undecanóico por 3 e 12 h de exposição, em triplicata biológica, e o RNA resultante foi submetido ao sequenciamento por RNAseq. O sequenciamento gerou aproximadamente 58 milhões de reads por biblioteca, as quais foram filtradas e alinhadas com o genoma de referência utilizando-se os softwares FASTQC e bowtie2, respectivamente. A análise de expressão gênica diferencial foi feita por meio do pacote do Bioconductor DESeq e, para esta análise, foi utilizada a amostra de 0h como referência. Foram identificados 492 genes diferencialmente expressos em resposta ao AUN, sendo 385 e 210 genes modulados em resposta a 3 e 12 horas de exposição, respectivamente. Estes genes estão relacionados a vários processos celulares envolvendo transporte transmembrana, degradação de xenobióticos, metabolismo de lipídeos e aminoácidos, secreção de enzimas proteolíticas e patogênese, sugerindo que o AUN ativa duas principais vias de sobrevivência em resposta a este agente estressor, a degradação e o efluxo da droga. Posteriormente, foram realizadas as análises de processamento alternativo quanto ao uso diferencial de exons por meio do algoritmo HTSeq e DEXSeq e retenção de introns utilizando-se algoritmos construídos na linguagem Perl. Os genes envolvidos em algum tipo de processamento alternativo estão relacionados com funções metabólicas variadas como tradução, transporte vesicular, metabolismo lipídico, biogênese ribossomal, sequência de ligação ao DNA, regulação da transcrição e processamento do pré-mRNA. Estes resultados contribuem para uma melhor compreensão dos mecanismos moleculares envolvidos na resposta de sobrevivência perante a exposição ao AUN. / The dermatophyte Trichophyton rubrum is a filamentous fungus, anthropophilic that invades keratinized tissue causing superficial infections on the skin. Some drugs are used for the treatment of dermatophytosis, being the undecanoic acid (AUN) one of them. The AUN the most toxic of the saturated medium chain fatty acids, is used as a topical medicine. The study of gene expression and the regulatory mechanisms are fundamental to understand the molecular mechanisms involved in response to exposure of these cytotoxic agents. So, the aim of this study was to characterize the molecular mechanisms involved in the adaptive process of the exposure to undecanoic acid, by the global analysis of the transcriptome and regulatory mechanisms such as alternative splicing. To this end, the mycelium of T. rubrum was exposed to undecanoic acid for 3 or 12 hours in biological triplicate, and the resulting RNA was sequenced by RNA-Seq. The sequencing generated approximately 58 million of reads per library, which were filtered and aligned with the reference genome using the softwares and Bowtie2 and FASTQC, respectively. The analysis of differential gene expression was performed through the Bioconductor package DESeq and, for this analysis, we used as reference sample the 0h time. We identified 492 differentially expressed genes in response to UDA, being 385 and 210 genes modulated in response to 3 and 12 hours of exposure, respectively. These genes are related to various cellular processes involving the transmembrane transport, xenobiotics degradation, lipids and amino acids metabolism, secretion of proteolytic enzymes and pathogenesis, suggesting the activation of two major survival pathways in response to this stressor, degradation and drug efflux, by UDA. Also, the alternative splicing analysis was performed through the differential use of exons using the algorithms HTSeq and DEXSeq and intron retention using algorithms built in Perl language. The genes involved in some kind of alternative splicing are associated with various metabolic functions such as translation, vesicular transport, lipid metabolism, ribosomal biogenesis, DNA binding sequence, transcription regulation and processing of pre-mRNA. These results contribute to increase the knowledge of the molecular mechanisms involved in the survival response upon exposure to the AUN.
332

Ferramentas computacionais para o estudo estrutural e funcional de genes de dermatófitos potencialmente envolvidos na patogenicidade / Computational tools for the structural and functional study of dermatophytes genes potentially involved in pathogenicity

Pablo Rodrigo Sanches 16 September 2015 (has links)
Dermatófitos são fungos filamentosos que infectam substratos queratinizados como pele, unha e cabelo em busca de nutrientes para se desenvolverem e permanecerem no hospedeiro. Pertencem aos gêneros Epidermophyton, Microsporum ou Trichophyton, os quais, dependendo de seu habitat natural, são classificados em espécies geofílicas, zoofílicas ou antropofílicas. O uso indiscriminado de antifúngicos levou à seleção de cepas resistentes, e o comportamento invasivo desses patógenos em pacientes imunodeprimidos aumentou nos últimos anos, dificultando o tratamento das dermatofitoses. Há, portanto, a necessidade de estudos para um melhor entendimento da biologia dos dermatófitos devido as suas importâncias médica e/ou veterinária e o escasso conhecimento da interação destes patógenos com os hospedeiros. No presente trabalho, analisamos oito espécies de dermatófitos: Arthroderma benhamiae, Microsporum canis, Microsporum gypseum, Trichophyton interdigitale, Trichophyton equinum, Trichophyton rubrum, Trichophyton tonsurans e Trichophyton verrucosum. Análises de genômica comparativa e de expressão de genes potencialmente envolvidos na degradação de queratina foram realizadas. Além disso, efetuamos o sequenciamento genômico em larga escala de uma das linhagens. A estrutura dos genes sub3, sub5 e sub7, que codificam serina endopeptidases com atividade queratinolítica, mep3 e mep4, que codificam proteínas pertencentes ao grupo das metaloendopeptidases, dppV, lap1 e lap2, que codificam exopeptidases, foi analisada por meio de ferramentas computacionais. Essas análises revelaram que os genes que codificam proteases possuem alto grau de conservação em suas estruturas, que é menor quando comparadas apenas suas regiões não codificadoras. As análises permitiram também a identificação em regiões promotoras de consensos específicos a gêneros de dermatófitos. Observamos que o acúmulo de transcritos destes genes, avaliados durante o cultivo em queratina, mimetizando o processo infeccioso, não está correlacionado à similaridade das sequências gênicas entre as espécies. Não encontramos correlação entre o nicho preferencial dos dermatófitos e suas sequências gênicas ou níveis transcricionais. Observamos que, na grande maioria das vezes, genes que codificam endo e exopeptidases, possuem acúmulo de transcritos em períodos iniciais de degradação de queratina. Nossos resultados sugerem que diferenças pontuais na sequencia gênica, diferenças em regiões promotoras ou, até mesmo, expressão variável destes genes que codificam um conjunto proteico com funções sinérgicas e provavelmente compensatórias, contribuam para os diferentes graus de reações inflamatórias no hospedeiro, bem como para a especificidade patógeno-hospedeiro. / Dermatophytes are filamentous fungi that infect keratinized substrates such as skin, nail and hair, searching for nutrients for their development and permanence in the host. They belong to the genera Epidermophyton, Microsporum or Trichophyton, and, depending on their natural habitat, are classified into geophilics, zoophilics or anthropophilics species. The indiscriminate use of antifungals has led to the selection of resistant strains, and the invasive behaviour of these pathogens in immunocompromised patients increased in the last years, hampering the treatment of the dermatophytoses. Therefore, there is a need of studies for a better understanding of the biology of the dermatophytes due to their medical and/or veterinary importance and the scarce knowledge about the interaction of these pathogens with their hosts. In this work, we analyzed eight species of dermatophytes: Arthroderma benhamiae, Microsporum canis, Microsporum gypseum, Trichophyton interdigitale, Trichophyton equinum, Trichophyton rubrum, Trichophyton tonsurans, and Trichophyton verrucosum. Comparative genomics and gene expression analyses of genes potentially involved in keratin degradation were performed. Moreover, we performed a large-scale genome sequencing of one of the strains. The structure of the genes sub3, sub5, and sub7, which encode serine endopeptidases with keratinolytic activity, mep3, and mep4, which encode proteins belonging to the group of the metalloendopeptidases, dppV, lap1, and lap2, encoding exopeptidases, were analyzed by computational tools. These analyses revealed that the genes encoding proteases possesses high degree of conservation in their structures, which are lower when their non-coding regions are compared. The analyses also allowed the identification of consensus in promoter regions, specific of dermatophytes genera. We observed that the transcripts accumulation of these genes, evaluated during the cultivation in keratin, mimicking the infection process, is not correlated to the gene sequence similarities among the species. We have not found any correlation between the preferential niche of dermatophytes and their gene sequences or transcription levels. Most of the times, we observed that genes encoding endo and exopeptidases accumulated transcripts at the beginning of keratin degradation. Our results suggest that specific differences in the genic sequencing, differences in promoter regions, or even variable expression of these genes encoding a set of proteins with synergic and probably compensatory functions, contribute to different levels of inflammatory reactions in the host, as well as to the host-pathogen specificity.
333

Pipeline para Análise In Sílico de Dados de Expressão de miRNAs e mRNAs em Células de Mamíferos. / Pipeline for in silico Analysis of miRNAs and mRNAs Expression Data in Mammals Cells.

Luiz Fernando Martins Pignata 13 April 2012 (has links)
Os microRNAs estão envolvidos no processo de regulação da expressão gênica da célula, onde a molécula de microRNA se liga com o RNA mensageiro interrompendo, assim, a expressão do respectivo gene pela interrupção da tradução. A bioinformática tem auxiliado na identificação de vários genes codificadores de microRNAs em plantas e animais, incluindo mamíferos, por meio de analises de dados de microarray; assim como na predição de estruturas. Os dados de expressão de microRNAs e RNAs mensageiros foram obtidos por meio de cooperação firmada entre o Laboratório de Bioinformática do Departamento de Genética da Faculdade de Medicina de Ribeirão Preto - USP, coordenado pela orientadora desse projeto, e o Laboratório de Imunogenética Molecular do mesmo departamento, coordenado pelo Professor Doutor Geraldo A. S. Passos. Durante o desenvolvimento e os testes realizados, foram utilizados dados (valores numéricos de dados de expressão coletados por microarrays) provenientes da comparação da expressão de microRNAs e RNAs do timo de camundongos non obese diabetic que reproduzem diabetes melitus do tipo 1, e dados provenientes da comparação da expressão de microRNAs e RNAs de outros experimentos. O presente projeto teve como objetivo o desenvolvimento de um pipeline para a análise in silico de dados de expressão gênica de microRNAs e mRNAs obtidos por microarray. Com base em dados de expressão de microRNAs e RNAs mensageiros, foi possível a análise de diversas ferramentas e o desenvolvimento e ajuste de scripts para que seja possível a análise sequencial de tais dados. Dessa forma, o pipeline desenvolvido inclui a quantificação dos dados de expressão gênica a partir das lâminas de microarray, a normalização dos dados, as análises estatísticas das sequências diferencialmente expressas utilizando o Multi Experiment Viewer, a construção de redes de interação microRNAs-RNAs mensageiros e a busca de alvos de microRNAs baseada nesta rede, ambos pelo GenMir++. O pipeline desenvolvido é executado com facilidade e possibilitou a correta análise dos dados, evitando desperdício de tempo em análises de bancada. A partir dos resultados obtidos, novos alvos de miRNA foram encontrados com o uso do pipeline e comprovados em bancada. Tais resultados apresentados no 55º Congresso Brasileiro de Genética com o resumo intitulado MicroRNA-mRNA Network Controlling the Promiscuous Gene Expression in the Thymus of NOD (Non Obese Diabetic) Mice: Implications in the Emergence of Type 1 Diabetes Mellitus. / The microRNAs are involved in the regulation of gene expression of the cell. The miRNA molecule binds to the messenger RNA and interrupts the gene expression by disrupting the translation. Through microarray data analysis, bioinformatics is a valuable aid for the identification of several genes that encode miRNAs in plants and animals, including mammals. It is also very useful for predicting structures. Data of miRNA and mRNA expression were obtained by the collaboration the Bioinformatics Laboratory and the Molecular Immunogenetics Laboratory of the Department of Genetics of the Faculty of Medicine of Ribeirão Preto - USP, coordinated by professors Silvana Giuliatti and Geraldo A. S. Passos, respectively. During the development and tests of the research, microarrays data (numerical values os the expression) were obtained from the comparison between the expression of miRNA and mRNA of the thymus of non obese diabetic mice with diabetes mellitus type 1, as well as from comparisons of their expression in other experiments. The present study is aimed at the development of a pipeline for in silico analysis of the data of miRNAs and mRNA gene expression obtained by microarray. Based on miRNAs and mRNA expression, it was possible to analyze several tools, develop and adjust scripts that allowed the sequential analysis of such data. The pipeline includes the quantification of gene expression data from microarray, the normalization of the data, the statistical analysis of differentially expressed sequences using Multi Experiment Viewer, the construction of networks of interaction of miRNA-mRNAs, and the search for targets of miRNAs based on such network using GenMir++. The pipeline was performed easily and allowed the correct analysis of the data, avoiding waste of time in bench analysis. From the results, new targets of miRNA were found using the pipeline and were verified further in bench analysis. The results were presented in the 55 th Brazilian Genetics Congress in the paper entitled \"MicroRNA-mRNA Network Controlling the Promiscuous Gene Expression in the Thymus of NOD (Non Obese Diabetic) Mice: Implications in the Emergence of Type 1 Diabetes Mellitus\".
334

Anotação probabilística de perfis de metabólitos obtidos por cromatografia líquida acoplada a espectrometria de massas / Probabilistic annotation of metabolite profiles obtained by liquid chromatography coupled to mass spectrometry

Ricardo Roberto da Silva 16 April 2014 (has links)
A metabolômica é uma ciência emergente na era pós-genômica que almeja a análise abrangente de pequenas moléculas orgânicas em sistemas biológicos. Técnicas de cromatografia líquida acoplada a espectrometria de massas (LC-MS) figuram como as abordagens de amostragem mais difundidas. A extração e detecção simultânea de metabólitos por LC-MS produz conjuntos de dados complexos que requerem uma série de etapas de pré-processamento para que a informação possa ser extraída com eficiência e precisão. Para que as abordagens de perfil metabólico não direcionado possam ser efetivamente relacionadas às alterações de interesse no metabolismo, é estritamente necessário que os metabólitos amostrados sejam anotados com confiabilidade e que a sua inter-relação seja interpretada sob a pressuposição de uma amostra conectada do metabolismo. Diante do desafio apresentado, a presente tese teve por objetivo desenvolver um arcabouço de software, que tem como componente central um método probabilístico de anotação de metabólitos que permite a incorporação de fontes independentes de informações espectrais e conhecimento prévio acerca do metabolismo. Após a classificação probabilística, um novo método para representar a distribuição de probabilidades a posteriori em forma de grafo foi proposto. Uma biblioteca de métodos para o ambiente R, denominada ProbMetab (Probilistic Metabolomics), foi criada e disponibilizada de forma aberta e gratuita. Utilizando o software ProbMetab para analisar um conjunto de dados benchmark com identidades dos compostos conhecidas de antemão, demonstramos que até 90% das identidades corretas dos metabólitos estão presentes entre as três maiores probabilidades. Portanto, pode-se enfatizar a eficiência da disponibilização da distribuição de probabilidades a posteriori em lugar da classificação simplista usualmente adotada na área de metabolômica, em que se usa apenas o candidato de maior probabilidade. Numa aplicação à dados reais, mudanças em uma via metabólica reconhecidamente relacionada a estresses abióticos em plantas (Biossíntese de Flavona e Flavonol) foram automaticamente detectadas em dados de cana-de-açúcar, demonstrando a importância de uma visualização centrada na distribuição a posteriori da rede de anotações dos metabólitos. / Metabolomics is an emerging science field in the post-genomic era, which aims at a comprehensive analysis of small organic molecules in biological systems. Techniques of liquid chromatography coupled to mass spectrometry (LC-MS) figure as the most widespread approaches to metabolomics studies. The metabolite detection by LC-MS produces complex data sets, that require a series of preprocessing steps to ensure that the information can be extracted efficiently and accurately. In order to be effectively related to alterations in the metabolism of interest, is absolutely necessary that the metabolites sampled by untargeted metabolic profiling approaches are annotated with reliability and that their relationship are interpreted under the assumption of a connected metabolism sample. Faced with the presented challenge, this thesis developed a software framework, which has as its central component a probabilistic method for metabolite annotation that allows the incorporation of independent sources of spectral information and prior knowledge about metabolism. After the probabilistic classification, a new method to represent the a posteriori probability distribution in the form of a graph has been proposed. A library of methods for R environment, called ProbMetab (Probilistic Metabolomics), was created and made available as an open source software. Using the ProbMetab software to analyze a set of benchmark data with compound identities known beforehand, we demonstrated that up to 90% of the correct metabolite identities were present among the top-three higher probabilities, emphasizing the efficiency of a posteriori probability distribution display, in place of a simplistic classification with only the most probable candidate, usually adopted in the field of metabolomics. In an application to real data, changes in a known metabolic pathway related to abiotic stresses in plants (Biosynthesis of Flavone and Flavonol) were automatically detected on sugar cane data, demonstrating the importance of a view centered on the posterior distribution of metabolite annotation network.
335

Predição In Silico de Epítopos de Microrganismos com Identidade a Autoantígenos Humanos / In Silico Prediction of Microorganism Motifs with Identity to Human Autoantigens

André Luis da Silva Breve 31 March 2010 (has links)
A origem das doenças autoimunes é multifatorial, sendo que envolve condições ambientais e predisposição genética, dificultando sua identificação. Muitos pesquisadores têm estudado a associação entre agentes infecciosos e autoimunidade, a qual pode ser disparada pelo processo conhecido por mimetismo molecular. Neste caso, respostas imunes cruzadas envolvendo antígenos próprios têm sido documentadas. O presente projeto tem como objetivo a busca in silico por associações entre epítopos de microrganismos e autoantígenos humanos. Iniciaram-se as análises pela identificação de semelhanças de sequências de aminoácidos entre epítopos de microrganismos e autoantígenos humanos por meio do alinhamento local de sequências efetuado pelo programa BLASTP. As sequências de epítopos dos microrganismos e autoantígenos humanos foram previamente adquiridas nos bancos de dados Immune Epitope Database and Analysis Resource (IEDB) e no Genbank, respectivamente. Foram também realizadas modelagens de estruturas proteicas para o antígeno e o autoantígeno que obtiveram melhores valores de alinhamento, com base no valor do E-value, por meio dos programas Modeller e Rosetta. Por fim, a predição de epítopos foi executada, pelo uso dos softwares NetMHC e NetMHCII, para avaliar a possibilidade de epítopos de microrganismos e de autoantígenos humanos se associarem aos mesmos alelos de HLA. Como resultado, foram encontradas similaridades tanto de sequências proteicas quanto de afinidade a 4 tipos de alelos de HLA entre um epítopo do antígeno LSA-1 de Plasmodium falciparum e o autoantígeno de miosina, o que sugere uma associação entre eles, atingindo o objetivo deste trabalho. / The origin of autoimmune diseases is multifactorial. It involves environmental conditions and genetic predisposition that difficulties its identification. Several researchers have studied the association between infectious agents and autoimmunity, which can be initiated by a process named molecular mimicry. In this case, cross immune responses involving self antigens have been documented. This project aims to search in silico for associations between microorganisms epitopes and human autoantigens. The first step was the identification of similarities in amino acid sequences between microorganisms epitopes and human autoantigens by use of sequence local alignment performed by the program blastp. The sequences of the microorganisms epitope and the human autoantigens had been previously acquired in the Immune Epitope Database and Analysis Resource (IEDB) and Genbank, respectively. The modeling of protein structures for the antigen and autoantigen was also carried out to show the best alignment values, based on the E-value, using the programs Modeller and Rosetta. Finally, the prediction of epitopes was performed by use of NetMHC and NetMHCII softwares to evaluate the possibility of microorganisms epitopes and human autoantigens join the same HLA alleles. Similarities of protein sequences was found for both. It was possible to observe affinity of 4 HLA alleles between an epitope from LSA-1 Plasmodium falciparum antigen and the myosin, suggesting an association between them, reaching the goal of this work.
336

Propagação semi-automática de termos Gene Ontology a proteínas com potencial biotecnológico para a produção de bioenergia / Semi-automatic propagation of Gene Ontology terms to proteins with biotechnology potential for bioenergy production

Lucas Mitsuo Taniguti 18 November 2014 (has links)
O aumento no volume de dados biológicos, oriundos principalmente do surgimento de sequenciadores de segunda geração, configura um desafio para a manutenção dos bancos de dados, que devem armazenar, disponibilizar e, no caso de bancos secundários, propagar informações biológicas para sequências sem caracterização experimental. Tal propagação é crucial , pois o fluxo com que novas sequências são depositadas é muito superior ao que proteínas são experimentalmente caracterizadas. De forma análoga ao EC number (Enzyme Commission number), a organização de proteínas em famílias visa organizar e facilitar operações automáticas nos bancos de dados. Dentro desse contexto este trabalho teve como objetivos a geração de modelos computacionais para famílias de proteínas envolvidas em processos microbianos biotecnologicamente interessantes para a produção de bioenergia. Para a geração dos modelos estatísticos foram escolhidas proteínas referência analisadas a priori em colaboração com o projeto MENGO1 . A partir da proteína referência foram realizadas buscas no UniProtKB com o objetivo de encontrar proteínas representativas para cada família e descrições de função com base na literatura científica. Com a coleção de sequências primárias das proteínas selecionadas foram realizados alinhamentos múltiplos de sequências com o programa MUSCLE 3.7 e posteriormente com o programa HMMER foram gerados os modelos computacionais (perfis de cadeia oculta de Markov). Os modelos passaram por consecutivas revisões para serem utilizados na propagação dos termos do Gene Ontology com confiança.Um total de 1.233 proteínas puderam receber os termos GO. Dessas proteínas 79% não apresentavam os termos GO disponibilizados no banco de dados UniProtKB. Uma comparação dos perfis-HMM com a utilização de redes de similaridade a um E-value de 10-14 confirmou a utilidade dos modelos na propagação adequada dos termos. Uma segunda validação utilizando um banco de dados construído com sequências aleatórias com base nos modelos e na frequência de codons das proteínas anotadas do SwisProt permitiu verificar a sensibilidade da estratégia quanto a recuperar membros não pertencentes aos modelos gerados. / The increase of biological data produced mainly by the second generation technologies stands as a challenge for the biological databases, that needs to adress issues like storage, data availability and, in the case of secondary databases, to propagate biological information to sequences with no experimental characterization. The propagation is important since the flow that new sequences are submited into databases is much higher than proteins having their function described by experiments. Similarly to the EC. number (Enzyme Commission number), an organization of protein families aims to organize and help automatic processes in databases. In this context this work had as goals the generation of computational models for protein families related to microbial processes with biotechnology potential for production of bioenergy. Several proteins annotated by MENGO2, a project in collaboration, were used as seeds to the statistic models. Alignments were made on UniProtKB, querying the seeds proteins, looking for representatives for each family generated and the existence of function descriptions referenced on the cientific literature. Multiple sequence alignment were made on each collection of seeds proteins, representatives of the families, thorough the MUSCLE 3.7 program, and after were generated the computational models (profile Hidden Markov Models) with the HMMER package. The models were consecutively reviewed until the curator consider it reliable for propagation of Gene Ontology terms. A set of 1,233 proteins from UniProtKB were classified in our families, suggesting that they could be annotated by the GO terms using MENGOfams families. From those proteins, 79% were not annotated by the MENGO specific GO terms. To compare the results that would be obtained using only BLAST similarity measures and using pHMMs we generated similarity networks, using an Evaue cutoff of 10-14. The results showed that the classification results of pHMMs are valuable for biological annotation propagation because it identifies precisely members of each family. A second analysis was applied for each family, using the respective pHMMs to query a collection of sequences generated by a null model. For null model were assumed that all sequences were not homologous and could be represented just by the aminoacid frequencies observed in the SwissProt database. No non-homologous proteins were classified as members by the MENGOfams models, suggesting that they were sensitive to identify only true member sequences.
337

Exploração de uma biblioteca genômica de Passiflora edulis f. flavicarpa por sequenciamento de BAC-ends / Exploitation of a genomic library of Passiflora edulis f. flavicarpa using BAC-end sequencing

Anselmo Azevedo dos Santos 03 July 2013 (has links)
O maracujá-amarelo (Passiflora edulis f. flavicarpa) é uma frutífera de importância econômica no Brasil, sendo apreciado para a produção de suco concentrado e para o consumo in natura, além de ser usado pela indústria farmacêutica na extração da passiflorina. O presente trabalho visou à exploração da biblioteca genômica inserida em BACs (Ped-B-Flav) por meio da técnica de BAC-end sequencing, visando prover os primeiros insights sobre a composição e organização genômica da espécie, além de gerar novos candidatos a marcadores moleculares. Ao todo foram realizadas 9.979 reações de sequenciamento com eficiência média de 89 %, resultando em 8.821 BES de alta qualidade, com tamanho variando entre 100 pb e 1.255 pb, tendo em média 596 pb, totalizando cerca de 5,7 Mpb de informação genômica. Foram identificados, ao todo, 610 potenciais novos marcadores microssatélites. Os motivos de tetranucleotídeos foram os mais abundantes, ou seja, 28,9 % do total, sendo as repetições AATT aquelas observadas com maior frequência, com 131 ocorrências. Foram identificados e classificados 4.394 (19,69 %) elementos repetitivos. Dentre estes elementos, os grupos dos retrotransposons gypsy e copia-like foram os mais abundantes, correspondendo a 10,08 % e 7,93 % das ocorrências, respectivamente. Além disso, foram encontradas 767 (8,7 %) sequências com alta identidade a regiões codificadoras de proteínas. Estas sequências foram classificadas e anotadas de acordo com o vocabulário controlado GeneOntology. Análises de mapeamento genômico comparativo revelaram três regiões microssintênicas com o genoma de Populus trichocarpa, uma com o genoma de Vitis vinifera e uma com o genoma de Arabdopisis thaliana, além de evidenciarem uma série de regiões rearranjadas em relação aos genomas de referência. O presente estudo mostrou que os BES de Passiflora edulis são uma excelente fonte de informações sobre o genoma da espécie, principalmente no que tange à diversidade gênica, identificação de elementos transponíveis e ao potencial para o desenvolvimento de novos marcadores genéticos. Igualmente, foi possível empregar essas sequências na identificação de regiões microssintênicas entre o genoma do maracujá-amarelo e de outras espécies vegetais próximas. / Yellow passion fruit (Passiflora edulis f. flavicarpa) is of considerable economic importance to Brazil. It is used to produce juice concentrate and also marketed for consumption as a fresh fruit. In the pharmaceutical industry, it is used to produce passiflora extract. The aim of this study was to explore the BAC (Bacterial Artificial Chromosome) genomic library (Ped-B-Flav) using BAC-end sequencing (BES) to provide some initial insights into the composition and organization of the species genome, and to generate new candidates for molecular markers. Altogether, 9,979 sequencing reactions were performed, with an average efficiency of 89 %, resulting in 8,821 high-quality BES, of average length ranging from 100 bp to 1255 bp, and consisting of an average 596 bp, totaling some 5.7 Mb of genomic information. In all, we identified 610 potential new microsatellite markers. Tetranucleotide motifs (28.9%) were the most abundant and AATT was the most frequently observed motif, with 131 occurrences. We identified and classified 4,394 (19.69 %) repetitive elements. Retrotransposon gypsy (10.8%) and copia-like (7.93%) elements were the most abundant. Furthermore, we found 767 (8.7 %) sequences very similar to those of protein coding regions. These sequences were classified and annotated according to gene ontology controlled vocabulary. Comparative genomic mapping revealed three regions showing microsynteny with the genome of Populus trichocarpa, one with Vitis vinifera genome and one with the Arabdopisis thaliana genome. In addition it revealed a series of rearranged regions in comparison to the reference genomes. This study showed that Passiflora edulis BES form an excellent source of information on the genome of the species, especially in regard to genetic diversity, identification of transposable elements and potential for the development of new genetic markers. It was also possible, using these sequences, to identify regions showing microsynteny with other plant species.
338

Técnicas de classificação hierárquica multirrótulo / Hierarchical multilabel classification techniques

Ricardo Cerri 23 February 2010 (has links)
Muitos dos problemas de classificação descritos na literatura de Aprendizado de Máquina e Mineração de Dados dizem respeito à classificação de dados em que cada exemplo a ser classificado pertence a um conjunto finito, e geralmente pequeno, de classes que estão em um mesmo nível. Vários problemas de classificação, entretanto, são de natureza hierárquica, em que classes podem ser subclasses ou superclasses de outras classes. Em muitos problemas hierárquicos, principalmente no campo da Bioinformática, um ou mais exemplos podem ser associados a mais de uma classe simultaneamente. Esses problemas são conhecidos como problemas de classificação hierárquica tirrótulo. Nesta pesquisa, foram investigadas diferentes técnicas para lidar com esses tipos de problemas. Essas técnicas são baseadas em duas abordagens: local ou Top-Down e global ou One-Shot. Três técnicas descritas na literatura foram utilizadas. A primeira delas, chamada HMC-BR, é baseada na abordagem Top-Down, e utiliza uma estratégia de classificação binária chamada Um-Contra-Todos. As outras duas técnicas, baseadas na abordagem One-Shot, são chamadas C4.5H (uma extensão do algoritmo de indução de àrvores de decis~ao C4.5), e de Clus-HMC (baseada na noção de Predictive Clustering Trees, em que àrvores de decisão são estruturadas como uma hierarquia de grupos (clusters)). Além das técnicas descritas na literatura, duas novas técnicas foram propostas e implementadas nesta pesquisa, chamadas de HMC-LP e HMC-CT. Essas técnicas são variações hierárquicas de técnicas de classificação multirrótulo não hierárquicas. A técnica HMC-LP utiliza uma estratégia de combinação de classes e a técnica HMC-CT utiliza uma estratégia de decomposição de classes. Para a avaliação das técnicas, foram utilizadas medidas específicas para esse tipo de classificação. Os resultados experimentais mostraram que as técnicas propostas obtiveram desempenhos superiores ou semelhantes aos das técnicas descritas na literatura, dependendo da medida de avaliação utilizada e das características dos conjuntos de dados / Many of the classification problems described in the literature of Machine Learning and Data Mining are related to data classification where each example to be classified belongs to a finite, and usually small, set of classes located at the same level. There are many classification problems, however, that are of hierarchical nature, where classes can be subclasses or superclasses of other classes. In many hierarchical problems, mainly in the Bioinformatics field, one or more examples can be associated to more than one class simultaneously. These problems are known as hierarchical multilabel classification problems. In this research, different techniques to deal with these kinds of problems were investigated, based on two approaches, named local or Top-Down and global or One-Shot. Three techniques described in the literature were used. The first one, named HMC-BR, is based on the Top-Down approach, and uses a binary classification strategy named One-Against-All. The other two techniques, based on the One-Shot approach, are named C4.5H (an extension of the decision tree induction algorithm C4.5), and Clus-HMC (based on the notion of Predictive Clustering Trees, where decision trees are structured as a hierarchy of clusters). In addition to the techniques described in the literature, two new techniques were proposed, named HMC-LP and HMC-CT. These techniques are hierarchical variations of non-hierarchical multilabel classification techniques. The HMCLP technique uses a label combination strategy and the HMC-CT technique uses a label decomposition strategy. The evaluation of the techniques was performed using specific metrics for this kind of classification. The experimental results showed that the proposed techniques achieved better or similar performances than the techniques described in the literature, depending on the evaluation metric used and on the characteristics of the datasets
339

Seleção e avaliação de marcadores moleculares com grande informatividade para a predição do valor genômico

Silva, Bruno Zonovelli da 07 March 2018 (has links)
Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2018-06-27T13:01:17Z No. of bitstreams: 1 Brunozonovellidasilva.pdf: 25114600 bytes, checksum: 87ca3e31048c3dd0c1068b3c39f6f7a8 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2018-06-27T13:50:08Z (GMT) No. of bitstreams: 1 Brunozonovellidasilva.pdf: 25114600 bytes, checksum: 87ca3e31048c3dd0c1068b3c39f6f7a8 (MD5) / Made available in DSpace on 2018-06-27T13:50:09Z (GMT). No. of bitstreams: 1 Brunozonovellidasilva.pdf: 25114600 bytes, checksum: 87ca3e31048c3dd0c1068b3c39f6f7a8 (MD5) Previous issue date: 2018-03-07 / A seleção dos melhores indivíduos busca aprimorar uma característica ao longo do tempo. O uso de dados genômicos deram origem ao que é conhecido como seleção genômica. A construção de modelos genéticos eficientes para a avaliação do mérito de um indivíduo é complexa e no geral se baseia no pressuposto da herança aditiva. Entretanto, na presença de variabilidade genética não-aditiva os modelos podem não comportar toda a complexidade de possíveis interações entre os genes, a epistasia. O S4GS é um simulador de dados genômicos que busca mimetizar características importantes para o estudo em seleção genômica como, desequilíbrio de ligação, inseminação artificial e cruzamento geracional. Outro fator relevante é a capacidade de simular diferentes ações gênicas e interações em múltiplos níveis. Sendo utilizado na simulação de 8 cenários de estudo, com destaque para o cenário 8 que procurou simular o cruzamento do Girolando opção B. O método proposto consiste em duas etapas: seleção e a avaliação, gerando uma combinação ótima para o aumento de acurácia. Os algoritmos escolhidos para a etapa de seleção de atributos foram: o FFS; O SMS; e a CART como uma alternativa rápida. A etapa de avaliação utilizou duas técnicas clássicas o RR-BLUP e o BLASSO como referência, e o SVR. A associação das técnicas utilizadas na etapa de seleção e avaliação levam a três modelos: SVR + FFS; SVR + SMS; e SVR + CART. Nos resultados obtidos a seleção de atributos se mostrou um importante recurso no aumento da acurácia, em todos os 8 cenários. O processo de simulação possibilitou a obtenção de dados até a 15a geração permitindo treinar os modelos na 1a ou 4a e aplicá-los nas subsequentes. A seleção de atributos aumentou de forma significativa a acurácia dos modelos utilizando dados genômicos, com exceção para o conjunto com amostra pequena e em dados totalmente lineares. O método proposto conseguiu para as bases com as características descristas serem eficientes, gerando um aumento significativo na correlação final. / The animal breeding seeks to maximize of a characteristic over time. The use of genomic data gave rise that we know as genomic selection. The made of efficient models for evaluate the merit of an animal is complex and generally is based on the assumption of additive genetic effects. However, in the presence of non-additive genetic variability, the models may not contain all the complexity of possible interactions between the genes, the epistasis. The S4GS is a genomic data simulator developed in this thesis, which seeks to mimic important features for the study in genomic selection such as linkage disequilibrium, artificial insemination and crossing over. Another relevant factor is the ability to simulate different gene actions and interactions at multiple levels. It was used in the creation of 8 study scenarios, highlighting the scenario 8 that sought to simulate the Girolando option B. The proposed method consists of a two-step selection and evaluation, generating an optimal combination for the increase of accuracy. The algorithms chosen for the feature selection step were: the FFS that was developed in this thesis; The SMS; and CART as a quick alternative. The evaluation stage used two classical techniques, the RR-BLUP and the BLASSO as a reference, and the SVR. The association of the techniques used in the selection and evaluation stage leads us to three models: SVR + FFS; SVR + SMS; and SVR + CART. In the results obtained, the selection of attributes proved to be an important resource in increasing accuracy in all 8 scenarios. The simulation process allowed data to be obtained up to 15th generation allowing the models generated in 1th or 4th to in subsequent ones to be applied. The application of feature selection significantly increased accuracy in genomic data, except for the small sample set and in completely linear data. The proposed method was able to the bases with the descriptive characteristics to be efficient, generating a significant increase in the final correlation.
340

Mapeamento de vias de sinalização envolvidas na resistência a quimioterápicos em células leucêmicas : uma abordagem computacional / Mapping signaling pathways related to chemoresistance in leukemic cells : a computational approach

Milani, Renato, 1985- 08 November 2014 (has links)
Orientadores: Eduardo Galembeck, Carmen Verissima Ferreira Halder / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-08-25T23:42:26Z (GMT). No. of bitstreams: 1 Milani_Renato_D.pdf: 7268876 bytes, checksum: dfdb9d30aafa024539f758590409a4ca (MD5) Previous issue date: 2014 / Resumo: A leucemia mieloide crônica, caracterizada principalmente pelo gene de fusão BCR-ABL, ainda necessita de novos tratamentos aos pacientes, como ocorre com outros tipos de câncer. A resistência a quimioterápicos é um dos principais obstáculos a serem superados para o sucesso em seu tratamento. Assim, a identificação dos mecanismos moleculares que promovem e mantêm o fenótipo resistente a múltiplas drogas (MDR) é de extrema importância para a evolução dos protocolos terapêuticos. Contudo, ainda pouco se sabe sobre as vias de sinalização envolvidas nestes eventos. O mapeamento das vias de sinalização nas células resistentes pode gerar informações para o entendimento da resistência, bem como apontar alvos para a intervenção farmacológica. Neste trabalho, apresentamos uma análise comparativa do proteoma e fosfoproteoma das células K562 (célula leucêmica não resistente) e Lucena-1 (célula leucêmica resistente a múltiplas drogas). Diversas ferramentas biocomputacionais foram criadas para auxiliar na análise dos dados, com destaque para uma ferramenta, batizada de PhosphoActivity, capaz de enriquecer conjuntos de dados obtidos a partir de fosfoproteomas com os sítios responsáveis pela ativação e pela inibição das proteínas associadas a cada fragmento fosforilado. Estas ferramentas foram empregadas para reduzir o conjunto de 2209 proteínas e 4257 peptídios fosforilados correspondentes a 2053 fosfoproteínas identificadas por espectrometria de massas. Através da combinação de dados experimentais com predições baseadas em aprendizado de máquina, foram selecionadas 145 proteínas e fosfoproteínas para validação. A seleção inclui fatores de transcrição e proteínas estruturais, como ?-catenina, HDAC6 e o filamento intermediário vimentina. As proteínas e fosfoproteínas identificadas e validadas através de métodos computacionais e experimentais apontaram o envolvimento de vias como a reorganização do citoesqueleto, a proliferação celular e o metabolismo de carboidratos na quimiorresistência de Lucena-1. Além disso, a identificação da proteína tirosina fosfatase LMW-PTP como tendo um papel central na resistência em Lucena-1 aponta a natureza complexa e multifatorial deste processo / Abstract: Chronic myeloid leukemia, characterized by the BCR-ABL fusion gene, still poses challenges to patient treatment. One of them is chemoresistance, a major barrier for successful therapy approaches. Still, the molecular mechanisms responsible for promoting and keeping the multiple drug resistance (MDR) phenotype are largely unknown. The mapping of phosphorylation events in resistant cells may improve disease understanding at the cellular level and suggest new targets for pharmacological intervention. Here we present a comparative analysis of the proteome and phosphoproteome in K562, a chronic myeloid leukemia cell line, and Lucena-1, a K562-derived chemoresistant line. We developed several bioinformatics tools to help analyze the data, such as a phosphoproteomics dataset enrichment tool, titled PhosphoActivity, that is able to retrieve documented sites responsible for the activation or inhibition of the proteins related to each phosphorylated fragment. These tools were employed to sift through 2290 proteins and 4257 phosphorylated peptides corresponding to 2053 phosphoproteins previously identified by mass spectrometry. Combining experimental data with support vector machine-based predictions, we selected 145 proteins and phosphoproteins for validation. The selection includes transcription regulators and structural proteins, such as ?-catenin, HDAC6 and the intermediary filament vimentin. Proteins and phosphoproteins identified and validated through computational and epxerimental methods suggest the involvement of pathways such as cytoskeleton rearrangement, cell lproliferation and carbohydrate metabolism in the chemoresistance of Lucena-1. Furthermore, the identification of LMW-PTP, a protein tyrosine phosphatase, as having a pivotal role in the resistance process in Lucena-1, suggests it as a complex and multifactorial process / Doutorado / Bioquimica / Doutor em Biologia Funcional e Molecular

Page generated in 2.0195 seconds