• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 492
  • 28
  • 26
  • 14
  • 8
  • 7
  • 7
  • 7
  • 7
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 566
  • 311
  • 93
  • 79
  • 70
  • 57
  • 56
  • 53
  • 53
  • 45
  • 43
  • 43
  • 43
  • 42
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
501

Predição da função das proteínas sem alinhamentos usando máquinas de vetor de suporte. / Protein function prediction without alignments by using support vector machines.

Dias, Ulisses Martins 26 March 2007 (has links)
This thesis presents a new model to protein function prediction using support vector machines, a machine learning approach trained using structural parameters calculated from protein tertiary structure. The model is different from the others paradigms because it is not necessary to search for similarities against the others known proteins in public databases by alignments. In this way, the model is able to associate functional relationships among proteins with no similarities and it could be used when all other methods fail or when the user don t want to use the concept of similarity in function predictions. The proof that the model is valid was accomplished analyzing its performance with unknown proteins, i.e proteins not used in the training set. The validation approach used a set of binding proteins. / Fundação de Amparo a Pesquisa do Estado de Alagoas / Este trabalho apresenta um novo modelo capaz de prever a função de proteínas utilizando máquinas de vetor de suporte, um método de aprendizagem de máquina treinado usando parâmetros estruturais calculados a partir da conformação espacial da própria proteína. O modelo difere do paradigma comum de predição por não ser necessário calcular similaridades por meio de alinhamentos entre a proteína que se deseja prever a função e as proteínas de função conhecida presentes nos bancos de dados públicos. Dessa forma, o modelo é capaz de associar função às proteínas que não possuem qualquer semelhança com proteínas conhecidas, podendo ser usado quando todos os outros métodos falham ou quando não se deseja utilizar o conceito de similaridade na predição da função. A justificativa de que o modelo é válido foi realizada analisando sua performance ao prever funções de proteínas desconhecidas, proteínas não usadas no treinamento, utilizando como estudo de caso um conjunto de proteínas de ligação.
502

THÊMIS: um sistema para análise forense de DNA utilizando Redes Baysianas. / THÊMIS: a software for DNA forensic analysis using Bayesian Networks.

Costa, José Tenório César 13 April 2009 (has links)
Since the mid 80, DNA fingerprinting has revolutionized forensic science, providing a powerful tool for research, currently being widely used in studies of paternity. Laboratories that work with forensic analysis of DNA carry increasing amounts of such studies and encourage the use of software systems that help with this type of analysis. One of the requirements for software of this magnitude is reliability, considering the level of detail of the study. Thus, it is interesting the use of formal methods. In this work, a software system called THÊMIS is built. THÊMIS uses Bayesian Networks as knowledge representation about studies of paternity, using inferences to obtain the results required by the forensic genetics regarding the calculation of the Index of Paternity (IP) / Fundação de Amparo a Pesquisa do Estado de Alagoas / Desde meados da década de 80, a tipagem do DNA (DNA fingerprinting) tem revolucionado a ciência forense, provendo uma poderosa ferramenta de investigação, sendo atualmente bastante utilizada em estudos de paternidade. Os laboratórios que trabalham com a análise forense de DNA realizam quantidades cada vez maiores de estudos desse tipo, incitando o uso de sistemas de software que auxiliem essa análise. Dentre as características essenciais para softwares dessa magnitude, está a confiabilidade, haja vista a minuciosidade do estudo. Dessa forma, é interessante o uso de métodos formais na execução de tais estudos. Neste trabalho, é construído um sistema de software, denominado THÊMIS, que utiliza o ferramental das Redes Bayesianas como meio de representação do conhecimento acerca de estudos de paternidade, obtendo por meio de inferências os resultados requeridos pela genética forense no que tange ao cálculo do Índice de Paternidade (IP)
503

Biossegurança alimentar da proteína antifúngica Mo-CBP3 de sementes de Moringa oleifera Lam: uma candidata para o desenvolvimento de plantas transgênicas / Food biosecurity Mo- CBP3 antifungal protein Moringa oleifera Lam seeds : a candidate for the development of transgenic plants

Pinto, Clidia Eduarda Moreira January 2014 (has links)
PINTO, Clidia Eduarda Moreira. Biossegurança alimentar da proteína antifúngica Mo-CBP3 de sementes de Moringa oleifera Lam: uma candidata para o desenvolvimento de plantas transgênicas, Fortaleza - CE, 2014. 119 f. Dissertação (Mestrado em Bioquímica) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2014. / Submitted by Eric Santiago (erichhcl@gmail.com) on 2016-05-20T12:05:40Z No. of bitstreams: 1 2014_dis_cempinto.pdf: 4842222 bytes, checksum: 4eddade7939a6a0bcab415ce2f86bc31 (MD5) / Approved for entry into archive by Nádja Goes (nmoraissoares@gmail.com) on 2016-05-20T12:37:11Z (GMT) No. of bitstreams: 1 2014_dis_cempinto.pdf: 4842222 bytes, checksum: 4eddade7939a6a0bcab415ce2f86bc31 (MD5) / Made available in DSpace on 2016-05-20T12:37:11Z (GMT). No. of bitstreams: 1 2014_dis_cempinto.pdf: 4842222 bytes, checksum: 4eddade7939a6a0bcab415ce2f86bc31 (MD5) Previous issue date: 2014 / Mo-CBP3 is a chitin binding protein purified from Moringa oleifera seeds which has an apparent molecular mass of 18.0 kDa and consists of multiple heterodimeric isoforms. Mo-CBP3 is a highly stable protein that has a broad spectrum of activity against phytopathogenic fungi and maintains its secondary structure and antifungal activity at extreme temperatures and different pH values. Thus, the Mo-CBP3 protein presents itself as a promising tool for the development of transgenic plants resistant to fungi attack. For such purpose, the Mo-CBP3 protein was subjected to food safety tests to ensure the safety of its expression in plants, minimizing the risk to non-target animals, which include human beings. The food safety assessment of the protein followed the two-tiered approach, based on weight of evidences, proposed by International Life Sciences Institute (ILSI). The research evidenced the long history of safe use, supported by scientific literature, of the M. oleifera species, source of Mo-CBP3 protein. In silico analysis did not reveal any identity of Mo-CBP3 with allergenic, toxic and/or antinutritional proteins. Additionally, were not found in the protein potential epitopes able to lead to cross reaction and unleash an allergic response. Identity with allergenic proteins was found only when a window of 80 amino acids was used. Potential sites of N-glycosylation were not found in the mature protein. The protein showed resistance to thermal treatment and digestibility by simulated gastric fluid, but was completely susceptible to digestion in simulated intestinal fluid. In addition, Mo-CBP3 caused no relevant adverse effects to mice subjected to high oral doses from 5 to 2000 mg/kg, showing its innocuous nature. Based on the food safety approach proposed by ILSI is not expected any risk associated to use of Mo-CBP3 protein for humans and other monogastric animals. / Mo¬-CBP3 é uma proteína ligante à quitina, purificada de sementes de Moringa oleifera, com massa molecular aparente de 18,0 kDa, consistindo de múltiplas isoformas heterodiméricas. Mo-CBP3 é uma proteína altamente estável, que possui amplo espectro de ação contra fungos fitopatogênicos e mantém sua estrutura secundária e atividade antifúngica em extremos de temperaturas e diferentes valores de pH. Dessa forma, a proteína Mo-CBP3 se apresenta como uma ferramenta promissora para o desenvolvimento de plantas transgênicas resistentes ao ataque de fungos. Para tanto, Mo-CBP3 foi submetida a testes de biossegurança alimentar, visando garantir sua utilização através da expressão em plantas, minimizando, assim, os riscos para animais não alvo, incluindo o homem. A avaliação de biossegurança alimentar da proteína seguiu o teste de duas etapas, baseado em pesos de evidência, proposto pelo Instituto Internacional de Ciências da Vida (ILSI). A pesquisa evidenciou o longo histórico de uso seguro, fundamentado em dados científicos, da espécie M. oleifera, fonte da proteína Mo-CBP3. Análises in silico mostraram que Mo-CBP3 não possui qualquer identidade com proteínas alergênicas, tóxicas e/ou antinutricionais. Adicionalmente, não foram encontrados na proteína epítopos potencialmente capazes de promover reação cruzada e desencadear uma resposta alergênica. Identidade com proteínas alergênicas (> 35%) foi encontrada apenas quando uma janela de 80 aminoácidos foi utilizada. Sítios potenciais de N-glicosilação não foram encontrados na proteína madura. A proteína mostrou resistência ao tratamento térmico e à digestibilidade por fluido gástrico simulado, mas foi completamente susceptível à digestão em fluido intestinal simulado. Em adição, Mo-CBP3 não causou efeitos adversos relevantes em camundongos submetidos a doses elevadas de 5 a 2000 mg/kg, via oral, evidenciando seu caráter inócuo. A partir da avaliação de biossegurança alimentar proposta pelo ILSI não é esperado qualquer risco associado ao consumo da proteína Mo-CBP3 pelo homem e demais animais monogástricos.
504

MOIRAE : a computational strategy to predict 3-D structures of polypeptides

Dorn, Márcio January 2012 (has links)
Currently, one of the main research problems in Structural Bioinformatics is associated to the study and prediction of the 3-D structure of proteins. The 1990’s GENOME projects resulted in a large increase in the number of protein sequences. However, the number of identified 3-D protein structures have not followed the same growth trend. The number of protein sequences is much higher than the number of known 3-D structures. Many computational methodologies, systems and algorithms have been proposed to address the protein structure prediction problem. However, the problem still remains challenging because of the complexity and high dimensionality of a protein conformational search space. This work presents a new computational strategy for the 3-D protein structure prediction problem. A first principle strategy which uses database information for the prediction of the 3-D structure of polypeptides was developed. The proposed technique manipulates structural information from the PDB in order to generate torsion angles intervals. Torsion angles intervals are used as input to a genetic algorithm with a local-search operator in order to search the protein conformational space and predict its 3-D structure. Results show that the 3-D structures obtained by the proposed method were topologically comparable to their correspondent experimental structure.
505

Hardware paralelo reconfigurável para identificação de alinhamentos de sequências de DNA. / Parallel reconfigurable hardware to identify alignments in DNA sequences.

Edgar José Garcia Neto Segundo 09 August 2012 (has links)
Amostras de DNA são encontradas em fragmentos, obtidos em vestígios de uma cena de crime, ou coletados de amostras de cabelo ou sangue, para testes genéticos ou de paternidade. Para identificar se esse fragmento pertence ou não a uma sequência de DNA, é necessário compará-los com uma sequência determinada, que pode estar armazenada em um banco de dados para, por exemplo, apontar um suspeito. Para tal, é preciso uma ferramenta eficiente para realizar o alinhamento da sequência de DNA encontrada com a armazenada no banco de dados. O alinhamento de sequências de DNA, em inglês DNA matching, é o campo da bioinformática que tenta entender a relação entre as sequências genéticas e suas relações funcionais e parentais. Essa tarefa é frequentemente realizada através de softwares que varrem clusters de base de dados, demandando alto poder computacional, o que encarece o custo de um projeto de alinhamento de sequências de DNA. Esta dissertação apresenta uma arquitetura de hardware paralela, para o algoritmo BLAST, que permite o alinhamento de um par de sequências de DNA. O algoritmo BLAST é um método heurístico e atualmente é o mais rápido. A estratégia do BLAST é dividir as sequências originais em subsequências menores de tamanho w. Após realizar as comparações nessas pequenas subsequências, as etapas do BLAST analisam apenas as subsequências que forem idênticas. Com isso, o algoritmo diminui o número de testes e combinações necessárias para realizar o alinhamento. Para cada sequência idêntica há três etapas, a serem realizadas pelo algoritmo: semeadura, extensão e avaliação. A solução proposta se inspira nas características do algoritmo para implementar um hardware totalmente paralelo e com pipeline entre as etapas básicas do BLAST. A arquitetura de hardware proposta foi implementada em FPGA e os resultados obtidos mostram a comparação entre área ocupada, número de ciclos e máxima frequência de operação permitida, em função dos parâmetros de alinhamento. O resultado é uma arquitetura de hardware em lógica reconfigurável, escalável, eficiente e de baixo custo, capaz de alinhar pares de sequências utilizando o algoritmo BLAST. / DNA samples are found in fragments, obtained in traces of a crime scene, collected from hair or blood samples, for genetic or paternity tests. To identify whether this fragment belongs or not to a given DNA sequence it is necessary to compare it with a determined sequence which usually come from a database, for instance, to point a suspect. To this end, we need an efficient tool to perform the alignment of the DNA sequence found with the ones stored in the database. The alignment of DNA sequences, which is a field of bioinformatics that helps to understand the relationship between genetic sequences and their functional relationships and parenting. This task is often performed by software that scan clusters of databases, which requires high computing effort, thus increasing the cost of DNA sequences alignment projects. This work presents a parallel hardware architecture, for BLAST algorithm, to DNA pairwise alignment. This is the original version of the BLAST algorithm, that resulted in several other versions. The BLAST algorithm is a heuristic method and is the fastest algorithm for sequence alignment. The strategy of BLAST is to divide the sequences into smaller subsequences of size w. After making comparisons in these subsequences, algorithm steps analyzes only the subsequences that are identical. Thus, reducing the number of tests and combinations needed to perform the alignment. For each identical sequence found, three steps are followed by the algorithm: seeding, extension and evaluation. The proposed hardware architecture is based on the characteristics of the algorithm to implement a fully parallel hardware, where the basic steps of BLAST are pipelined. The proposed architecture was implemented in FPGA and the results show a comparison between the area occupied, number of cycles and maximum frequency of operation permitted, as a function of alignment parameters. The result is a hardware architecture in reconfigurable logic, scalable, efficient and with low cost, capable of aligning the pairs of sequences using BLAST algorithm.
506

Do gene à proteína: explorando o GenBank com alunos do ensino médio / Gene to protein: exploring the GenBank with high school students

Rosa, Rosane Teresinha Nascimento da 07 June 2011 (has links)
This study reports on the use of the Didactic Unit (DU): Exploring the GenBank with high school students, which involved 20 school hours with a group of 06 volunteer students from the 2nd year of high school at the Military School of Santa Maria - CMSM/RS, during the 2nd semester of 2009. The aforementioned Didactic Unit was developed in the afternoon, whereas the regular school classes took place in the morning period. The DU was structured according to the Three Pedagogic Moments (3PM) proposed by Delizoicov and Angotti (1994), that is: Initial Problematization (IP), Knowledge Organization (KO) and Knowledge Application (KA). The DU included theoretical and practical classes on proteins and protein synthesis and monitored access to the NCBI (National Center Biotechnology Information), using the links OMIM and Entrez Gene. The aim of this DU was to identify whether students achieved better understanding of the relation DNA-RNAprotein, using the NCBI tools aforementioned. In order to evaluate the students performance, conceptual maps based on the score table proposed by Novak and Gowin (1996) were used, as well as individual interviews and analysis of the tests given to the students. The reference conceptual map had 52 points; two students scored 41 and one student scored 26 points, respectively. In the quantitative and the qualitative analyses, it was possible to identify a significant improvement in the conceptual relations of these students about the protein synthesis. The data suggests that the access to the GenBank, which was used as a didactic strategy in the Unit, afforded this improvement. In the students interviews, difficulties concerning the fluency in English were mentioned, which were overcome by using online translators, associated to the English classes that the students have in the Military School. Also, students evaluated positively the opportunity for learning to use new technologies. In the post-test, it was verified an improvement in the scores related to protein and protein synthesis. Finally, it can be inferred that for the small group of students who participated in this study, the experience was of a great value. / Este estudo relata a aplicação da Unidade Didática (UD): Explorando o GenBank com alunos do ensino médio, a qual envolveu 20 horas/aula com um grupo de 06 alunos voluntários do 2º ano do ensino médio do Colégio Militar de Santa Maria - CMSM/RS, durante o 2º semestre de 2009. A referida UD foi desenvolvida no contraturno das atividades escolares dos alunos envolvidos na pesquisa. A UD foi estruturada segundo os Três Momentos Pedagógicos propostos por Delizoicov e Angotti (1994), a saber: Problematização Inicial (PI), Organização do Conhecimento (OC) e Aplicação do conhecimento (AC). A UD constava de aulas teóricas e práticas sobre proteínas e síntese de proteínas e acesso orientado ao NCBI (National Center Biotechnology Information), utilizando os links OMIM e Entrez Gene. A finalidade desta UD era identificar se os alunos compreendiam melhor a relação DNA-RNA-proteína, utilizando as ferramentas do NCBI já citadas anteriormente. Para avaliar esse entendimento dos alunos utilizamos mapas conceituais baseados na tabela de pontuação proposta por Novak e Gowin (1996), assim como entrevistas individuais e análise de testes aplicados aos mesmos. O mapa conceitual de referência tinha 52 pontos; 02 alunos obtiveram 41 e um aluno 26 pontos. Na análise quantitativa e na qualitativa foi possível identificar um avanço significativo nas relações conceituais desses alunos sobre síntese de proteínas. Os dados sugerem que o acesso ao GenBank, utilizado como estratégia didática dentro da UD, possibilitou este avanço. Identificam-se nas entrevistas com os alunos, dificuldades em relação ao domínio da língua inglesa, que foram superadas com o uso dos tradutores online aliado às aulas proporcionadas pelo colégio. Ainda, avaliaram positivamente a possibilidade de conhecerem novas tecnologias. Nos pósteste foi evidenciado um progresso nos escores de acertos sobre os assuntos proteínas e síntese de proteínas. Finalmente, pode-se inferir que, para este pequeno grupo que vivenciou esta experiência, a mesma se revestiu de significado.
507

Desenvolvimento de uma plataforma de bioinformática integrada aplicada a identificação molecular de microrganismos patogênicos

Sarmento, Felipe José de Queiroz 27 February 2013 (has links)
Submitted by Leonardo Cavalcante (leo.ocavalcante@gmail.com) on 2018-07-17T18:21:26Z No. of bitstreams: 1 Arquivototal.pdf: 16322215 bytes, checksum: c172a5636f12cf8195f2382f1c23de59 (MD5) / Made available in DSpace on 2018-07-17T18:21:26Z (GMT). No. of bitstreams: 1 Arquivototal.pdf: 16322215 bytes, checksum: c172a5636f12cf8195f2382f1c23de59 (MD5) Previous issue date: 2013-02-27 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / Various researches in molecular epidemiology, molecular diagnosis and evolutionary genetics related to pathogens are compared to managing large amounts of data derived from institutions such as, hospitals or laboratories. Although there already are some proposals to connect molecular information to the diagnosis of pathogens, none of them uses high performance bioinformatics tools which are embedded in a system and linked to a patient’s electronic record. The MolEpi tool has been developed as a system of data and information management addressed to public health, incorporating clinical and epidemiological information about patients, as well as molecular data of 16S rRNA sequences of pathogenic bacteria. In order to confirm which species of these bacteria were identified, biological samples (urine, secretions and purulent wounds, tracheal aspirate and blood) and subsequently incubation and growth of colonies in culture, and PCR was used followed by sequencing and analysis of the conserved coding region for 16S ribosomal RNA (rDNA). Such strategy enabled fast bacterial identification, regardless of prior knowledge of the species of microorganism under study. Moreover MolEpi is a system interconnected to repositories of specific sequences as Genbank (NCBI), RDP-II (Ribosomal Database Project - MSU) and GreenGene (LBL). In this way, once the sequences of clinical isolates are confirmed and validated, they can be used as reference in the identification of other unknown microorganisms. Thus, a local database was established, representing the profile of pathogens found in the hospital unity of study and which should be object of public health surveillance. In order to develop MolEpi, we used the Java programming language and the PostgreSQL8.3 object-relational database. It was also developed BACSearch, which has the following programs to handle the analysis of 16S rDNA sequences, we used the framework BioJava; to multiple alignment, ClustalW2, MAFFT and MUSCLE, and for editing of multiple alignment and phylogenetic analysis, the JalView2.4.0 was used. The system was validated with 200 clinical specimens isolated and identified from sites of nosocomial infection. The DNA sequences produced from these samples were subjected to BLAST by using the developed tool, which identified Pseudomonas aeruginosa, Acinetobacter baumannii, Klebsiella pneumoniae and Morganella morganii as the main pathogens involved. Data on resistance patterns of the species were obtained in microbiology laboratory, and incorporated into the database. The application of MolEpi tool to the Health System can provide prompt and accurate diagnosis, connected to relevant network information which can be intended for health professionals. / A maioria das pesquisas em epidemiologia molecular, diagnóstico molecular e genética evolutiva são confrontadas com o gerenciamento de grandes volumes de dados. Além disso, os dados utilizados em estudos de doenças patogênicas são complexos e geralmente derivam de instituições tais como hospitais ou laboratórios. Embora já existam propostas que conecte informações moleculares ao diagnóstico de patogenias, nenhuma delas utilizam ferramentas de bioinformática de alto desempenho incorporadas a um sistema e vinculada a um prontuário eletrônico do paciente. MolEpi foi desenvolvido como um sistema de gerenciamento de dados e informações dimensionado a saúde pública, incorporando informações clínicas e epidemiológicas sobre pacientes e dados moleculares de sequências do gene rRNA 16S de bactérias patogênicas. Para identificação destas bactérias foram utilizadas amostras biológicas (urina, secreções e purulentas de feridas, aspirado traqueal e sangue) e PCR seguida de sequenciamento e análise da região conservada codificadora de RNA ribossômico (rDNA) 16S. Este estratégia permite uma identificação bacteriana rápida, independente de conhecimento prévio da espécie de microrganismo em estudo. O MolEpi é um sistema facilmente atualizável com as sequências específicas de bancos como Genbank(NCBI), RDP-II (Ribosomal Database Project - MSU) e GreenGene (LBL). A partir da confirmação e validação das sequências dos isolados clínicos, estas podem ser utilizadas como referência na identificação de outros microrganismos desconhecidos. Neste sentido, foi estabelecido um banco de dados local, representativo do perfil de patógenos encontrados na unidade hospitalar de estudo e objeto de vigilância epidemiológica. Para o desenvolvimento do MolEpi, utilizamos a linguagem Java e banco de dados PostgreSQL8.3. Foi desenvolvido também o BACSearch, que possui os seguintes programas: para o processamento de sequências de rDNA 16S utilizamos os frameworks BioJava; para alinhamento múltiplo foi implementado o ClustalW2, MAFFT e o MUSCLE e para edição do alinhamento múltiplo e análise filogenética foi utilizado JalView R⃝2.4.0b2. O sistema foi validado com 200 espécimes clínicos identificadas e isoladas de sítios de infecção hospitalar. As sequências de DNA produzidas a partir destas amostras foram submetidas ao BLAST, utilizando a ferramenta desenvolvida, identificando Pseudomonas aeruginosa, Acinetobacter baumannii, Klebsiela pneumonie e Staphylococcus aureus como os principais patógenos correspondentes. Os dados sobre o padrão de resistência das espécies foram obtidos em laboratório de microbiologia e incorporados ao banco de dados. A aplicação do MolEpi ao Sistema Único de Saúde poderá fornecer diagnósticos mais rápidos, precisos, e interligados a uma rede de informações relevantes para o profissional de saúde.
508

Implementação de um banco de dados de proteomas de bactérias associadas a plantas: ProBacter / Implementation of a plant-associated bacteria proteome database:ProBacter

Fernanda Nascimento Almeida 26 March 2007 (has links)
Esta dissertação resultou na implementação de uma abordagem computacional para a análise comparativa entre informações de genomas completamente seqüenciados de bactérias associadas à planta. O sistema desenvolvido foi denominado de Probacter e é composto de um banco de dados relacional e de ferramentas computacionais para a análise de seqüências, teve por finalidade agrupar as informações disponíveis em vários bancos de dados em um único ambiente, oferecer uma padronização às informações disponibilizadas e fornecer ferramentas para análises comparativas e de seqüências. O banco de dados contém informações provenientes de diversas fontes, incluindo as bases GenBank, Swiss-Prot, TrEMBL, Interpro, COG e GO. As proteínas foram organizadas dentro de grupos, utilizando a metodologia de BBH (Bidirectional Best Hit) e a anotação padronizada de acordo com a classificação funcional anteriormente descrita para o Projeto Genoma de bactérias do gênero Xanthomonas. Cada entrada disponibilizada pelo sistema numa interface amigável corresponde a uma ficha contendo informações sobre o gene e a proteína por ele codificada, incluindo a categorização funcional, a predição de domínios, a seqüência de aminoácidos da proteína, a ligação com os grupos gerados pelo BBH, referências direta a outros bancos de dados, e as publicações científicas. O sistema oferece uma interface de busca comum a bancos de dados, utilizando consultas pré-definidas. Para consultas mais elaboradas, foi desenvolvida uma interface para ser utilizada sem que o usuário tenha conhecimento prévio de linguagens como SQL e/ou da arquitetura desta base. Ferramentas de alinhamento múltiplo ClustalW e T-Coffee e o programa BLASTP também foram integradas a este sistema, permitindo que sejam feitas comparações entre seqüências internas e externas ao banco. O ProBacter integra ferramentas de visualização gráfica, que permite disponibilizar o posicionamento dos genes pertencentes a grupos no genoma de cada organismo e que permite visualizar as ligações durante a formação dos grupos formados pelo BBH. Por fim, um campo aberto é disponibilizado para que seja possível a intervenção de usuários na anotação de novas informações em determinada entrada, sendo as informações novas oferecidas gravadas diretamente no banco de dados. / This dissertation offers a computation approach to comparative analysis between cmpletely sequenced genomes of plant-associated bacteria. The created system was denominated ProBacter and it is composed of a relational database and computational tools for sequence analysis. The database was created from a diverse data source, including information from GenBank, TrEMBL, Interpro, COG and GO. The proteins were organized into clusters through the BBH (Bidirectional Best Hits) methodology and categorized according to the functional classification of the Xanthomonas Genome Project. Each entry displayed by the system in a friendly user interface corresponds to an information sheet with the gene and protein sequence, functional category, domain prediction, and related scientific publications, in addition to the group that it belongs, and external links. The system offers a search interface similar to other database systems with pre-formatted queries. For advanced queries, the user has access to an interface that can be used without previous knowledge of the SQL language or ProBacters database arquiteture. The BLASTP program and two multiple sequence alignment tools, namely ClustalW and T-Coffee, were integrated into the system as well, allowing internal and external sequence comparison. In addition, the system makes available visualization tools capable of displaying the gene position inside a genome and BHH links of clusters. Also, the user is capable of adding new information for each gene in the system. ProBacters goal is to collect information available from a large source of databases into one computational environment, organize this information and offer comparative tools for sequence analysis.
509

CNViewer : aplicativo baseado em navegador web para análise de variações de número de cópias (CNV) do genoma humano / Cnviewer:Browser-Based AppicationFor The Analysis Of Dna Copy Number Variation In The Human Genome

Cintia Cristina Palu 12 July 2010 (has links)
O uso de ferramentas de análise e visualização de dados é essencial para a pesquisa de CNVs, porém nem sempre está ao alcance de todo o meio científico devido a restrições de acesso ou por requerer conhecimento avançado de informática. Portanto o desenvolvimento de interfaces amigáveis e acessíveis é essencial para a pesquisa. Esta dissertação visou explorar o ambiente dos navegadores Web para desenvolver soluções para os problemas de acessibilidade, portabilidade e visualização, comumente encontrados nas ferramentas de bioinformática. Foi desenvolvido um aplicativo para análise exploratória, denominado CNViewer, o qual oferece recursos para comparação de perfis moleculares, além de representar graficamente diversas amostras simultaneamente. Através de uma interface dinâmica, o usuário pode delimitar quaisquer regiões genômicas para a análise, e pode também exibir dados complementares às CNVs. Foi também disponibilizado acesso direto a anotações genômicas, tornando o CNViewer um ambiente para estudo de CNVs e dados correlacionados. Utilizando somente os recursos oferecidos pelos navegadores Web (JavaScript e HTML), o CNViewer é capaz de processar dados e executar tarefas rapidamente, com independência de servidor, pois mantêm os dados em memória durante seu uso, aperfeiçoando a interatividade com o usuário. Foi também criado um módulo de exportação, que permite ao usuário salvar e recuperar suas análises, servindo também para compartilhamento de dados. O CNViewer é um aplicativo que supera os limites dos programas baseados em Web clássicos, comportando-se como um aplicativo desktop, mas com a vantagem de ser acessado diretamente, sem requerer instalação ou atualização. O crescente uso dos navegadores Web como ambiente de trabalho, e mais recentemente até mesmo como sistema operativo, sugere que aplicativos nativos a esse ambiente poderão tornar-se a norma em informática biomédica.
510

Development of a database for classification and analysis of type IV secretion systems / Desenvolvimento de um banco de dados para classificação e análise de sistemas de secreção do tipo IV bacteriano

Diogo dos Santos Netto 31 October 2008 (has links)
The type IV secretion system can be classified as a large family of macromolecule transporters divided in three recognized sub-families involved in different bacterial functions. The major sub-family of T4SS is the conjugation system, which allows transfer of genetic material as a nucleoprotein via cell contact among bacteria. Analogously to bacterial conjugation, the T4SS can transfer genetic material from bacteria to eukaryotic cells; such is the case of T-DNA transfer of Agrobacterium tumefaciens to host plant cells. The system of effector proteins transport constitutes the second sub-family, being indispensable for infection processes of several mammalian and plants pathogens. The third sub-family corresponds to the DNA uptake/release system involved in genetic transformation competence, independently of cell contact, as it was described to the systems VirB/D4 from Campylobacter jejuni and ComB form Helicobacter pylori. Several essential features of T4SS are well known, but the knowledge in support of an uncomplicated classification or proper protein annotation of system subunits remains confusing, which in same cases can avoid making inferences about evolution of the system in bacterial species. The purpose of this work was to organize, classify and integrate the knowledge about T4SS through building a database devoted to this bacterial secretion system. The T4SS database was created using the SGBD MySQL and Perl programming language and with a web interface (HTML/CGI) that gives access to the database. Currently, this database hold genomic data from 43 bacteria and 10 plasmids acquired from the GenBank NCBI, these organisms comprise groups from Actionobacteria to Gram-negative Proteobacteria including symbiotic and pathogenic bacteria. By applying Bidirectional Best-Hits method was possible to get a core set of 75 clusters with 974 proteins involved in the T4SS. Also, during this procedure BlastP, Muscle e ClustalW algorithms were applied. The database was manually annotated supported by cross references built-in the T4SS annotation pages, such as the UniProtKB/Swiss-Prot, COG, InterPro and TCDB as well as by the methods for signal peptide and transmembrane regions prediction. All T4SS protein records scattered into 75 ortholog clusters were organized into five different classes of type IV secretion system proteins: (i) Type IVA Mpf/T4CP; (ii) Type IVA Dtr; (iii) F-type plasmid; (iv) IncP-1-type plasmid; (v) Type IVB Icm/Dot. All 974 proteins were annotated into 68 well-known families, which can be involved in conjugation, effector translocator, DNA uptake/release or even can be bifunctional proteins. Also, by using the Maximum Likelihood method were built 70 unrooted phylogenetic trees that represents just 70 clusters instead of 75, this is due to five clusters had only two protein sequences, five unrooted phylogenetic trees were built for each group of first hierarchical classification, one unrooted phylogenetic trees including proteins from archetype systems of all groups, one unrooted phylogenetic trees from 16S sequence of each organism and one rooted tree including a sequence from a Gram-positive bacteria as an external group. The phylogenetic analyses show that some proteins of T4SS are more divergent than others, which indicate that for a particular function few sequence mutations were needed, but other proteins required many sequence mutations to get another functions. Thus, these results proved that proteins belong to the same cluster show different functions: conjugation, DNA uptake/release or effector translocator. Consequently, it was possible verify that similar functions were grouped together within phylogenetic tree, which allowed to annotate a probable function of some uncharacterized proteins, that is possibly due to the sequence similarity may reveal a similar evolution to get the same function. Thus, the phylogenetic trees allowed confirming the protein annotation as well as inferring whether uncharacterized proteins would encompass a known function. The T4SS database will be an open access, given to the users searching and submission sequence tools, which will permit to get insights about classification and phylogeny of T4SS sequence of interest. T4SS Database is accessible at the URL http://www.t4ss.lncc.br. / O T4SS pode ser classificado como uma família de transportadores de macromoléculas envolvidos em diferentes funções bacterianas. A maior subfamília do T4SS é a do sistema de conjugação, o qual permite a transferência de material genético entre bactérias. Analogamente à conjugação, o sistema pode transferir material genético entre bactérias e eucariotos, tal como a transferência de T-DNA de Agrobacterium tumefaciens. O sistema de transporte de proteínas efetoras constitui uma segunda subfamília do T4SS, sendo indispensável nos processos de infecção de vários patógenos de mamíferos e plantas. A última subfamília corresponde ao sistema DNA-uptake/release" que funciona independente de contato com uma célula alvo, representado pelos sistemas VirB/D4 de Campylobacter jejuni e ComB de Helicobacter pylori. Muitas características básicas do T4SS são bem conhecidas, entretanto o conhecimento para a classificação simples e intuitiva ou a anotação apropriada das proteínas ainda não está claro, impedindo em alguns casos estabelecer correlações evolutivas deste sistema em bactérias. O objetivo deste trabalho foi o de organizar, classificar e integrar o conhecimento do T4SS através da construção de um banco de dados especializado para este sistema secretório bacteriano. O banco de dados T4SS foi criado utilizando o SGBD MySQL e a linguagem de programação Perl e com uma interface web (HTML/CGI) que fornece acesso ao banco. Este banco consta atualmente com 43 genomas bacterianos e 10 plasmídeos obtidos do GenBank NCBI, estes organismos vão desde Actinobactérias até Proteobactérias Gram-negativas, incluindo simbiontes e patogênicos. Foi utilizada a metodologia do Bidirectional Best-Hits", com a qual foi possível obter um conjunto mínimo de 75 clusters" com 974 proteínas envolvidas no T4SS. Também, durante este procedimento foram utilizados os algoritmos BlastP, Muscle e ClustalW. O banco foi anotado manualmente utilizando referências cruzadas incluídas nas páginas de anotação do T4SS, tais como UniProtKB/Swiss-Prot, COG, InterPro e TCDB e métodos para predição de regiões de peptídeos sinal e transmembrana. As análises do banco T4SS permitiram criar uma classificação hierárquica e funcional para as proteínas do T4SS, consistindo em cinco grupos: (i) Type IVA Mpf/T4CP; (ii) Type IVA Dtr; (iii) F-type plasmid; (iv) IncP-1-type plasmid; (v) Type IVB Icm/Dot). As 974 proteínas foram anotadas em 68 famílias conhecidas, as quais podem estar envolvidas em conjugação, transferência de T-DNA, transferência de proteínas efetoras, DNA-uptake/release" ou bem serem proteínas bifuncionais. Também, através do método de máxima verossimilhança foram geradas 70 árvores filogenéticas não enraizadas (NR) representando apenas 70 clusters, já que cinco clusters apresentaram apenas duas seqüências de proteínas, cinco árvores filogenéticas NR foram criadas para cada grupo da primeira categoria hierárquica, uma árvore NR com representantes de todos os grupos, uma árvore NR gerada a partir das seqüências 16S de cada organismo e uma árvore de um cluster incluindo uma seqüência de bactéria Gram-positiva como grupo externo. As análises filogenéticas mostram que determinadas proteínas do sistema são mais divergentes que outras, indicando que para uma determinada função poucas mutações de seqüências foram necessárias, já outras proteínas precisaram de maiores mutações para adquirir outras funções. Por isso, verifica-se que proteínas de um mesmo cluster apresentam diferentes funções: conjugação, DNA-uptake/release", traslocadores de proteínas efetoras. Conseqüentemente, foi possível verificar que funções semelhantes se agruparam juntas nas árvores filogenéticas, permitindo anotar uma função provável das proteínas ainda não caracterizadas (unknown"), isto possivelmente devido a que em virtude de sua semelhança de seqüências, possivelmente evoluíram para realizar a mesma função. Assim, as arvores possuíram a finalidade de confirmar a anotação e contribuíram permitindo inferir se os unknown" ou probable" podem ser de uma determinada classificação funcional. O banco T4SS será de uso público, oferecendo ao usuário ferramentas de buscas e submissão de seqüências, as quais permitirão inferir respostas sobre a classificação e filogenia da seqüência T4SS de interesse. O banco de dados T4SS pode ser acessado na URL: http://www.t4ss.lncc.br.

Page generated in 0.0772 seconds