461 |
Desenvolvimento de uma abordagem computacional para a tradução in silico de variantes de splicing detectadas no transcriptoma humanoSilva, Raphael Tavares da January 2012 (has links)
Submitted by Priscila Nascimento (pnascimento@icict.fiocruz.br) on 2013-03-27T18:14:58Z
No. of bitstreams: 1
Raphael_Tavares_da_Silva_BCS_Dissertacao_Aprovada_Definitiva.pdf: 4336076 bytes, checksum: f1085dad138bd375d802492afe1782ff (MD5) / Approved for entry into archive by Priscila Nascimento(pnascimento@icict.fiocruz.br) on 2013-03-27T18:24:55Z (GMT) No. of bitstreams: 1
Raphael_Tavares_da_Silva_BCS_Dissertacao_Aprovada_Definitiva.pdf: 4336076 bytes, checksum: f1085dad138bd375d802492afe1782ff (MD5) / Made available in DSpace on 2013-03-27T18:24:55Z (GMT). No. of bitstreams: 1
Raphael_Tavares_da_Silva_BCS_Dissertacao_Aprovada_Definitiva.pdf: 4336076 bytes, checksum: f1085dad138bd375d802492afe1782ff (MD5)
Previous issue date: 2012 / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil. / Um dos mecanismos capaz de aumentar a diversidade do proteoma de eucariotos é o splicing alternativo nos pré-mRNAs. Este mecanismo celular ocorre durante a transcrição dos genes, sendo ocasionado por um ou mais dos seguintes eventos: retenção de íntrons, uso alternativo de sítio de splice 5', uso alternativo de sítio de splice 3' e uso alternativo de éxons. Análises recentes de Bioinformática utilizando experimentos de RNA-Seq mostram que aproximadamente 90% dos genes humanos produzem mais de um transcrito decorrente de eventos de splicing alternativo. O impacto do splicing alternativo no proteoma humano vem sendo alvo de algumas abordagens de Bioinformática, sendo esperado que uma grande porção de tais transcritos alternativos possa alterar o conteúdo da cadeia polipeptídica obtida após a sua tradução. Devido à sua importância, diversos trabalhos já foram desenvolvidos com o objetivo de facilitar a identificação de eventos de splicing alternativo a partir de dados provenientes de cDNA, bem como sua associação com a estrutura das proteínas de suas isoformas. Entretanto, são poucas as abordagens que realizaram a tradução in silico do transcriptoma humano na busca por variantes de splicing e a utilização de dados oriundos de sequenciadores de segunda geração (NGS) ainda é muito pouco explorada para tratar do tema. Desta maneira, o presente projeto tem como objetivo a aplicação de uma nova abordagem para a identificação e tradução de variantes de splicing alternativo usando dados de NGS. Foram utilizadas leituras da plataforma de sequenciamento Roche/454 oriundas de estudos de câncer para um enriquecimento de nosso banco de dados original que continha previamente mRNAs completos e ESTs. Após o enriquecimento, a metodologia empregada pelo nosso grupo conseguiu detectar 4.574 variantes de splicing inéditas em nosso banco. O novo banco gerado foi traduzido levando a criação de um repertório proteico contendo 159.638 sequências polipeptídicas não redundantes. Na busca por variantes inéditas utilizando dados de proteômica, foram identificadas três possíveis nos genes humanos tubulina 2b, tubulina 4b e actina. Dados de sequenciamento da plataforma Illumina também foram utilizados para uma avaliação da sua contribuição em número de variantes e sequências polipeptídicas traduzidas em nosso repertório. Encontramos que a nossa abordagem foi capaz de anotar 53% mais sequências polipeptídicas quando comparada ao repertório de ENSEMBL Gene. Desta forma, acreditamos que o presente projeto pode auxiliar no melhoramento da anotação de peptídeos encontrados por técnicas de proteômica, bem como no descobrimento de novos marcadores moleculares. / Alternative splicing of pre-mRNAs is one of the mechanisms capable to increase the proteome diversity in eukaryotes. This cellular mechanism occurs during the transcription of genes and is associated with one or more of the following events: intron retention, 5’ alternative splice, 3’ alternative splice and exon skipping. Recent Bioinformatics analysis using RNA-Seq experiments showed that approximately 90% of human genes produce more than one transcript due to alternative splicing events. The impact of alternative splicing in the human proteome has been the focus of some Bioinformatics approaches and is expected that the majority part of these alternative transcripts can alter the polypeptide chain produced after its translation. Due to its importance, many studies have been developed focused on facilitating the identification of alternative splicing events based on cDNA data, as well as to study the protein structure of its isoforms. However, few studies performed the in silico translation of the human transcriptome to search for new splicing isoforms using Next Generation Sequencing (NGS) data. In this way, our project aims to the development of a new approach to identify and translate alternative splicing isoforms using NGS data. Roche/454 reads of cancer studies were used to enrich our initial database, which was previously populated with full-length mRNAs and ESTs data. After the enrichment step, the methodology developed by our group could detect 4,574 new splicing variants in our database. The enriched database was translated, producing a protein repository with 159,638 non-redundant polypeptide sequences. Searching for new isoforms using experimental proteomic data, three possible new isoforms were identified for the human genes tubulin 2b, tubulin 4b and actin. Illumina sequencing data was used to assess its contribution for the number of new isoforms and the translated polypeptide sequences on our database. We realized that our approach was capable to annotate 53% more polypeptide sequences when compared with the ENSEMBL Gene repository. In this way, we believe that our project can support the improvement of peptide annotation found by proteomic techniques, as well as to discover new molecular markers.
|
462 |
A canonical correlation analysis- based approach to identify causal genes in atherosclerosisSizyoogno, Crisencia January 2018 (has links)
Genome-wide associations studies (GWASs) have identified hundreds of loci that are strongly associated with coronary artery disease and its risk factors. However, the causal variants and genes remain unknown for the vast majority of the identified loci. Zebrafish model systems coupled with clustered regularly interspaced short palindromic repeats-C–associated 9 (CRISPR Cas-9) mutagenesis have enabled the possibility to systematically characterize candidate genes in GWAS-identified loci. In this thesis, canonical correlation analysis (CCA) was used to identify putative causal genes in multiplexed genetic screens for atherogenic traits in zebrafish larvae in an efficient manner. The two datasets used in this thesis contained genes and phenotypes obtained through sequencing and high-throughput imaging of fish larvae. Dataset 1 contained (7 genes, 11 phenotypes, n = 384) and dataset 2 (4 genes, 11 phenotypes, n = 384). CCA’s multiple genes vs. multiple phenotype analysis in dataset 1 identified the genes met, pepd, timd4 and vegfa to have an association with the total cholesterol, triglycerides, glucose, corrected lipid disposition, as well as co- localization of (macrophage and lipid deposition,) (neutrophils and lipid deposition) and (macrophage and neutrophils). In dataset 2, CCA found previously reported correlation of genes apobb1 and apoea with total cholesterol, low-density lipoprotein and triglycerides as well as co localization of neutrophils and lipids. In comparison with hierarchical linear model, CCA represents a powerful and promising tool to identify causal genes for cardiovascular diseases in data from zebrafish model systems.
|
463 |
Techniques for construction of phylogenetic trees / TÃcnicas para construÃÃo de Ãrvores filogenÃticasGerardo ValdÃso Rodrigues Viana 27 April 2007 (has links)
FundaÃÃo Cearense de Apoio ao Desenvolvimento Cientifico e TecnolÃgico / Phylogenetic tree structures express similarities, ancestrality, and relationships between species
or group of species, and are also known as evolutionary trees or phylogenies. Phylogenetic
trees have leaves that represent species (taxons), and internal nodes that correspond to hypothetical
ancestors of the species. In this thesis we rst present elements necessary to the
comprehension of phylogenetic trees systematics, then efcient algorithms to build them will
be described. Molecular biology concepts, life evolution, and biological classication are important
to the understanding of phylogenies. Phylogenetic information may provide important
knowledge to biological research work, such as, organ transplantation from animals, and drug
toxicologic tests performed in other species as a precise prediction to its application in human
beings. To solve a phylogeny problem implies that a phylogenetic tree must be built from
known data about a group of species, according to an optimization criterion. The approach to
this problem involves two main steps: the rst refers to the discovery of perfect phylogenies, in
the second step, information extracted from perfect phylogenies are used to infer more general
ones. The techniques that are used in the second step take advantage of evolutionary hypothesis.
The problem becomes NP-hard for a number of interesting hypothesis, what justify the use of
inference methods based on heuristics, metaheuristics, and approximative algorithms. The description
of an innovative technique based on local search with multiple start over a diversied
neighborhood summarizes our contribution to solve the problem. Moreover, we used parallel
programming in order to speed up the intensication stage of the search for the optimal solution.
More precisely, we developed an efcient algorithm to obtain approximate solutions for a
phylogeny problem which infers an optimal phylogenetic tree from characteristics matrices of
various species. The designed data structures and the binary data manipulation in some routines
accelerate simulation and illustration of the experimentation tests. Well known instances have
been used to compare the proposed algorithm results with those previously published. We hope
that this work may arise researchers' interest to the topic and contribute to the Bioinformatics
area. / Ãrvores filogenÃticas sÃo estruturas que expressam a similaridade, ancestralidade e relacionamentos entre as espÃcies ou grupo de espÃcies. Conhecidas como Ãrvores evolucionÃrias ou simplesmente filogenias, as Ãrvores filogenÃticas possuem folhas que representam as espÃcies (tÃxons) e nÃs internos que correspondem aos seus ancestrais hipotÃticos. Neste trabalho, alÃm das informaÃÃes necessÃrias para o entendimento de toda a sistemÃtica filogenÃtica, sÃo apresentadas tÃcnicas algorÃtmicas para construÃÃo destas Ãrvores. Os conceitos bÃsicos de biologia molecular, evoluÃÃo da vida e classificaÃÃo biolÃgica, aqui descritos, permitem compreender o que à uma Filogenia e qual sua importÃncia para a Biologia. As informaÃÃes filogenÃticas fornecem,por exemplo, subsÃdios importantes para decisÃes relativas aos transplantes de ÃrgÃos ou tecidos de outras espÃcies para o homem e para que testes de reaÃÃo imunolÃgica ou de toxicidade sejam feitos antes em outros sistemas biolÃgicos similares ao ser humano. Resolver um Problema de Filogenia corresponde à construÃÃo de uma Ãrvore filogenÃtica a partir de dados conhecidos sobre as espÃcies em estudo, obedecendo a algum critÃrio de otimizaÃÃo. A abordagem dada a esse problema envolve duas etapas, a primeira, referente aos casos em que as filogenias sÃo perfeitas cujos procedimentos desenvolvidos serÃo utilizados na segunda etapa, quando deve ser criada uma tÃcnica de inferÃncia para a filogenia num caso geral. Essas tÃcnicas consideram de forma peculiar as hipÃteses sobre o processo de evoluÃÃo. Para muitas hipÃteses de interesse o problema se torna NP-DifÃcil, justificando-se o uso de mÃtodos de inferÃncia atravÃs de heurÃsticas, meta-heurÃsticas e algoritmos aproximativos. Nossa contribuiÃÃo neste trabalho consiste em apresentar uma tÃcnica de resoluÃÃo desse problema baseada em buscas locais com partidas mÃltiplas em vizinhanÃas diversificadas. Foi utilizada a programaÃÃo paralela para minimizar o tempo de execuÃÃo no processo de intensificaÃÃo da busca pela soluÃÃo Ãtima do problema. Desta forma, desenvolvemos um algoritmo para obter soluÃÃes aproximadas para um Problema da Filogenia, no caso, para inferir, a partir de matrizes de caracterÃsticas de vÃrias espÃcies, uma Ãrvore filogenÃtica que mais se aproxima da histÃria de sua evoluÃÃo. Uma estrutura de dados escolhida adequadamente aliada à manipulaÃÃo de dados em binÃrio em algumas rotinas facilitaram a simulaÃÃo e ilustraÃÃo dos testes realizados. InstÃncias com resultados conhecidos na literatura foram utilizadas para comprovar a performance do algoritmo. Esperamos com este trabalho despertar o interesse dos pesquisadores da Ãrea de ComputaÃÃo, consolidando, assim, o crescimento da BioinformÃtica.
|
464 |
Acoplamento de modelos computacionais de doenças infecciosasQuintela, Bárbara de Melo 20 March 2015 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-03-06T12:18:04Z
No. of bitstreams: 1
barbarademeloquintela.pdf: 10528211 bytes, checksum: 7f9e15f4d69049b28b676fffca2ef945 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-06T20:20:45Z (GMT) No. of bitstreams: 1
barbarademeloquintela.pdf: 10528211 bytes, checksum: 7f9e15f4d69049b28b676fffca2ef945 (MD5) / Made available in DSpace on 2017-03-06T20:20:45Z (GMT). No. of bitstreams: 1
barbarademeloquintela.pdf: 10528211 bytes, checksum: 7f9e15f4d69049b28b676fffca2ef945 (MD5)
Previous issue date: 2015-03-20 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O desenvolvimento de modelos matemáticos da resposta imunológica permite que os mecanismos
desse sistema de defesa possam ser melhor compreendidos. O objetivo principal
deste trabalho é a representação de diferentes escalas da interação entre patógeno e hospedeiro
durante infecção e tratamento para auxiliar o estudo desses elementos através
do estabelecimento do acoplamento de modelos matemáticos distintos. São apresentados
dois exemplos de acoplamento. No primeiro um modelo em que o processo de inflamação
local no pulmão é descrito por Equações Diferenciais Parciais (EDP) enquanto um sistema
de Equações Diferenciais Ordinárias (EDO) é utilizado para representar a resposta
sistêmica. A simulação de diferentes cenários permite a análise da dinâmica de diversas
células do sistema imune na presença de um patógeno (bactéria). Foi mostrado através
da análise de resultados qualitativos do acoplamento de modelos que a ação da resposta
sistêmica é essencial para eliminação das bactérias. No segundo exemplo, um conjunto
de equações diferenciais ordinárias representando uma infecção pelo vírus da hepatite C
(HCV) é acoplado a um sistema de equações diferenciais parciais que foi desenvolvido
para representar a dinâmica intracelular. Esse exemplo permitiu o estudo da replicação
do HCV sob efeito de terapia com uso de drogas do tipo DAAs (Direct Acting Anti-virus)
e foi validado comparando-se a dados experimentais. Os resultados reforçam que a partir
dessas representações utilizando acoplamentos de modelos computacionais novas análises
matemáticas e simulações de outros cenários podem ser realizadas em um espaço de
tempo razoável, auxiliando o estudo do complexo sistema imune e o desenvolvimento de
tratamento de infecções. / The development of mathematical models of the immune response allows a better understanding
of the multifaceted mechanisms of this defense system. The main purpose of this
work is to represent different scales and aspects of the host-pathogen interaction during
infection and treatment by the coupling of distinct mathematical models. Two examples
are defined. On the first example the local tissue inflammation processes are described by
Partial Differential Equations (PDEs) whereas a system of Ordinary Differential Equations
(ODEs) is used as a model for the systemic response. The simulation of distinct
scenarios allows the analysis of the dynamics of different immune cells in the presence of
a bacteria. It was shown with the qualitative analysis of the results of the coupled model
that the systemic response is essential to eliminate the bacteria. In the second example a
set of ordinary differential equations representing infection of the hepatitis C virus (HCV)
is coupled to a set of partial differential equations that was developed to represent intracellular
dynamics. That example allowed the study of HCV replication under therapy using
direct acting antiviral drugs (DAAs) and was validated comparing to experimental data.
The results support that with the coupling of computational models, other mathematical
analysis and simulations could be performed, in a reasonable time frame, aiding to the
study of the complex immune system and the development of treatment to infections.
|
465 |
Parâmetros bioinformáticos do contexto genômico como preditores do efeito funcional de substituições pontuais na sequência 5' UTR em genes humanos / Bioinformatic parameters of genomic context as predictors of functional impact in point substitutions of human gene 5' UTRUrioste, Eduardo Arcanjo, 1989- 22 August 2018 (has links)
Orientador: Sérgio Roberto Peres Line / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Odontologia de Piracicaba / Made available in DSpace on 2018-08-22T18:59:49Z (GMT). No. of bitstreams: 1
Urioste_EduardoArcanjo_M.pdf: 1274507 bytes, checksum: 0f7136d4dabaf0e810ad2bdf1b2ee815 (MD5)
Previous issue date: 2013 / Resumo: Estima-se que cada indivíduo carregue cerca de 120 a 430 variantes raras em regiões UTRs (Abecasis et al, 2012). Apesar da tolerância a variação na região 5' UTR, a patofisiologia de várias doenças está ligada a mutações na mesma (Cazzola & Skoda, 2000; Reynolds, 2002; Chatterjee & Pal, 2009; Wethmar et al 2010), sendo necessário o entendimento a determinação dos mecanismos regulatórios. O objetivo deste trabalho é descobrir assinaturas genéticas encontradas no contexto genômico de mutações pontuais de região 5' UTR que permitam prever o impacto funcional de outras variações pontuais na mesma região. As mutações, causadora de doença, foram selecionadas do banco de dados do Human Gene Mutation Database (HGMD) (Stenson et al, 2008); e os polimorfismos, de impacto funcional desconhecido, foram obtidos no banco de dados NHLBI Grand Opportunity Exome Sequencing Project (ESP), sendo originados do trabalho de Tenessen et al (2012). No total foram utilizadas 235 mutações e 21.542 polimorfismos. Para as variações foram calculados parâmetros de variação da estabilidade da estrutura secundária do contexto das variações (??Gfolding), presença de sítios de ligação de fatores de transcrição (JASPAR), tipo de variação (transição/transversão, tipoV), distância do início da sequência codificante (DiSC), distância do início de transcrição (DiTr) e conservação filogenética por distância de Levenshtein do contexto (Lev). A estatística foi calculada pelos testes de Wilcoxon e Binomial. A partir destes foram gerados modelos de regressão logísticos analisados através de curva ROC. Os parâmetros ??Gfolding máximo, tipoV, DiSC, e Lev permitiram a distinção significativa (? = 0,05) entres os polimorfismos e as mutações permitindo modelos explicativos, mas incompletos (área da Curva ROC 0, 772). ??Gfolding max. indicou uma relação entre as mutações e entre estruturas secundárias mais estáveis geradas pelas mesmas. Os parâmetros Lev e tipoV sugerem a origem das mutações como resultantes de hotspots. O parâmetro DiSC indicou regiões com provável funcionalidade. Apesar de não ter sido possível estabelecer relação causal entre os parâmetros e o impacto funcional das variações, encontrou-se correlações importantes / Abstract: It is estimated that each individual carries about 120 to 430 rare variante in the UTR regions (Abecasis et al, 2012). Despite the increased tolerance towards variations in 5' UTR region, the patho-phisiology of several diseases is linked to its mutations (Cazzola & Skoda, 2000; Reynolds, 2002; Chatterjee & Pal, 2009; Wethmar et al 2010). Therefore it is necessary the understanding and the determination of the regulatory elements. The objective of this study is the discovery of genetic signatures found in the genomic context of disease causing point mutations in 5' UTR, thus allowing the prediction of the functional impact of other point variations in the same region. The disease causing mutations were selected from Human Gene Mutation Database (HGMD) (Stenson et al, 2008). The polymorphisms of unknown functional impact were obtained from the NHLBI Grand Opportunity Exome Sequencing Project (ESP), originated from the work of Tenessen et al (2012). A total of 235 mutations and 21,542 polymorphisms were used. For each variation, parameters related with the differences of the variation's context folding stability (??Gfolding), presence of transcription factor binding sites (JASPAR), type of variation (transition/transversion, tipoV), distance from coding sequence start (DiSC), distance from transcription start site (DiTr) and phylogenetic conservations by distance of Levenshtein from wild type to variant context (Lev). The statistical test was done by Wilcoxon and Binomial. Logistical regressions models were generated from the parameters and its performance was evaluated by a ROC curve. The parameters maximal ??Gfolding, tipoV, logarithm of DiSC and Lev allowed a significant distinction (? = 0,05) between the groups, generating models of reasonable explanation but incomplete (area under the ROC curve 0,772). Maximal ??Gfolding showed a relationship between mutations and stable secondary structures generated by them. Lev and tipoV suggested the origin of the mutation from hotspots. The DiSC parameter identified regions with possible functionality. While it was not possible to establish any clear causal relationship between the parameters and the functional impact of the variations, important correlations were found / Mestrado / Histologia e Embriologia / Mestre em Biologia Buco-Dental
|
466 |
Programação por restrições aplicada a problemas de rearranjo de genomas / Constraint programming applied to genome rearrangement problemsIizuka, Victor de Abreu, 1987- 21 August 2018 (has links)
Orientador: Zanoni Dias / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-21T22:58:04Z (GMT). No. of bitstreams: 1
Iizuka_VictordeAbreu_M.pdf: 1453681 bytes, checksum: 1fec01321d56a93084d2597366b44422 (MD5)
Previous issue date: 2012 / Resumo: A teoria da seleção natural de Darwin afirma que os seres vivos atuais descendem de ancestrais, e ao longo da evolução, mutações genéticas propiciaram o aparecimento de diferentes espécies de seres vivos. Muitas mutações são pontuais, alterando a cadeia de DNA, o que pode impedir que a informação seja expressa, ou pode expressá-la de um modo diferente. A comparação de sequências é o método mais usual de se identificar a ocorrência de mutações pontuais, sendo um dos problemas mais abordados em Biologia Computacional. Rearranjo de Genomas tem como objetivo encontrar o menor número de operações que transformam um genoma em outro. Essas operações podem ser, por exemplo, reversões, transposições, fissões e fusões. O conceito de distância pode ser definido para estes eventos, por exemplo, a distância de reversão é o número mínimo de reversões que transformam um genoma em outro [9] e a distância de transposição é o número mínimo de transposições que transformam um genoma em outro [10]. Nós trataremos os casos em que os eventos de reversão e transposição ocorrem de forma isolada e os casos quando os dois eventos ocorrem simultaneamente, com o objetivo de encontrar o valor exato para a distância. Nós criamos modelos de Programação por Restrições para ordenação por reversões e ordenação por reversões e transposições, seguindo a linha de pesquisa utilizada por Dias e Dias [16]. Nós apresentaremos os modelos de Programação por Restrições para ordenação por reversões, ordenação por transposições e ordenação por reversões e transposições, baseados na teoria do Problema de Satisfação de Restrições e na teoria do Problema de Otimização com Restrições. Nós fizemos comparações com os modelos de Programação por Restrições para ordenação por transposições, descrito por Dias e Dias [16], e com as formulações de Programação Linear Inteira para ordenação por reversões, ordenação por transposições e ordenação por reversões e transposições, descritas por Dias e Souza [17] / Abstract: The Darwin's natural selection theory states that living beings of nowadays are descended from ancestors, and through evolution, genetic mutations led to the appearance of different kinds of living beings. Many mutations are point mutations, modifying the DNA sequence, which may prevent the information from being expressed, or may express it in another way. The sequence comparison is the most common method to identify the occurrence of point mutations, and is one of the most discussed problems in Computational Biology. Genome Rearrangement aims to find the minimum number of operations required to change one sequence into another. These operations may be, for example, reversals, transpositions, fissions and fusions. The concept of distance may be defined for these events, for example, the reversal distance is the minimum number of reversals required to change one sequence into another [9] and the transposition distance is the minimum number of transpositions required to change one sequence into another [10]. We will deal with the cases in which reversals and transpositions events occur separately and the cases in which both events occur simultaneously, aiming to find the exact value for the distance. We have created Constraint Programming models for sorting by reversals and sorting by reversals and transpositions, following the research line used by Dias and Dias [16]. We will present Constraint Logic Programming models for sorting by reversals, sorting by transpositions and sorting by reversals and transpositions, based on Constraint Satisfaction Problems theory and Constraint Optimization Problems theory. We made a comparison between the Constraint Logic Programming models for sorting by transpositions, described in Dias and Dias [16], and with the Integer Linear Programming formulations for sorting by reversals, sorting by transpositions and sorting by reversals and transpositions, described in Dias and Souza [17] / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
|
467 |
[en] EXECUTION AND DATA AVAILABILITY CONTROL FOR APPLICATIONS ON BIOLOGICAL SEQUENCES: THE CASE OF BLAST / [pt] CONTROLE DA EXECUÇÃO E DISPONIBILIZAÇÃO DE DADOS PARA APLICATIVOS SOBRE SEQÜÊNCIAS BIOLÓGICAS: O CASO BLASTMAIRA FERREIRA DE NORONHA 25 April 2007 (has links)
[pt] Este trabalho consiste na criação de uma ferramenta
provedora de dados
para o BLAST, denominada BioProvider. Esta é usada para
prover dados
realizando um gerenciamento de buffer eficiente para o
BLAST, controlando
também o escalonamento dos processos do mesmo. A
comunicação entre o
BioProvider e os processos do BLAST, assim como o controle
de concorrência e
bloqueios, é feita por meio de um driver, que substitui as
chamadas a funções de
leitura e escrita de arquivos do banco de dados. Deste
modo, o código do BLAST
não precisa ser modificado para ser realizar a comunicação
com o BioProvider e
este pode ser usado para diferentes versões do BLAST. O
desenvolvimento do
BioProvider é a primeira etapa para a criação de uma
solução aplicável também a
outras ferramentas de Bioinformática. Por ser transparente
aos programas, a
ferramenta desenvolvida é facilmente extensível, podendo
ser futuramente
modificada para prover dados para outros aplicativos, usar
outras estratégias de
gerência de buffer ou prover dados armazenados em formatos
diferentes dos lidos
por processos clientes, convertendo-os em tempo de
execução. O BioProvider foi
testado com a versão recente do NCBI BLAST, obtendo
consideráveis melhoras
de desempenho, e seu funcionamento foi verificado também
com a versão do
WU-BLAST com código aberto. Foram realizadas análises de
variações no
algoritmo de gerenciamento de buffer e dos fatores que
influenciam o desempenho
dos processos BLAST. / [en] This work consists on the creation of a tool named
BioProvider to provide
data to BLAST. The tool provides the data using buffer
management techniques
that are efficient for BLAST and controls process
scheduling. The communication
between BioProvider and the BLAST processes, as well as
the concurrency and
blocking control, is done through a device driver that
substitutes the read and
write function calls to the database files. By this means,
the application code can
remain unchanged and BioProvider can be used with
different versions of
BLAST. The development of BioProvider was the first stage
to the creation of a
solution that can be applied as well to other
Bioinformatics tools. Due to its
transparency in the view of other applications,
BioProvider can be easily extended
in the future to provide data to other applications, to
use other buffer management
techniques or to provide data stored in different formats
of those read by the client
processes, converting the data in runtime. BioProvider has
been tested with the
most recent version of NCBI BLAST and considerable
improvement has been
verified. The tool has been shown to work as well with the
open source version of
WU-BLAST. Some variations on the buffer management
algorithm were studied,
as well as the different factors that influence the
performance of BLAST
processes.
|
468 |
PePIP : a Pipeline for Peptide-Protein Interaction-site Prediction / PePIP : en Pipeline for Förutsägelse av Peptid-Protein Bindnings-siteJohansson-Åkhe, Isak January 2017 (has links)
Protein-peptide interactions play a major role in several biological processes, such as cellproliferation and cancer cell life-cycles. Accurate computational methods for predictingprotein-protein interactions exist, but few of these method can be extended to predictinginteractions between a protein and a particularly small or intrinsically disordered peptide. In this thesis, PePIP is presented. PePIP is a pipeline for predicting where on a given proteina given peptide will most probably bind. The pipeline utilizes structural aligning to perusethe Protein Data Bank for possible templates for the interaction to be predicted, using thelarger chain as the query. The possible templates are then evaluated as to whether they canrepresent the query protein and peptide using a Random Forest classifier machine learningalgorithm, and the best templates are found by using the evaluation from the Random Forest in combination with hierarchical clustering. These final templates are then combined to givea prediction of binding site. PePIP is proven to be highly accurate when testing on a set of 502 experimentally determinedprotein-peptide structures, suggesting a binding site on the correct part of the protein- surfaceroughly 4 out of 5 times.
|
469 |
A fast protein-ligand docking methodGenheden, Samuel January 2006 (has links)
In this dissertation a novel approach to protein-ligand docking is presented. First an existing method to predict putative active sites is employed. These predictions are then used to cut down the search space of an algorithm that uses the fast Fourier transform to calculate the geometrical and electrostatic complementarity between a protein and a small organic ligand. A simplified hydrophobicity score is also calculated for each active site. The docking method could be applied either to dock ligands in a known active site or to rank several putative active sites according to their biological feasibility. The method was evaluated on a set of 310 protein-ligand complexes. The results show that with respect to docking the method with its initial parameter settings is too coarse grained. The results also show that with respect to ranking of putative active sites the method works quite well.
|
470 |
The Role of Elevated Hyaluronan-Mediated Motility Receptor (RHAMM/HMMR) in Ovarian CancerButtermore, Stephanie T. 05 July 2017 (has links)
Ovarian cancer (OC) has the highest mortality among gynecological cancers. The high mortality is associated with the lack of an accurate screening tool to detect disease in early stage. As a result the majority of OCs are diagnosed in late stage. Further, the molecular events responsible for malignant transformation in the ovary remain poorly understood. Consequently, delineating key molecular players driving OC could help elucidate potential diagnostic, prognostic and therapeutic targets.
Receptor for hyaluronan-mediated motility (RHAMM) belongs to a group of hyaladherins, which share a common ability to bind to hyaluronan (HA). Intracellularly, RHAMM is involved in microtubule spindle assembly contributing to cell cycle progression. On the cell surface, loosely tethered RHAMM forms a complex with cluster differentiation 44 and HA to activate cell signaling pathways that promote cellular migration, invasion and proliferation. Since RHAMM is overexpressed in a number of cancer types and it is often associated with an aggressive cancer phenotype, I sought to determine if RHAMM similarly contributes to OC.
I found that RHAMM is overexpressed in clinical specimens of OC by immuno-histochemistry and although both primary and metastatic OCs stain equally for RHAMM, RHAMM staining was most intense among clinically aggressive OC histologic subtypes. Further, using an in vitro model system, I was able to show that OC cells express and secrete RHAMM. Abrogation of RHAMM using silencing RNA technology inhibited OC cell migration and invasion suggesting that RHAMM may contribute, at least in part, to the metastatic propensity of OC.
Since RHAMM lacks an export signal peptide sequence and has not been reported to employ alternate mechanisms for extracellular secretion, I utilized computational analyses to predict post-translational glycosylation events as a novel mode for RHAMM secretion. N- glycosylation inhibitors abrogated RHAMM secretion by OC cells in vitro validating my prediction and identify a novel and potentially unconventional mode for RHAMM secretion.
Lastly, since RHAMM is secreted by OC cells, I sought to determine whether RHAMM could be detected in bodily fluids. In a pilot study, I found that urinary levels of RHAMM are elevated in OC patients as measured by enzyme-linked immunosorbant assays. Decreased urinary RHAMM levels noted following cytoreductive surgery support OC as the source of elevated urinary RHAMM levels. Finally, while obesity was associated with high urinary RHAMM levels in OC patients, combined measurements of urinary RHAMM and serum CA125 improved prediction of OC.
Taken together, the studies described herein suggest that RHAMM contributes to OC and that further studies are warranted to further elucidate the clinical role of RHAMM in OC.
|
Page generated in 0.1246 seconds