Global ETD Search

1	Interpretação ontológica de bancos de dados biomédicos: modelos de interpretação e enriquecimento axiomático SILVA, Filipe Santana da 18 July 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-30T12:02:06Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE - FILIPE SANTANA DA SILVA.pdf: 5962947 bytes, checksum: 59a26fcd52c6403dbc9319ff678eaf81 (MD5) / Made available in DSpace on 2017-08-30T12:02:06Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE - FILIPE SANTANA DA SILVA.pdf: 5962947 bytes, checksum: 59a26fcd52c6403dbc9319ff678eaf81 (MD5) Previous issue date: 2016-07-18 / CNPQ / CAPES / Com o crescimento em quantidade e dimensão dos bancos de dados (BDs) biomédicos, ontologias foram incorporadas para anotá-los semanticamente, facilitando a interpretação, acesso, recuperação e processamento dos dados. Entretanto, como ontologias e BDs são criados com propósitos diferentes, não é possível interpretar registros de BDs de forma clara e definida. Ontologias supradomínio podem ser empregadas para fornecer classes e relações, de maneira que o conteúdo de BDs anotados seja representado e interpretado adequadamente. A representação das anotações evita ambiguidades, mantendo o engajamento ontológico e permitindo consultar os dados utilizando raciocínio. Nossa hipótese é de que é possível interpretar ontologicamente o conteúdo de um ou mais BDs anotados, determinando como as entidades anotadas dos BDs se relacionam. O objetivo deste trabalho é avaliar e propor estratégias que auxiliem o usuário no processo de interpretação ontológica de registros de BDs biomédicos como indivíduos, classes e disposições, a partir de ontologias formais. A interpretação ontológica é construída ao empregar classes e relações da BioTopLite2 (BTL2), organizando e estendendo ontologias utilizadas como anotação, e.g. GO, ChEBI, SNOMED e PRO; provenientes dos BDs UniProt, Ensembl e NCBI Taxonomy. São investigadas quatro formas de interpretação, viz. quando as anotações são: indivíduos, subclasses, incluem disposições, e um híbrido entre subclasses e disposições. A interpretação como subclasses é a mais indicada ao comparar questões de desempenho, expressividade e capacidade de consultar, utilizando raciocínio e integração semântica. Demonstramos que esse tipo de interpretação é aplicável na prática, apresentando bom desempenho para consultas utilizando raciocínio. Foi desenvolvido um protótipo integrativO CBR para automatizar a interpretação ontológica como subclasses. A ferramenta é responsável por reconstruir o processo de interpretação ontológica, recuperando indivíduos, identificando classes e gerando uma ontologia como modelo de interpretação. A interpretação ontológica de anotações apresenta benefícios: verificar a consistência do BD, e.g. se existem anotações contraditórias; representação formal e ontológica da organização dos dados; a análise do engajamento ontológico dos dados anotados; e, a criação de consultas que utilizam raciocínio para explorar os dados interpretados. / With the growth of data bases (DBs) in number and size, ontologies have been incorporated to annotate DBs semantically, facilitating the record interpretation, access, retrieval and methods for querying data. However, as ontologies and DBs are designed with different purposes, it is not possible to interpret DB annotated DB records in a clear and defined way. Upper-domain ontologies can be used as provider of classes and relations whether the annotated content of annotated entities from DBs are adequately interpreted and represented. The representation ensure that ambiguities are avoided by keeping the ontological commitment and allowing queries supported by reasoning. Our hypothesis is that it is possible to interpret ontologically annotated content from one or more DBs, determining how annotated entities relate to each other. The aim of this work is to evaluate and propose strategies to assist the user in the ontological interpretation process of Biological DBs as individuals, classes and dispositions. The ontological interpretation of Biological DBs is created by reusing classes and relations from BTL2, organizing and extending ontologies used to annotate data, e.g. GO, ChEBI, SNOMED and PRO; from UniProt, Ensembl and NCBI Taxonomy DBs. Four ways of interpreting annotated data are investigated, viz. as ontology individuals; subclasses; dispositions; and, a hybrid among classes and dispositions. Interpretation as subclasses was identified as the appropriate choice when considering: reasoning performance; expressiveness; and, querying with reasoning and ontology-based data integration approaches are taken into account. It has been shown that this type of interpretation is useful in practice, with a good performance for (both) reasoning and querying. A prototype called integrativO CBR was created in order to automate interpretation as subclasses. This tool is responsible for recreating the process of applying the ontological interpretation, enabling the retrieval of individuals from data, referent classes identification, and generation of an interpretation model. The ontological interpretation of annotations has several benefits, such as: DB consistency evaluation for conflicting annotations; formal and ontological representation of how data is organized; verifying the ontological commitment of annotated data; and, the ability to create queries to explore reasoning. Ontologia Interpretação Banco de dados biológicos Anotação Representação
2	Genômica translacional: integrando dados clínicos e biomoleculares / Translational genomics: integrating clinical and biomolecular data Miyoshi, Newton Shydeo Brandão 06 February 2013 (has links) A utilização do conhecimento científico para promoção da saúde humana é o principal objetivo da ciência translacional. Para que isto seja possível, faz-se necessário o desenvolvimento de métodos computacionais capazes de lidar com o grande volume e com a heterogeneidade da informação gerada no caminho entre a bancada e a prática clínica. Uma barreira computacional a ser vencida é o gerenciamento e a integração dos dados clínicos, sócio-demográficos e biológicos. Neste esforço, as ontologias desempenham um papel essencial, por serem um poderoso artefato para representação do conhecimento. Ferramentas para gerenciamento e armazenamento de dados clínicos na área da ciência translacional que têm sido desenvolvidas, via de regra falham por não permitir a representação de dados biológicos ou por não oferecer uma integração com as ferramentas de bioinformática. Na área da genômica existem diversos modelos de bancos de dados biológicos (tais como AceDB e Ensembl), os quais servem de base para a construção de ferramentas computacionais para análise genômica de uma forma independente do organismo de estudo. Chado é um modelo de banco de dados biológicos orientado a ontologias, que tem ganhado popularidade devido a sua robustez e flexibilidade, enquanto plataforma genérica para dados biomoleculares. Porém, tanto Chado quanto os outros modelos de banco de dados biológicos não estão preparados para representar a informação clínica de pacientes. Este projeto de mestrado propõe a implementação e validação prática de um framework para integração de dados, com o objetivo de auxiliar a pesquisa translacional integrando dados biomoleculares provenientes das diferentes tecnologias omics com dados clínicos e sócio-demográficos de pacientes. A instanciação deste framework resultou em uma ferramenta denominada IPTrans (Integrative Platform for Translational Research), que tem o Chado como modelo de dados genômicos e uma ontologia como referência. Chado foi estendido para permitir a representação da informação clínica por meio de um novo Módulo Clínico, que utiliza a estrutura de dados entidade-atributo-valor. Foi desenvolvido um pipeline para migração de dados de fontes heterogêneas de informação para o banco de dados integrado. O framework foi validado com dados clínicos provenientes de um Hospital Escola e de um banco de dados biomoleculares para pesquisa de pacientes com câncer de cabeça e pescoço, assim como informações de experimentos de microarray realizados para estes pacientes. Os principais requisitos almejados para o framework foram flexibilidade, robustez e generalidade. A validação realizada mostrou que o sistema proposto satisfaz as premissas, levando à integração necessária para a realização de análises e comparações dos dados. / The use of scientific knowledge to promote human health is the main goal of translational science. To make this possible, it is necessary to develop computational methods capable of dealing with the large volume and heterogeneity of information generated on the road between bench and clinical practice. A computational barrier to be overcome is the management and integration of clinical, biological and socio-demographics data. In this effort, ontologies play a crucial role, being a powerful artifact for knowledge representation. Tools for managing and storing clinical data in the area of translational science that have been developed, usually fail due to the lack on representing biological data or not offering integration with bioinformatics tools. In the field of genomics there are many different biological databases (such as AceDB and Ensembl), which are the basis for the construction of computational tools for genomic analysis in an organism independent way. Chado is a ontology-oriented biological database model which has gained popularity due to its robustness and flexibility, as a generic platform for biomolecular data. However, both Chado as other models of biological databases are not prepared to represent the clinical information of patients. This project consists in the proposal, implementation and validation of a practical framework for data integration, aiming to help translational research integrating data coming from different omics technologies with clinical and socio-demographic characteristics of patients. The instantiation of the designed framework resulted in a computational tool called IPTrans (Integrative Platform for Translational Research), which has Chado as template for genomic data and uses an ontology reference. Chado was extended to allow the representation of clinical information through a new Clinical Module, which uses the data structure entity-attribute-value. We developed a pipeline for migrating data from heterogeneous sources of information for the integrated database. The framework was validated with clinical data from a School Hospital and a database for biomolecular research of patients with head and neck cancer. The main requirements were targeted for the framework flexibility, robustness and generality. The validation showed that the proposed system satisfies the assumptions leading to integration required for the analysis and comparisons of data. Bancos de Dados Biológicos Biological Databases Data Integration Integração de Dados Ontologias Ontologies Pesquisa Translacional Translational Research
3	Genômica translacional: integrando dados clínicos e biomoleculares / Translational genomics: integrating clinical and biomolecular data Newton Shydeo Brandão Miyoshi 06 February 2013 (has links) A utilização do conhecimento científico para promoção da saúde humana é o principal objetivo da ciência translacional. Para que isto seja possível, faz-se necessário o desenvolvimento de métodos computacionais capazes de lidar com o grande volume e com a heterogeneidade da informação gerada no caminho entre a bancada e a prática clínica. Uma barreira computacional a ser vencida é o gerenciamento e a integração dos dados clínicos, sócio-demográficos e biológicos. Neste esforço, as ontologias desempenham um papel essencial, por serem um poderoso artefato para representação do conhecimento. Ferramentas para gerenciamento e armazenamento de dados clínicos na área da ciência translacional que têm sido desenvolvidas, via de regra falham por não permitir a representação de dados biológicos ou por não oferecer uma integração com as ferramentas de bioinformática. Na área da genômica existem diversos modelos de bancos de dados biológicos (tais como AceDB e Ensembl), os quais servem de base para a construção de ferramentas computacionais para análise genômica de uma forma independente do organismo de estudo. Chado é um modelo de banco de dados biológicos orientado a ontologias, que tem ganhado popularidade devido a sua robustez e flexibilidade, enquanto plataforma genérica para dados biomoleculares. Porém, tanto Chado quanto os outros modelos de banco de dados biológicos não estão preparados para representar a informação clínica de pacientes. Este projeto de mestrado propõe a implementação e validação prática de um framework para integração de dados, com o objetivo de auxiliar a pesquisa translacional integrando dados biomoleculares provenientes das diferentes tecnologias omics com dados clínicos e sócio-demográficos de pacientes. A instanciação deste framework resultou em uma ferramenta denominada IPTrans (Integrative Platform for Translational Research), que tem o Chado como modelo de dados genômicos e uma ontologia como referência. Chado foi estendido para permitir a representação da informação clínica por meio de um novo Módulo Clínico, que utiliza a estrutura de dados entidade-atributo-valor. Foi desenvolvido um pipeline para migração de dados de fontes heterogêneas de informação para o banco de dados integrado. O framework foi validado com dados clínicos provenientes de um Hospital Escola e de um banco de dados biomoleculares para pesquisa de pacientes com câncer de cabeça e pescoço, assim como informações de experimentos de microarray realizados para estes pacientes. Os principais requisitos almejados para o framework foram flexibilidade, robustez e generalidade. A validação realizada mostrou que o sistema proposto satisfaz as premissas, levando à integração necessária para a realização de análises e comparações dos dados. / The use of scientific knowledge to promote human health is the main goal of translational science. To make this possible, it is necessary to develop computational methods capable of dealing with the large volume and heterogeneity of information generated on the road between bench and clinical practice. A computational barrier to be overcome is the management and integration of clinical, biological and socio-demographics data. In this effort, ontologies play a crucial role, being a powerful artifact for knowledge representation. Tools for managing and storing clinical data in the area of translational science that have been developed, usually fail due to the lack on representing biological data or not offering integration with bioinformatics tools. In the field of genomics there are many different biological databases (such as AceDB and Ensembl), which are the basis for the construction of computational tools for genomic analysis in an organism independent way. Chado is a ontology-oriented biological database model which has gained popularity due to its robustness and flexibility, as a generic platform for biomolecular data. However, both Chado as other models of biological databases are not prepared to represent the clinical information of patients. This project consists in the proposal, implementation and validation of a practical framework for data integration, aiming to help translational research integrating data coming from different omics technologies with clinical and socio-demographic characteristics of patients. The instantiation of the designed framework resulted in a computational tool called IPTrans (Integrative Platform for Translational Research), which has Chado as template for genomic data and uses an ontology reference. Chado was extended to allow the representation of clinical information through a new Clinical Module, which uses the data structure entity-attribute-value. We developed a pipeline for migrating data from heterogeneous sources of information for the integrated database. The framework was validated with clinical data from a School Hospital and a database for biomolecular research of patients with head and neck cancer. The main requirements were targeted for the framework flexibility, robustness and generality. The validation showed that the proposed system satisfies the assumptions leading to integration required for the analysis and comparisons of data. Bancos de Dados Biológicos Integração de Dados Ontologias Pesquisa Translacional Biological Databases Data Integration Ontologies Translational Research
4	Um algoritmo para a construção de vetores de sufixo generalizados em memória externa / External memory generalized suffix array construction algorithm Louza, Felipe Alves da 17 December 2013 (has links) O vetor de sufixo é uma estrutura de dados importante utilizada em muitos problemas que envolvem cadeias de caracteres. Na literatura, muitos trabalhos têm sido propostos para a construção de vetores de sufixo em memória externa. Entretanto, esses trabalhos não enfocam conjuntos de cadeias, ou seja, não consideram vetores de sufixo generalizados. Essa limitação motiva esta dissertação, a qual avança no estado da arte apresentando o algoritmo eGSA, o primeiro algoritmo proposto para a construção de vetores de sufixo generalizados aumentado com o vetor de prefixo comum mais longo (LCP) e com a transformada de Burrows-Wheeler (BWT) em memória externa. A dissertação foi desenvolvida dentro do contexto de bioinformática, já que avanços tecnológicos recentes têm aumentado o volume de dados biológicos disponíveis, os quais são armazenados como cadeias de caracteres. O algoritmo eGSA foi validado por meio de testes de desempenho com dados reais envolvendo sequências grandes, como DNA, e sequências pequenas, como proteínas. Com relação aos testes comparativos com conjuntos de grandes cadeias de DNA, o algoritmo proposto foi comparado com o algoritmo correlato mais eficiente na literatura de construção de vetores de sufixo, o qual foi adaptado para construção de vetores generalizados. O algoritmo eGSA obteve um tempo médio de 3,2 a 8,3 vezes menor do que o algoritmo correlato e consumiu 50% menos de memória. Para conjuntos de cadeias pequenas de proteínas, foram realizados testes de desempenho apenas com o eGSA, já que no melhor do nosso conhecimento, não existem trabalhos correlatos que possam ser adaptados. Comparado com o tempo médio para conjuntos de cadeias grandes, o eGSA obteve tempos competitivos para conjuntos de cadeias pequenas. Portanto, os resultados dos testes demonstraram que o algoritmo proposto pode ser aplicado eficientemente para indexar tanto conjuntos de cadeias grandes quanto conjuntos de cadeias pequenas / The suffix array is an important data structure used in several string processing problems. In the literature, several approaches have been proposed to deal with external memory suffix array construction. However, these approaches are not specifically aimed to index sets of strings, that is, they do not consider generalized suffix arrays. This limitation motivates this masters thesis, which presents eGSA, the first external memory algorithm developed to construct generalized suffix arrays enhanced with the longest common prefix array (LCP) and the Burrows-Wheeler transform (BWT). We especially focus on the context of bioinformatics, as recent technological advances have increased the volume of biological data available, which are stored as strings. The eGSA algorithm was validated through performance tests with real data from DNA and proteins sequences. Regarding performance tests with large strings of DNA, we compared our algorithm with the most efficient and related suffix array construction algorithm in the literature, which was adapted to construct generalized arrays. The results demonstrated that our algorithm reduced the time spent by a factor of 3.2 to 8.3 and consumed 50% less memory. For sets of small strings of proteins, tests were performed only with the eGSA, since to the best of our knowledge, there is no related work that can be adapted. Compared to the average time spent to index sets of large strings, the eGSA obtained competitive times to index sets of small strings. Therefore, the performance tests demonstrated that the proposed algorithm can be applied efficiently to index both sets of large strings and sets of small strings Biological data Dados biológicos External memory Generalized suffix array Genome assembly Indexação Indexing Memória externa Montagem de genomas Vetor de sufixo generalizado
5	Modelagem conceitual do sistema de banco de dados ProteinWorldDB Bezerra, Márcia Mártyres January 2012 (has links) Made available in DSpace on 2016-03-18T12:15:46Z (GMT). No. of bitstreams: 2 marcia_bezerra_ioc_dout_2012.pdf: 3641805 bytes, checksum: 551d726828aba255caeef4c323eae9ee (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2015-04-14 / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil / Esta tese descreve o projeto conceitual do sistema de banco de dados ProteinWorldDB (PWDB). Um ponto importante da proposta do PWDB é permitir a construção de consultas e procedimentos no domínio da genômica comparativa sem a necessidade de comparação de sequências. Além disso, o PCG comparou milhões de sequências de proteína, incluindo o conjunto proteico total de centenas de genomas completos, utilizando programação dinâmica, e não um método heurístico, para os cálculos de similaridade. A estratégia do PCG, assim como a genômica, está fundamentada no conhecimento de que sequências biológicas por si só são pouco informativas; elas precisam ser analisadas a partir de um enfoque comparativo para a inferência de homologia. A comparação de sequências de diferentes organismos introduz uma perspectiva evolutiva ao processo, e o estudo comparativo de genomas completos pode ampliar a escala do conhecimento de um único processo biológico para o de sistemas biológicos complexos em células e organismos. Para responder eficientemente questões dessa natureza, o esquema conceitual apresentado associa bases de dados biológicos de referência aos índices de similaridade já pré-calculados e armazenados pelo PCG Utilizando um formato gráfico de fácil compreensão para representar conceitos e relacionamentos (diagrama ER), o esquema foi proposto para facilitar o planejamento de consultas e procedimentos por pesquisadores da área de genômica (sem conhecimento de linguagens de bancos de dados), assim como guiar o desenvolvimento e a implementação física do PWDB por profissionais da área de computação. Alguns exemplos são apresentados com o objetivo de demonstrar a utilização do esquema conceitual para a especificação de consultas e procedimentos, mesmo antes da existência de um esquema lógico. O esquema pode ser facilmente estendido. Módulos anexos podem ser inseridos/removidos para incluir outros projetos, baseados em comparação de sequências de proteína, que se beneficiem das informações fornecidas pelo módulo central do esquema e novas bases de dados, específicas de diferentes áreas (-ômicas, por exemplo), podem ser integradas ao esquema / This thesis describes the conceptua l design of the database system ProteinWorldDB (PWDB) . An important point of the PWDB p roposal is to allow the construction of queries and procedures in the field of comparative genomics without the need for sequence comparison . Moreover , the PCG compared millions of protein sequences, including the entire set of proteins from hundreds of complete genomes using dynamic programming , rather than a heuristic method , for calculating similarity PCG‘s strategy, like that of genomic studies in general, is grounded in the knowledge that biological sequences alone are uninformative. They need to be analyzed from a comparative approach to infer homology. The comparison of sequences from different organisms introduces an evolutionary perspective to the process and the comparative study of complete genomes can expand our knowledge from a single biological process all the way to complex biological systems in cells and organisms. To efficiently answer questions of this nature, the conceptual schema links selected internati onal reference biological databases to similarity indexes already precomputed and stored by the PCG . By using an easily understandable graphic format to represent concepts and relationships (ER diagram), the schema was proposed to help the design of querie s and procedures by genomic researchers (who may not have knowledge of database languages) as well as to guide the development and physical implementation of the system by developers. Some e xamples are presented to demonstrate the use of the conceptual sch ema for specifying queries and procedures, even before the existence of a logical schema. The schema can be easily extended. Additional modules can be inserted/removed to include other protein sequences comparisons projects that may benefit from the inform ation provided by the schema ́s central module. Likewise, new databases specific to different areas ( - omics, for example) can be cross - referenced to the schema / This thesis describes the conceptua l design of the database system ProteinWorldDB (PWDB) . An important point of the PWDB p roposal is to allow the construction of queries and procedures in the field of comparative genomics without the need for sequence comparison . Moreover , the PCG compared millions of protein sequences, including the entire set of proteins from hundreds of complete genomes using dynamic programming , rather than a heuristic method , for calculating similarity PCG‘s strategy, like that of genomic studies in general, is grounded in the knowledge that biological sequences alone are uninformative. They need to be analyzed from a comparative approach to infer homology. The comparison of sequences from different organisms introduces an evolutionary perspective to the process and the comparative study of complete genomes can expand our knowledge from a single biological process all the way to complex biological systems in cells and organisms. To efficiently answer questions of this nature, the conceptual schema links selected internati onal reference biological databases to similarity indexes already precomputed and stored by the PCG . By using an easily understandable graphic format to represent concepts and relationships (ER diagram), the schema was proposed to help the design of querie s and procedures by genomic researchers (who may not have knowledge of database languages) as well as to guide the development and physical implementation of the system by developers. Some e xamples are presented to demonstrate the use of the conceptual sch ema for specifying queries and procedures, even before the existence of a logical schema. The schema can be easily extended. Additional modules can be inserted/removed to include other protein sequences comparisons projects that may benefit from the inform ation provided by the schema ́s central module. Likewise, new databases specific to different areas ( - omics, for example) can be cross - referenced to the schema Banco de Dados Biológicos Modelagem conceitual de Banco de Dados Genômica Comparativa Bases de Dados de Ácidos Nucleicos Genômica Estudo Comparativo Desenho de Programas de Computador
6	Um algoritmo para a construção de vetores de sufixo generalizados em memória externa / External memory generalized suffix array construction algorithm Felipe Alves da Louza 17 December 2013 (has links) O vetor de sufixo é uma estrutura de dados importante utilizada em muitos problemas que envolvem cadeias de caracteres. Na literatura, muitos trabalhos têm sido propostos para a construção de vetores de sufixo em memória externa. Entretanto, esses trabalhos não enfocam conjuntos de cadeias, ou seja, não consideram vetores de sufixo generalizados. Essa limitação motiva esta dissertação, a qual avança no estado da arte apresentando o algoritmo eGSA, o primeiro algoritmo proposto para a construção de vetores de sufixo generalizados aumentado com o vetor de prefixo comum mais longo (LCP) e com a transformada de Burrows-Wheeler (BWT) em memória externa. A dissertação foi desenvolvida dentro do contexto de bioinformática, já que avanços tecnológicos recentes têm aumentado o volume de dados biológicos disponíveis, os quais são armazenados como cadeias de caracteres. O algoritmo eGSA foi validado por meio de testes de desempenho com dados reais envolvendo sequências grandes, como DNA, e sequências pequenas, como proteínas. Com relação aos testes comparativos com conjuntos de grandes cadeias de DNA, o algoritmo proposto foi comparado com o algoritmo correlato mais eficiente na literatura de construção de vetores de sufixo, o qual foi adaptado para construção de vetores generalizados. O algoritmo eGSA obteve um tempo médio de 3,2 a 8,3 vezes menor do que o algoritmo correlato e consumiu 50% menos de memória. Para conjuntos de cadeias pequenas de proteínas, foram realizados testes de desempenho apenas com o eGSA, já que no melhor do nosso conhecimento, não existem trabalhos correlatos que possam ser adaptados. Comparado com o tempo médio para conjuntos de cadeias grandes, o eGSA obteve tempos competitivos para conjuntos de cadeias pequenas. Portanto, os resultados dos testes demonstraram que o algoritmo proposto pode ser aplicado eficientemente para indexar tanto conjuntos de cadeias grandes quanto conjuntos de cadeias pequenas / The suffix array is an important data structure used in several string processing problems. In the literature, several approaches have been proposed to deal with external memory suffix array construction. However, these approaches are not specifically aimed to index sets of strings, that is, they do not consider generalized suffix arrays. This limitation motivates this masters thesis, which presents eGSA, the first external memory algorithm developed to construct generalized suffix arrays enhanced with the longest common prefix array (LCP) and the Burrows-Wheeler transform (BWT). We especially focus on the context of bioinformatics, as recent technological advances have increased the volume of biological data available, which are stored as strings. The eGSA algorithm was validated through performance tests with real data from DNA and proteins sequences. Regarding performance tests with large strings of DNA, we compared our algorithm with the most efficient and related suffix array construction algorithm in the literature, which was adapted to construct generalized arrays. The results demonstrated that our algorithm reduced the time spent by a factor of 3.2 to 8.3 and consumed 50% less memory. For sets of small strings of proteins, tests were performed only with the eGSA, since to the best of our knowledge, there is no related work that can be adapted. Compared to the average time spent to index sets of large strings, the eGSA obtained competitive times to index sets of small strings. Therefore, the performance tests demonstrated that the proposed algorithm can be applied efficiently to index both sets of large strings and sets of small strings Dados biológicos Indexação Memória externa Montagem de genomas Vetor de sufixo generalizado Biological data External memory Generalized suffix array Genome assembly Indexing
7	Análise metadimensional em inferência de redes gênicas e priorização Marchi, Carlos Eduardo January 2017 (has links) Orientador: Prof. Dr. David Corrêa Martins Júnior / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. PRIORIZAÇÃO GÊNICA INFERÊNCIA DE REDES GÊNICAS INTEGRAÇÃO DE DADOS BIOLÓGICOS GENE PRIORITIZATION GENE NETWORKS INFERENCE BIOLOGICAL DATA INTEGRATION
8	Desenvolvimento de uma plataforma de bioinformática integrada aplicada a identificação molecular de microrganismos patogênicos Sarmento, Felipe José de Queiroz 27 February 2013 (has links) Submitted by Leonardo Cavalcante (leo.ocavalcante@gmail.com) on 2018-07-17T18:21:26Z No. of bitstreams: 1 Arquivototal.pdf: 16322215 bytes, checksum: c172a5636f12cf8195f2382f1c23de59 (MD5) / Made available in DSpace on 2018-07-17T18:21:26Z (GMT). No. of bitstreams: 1 Arquivototal.pdf: 16322215 bytes, checksum: c172a5636f12cf8195f2382f1c23de59 (MD5) Previous issue date: 2013-02-27 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / Various researches in molecular epidemiology, molecular diagnosis and evolutionary genetics related to pathogens are compared to managing large amounts of data derived from institutions such as, hospitals or laboratories. Although there already are some proposals to connect molecular information to the diagnosis of pathogens, none of them uses high performance bioinformatics tools which are embedded in a system and linked to a patient’s electronic record. The MolEpi tool has been developed as a system of data and information management addressed to public health, incorporating clinical and epidemiological information about patients, as well as molecular data of 16S rRNA sequences of pathogenic bacteria. In order to confirm which species of these bacteria were identified, biological samples (urine, secretions and purulent wounds, tracheal aspirate and blood) and subsequently incubation and growth of colonies in culture, and PCR was used followed by sequencing and analysis of the conserved coding region for 16S ribosomal RNA (rDNA). Such strategy enabled fast bacterial identification, regardless of prior knowledge of the species of microorganism under study. Moreover MolEpi is a system interconnected to repositories of specific sequences as Genbank (NCBI), RDP-II (Ribosomal Database Project - MSU) and GreenGene (LBL). In this way, once the sequences of clinical isolates are confirmed and validated, they can be used as reference in the identification of other unknown microorganisms. Thus, a local database was established, representing the profile of pathogens found in the hospital unity of study and which should be object of public health surveillance. In order to develop MolEpi, we used the Java programming language and the PostgreSQL8.3 object-relational database. It was also developed BACSearch, which has the following programs to handle the analysis of 16S rDNA sequences, we used the framework BioJava; to multiple alignment, ClustalW2, MAFFT and MUSCLE, and for editing of multiple alignment and phylogenetic analysis, the JalView2.4.0 was used. The system was validated with 200 clinical specimens isolated and identified from sites of nosocomial infection. The DNA sequences produced from these samples were subjected to BLAST by using the developed tool, which identified Pseudomonas aeruginosa, Acinetobacter baumannii, Klebsiella pneumoniae and Morganella morganii as the main pathogens involved. Data on resistance patterns of the species were obtained in microbiology laboratory, and incorporated into the database. The application of MolEpi tool to the Health System can provide prompt and accurate diagnosis, connected to relevant network information which can be intended for health professionals. / A maioria das pesquisas em epidemiologia molecular, diagnóstico molecular e genética evolutiva são confrontadas com o gerenciamento de grandes volumes de dados. Além disso, os dados utilizados em estudos de doenças patogênicas são complexos e geralmente derivam de instituições tais como hospitais ou laboratórios. Embora já existam propostas que conecte informações moleculares ao diagnóstico de patogenias, nenhuma delas utilizam ferramentas de bioinformática de alto desempenho incorporadas a um sistema e vinculada a um prontuário eletrônico do paciente. MolEpi foi desenvolvido como um sistema de gerenciamento de dados e informações dimensionado a saúde pública, incorporando informações clínicas e epidemiológicas sobre pacientes e dados moleculares de sequências do gene rRNA 16S de bactérias patogênicas. Para identificação destas bactérias foram utilizadas amostras biológicas (urina, secreções e purulentas de feridas, aspirado traqueal e sangue) e PCR seguida de sequenciamento e análise da região conservada codificadora de RNA ribossômico (rDNA) 16S. Este estratégia permite uma identificação bacteriana rápida, independente de conhecimento prévio da espécie de microrganismo em estudo. O MolEpi é um sistema facilmente atualizável com as sequências específicas de bancos como Genbank(NCBI), RDP-II (Ribosomal Database Project - MSU) e GreenGene (LBL). A partir da confirmação e validação das sequências dos isolados clínicos, estas podem ser utilizadas como referência na identificação de outros microrganismos desconhecidos. Neste sentido, foi estabelecido um banco de dados local, representativo do perfil de patógenos encontrados na unidade hospitalar de estudo e objeto de vigilância epidemiológica. Para o desenvolvimento do MolEpi, utilizamos a linguagem Java e banco de dados PostgreSQL8.3. Foi desenvolvido também o BACSearch, que possui os seguintes programas: para o processamento de sequências de rDNA 16S utilizamos os frameworks BioJava; para alinhamento múltiplo foi implementado o ClustalW2, MAFFT e o MUSCLE e para edição do alinhamento múltiplo e análise filogenética foi utilizado JalView R⃝2.4.0b2. O sistema foi validado com 200 espécimes clínicos identificadas e isoladas de sítios de infecção hospitalar. As sequências de DNA produzidas a partir destas amostras foram submetidas ao BLAST, utilizando a ferramenta desenvolvida, identificando Pseudomonas aeruginosa, Acinetobacter baumannii, Klebsiela pneumonie e Staphylococcus aureus como os principais patógenos correspondentes. Os dados sobre o padrão de resistência das espécies foram obtidos em laboratório de microbiologia e incorporados ao banco de dados. A aplicação do MolEpi ao Sistema Único de Saúde poderá fornecer diagnósticos mais rápidos, precisos, e interligados a uma rede de informações relevantes para o profissional de saúde. Bioinformática Banco de dados de microrganismos Integração de dados biológicos Microrganismos patogênicos Prontuário eletrônico do paciente Bioinformatics Database of microorganisms Biological databases integration Pathogenic microorganisms Electronic patient health records CIENCIAS BIOLOGICAS
9	MIDB : um modelo de integração de dados biológicos Perlin, Caroline Beatriz 29 February 2012 (has links) Made available in DSpace on 2016-06-02T19:05:56Z (GMT). No. of bitstreams: 1 4370.pdf: 1089392 bytes, checksum: 82daa0e51d37184f8864bd92d9342dde (MD5) Previous issue date: 2012-02-29 / In bioinformatics, there is a huge volume of data related to biomolecules and to nucleotide and amino acid sequences that reside (in almost their totality) in several Biological Data Bases (BDBs). For a specific sequence, there are some informational classifications: genomic data, evolution-data, structural data, and others. Some BDBs store just one or some of these classifications. Those BDBs are hosted in different sites and servers, with several data base management systems with different data models. Besides, instances and schema might have semantic heterogeneity. In such scenario, the objective of this project is to propose a biological data integration model, that adopts new schema integration and instance integration techniques. The proposed integration model has a special mechanism of schema integration and another mechanism that performs the instance integration (with support of a dictionary) allowing conflict resolution in the attribute values; and a Clustering Algorithm is used in order to cluster similar entities. Besides, a domain specialist participates managing those clusters. The proposed model was validated through a study case focusing on schema and instance integration about nucleotide sequence data from organisms of Actinomyces gender, captured from four different data sources. The result is that about 97.91% of the attributes were correctly categorized in the schema integration, and the instance integration was able to identify that about 50% of the clusters created need support from a specialist, avoiding errors on the instance resolution. Besides, some contributions are presented, as the Attributes Categorization, the Clustering Algorithm, the distance functions proposed and the proposed model itself. / Na bioinformática, existe um imenso volume de dados sendo produzidos, os quais estão relacionados a sequências de nucleotídeos e aminoácidos que se encontram, em quase a sua totalidade, armazenados em Bancos de Dados Biológicos (BDBs). Para uma determinada sequência existem algumas classificações de informação: dados genômicos, dados evolutivos, dados estruturais, dentre outros. Existem BDBs que armazenam somente uma ou algumas dessas classificações. Tais BDBs estão hospedados em diferentes sites e servidores, com sistemas gerenciadores de banco de dados distintos e com uso de diferentes modelos de dados, além de terem instâncias e esquemas com heterogeneidade semântica. Dentro desse contexto, o objetivo deste projeto de mestrado é propor um Modelo de Integração de Dados Biológicos, com novas técnicas de integração de esquemas e integração de instâncias. O modelo de integração proposto possui um mecanismo especial de integração de esquemas, e outro mecanismo que realiza a integração de instâncias de dados (com um dicionário acoplado) permitindo resolução de conflitos nos valores dos atributos; e um Algoritmo de Clusterização é utilizado, com o objetivo de realizar o agrupamento de entidades similares. Além disso, o especialista de domínio participa do gerenciamento desses agrupamentos. Esse modelo foi validado por meio de um estudo de caso com ênfase na integração de esquemas e integração de instâncias com dados de sequências de nucleotídeos de genes de organismos do gênero Actinomyces, provenientes de quatro diferentes fontes de dados. Como resultado, obteve-se que aproximadamente 97,91% dos atributos foram categorizados corretamente na integração de esquemas e a integração de instâncias conseguiu identificar que aproximadamente 50% dos clusters gerados precisam de tratamento do especialista, evitando erros de resolução de entidades. Além disso, algumas contribuições são apresentadas, como por exemplo a Categorização de Atributos, o Algoritmo de Clusterização, as funções de distância propostas e o modelo MIDB em si. Banco de dados Bioinformática Modelo de integração de dados Integração de esquemas Integração de instâncias Integração de Dados Biológicos Bioinformatics Biological Databases Biological Database Integration Data Integration Model Schema Integration Instance Integration

Search results