Global ETD Search

111	Replacing qpcr non-detects with microarray expression data : An initialized approach towards microarray and qPCR data integration Sehlstedt, Jonas January 2018 (has links) Gene expression analysis can be performed by a number of methods. One of the most common methods is using relative qPCR to assess the relative expression of a determined set of genes compared to a reference gene. Analysis methods benefits from an as homogeneous sample set as possible, as great variety in original sample disease status, quality, type, or distribution may yield an uneven base expression between replicates. Additionally normalization of qPCR data will not work if there are missing values in the data. There are methods for handling non-detects (i.e. missing values) in the data, where most of them are only recommended to use when there is a single, or very few, value missing. By integrating microarray expression data with qPCR data, the data quality could be improved on, eradicating the need to redo an entire experiment when too much data is missing or sample data too is heterogeneous. In this project, publically available microarray data, with similar sample status of a given qPCR dataset, was downloaded and processed. The qPCR dataset included 51 genes, where a set of four DLG genes has been chosen for in-depth analysis. For handling missing values, mean imputation and inserting Cq value 40 were used, as well as a novel method initialized where microarray data was used to replace missing values. In summary replacing missing values with microarray data did not show any significant difference to the other two methods in three of the four DLG genes. From this project, it is also suggested an initialized approach towards testing the possibility of qPCR and microarray data integration. microarray qpcr data integration colorectal cancer colon cancer expression expression data Bioinformatics and Systems Biology Bioinformatik och systembiologi
112	Development of novel analysis and data integration systems to understand human gene regulation Rahman, Raza-Ur 08 May 2018 (has links) No description available. 510 in silico annotate genome data integration data analysis gene regulation diseases Informatik (PPN619939052)
113	GeoDrill : uso de SQL para integração de fontes de dados espaciais heterogêneas com ou sem esquema. ACIOLI FILHO, José Amilton Moura. 21 May 2018 (has links) Submitted by Maria Medeiros (maria.dilva1@ufcg.edu.br) on 2018-05-21T13:33:00Z No. of bitstreams: 1 JOSÉ AMILTON MOURA ACIOLI FILHO - DISSERTAÇÃO (PPGCC) 2016.pdf: 4531903 bytes, checksum: 0544920547c2d257f657b480a1c5f45f (MD5) / Made available in DSpace on 2018-05-21T13:33:00Z (GMT). No. of bitstreams: 1 JOSÉ AMILTON MOURA ACIOLI FILHO - DISSERTAÇÃO (PPGCC) 2016.pdf: 4531903 bytes, checksum: 0544920547c2d257f657b480a1c5f45f (MD5) Previous issue date: 2016-09-02 / Com a evolução da web e dos sistemas de informação, as organizações têm obtido dados dos mais diversos formatos, estruturas e tipos, podendo-se destacar os espaciais. Devido aos dados apresentarem características distintas, estes acabam sendo mantidos em fontes de dados heterogêneas, sendo assim necessário investir cada vez mais em soluções que possam integrar e analisar estes dados de diferentes fontes. Algumas destas soluções conseguem analisar o componente espacial dos dados, no entanto, essa análise dos dados espaciais é limitada pelo tipo de dados ou funções espaciais suportadas. Neste trabalho, é abordado o problema da integração de dados espaciais de fontes de dados heterogêneas, com ou sem esquema, utilizando linguagem SQL. Este é um problema em aberto na área de integração de dados espaciais, pois as soluções existentes apresentam inúmeras limitações, a exemplo da linguagem de consulta utilizada, os meios para acesso a dados, as tecnologias que podem ser integradas, as funções disponibilizadas e os tipos de dados espaciais suportados. Visando solucionar esse problema, desenvolveu-se a solução GeoDrill, uma extensão do Apache Drill que dá suporte a todas as funções espaciais padronizadas pela OGC (Open Geospatial Consortium), através da linguagem SQL, podendo realizar consultas em dados com ou sem esquema. Para validar a capacidade de integração dos dados no GeoDrill, foi desenvolvido um experimento para analisar as funcionalidades e o desempenho do mesmo. A solução GeoDrill foi capaz de realizar a integração dos dados espaciais de fontes heterogêneas, apresentando-se como uma alternativa para a resolução de parte das limitações existentes na área. / With the evolution of the web and information systems, organizations have obtained data of various formats, structures and types, specially the spatial one. Due to different characteristics presented in data, such data have been stored in heterogeneous data sources. Therefore, it is needed to increasingly invest in solutions that can integrate and analyze these data from different sources. Some of these solutions can analyze the spatial component of data; however, this analysis of spatial data is limited either by the data type or spatial functions supported. In this work, the problem of spatial data integration from heterogeneous data sources is addressed, either with or without using schemas, using SQL language. This is an open issue in the area of spatial data integration, since existing solutions present many limitations, such as the query language used, the ways to access data, the technologies that can be integrated, the available functions set and the spatial data types supported. Aiming at solving this problem, the GeoDrill solution was developed, which is an extension of the Apache Drill that supports all standard spatial functions provided by the OGC (Open Geospatial Consortium) through the SQL language. The GeoDrill can perform queries on data with or without schema. In order to validate the capacity of GeoDrill to integrate data, an experiment was conducted to analyze its functionalities and performance. The obtained results indicate the GeoDrill solution is able to integrate spatial data from heterogeneous data sources. Hence, it appears to be a suitable alternative for solving part of the existing limitations in this research field. Ciências Ciência da Computação Dados Espaciais Integração de Dados Espaciais Dataspace SQL Spatial Data Spatial Data Integration
114	Indexing and querying dataspaces Mergen, Sérgio Luis Sardi January 2011 (has links) Over theWeb, distributed and heterogeneous sources with structured and related content form rich repositories of information commonly referred to as dataspaces. To provide access to this heterogeneous data, information integration systems have traditionally relied on the availability of a mediated schema, along with mappings between this schema and the schema of the source schemas. On dataspaces, where sources are plentiful, autonomous and extremely volatile, a system based on the existence of a pre-defined mediated schema and mapping information presents several drawbacks. Notably, the cost of keeping the mappings up to date as new sources are found or existing sources change can be prohibitively high. We propose a novel querying architecture that requires neither a mediated schema nor source mappings, which is based mainly on indexing mechanisms and on-the-fly rewriting algorithms. Our indexes are designed for data that is represented as relations, and are able to capture the structure of the sources, their instances and the connections between them. In the absence of a mediated schema, the user formulates structured queries based on what she expects to find. These queries are rewritten using a best-effort approach: the proposed rewriting algorithms compare a user query against the source schemas and produces a set of rewritings based on the matches found. Based on this architecture, two different querying approaches are tested. Experiments show that the indexing and rewriting algorithms are scalable, i.e., able to handle a very large number of structured Web sources; and that support simple, yet expressive queries that exploit the inherent structure of the data. Recuperacao : Informacao Banco : Dados Dataspaces Data integration Search engine Indexing Query rewriting
115	Uma estratégia para seleção de atributos relevantes no processo de resolução de entidades CANALLE, Gabrielle Karine 22 August 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-03-02T12:07:34Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5) / Made available in DSpace on 2017-03-02T12:07:34Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5) Previous issue date: 2016-08-22 / Integração de Dados é um processo essencial quando deseja-se obter uma visão unificada de dados armazenados em fontes de dados autônomas, heterogêneas e distribuídas. Uma etapa crucial desse processo é a Resolução de Entidades, que consiste em identificar instâncias que se referem à mesma entidade do mundo real. A Resolução de Entidades se subdivide em várias fases, incluindo uma fase de comparação entre pares de instâncias. Nesta fase, são utilizadas funções que avaliam a similaridade entre os valores dos atributos que descrevem as instâncias. É importante notar que a qualidade do resultado do processo de Resolução de Entidades é diretamente afetada pelo conjunto de atributos selecionados para a fase de comparação de instâncias. Contudo, selecionar tais atributos pode ser um grande desafio, devido ao grande número de atributos que descrevem as instâncias ou à baixa relevância de alguns atributos para o processo de Resolução de Entidades. Na literatura existem alguns trabalhos que abordam esse problema. Em sua maioria, as abordagens propostas para seleção de atributos utilizam aprendizagem de máquina. No entanto, além da necessidade de um conjunto de treinamento, cuja definição é uma tarefa difícil, principalmente em cenários de grandes volumes de dados, a aprendizagem de máquina é um processo custoso. Neste contexto, este trabalho propõe uma estratégia para seleção de atributos relevantes a serem considerados na fase de comparação de instâncias do processo de Resolução de Entidades. A estratégia proposta considera critérios relacionados aos dados, tais como a densidade e repetição de valores de cada atributo, e critérios relacionados às fontes, tal como a confiabilidade, para avaliar a relevância de um atributo para a fase de comparação de instâncias. Um atributo é considerado relevante se contribui positivamente para a identificação de correspondências verdadeiras, e irrelevante se contribui na identificação de correspondências erradas (falsos positivos e falsos negativos). Em experimentos realizados, utilizando a estratégia proposta, foi possível alcançar bons resultados na comparação de instâncias do processo de Resolução de Entidades, ou seja, os atributos dados como relevantes foram aqueles que contribuíram para encontrar o maior número de correspondências verdadeiras, com o menor número de correspondências erradas. / Data integration is an essential task for achieving a unified view of data stored in autonomous, heterogeneous and distributed sources. A key step in this process is Entity Resolution, which consists of identifying instances that refer to the same real-world entity. Entity Resolution can be subdivided into several stages, including a comparison step between instance pairs. In this step, functions that check the similarity between values of attributes are used to discover equivalent instances. It is important to note that the quality of the result of the entity resolution process is directly affected by the set of selected attributes used to compare the instances. However, selecting such attributes can be challenging, due to either the large number of attributes that describes an instance or to the low relevance of some attributes regarding to the entity resolution process. In the literature, there are some approaches that investigated this problem. Most of them employ machine learning techniques for selecting relevant attributes. Usually, these techniques are computationally costly and also have the necessity of defining a training set, which requirements are non-trivial, mainly in large volumes of data scenarios. In this context, this work proposes a strategy for selecting relevant attributes to be considered in the instance comparison phase of the process of Entity Resolution. The proposed strategy considers criteria related to data, such as density and repetition of values of each attribute, and related to sources, such as reliability, to evaluate the relevance of the attributes. An attribute is considered relevant if contributes positively for the identification of true matches, and irrelevant if contributes for the identification of incorrect matches (false positives and false negatives). In our experiments, the proposed strategy achieved good results for the Entity Resolution process. That is, the attributes classified as relevant were the ones that contributed to find the greatest number of true matches with a few incorrect matches. Integraçãode Dados Resolução de Entidades Seleção de Atributos Data Integration Entity Resolution Attribute Selection
116	Análise de expressão gênica diferencial entre diversas bibliotecas de soja / Analysis of differential gene expression between different libraries of soybean Nascimento, Leandro Costa do 12 September 2010 (has links) Orientador: Gonçalo Amarante Guimarães Pereira / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-08-17T20:48:34Z (GMT). No. of bitstreams: 1 Nascimento_LeandroCostado_M.pdf: 1292421 bytes, checksum: e05cfc27d3bf5ae000bfe8b621a750c8 (MD5) Previous issue date: 2010 / Resumo: A soja é uma das principais commodities da economia internacional, sendo sua produção mundial de cerca de 220 milhões de toneladas por safra. Além de ser um alimento rico em proteínas e usado para a fabricação de óleo vegetal, a planta vem ganhando visibilidade devido a possibilidade de ser usada na fabricação de biocombustíveis, principalmente o biodiesel. Para o Brasil, a soja tem grande importância na balança comercial, sendo o país o segundo maior produtor do mundo. Neste contexto, no ano de 2007, o governo brasileiro estabeleceu um consórcio de pesquisas em soja - denominado GENOSOJA - com o objetivo de identificar características genéticas que possam facilitar o processo produtivo da planta, com foco nos diversos estresses que acometem a produção nacional, como a ocorrência de secas, o ataque de pragas e a doença da ferrugem asiática, causada pelo fungo Phakopsora pachyrhizi. Este trabalho está inserido no escopo do GENOSOJA, propondo a construção de bancos de dados contendo informações disponíveis nos diversos bancos públicos (sequências genômicas, ESTs e cDNA full-lenght), integrando-as com as informações geradas no decorrer do projeto (tags de SuperSAGE, bibliotecas subtrativas de cDNA e microRNAs). Além disso, foram construídas diversas interfaces web que oferecem aos usuários diversas funcionalidades, incluindo: comparações estatísticas, consultas por palavras-chave, dados sobre anotação e expressão dos genes nas diversas condições e experimentos estudados. Dessa forma, o ferramental de bioinformática aqui apresentado pode facilitar a compreensão de como as diferenças de expressão gênica da planta podem afetar características de importância agronômica / Abstract: Soybean is one of the main commodities in the international economy, with a world production of about 220 millions of tons per harvest. Besides being a protein rich food and used for vegetable oil production, the plant has been gaining visibility due to the possibility of being to make biofuels, especially biodiesel. The soybean culture is of great importance in the Brazilian economy, being the country the second largest producer in the world. In this context, in 2007, the Brazilian government established a research consortium in soybean - called GENOSOJA - aiming to identify genetic traits that may facilitate the production process of the plant, focusing on the different stresses that affect the national production, as the occurrence of drought, pests' attacks and the asian rust disease, caused by the Phakopsora pachyrhizi fungus. This work is inserted in the GENOSOJA, proposing to build a set of databases containing information available in several public databases (genomic sequences, ESTs and full-length cDNA), integrating them with information generated during the project (SuperSAGE tags, cDNA subtractive libraries and miRNAs). Additionally, several web interfaces were built. They offer to users many features, including: statics comparisons, keyword searches, data about annotation and gene expression in different experiments and conditions. Thus, the bioinformatics tools presented here may facilitate the understanding of how the differences in gene expression can affect plant traits with agronomic importance / Mestrado / Bioinformatica / Mestre em Genética e Biologia Molecular Soja Transcriptoma Banco de dados Integração de dados Soybean Transcriptome Database Data integration
117	Um Ambiente para Processamento de Consultas Federadas em Linked Data Mashups / An Environment for Federated Query Processing in Linked Data Mashups Regis Pires MagalhÃes 25 May 2012 (has links) CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Tecnologias da Web SemÃntica como modelo RDF, URIs e linguagem de consulta SPARQL, podem reduzir a complexidade de integraÃÃo de dados ao fazer uso de ligaÃÃes corretamente estabelecidas e descritas entre fontes.No entanto, a diﬁculdade para formulaÃÃo de consultas distribuÃdas tem sido um obstÃculo para aproveitar o potencial dessas tecnologias em virtude da autonomia, distribuiÃÃo e vocabulÃrio heterogÃneo das fontes de dados.Esse cenÃrio demanda mecanismos eﬁcientes para integraÃÃo de dados sobre Linked Data.Linked Data Mashups permitem aos usuÃrios executar consultas e integrar dados estruturados e vinculados na web.O presente trabalho propÃe duas arquiteturas de Linked Data Mashups:uma delas baseada no uso de mediadores e a outra baseada no uso de Linked Data Mashup Services (LIDMS). Um mÃdulo para execuÃÃo eﬁciente de planos de consulta federados sobre Linked Data foi desenvolvido e Ã um componente comum a ambas as arquiteturas propostas.A viabilidade do mÃdulo de execuÃÃo foi demonstrada atravÃs de experimentos. AlÃm disso, um ambiente Web para execuÃÃo de LIDMS tambÃm foi deﬁnido e implementado como contribuiÃÃes deste trabalho. / Semantic Web technologies like RDF model, URIs and SPARQL query language, can reduce the complexity of data integration by making use of properly established and described links between sources.However, the difﬁculty to formulate distributed queries has been a challenge to harness the potential of these technologies due to autonomy, distribution and vocabulary of heterogeneous data sources. This scenario demands effective mechanisms for integrating data on Linked Data.Linked Data Mashups allow users to query and integrate structured and linked data on the web. This work proposes two architectures of Linked Data Mashups: one based on the use of mediators and the other based on the use of Linked Data Mashup Services (LIDMS). A module for efﬁcient execution of federated query plans on Linked Data has been developed and is a component common to both proposed architectures.The execution module feasibility has been demonstrated through experiments. Furthermore, a LIDMS execution Web environment also has been deﬁned and implemented as contributions of this work. Linked Data Mashups IntegraÃÃo de dados Consultas Federadas Data Integration Federated Queries Linked Data Mashups CIENCIA DA COMPUTACAO
118	Genômica translacional: integrando dados clínicos e biomoleculares / Translational genomics: integrating clinical and biomolecular data Newton Shydeo Brandão Miyoshi 06 February 2013 (has links) A utilização do conhecimento científico para promoção da saúde humana é o principal objetivo da ciência translacional. Para que isto seja possível, faz-se necessário o desenvolvimento de métodos computacionais capazes de lidar com o grande volume e com a heterogeneidade da informação gerada no caminho entre a bancada e a prática clínica. Uma barreira computacional a ser vencida é o gerenciamento e a integração dos dados clínicos, sócio-demográficos e biológicos. Neste esforço, as ontologias desempenham um papel essencial, por serem um poderoso artefato para representação do conhecimento. Ferramentas para gerenciamento e armazenamento de dados clínicos na área da ciência translacional que têm sido desenvolvidas, via de regra falham por não permitir a representação de dados biológicos ou por não oferecer uma integração com as ferramentas de bioinformática. Na área da genômica existem diversos modelos de bancos de dados biológicos (tais como AceDB e Ensembl), os quais servem de base para a construção de ferramentas computacionais para análise genômica de uma forma independente do organismo de estudo. Chado é um modelo de banco de dados biológicos orientado a ontologias, que tem ganhado popularidade devido a sua robustez e flexibilidade, enquanto plataforma genérica para dados biomoleculares. Porém, tanto Chado quanto os outros modelos de banco de dados biológicos não estão preparados para representar a informação clínica de pacientes. Este projeto de mestrado propõe a implementação e validação prática de um framework para integração de dados, com o objetivo de auxiliar a pesquisa translacional integrando dados biomoleculares provenientes das diferentes tecnologias omics com dados clínicos e sócio-demográficos de pacientes. A instanciação deste framework resultou em uma ferramenta denominada IPTrans (Integrative Platform for Translational Research), que tem o Chado como modelo de dados genômicos e uma ontologia como referência. Chado foi estendido para permitir a representação da informação clínica por meio de um novo Módulo Clínico, que utiliza a estrutura de dados entidade-atributo-valor. Foi desenvolvido um pipeline para migração de dados de fontes heterogêneas de informação para o banco de dados integrado. O framework foi validado com dados clínicos provenientes de um Hospital Escola e de um banco de dados biomoleculares para pesquisa de pacientes com câncer de cabeça e pescoço, assim como informações de experimentos de microarray realizados para estes pacientes. Os principais requisitos almejados para o framework foram flexibilidade, robustez e generalidade. A validação realizada mostrou que o sistema proposto satisfaz as premissas, levando à integração necessária para a realização de análises e comparações dos dados. / The use of scientific knowledge to promote human health is the main goal of translational science. To make this possible, it is necessary to develop computational methods capable of dealing with the large volume and heterogeneity of information generated on the road between bench and clinical practice. A computational barrier to be overcome is the management and integration of clinical, biological and socio-demographics data. In this effort, ontologies play a crucial role, being a powerful artifact for knowledge representation. Tools for managing and storing clinical data in the area of translational science that have been developed, usually fail due to the lack on representing biological data or not offering integration with bioinformatics tools. In the field of genomics there are many different biological databases (such as AceDB and Ensembl), which are the basis for the construction of computational tools for genomic analysis in an organism independent way. Chado is a ontology-oriented biological database model which has gained popularity due to its robustness and flexibility, as a generic platform for biomolecular data. However, both Chado as other models of biological databases are not prepared to represent the clinical information of patients. This project consists in the proposal, implementation and validation of a practical framework for data integration, aiming to help translational research integrating data coming from different omics technologies with clinical and socio-demographic characteristics of patients. The instantiation of the designed framework resulted in a computational tool called IPTrans (Integrative Platform for Translational Research), which has Chado as template for genomic data and uses an ontology reference. Chado was extended to allow the representation of clinical information through a new Clinical Module, which uses the data structure entity-attribute-value. We developed a pipeline for migrating data from heterogeneous sources of information for the integrated database. The framework was validated with clinical data from a School Hospital and a database for biomolecular research of patients with head and neck cancer. The main requirements were targeted for the framework flexibility, robustness and generality. The validation showed that the proposed system satisfies the assumptions leading to integration required for the analysis and comparisons of data. Bancos de Dados Biológicos Integração de Dados Ontologias Pesquisa Translacional Biological Databases Data Integration Ontologies Translational Research
119	Integração de dados para analise de desempenho de poços de petroleo / Data integration for performance analysis of petroleum wells Carrillo Arturo, Naisa Veronica 04 July 2008 (has links) Orientadores: Jose Ricardo Pelaquim Mendes, Celso Kazuyuki Morooka / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecanica, Instituto de Geociencias / Made available in DSpace on 2018-08-12T14:10:01Z (GMT). No. of bitstreams: 1 CarrilloArturo_NaisaVeronica_M.pdf: 9285828 bytes, checksum: cea4b1d24498e3db795cf1baac36b0bb (MD5) Previous issue date: 2008 / Resumo: Neste trabalho é proposto um parâmetro, denominado de índice de desempenho do sistema, que permite estudar o desempenho de poços de petróleo. Um diferencial deste parâmetro é que ele utiliza dados reais e abundantes de campo que são medidos periodicamente. Tal índice permite, por exemplo, avaliar o desempenho e as tecnologias utilizadas nos poços. Usando este índice, verificou-se a influência da geometria do poço para um mesmo campo e uma mesma zona produtora, comparando o desempenho dos poços verticais, direcionais e horizontais. Comparou-se também o desempenho do tipo de contenção de areia para esse mesmo campo e essa mesma zona produtora. Os dados utilizados neste trabalho foram gentilmente fornecidos pela Petrobras. / Abstract: In this work a new parameter called the System Performance Index is proposed, which allows a more profound study of the performance of petroleum wells. An outstanding characteristic of this parameter is that it uses a large amount of field data measured periodically. This index allows the assessing of the performance and technologies used in the wells. This study presents a comparison of the performance of vertical, directional and horizontal wells. The sand control technologies used in the wells are also evaluated. Finally, the proposed parameter enables a practical analysis that can be implemented as a strategic tool for oilfield, performance and optimization studies. Data used in this work were kindly supplied by Petrobras. / Mestrado / Explotação / Mestre em Ciências e Engenharia de Petróleo Poços de petroleo Desempenho Produtividade Petroleum wells Data integration Performance Productivity index
120	An event-based approach to process environmental data = Um enfoque baseado em eventos para processar dados ambientais / Um enfoque baseado em eventos para processar dados ambientais Koga, Ivo Kenji, 1981- 23 August 2018 (has links) Orientador: Claudia Maria Bauzer Medeiros / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-23T23:06:49Z (GMT). No. of bitstreams: 1 Koga_IvoKenji_D.pdf: 2109870 bytes, checksum: 7ac5400b2e71be3e15b3bdf5504e3adf (MD5) Previous issue date: 2013 / Resumo: O resumo poderá ser visualizado no texto completo da tese digital / Abstract: The complete abstract is available with the full electronic document. / Doutorado / Ciência da Computação / Doutor em Ciência da Computação Processamento de eventos (Computação) Event processing (Computer science)

Search results