Spelling suggestions: "subject:"[een] DATA INTEGRATION"" "subject:"[enn] DATA INTEGRATION""
101 |
Uma estratégia para seleção de atributos relevantes no processo de resolução de entidadesCANALLE, Gabrielle Karine 22 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-03-02T12:07:34Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5) / Made available in DSpace on 2017-03-02T12:07:34Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5)
Previous issue date: 2016-08-22 / Integração de Dados é um processo essencial quando deseja-se obter uma visão unificada de dados armazenados em fontes de dados autônomas, heterogêneas e distribuídas. Uma etapa crucial desse processo é a Resolução de Entidades, que consiste em identificar instâncias que se referem à mesma entidade do mundo real. A Resolução de Entidades se subdivide em várias fases, incluindo uma fase de comparação entre pares de instâncias. Nesta fase, são utilizadas funções que avaliam a similaridade entre os valores dos atributos que descrevem as instâncias. É importante notar que a qualidade do resultado do processo de Resolução de Entidades é diretamente afetada pelo conjunto de atributos selecionados para a fase de comparação de instâncias. Contudo, selecionar tais atributos pode ser um grande desafio, devido ao grande número de atributos que descrevem as instâncias ou à baixa relevância de alguns atributos para o processo de Resolução de Entidades. Na literatura existem alguns trabalhos que abordam esse problema. Em sua maioria, as abordagens propostas para seleção de atributos utilizam aprendizagem de máquina. No entanto, além da necessidade de um conjunto de treinamento, cuja definição é uma tarefa difícil, principalmente em cenários de grandes volumes de dados, a aprendizagem de máquina é um processo custoso. Neste contexto, este trabalho propõe uma estratégia para seleção de atributos relevantes a serem considerados na fase de comparação de instâncias do processo de Resolução de Entidades. A estratégia proposta considera critérios relacionados aos dados, tais como a densidade e repetição de valores de cada atributo, e critérios relacionados às fontes, tal como a confiabilidade, para avaliar a relevância de um atributo para a fase de comparação de instâncias. Um atributo é considerado relevante se contribui positivamente para a identificação de correspondências verdadeiras, e irrelevante se contribui na identificação de correspondências erradas (falsos positivos e falsos negativos). Em experimentos realizados, utilizando a estratégia proposta, foi possível alcançar bons resultados na comparação de instâncias do processo de Resolução de Entidades, ou seja, os atributos dados como relevantes foram aqueles que contribuíram para encontrar o maior número de correspondências verdadeiras, com o menor número de correspondências erradas. / Data integration is an essential task for achieving a unified view of data stored in autonomous, heterogeneous and distributed sources. A key step in this process is Entity Resolution, which consists of identifying instances that refer to the same real-world entity. Entity Resolution can be subdivided into several stages, including a comparison step between instance pairs. In this step, functions that check the similarity between values of attributes are used to discover equivalent instances. It is important to note that the quality of the result of the entity resolution process is directly affected by the set of selected attributes used to compare the instances. However, selecting such attributes can be challenging, due to either the large number of attributes that describes an instance or to the low relevance of some attributes regarding to the entity resolution process. In the literature, there are some approaches that investigated this problem. Most of them employ machine learning techniques for selecting relevant attributes. Usually, these techniques are computationally costly and also have the necessity of defining a training set, which requirements are non-trivial, mainly in large volumes of data scenarios. In this context, this work proposes a strategy for selecting relevant attributes to be considered in the instance comparison phase of the process of Entity Resolution. The proposed strategy considers criteria related to data, such as density and repetition of values of each attribute, and related to sources, such as reliability, to evaluate the relevance of the attributes. An attribute is considered relevant if contributes positively for the identification of true matches, and irrelevant if contributes for the identification of incorrect matches (false positives and false negatives). In our experiments, the proposed strategy achieved good results for the Entity Resolution process. That is, the attributes classified as relevant were the ones that contributed to find the greatest number of true matches with a few incorrect matches. Read more
|
102 |
Análise de expressão gênica diferencial entre diversas bibliotecas de soja / Analysis of differential gene expression between different libraries of soybeanNascimento, Leandro Costa do 12 September 2010 (has links)
Orientador: Gonçalo Amarante Guimarães Pereira / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-08-17T20:48:34Z (GMT). No. of bitstreams: 1
Nascimento_LeandroCostado_M.pdf: 1292421 bytes, checksum: e05cfc27d3bf5ae000bfe8b621a750c8 (MD5)
Previous issue date: 2010 / Resumo: A soja é uma das principais commodities da economia internacional, sendo sua produção mundial de cerca de 220 milhões de toneladas por safra. Além de ser um alimento rico em proteínas e usado para a fabricação de óleo vegetal, a planta vem ganhando visibilidade devido a possibilidade de ser usada na fabricação de biocombustíveis, principalmente o biodiesel. Para o Brasil, a soja tem grande importância na balança comercial, sendo o país o segundo maior produtor do mundo. Neste contexto, no ano de 2007, o governo brasileiro estabeleceu um consórcio de pesquisas em soja - denominado GENOSOJA - com o objetivo de identificar características genéticas que possam facilitar o processo produtivo da planta, com foco nos diversos estresses que acometem a produção nacional, como a ocorrência de secas, o ataque de pragas e a doença da ferrugem asiática, causada pelo fungo Phakopsora pachyrhizi. Este trabalho está inserido no escopo do GENOSOJA, propondo a construção de bancos de dados contendo informações disponíveis nos diversos bancos públicos (sequências genômicas, ESTs e cDNA full-lenght), integrando-as com as informações geradas no decorrer do projeto (tags de SuperSAGE, bibliotecas subtrativas de cDNA e microRNAs). Além disso, foram construídas diversas interfaces web que oferecem aos usuários diversas funcionalidades, incluindo: comparações estatísticas, consultas por palavras-chave, dados sobre anotação e expressão dos genes nas diversas condições e experimentos estudados. Dessa forma, o ferramental de bioinformática aqui apresentado pode facilitar a compreensão de como as diferenças de expressão gênica da planta podem afetar características de importância agronômica / Abstract: Soybean is one of the main commodities in the international economy, with a world production of about 220 millions of tons per harvest. Besides being a protein rich food and used for vegetable oil production, the plant has been gaining visibility due to the possibility of being to make biofuels, especially biodiesel. The soybean culture is of great importance in the Brazilian economy, being the country the second largest producer in the world. In this context, in 2007, the Brazilian government established a research consortium in soybean - called GENOSOJA - aiming to identify genetic traits that may facilitate the production process of the plant, focusing on the different stresses that affect the national production, as the occurrence of drought, pests' attacks and the asian rust disease, caused by the Phakopsora pachyrhizi fungus. This work is inserted in the GENOSOJA, proposing to build a set of databases containing information available in several public databases (genomic sequences, ESTs and full-length cDNA), integrating them with information generated during the project (SuperSAGE tags, cDNA subtractive libraries and miRNAs). Additionally, several web interfaces were built. They offer to users many features, including: statics comparisons, keyword searches, data about annotation and gene expression in different experiments and conditions. Thus, the bioinformatics tools presented here may facilitate the understanding of how the differences in gene expression can affect plant traits with agronomic importance / Mestrado / Bioinformatica / Mestre em Genética e Biologia Molecular Read more
|
103 |
Um Ambiente para Processamento de Consultas Federadas em Linked Data Mashups / An Environment for Federated Query Processing in Linked Data MashupsRegis Pires MagalhÃes 25 May 2012 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Tecnologias da Web SemÃntica como modelo RDF, URIs e linguagem de consulta SPARQL, podem reduzir a complexidade de integraÃÃo de dados ao fazer uso de ligaÃÃes corretamente estabelecidas e descritas entre fontes.No entanto, a dificuldade para formulaÃÃo de consultas distribuÃdas tem sido um obstÃculo para aproveitar o potencial dessas tecnologias em virtude da autonomia, distribuiÃÃo e vocabulÃrio heterogÃneo das fontes de dados.Esse cenÃrio demanda mecanismos eficientes para integraÃÃo de dados sobre Linked Data.Linked Data Mashups permitem aos usuÃrios executar consultas e integrar dados estruturados e vinculados na web.O presente trabalho propÃe duas arquiteturas de Linked Data Mashups:uma delas baseada no uso de mediadores e a outra baseada no uso de Linked Data Mashup Services (LIDMS). Um mÃdulo para execuÃÃo eficiente de planos de consulta federados sobre Linked Data foi desenvolvido e à um componente comum a ambas as arquiteturas propostas.A viabilidade do mÃdulo de execuÃÃo foi demonstrada atravÃs de experimentos. AlÃm disso, um ambiente Web para execuÃÃo de LIDMS tambÃm foi definido e implementado como contribuiÃÃes deste trabalho. / Semantic Web technologies like RDF model, URIs and SPARQL query language, can reduce the complexity of data integration by making use of properly established and described links between sources.However, the difficulty to formulate distributed queries has been a challenge to harness the potential of these technologies due to autonomy, distribution and vocabulary of heterogeneous data sources. This scenario demands effective mechanisms for integrating data on Linked Data.Linked Data Mashups allow users to query and integrate structured and linked data on the web. This work proposes two architectures of Linked Data Mashups: one based on the use of mediators and the other based on the use of Linked Data Mashup Services (LIDMS). A module for efficient execution of federated query plans on Linked Data has been developed and is a component common to both proposed architectures.The execution module feasibility has been demonstrated through experiments. Furthermore, a LIDMS execution Web environment also has been defined and implemented as contributions of this work. Read more
|
104 |
Genômica translacional: integrando dados clínicos e biomoleculares / Translational genomics: integrating clinical and biomolecular dataNewton Shydeo Brandão Miyoshi 06 February 2013 (has links)
A utilização do conhecimento científico para promoção da saúde humana é o principal objetivo da ciência translacional. Para que isto seja possível, faz-se necessário o desenvolvimento de métodos computacionais capazes de lidar com o grande volume e com a heterogeneidade da informação gerada no caminho entre a bancada e a prática clínica. Uma barreira computacional a ser vencida é o gerenciamento e a integração dos dados clínicos, sócio-demográficos e biológicos. Neste esforço, as ontologias desempenham um papel essencial, por serem um poderoso artefato para representação do conhecimento. Ferramentas para gerenciamento e armazenamento de dados clínicos na área da ciência translacional que têm sido desenvolvidas, via de regra falham por não permitir a representação de dados biológicos ou por não oferecer uma integração com as ferramentas de bioinformática. Na área da genômica existem diversos modelos de bancos de dados biológicos (tais como AceDB e Ensembl), os quais servem de base para a construção de ferramentas computacionais para análise genômica de uma forma independente do organismo de estudo. Chado é um modelo de banco de dados biológicos orientado a ontologias, que tem ganhado popularidade devido a sua robustez e flexibilidade, enquanto plataforma genérica para dados biomoleculares. Porém, tanto Chado quanto os outros modelos de banco de dados biológicos não estão preparados para representar a informação clínica de pacientes. Este projeto de mestrado propõe a implementação e validação prática de um framework para integração de dados, com o objetivo de auxiliar a pesquisa translacional integrando dados biomoleculares provenientes das diferentes tecnologias omics com dados clínicos e sócio-demográficos de pacientes. A instanciação deste framework resultou em uma ferramenta denominada IPTrans (Integrative Platform for Translational Research), que tem o Chado como modelo de dados genômicos e uma ontologia como referência. Chado foi estendido para permitir a representação da informação clínica por meio de um novo Módulo Clínico, que utiliza a estrutura de dados entidade-atributo-valor. Foi desenvolvido um pipeline para migração de dados de fontes heterogêneas de informação para o banco de dados integrado. O framework foi validado com dados clínicos provenientes de um Hospital Escola e de um banco de dados biomoleculares para pesquisa de pacientes com câncer de cabeça e pescoço, assim como informações de experimentos de microarray realizados para estes pacientes. Os principais requisitos almejados para o framework foram flexibilidade, robustez e generalidade. A validação realizada mostrou que o sistema proposto satisfaz as premissas, levando à integração necessária para a realização de análises e comparações dos dados. / The use of scientific knowledge to promote human health is the main goal of translational science. To make this possible, it is necessary to develop computational methods capable of dealing with the large volume and heterogeneity of information generated on the road between bench and clinical practice. A computational barrier to be overcome is the management and integration of clinical, biological and socio-demographics data. In this effort, ontologies play a crucial role, being a powerful artifact for knowledge representation. Tools for managing and storing clinical data in the area of translational science that have been developed, usually fail due to the lack on representing biological data or not offering integration with bioinformatics tools. In the field of genomics there are many different biological databases (such as AceDB and Ensembl), which are the basis for the construction of computational tools for genomic analysis in an organism independent way. Chado is a ontology-oriented biological database model which has gained popularity due to its robustness and flexibility, as a generic platform for biomolecular data. However, both Chado as other models of biological databases are not prepared to represent the clinical information of patients. This project consists in the proposal, implementation and validation of a practical framework for data integration, aiming to help translational research integrating data coming from different omics technologies with clinical and socio-demographic characteristics of patients. The instantiation of the designed framework resulted in a computational tool called IPTrans (Integrative Platform for Translational Research), which has Chado as template for genomic data and uses an ontology reference. Chado was extended to allow the representation of clinical information through a new Clinical Module, which uses the data structure entity-attribute-value. We developed a pipeline for migrating data from heterogeneous sources of information for the integrated database. The framework was validated with clinical data from a School Hospital and a database for biomolecular research of patients with head and neck cancer. The main requirements were targeted for the framework flexibility, robustness and generality. The validation showed that the proposed system satisfies the assumptions leading to integration required for the analysis and comparisons of data. Read more
|
105 |
Integração de dados para analise de desempenho de poços de petroleo / Data integration for performance analysis of petroleum wellsCarrillo Arturo, Naisa Veronica 04 July 2008 (has links)
Orientadores: Jose Ricardo Pelaquim Mendes, Celso Kazuyuki Morooka / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecanica, Instituto de Geociencias / Made available in DSpace on 2018-08-12T14:10:01Z (GMT). No. of bitstreams: 1
CarrilloArturo_NaisaVeronica_M.pdf: 9285828 bytes, checksum: cea4b1d24498e3db795cf1baac36b0bb (MD5)
Previous issue date: 2008 / Resumo: Neste trabalho é proposto um parâmetro, denominado de índice de desempenho do sistema, que permite estudar o desempenho de poços de petróleo. Um diferencial deste parâmetro é que ele utiliza dados reais e abundantes de campo que são medidos periodicamente. Tal índice permite, por exemplo, avaliar o desempenho e as tecnologias utilizadas nos poços. Usando este índice, verificou-se a influência da geometria do poço para um mesmo campo e uma mesma zona produtora, comparando o desempenho dos poços verticais, direcionais e horizontais. Comparou-se também o desempenho do tipo de contenção de areia para esse mesmo campo e essa mesma zona produtora. Os dados utilizados neste trabalho foram gentilmente fornecidos pela Petrobras. / Abstract: In this work a new parameter called the System Performance Index is proposed, which allows a more profound study of the performance of petroleum wells. An outstanding characteristic of this parameter is that it uses a large amount of field data measured periodically. This index allows the assessing of the performance and technologies used in the wells. This study presents a comparison of the performance of vertical, directional and horizontal wells. The sand control technologies used in the wells are also evaluated. Finally, the proposed parameter enables a practical analysis that can be implemented as a strategic tool for oilfield, performance and optimization studies. Data used in this work were kindly supplied by Petrobras. / Mestrado / Explotação / Mestre em Ciências e Engenharia de Petróleo Read more
|
106 |
An event-based approach to process environmental data = Um enfoque baseado em eventos para processar dados ambientais / Um enfoque baseado em eventos para processar dados ambientaisKoga, Ivo Kenji, 1981- 23 August 2018 (has links)
Orientador: Claudia Maria Bauzer Medeiros / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-23T23:06:49Z (GMT). No. of bitstreams: 1
Koga_IvoKenji_D.pdf: 2109870 bytes, checksum: 7ac5400b2e71be3e15b3bdf5504e3adf (MD5)
Previous issue date: 2013 / Resumo: O resumo poderá ser visualizado no texto completo da tese digital / Abstract: The complete abstract is available with the full electronic document. / Doutorado / Ciência da Computação / Doutor em Ciência da Computação
|
107 |
[en] SEMANTIC DATA INTEGRATION WITH AN ONTOLOGY FEDERATION. / [pt] INTEGRAÇÃO SEMÂNTICA DE DADOS ATRAVÉS DE FEDERAÇÃO DE ONTOLOGIASSANDRA APARECIDA DIAS 16 October 2006 (has links)
[pt] O advento da WEB propiciou a disseminação de bases de
dados distribuídas
e heterogêneas. Por vezes, a resposta a uma consulta
demanda o uso de várias
destas bases. É necessário, então, algum nível de
integração destas. A publicação
dessas bases nem sempre segue um padrão semântico. Em
função disso parece ser
essencial existir um meio de relacionar os diferentes
dados para satisfazer tais
consultas. Este processo é comumente denominado de
integração de dados. A
comunidade de Banco de Dados tem conhecimento de métodos
para dar conta
desta integração no contexto de federações de Bancos de
Dados heterogêneos. No
entanto, atualmente existem descrições mais ricas e com
mais possibilidades de
semântica, tais como aquelas induzidas pelo conceito de
ontologia. A comunidade
de Banco de Dados tem considerado ontologias na solução do
problema da
integração de Banco de Dados. O alinhamento ou merge de
ontologias são
algumas das propostas conhecidas da comunidade de WEB
semântica. Este
trabalho propõe o uso de métodos de merge de ontologias
como solução ao
problema da construção de uma federação de ontologias como
método integrador
de fontes de dados. O trabalho inclui a implementação de
um estudo de caso na
ferramenta Protegé. Este estudo de caso permite discutir
aspectos de
escalabilidade e de aplicabilidade da proposta como uma
solução
tecnologicamente viável. / [en] The WEB has spread out the use of heterogeneous
distributed databases.
Sometimes, the answer to a query demands the use of more
than one database.
Some level of integration among these databases is
desired. However, frequently,
the bases were not designed according a unique semantic
pattern. Thus, it seems
essential to relate the different data, in the respective
base, in order to provide an
adequate answer to the query. The process of building this
relationship is often
called data integration. The Data Base community has
acquired enough
knowledge to deal with this in the context of Data Base
Heterogeneous
Federation. Nowadays, there are more expressive model
descriptions, namely
ontologies. The Data Base community has also considered
ontologies as a tool to
contribute as part of a solution to the data integration
problem. The Semantic
WEB community defined alignment or merge of ontologies as
one of the possible
solutions to the some of this integration problem. This
work has the aim of using
merge of ontologies methods as a mean to define the
construction of a
Federation of ontologies as a mean to integrate source of
data. The dissertation
includes a case study written in the Protegé tool. From
this case study, a
discussion follows on the scalability and applicability of
the proposal as a feasible
technological solution for data integration. Read more
|
108 |
XAP IntegrationZhu, Mingjie, Liu, Qinghua January 2006 (has links)
Abstract This bachelor thesis will present the XAP tool integration project. Apart from presenting the survey of integration techniques that includes integration models and case tool models, we have conducted a comparison of these models. Then we reason about their applicability in the XAP setting. We apply this survey into the XAP tool integration project – integrate three tools in one IDE on data level. In this IDE, the user can create a new project and use these three tools freely in the new created project. The database among them is shared.
|
109 |
Data Integration: Techniques and EvaluationHackl, Peter, Denk, Michaela January 2004 (has links) (PDF)
Within the DIECOFIS framework, ec3, the Division of Business
Statistics from the Vienna University of Economics and Business
Administration and ISTAT worked together to find methods to create a
comprehensive database of enterprise data required for taxation microsimulations
via integration of existing disparate enterprise data sources. This
paper provides an overview of the broad spectrum of investigated
methodology (including exact and statistical matching as well as
imputation) and related statistical quality indicators, and emphasises the
relevance of data integration, especially for official statistics, as a means of
using available information more efficiently and improving the quality of a
statistical agency's products. Finally, an outlook on an empirical study
comparing different exact matching procedures in the maintenance of
Statistics Austria's Business Register is presented.
|
110 |
Integrace Big Data a datového skladu / Integration of Big Data and data warehouseKiška, Vladislav January 2017 (has links)
Master thesis deals with a problem of data integration between Big Data platform and enterprise data warehouse. Main goal of this thesis is to create a complex transfer system to move data from a data warehouse to this platform using a suitable tool for this task. This system should also store and manage all metadata information about previous transfers. Theoretical part focuses on describing concepts of Big Data, brief introduction into their history and presents factors which led to need for this new approach. Next chapters describe main principles and attributes of these technologies and discuss benefits of their implementation within an enterprise. Thesis also describes technologies known as Business Intelligence, their typical use cases and their relation to Big Data. Minor chapter presents main components of Hadoop system and most popular related applications. Practical part of this work consists of implementation of a system to execute and manage transfers from traditional relation database, in this case representing a data warehouse, to cluster of a few computers running a Hadoop system. This part also includes a summary of most used applications to move data into Hadoop and a design of database metadata schema, which is used to manage these transfers and to store transfer metadata. Read more
|
Page generated in 0.0563 seconds