Global ETD Search

101	Uma estratégia para seleção de atributos relevantes no processo de resolução de entidades CANALLE, Gabrielle Karine 22 August 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-03-02T12:07:34Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5) / Made available in DSpace on 2017-03-02T12:07:34Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5) Previous issue date: 2016-08-22 / Integração de Dados é um processo essencial quando deseja-se obter uma visão unificada de dados armazenados em fontes de dados autônomas, heterogêneas e distribuídas. Uma etapa crucial desse processo é a Resolução de Entidades, que consiste em identificar instâncias que se referem à mesma entidade do mundo real. A Resolução de Entidades se subdivide em várias fases, incluindo uma fase de comparação entre pares de instâncias. Nesta fase, são utilizadas funções que avaliam a similaridade entre os valores dos atributos que descrevem as instâncias. É importante notar que a qualidade do resultado do processo de Resolução de Entidades é diretamente afetada pelo conjunto de atributos selecionados para a fase de comparação de instâncias. Contudo, selecionar tais atributos pode ser um grande desafio, devido ao grande número de atributos que descrevem as instâncias ou à baixa relevância de alguns atributos para o processo de Resolução de Entidades. Na literatura existem alguns trabalhos que abordam esse problema. Em sua maioria, as abordagens propostas para seleção de atributos utilizam aprendizagem de máquina. No entanto, além da necessidade de um conjunto de treinamento, cuja definição é uma tarefa difícil, principalmente em cenários de grandes volumes de dados, a aprendizagem de máquina é um processo custoso. Neste contexto, este trabalho propõe uma estratégia para seleção de atributos relevantes a serem considerados na fase de comparação de instâncias do processo de Resolução de Entidades. A estratégia proposta considera critérios relacionados aos dados, tais como a densidade e repetição de valores de cada atributo, e critérios relacionados às fontes, tal como a confiabilidade, para avaliar a relevância de um atributo para a fase de comparação de instâncias. Um atributo é considerado relevante se contribui positivamente para a identificação de correspondências verdadeiras, e irrelevante se contribui na identificação de correspondências erradas (falsos positivos e falsos negativos). Em experimentos realizados, utilizando a estratégia proposta, foi possível alcançar bons resultados na comparação de instâncias do processo de Resolução de Entidades, ou seja, os atributos dados como relevantes foram aqueles que contribuíram para encontrar o maior número de correspondências verdadeiras, com o menor número de correspondências erradas. / Data integration is an essential task for achieving a unified view of data stored in autonomous, heterogeneous and distributed sources. A key step in this process is Entity Resolution, which consists of identifying instances that refer to the same real-world entity. Entity Resolution can be subdivided into several stages, including a comparison step between instance pairs. In this step, functions that check the similarity between values of attributes are used to discover equivalent instances. It is important to note that the quality of the result of the entity resolution process is directly affected by the set of selected attributes used to compare the instances. However, selecting such attributes can be challenging, due to either the large number of attributes that describes an instance or to the low relevance of some attributes regarding to the entity resolution process. In the literature, there are some approaches that investigated this problem. Most of them employ machine learning techniques for selecting relevant attributes. Usually, these techniques are computationally costly and also have the necessity of defining a training set, which requirements are non-trivial, mainly in large volumes of data scenarios. In this context, this work proposes a strategy for selecting relevant attributes to be considered in the instance comparison phase of the process of Entity Resolution. The proposed strategy considers criteria related to data, such as density and repetition of values of each attribute, and related to sources, such as reliability, to evaluate the relevance of the attributes. An attribute is considered relevant if contributes positively for the identification of true matches, and irrelevant if contributes for the identification of incorrect matches (false positives and false negatives). In our experiments, the proposed strategy achieved good results for the Entity Resolution process. That is, the attributes classified as relevant were the ones that contributed to find the greatest number of true matches with a few incorrect matches. Read more Integraçãode Dados Resolução de Entidades Seleção de Atributos Data Integration Entity Resolution Attribute Selection
102	Análise de expressão gênica diferencial entre diversas bibliotecas de soja / Analysis of differential gene expression between different libraries of soybean Nascimento, Leandro Costa do 12 September 2010 (has links) Orientador: Gonçalo Amarante Guimarães Pereira / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-08-17T20:48:34Z (GMT). No. of bitstreams: 1 Nascimento_LeandroCostado_M.pdf: 1292421 bytes, checksum: e05cfc27d3bf5ae000bfe8b621a750c8 (MD5) Previous issue date: 2010 / Resumo: A soja é uma das principais commodities da economia internacional, sendo sua produção mundial de cerca de 220 milhões de toneladas por safra. Além de ser um alimento rico em proteínas e usado para a fabricação de óleo vegetal, a planta vem ganhando visibilidade devido a possibilidade de ser usada na fabricação de biocombustíveis, principalmente o biodiesel. Para o Brasil, a soja tem grande importância na balança comercial, sendo o país o segundo maior produtor do mundo. Neste contexto, no ano de 2007, o governo brasileiro estabeleceu um consórcio de pesquisas em soja - denominado GENOSOJA - com o objetivo de identificar características genéticas que possam facilitar o processo produtivo da planta, com foco nos diversos estresses que acometem a produção nacional, como a ocorrência de secas, o ataque de pragas e a doença da ferrugem asiática, causada pelo fungo Phakopsora pachyrhizi. Este trabalho está inserido no escopo do GENOSOJA, propondo a construção de bancos de dados contendo informações disponíveis nos diversos bancos públicos (sequências genômicas, ESTs e cDNA full-lenght), integrando-as com as informações geradas no decorrer do projeto (tags de SuperSAGE, bibliotecas subtrativas de cDNA e microRNAs). Além disso, foram construídas diversas interfaces web que oferecem aos usuários diversas funcionalidades, incluindo: comparações estatísticas, consultas por palavras-chave, dados sobre anotação e expressão dos genes nas diversas condições e experimentos estudados. Dessa forma, o ferramental de bioinformática aqui apresentado pode facilitar a compreensão de como as diferenças de expressão gênica da planta podem afetar características de importância agronômica / Abstract: Soybean is one of the main commodities in the international economy, with a world production of about 220 millions of tons per harvest. Besides being a protein rich food and used for vegetable oil production, the plant has been gaining visibility due to the possibility of being to make biofuels, especially biodiesel. The soybean culture is of great importance in the Brazilian economy, being the country the second largest producer in the world. In this context, in 2007, the Brazilian government established a research consortium in soybean - called GENOSOJA - aiming to identify genetic traits that may facilitate the production process of the plant, focusing on the different stresses that affect the national production, as the occurrence of drought, pests' attacks and the asian rust disease, caused by the Phakopsora pachyrhizi fungus. This work is inserted in the GENOSOJA, proposing to build a set of databases containing information available in several public databases (genomic sequences, ESTs and full-length cDNA), integrating them with information generated during the project (SuperSAGE tags, cDNA subtractive libraries and miRNAs). Additionally, several web interfaces were built. They offer to users many features, including: statics comparisons, keyword searches, data about annotation and gene expression in different experiments and conditions. Thus, the bioinformatics tools presented here may facilitate the understanding of how the differences in gene expression can affect plant traits with agronomic importance / Mestrado / Bioinformatica / Mestre em Genética e Biologia Molecular Read more Soja Transcriptoma Banco de dados Integração de dados Soybean Transcriptome Database Data integration
103	Um Ambiente para Processamento de Consultas Federadas em Linked Data Mashups / An Environment for Federated Query Processing in Linked Data Mashups Regis Pires MagalhÃes 25 May 2012 (has links) CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Tecnologias da Web SemÃntica como modelo RDF, URIs e linguagem de consulta SPARQL, podem reduzir a complexidade de integraÃÃo de dados ao fazer uso de ligaÃÃes corretamente estabelecidas e descritas entre fontes.No entanto, a diﬁculdade para formulaÃÃo de consultas distribuÃdas tem sido um obstÃculo para aproveitar o potencial dessas tecnologias em virtude da autonomia, distribuiÃÃo e vocabulÃrio heterogÃneo das fontes de dados.Esse cenÃrio demanda mecanismos eﬁcientes para integraÃÃo de dados sobre Linked Data.Linked Data Mashups permitem aos usuÃrios executar consultas e integrar dados estruturados e vinculados na web.O presente trabalho propÃe duas arquiteturas de Linked Data Mashups:uma delas baseada no uso de mediadores e a outra baseada no uso de Linked Data Mashup Services (LIDMS). Um mÃdulo para execuÃÃo eﬁciente de planos de consulta federados sobre Linked Data foi desenvolvido e Ã um componente comum a ambas as arquiteturas propostas.A viabilidade do mÃdulo de execuÃÃo foi demonstrada atravÃs de experimentos. AlÃm disso, um ambiente Web para execuÃÃo de LIDMS tambÃm foi deﬁnido e implementado como contribuiÃÃes deste trabalho. / Semantic Web technologies like RDF model, URIs and SPARQL query language, can reduce the complexity of data integration by making use of properly established and described links between sources.However, the difﬁculty to formulate distributed queries has been a challenge to harness the potential of these technologies due to autonomy, distribution and vocabulary of heterogeneous data sources. This scenario demands effective mechanisms for integrating data on Linked Data.Linked Data Mashups allow users to query and integrate structured and linked data on the web. This work proposes two architectures of Linked Data Mashups: one based on the use of mediators and the other based on the use of Linked Data Mashup Services (LIDMS). A module for efﬁcient execution of federated query plans on Linked Data has been developed and is a component common to both proposed architectures.The execution module feasibility has been demonstrated through experiments. Furthermore, a LIDMS execution Web environment also has been deﬁned and implemented as contributions of this work. Read more Linked Data Mashups IntegraÃÃo de dados Consultas Federadas Data Integration Federated Queries Linked Data Mashups CIENCIA DA COMPUTACAO
104	Genômica translacional: integrando dados clínicos e biomoleculares / Translational genomics: integrating clinical and biomolecular data Newton Shydeo Brandão Miyoshi 06 February 2013 (has links) A utilização do conhecimento científico para promoção da saúde humana é o principal objetivo da ciência translacional. Para que isto seja possível, faz-se necessário o desenvolvimento de métodos computacionais capazes de lidar com o grande volume e com a heterogeneidade da informação gerada no caminho entre a bancada e a prática clínica. Uma barreira computacional a ser vencida é o gerenciamento e a integração dos dados clínicos, sócio-demográficos e biológicos. Neste esforço, as ontologias desempenham um papel essencial, por serem um poderoso artefato para representação do conhecimento. Ferramentas para gerenciamento e armazenamento de dados clínicos na área da ciência translacional que têm sido desenvolvidas, via de regra falham por não permitir a representação de dados biológicos ou por não oferecer uma integração com as ferramentas de bioinformática. Na área da genômica existem diversos modelos de bancos de dados biológicos (tais como AceDB e Ensembl), os quais servem de base para a construção de ferramentas computacionais para análise genômica de uma forma independente do organismo de estudo. Chado é um modelo de banco de dados biológicos orientado a ontologias, que tem ganhado popularidade devido a sua robustez e flexibilidade, enquanto plataforma genérica para dados biomoleculares. Porém, tanto Chado quanto os outros modelos de banco de dados biológicos não estão preparados para representar a informação clínica de pacientes. Este projeto de mestrado propõe a implementação e validação prática de um framework para integração de dados, com o objetivo de auxiliar a pesquisa translacional integrando dados biomoleculares provenientes das diferentes tecnologias omics com dados clínicos e sócio-demográficos de pacientes. A instanciação deste framework resultou em uma ferramenta denominada IPTrans (Integrative Platform for Translational Research), que tem o Chado como modelo de dados genômicos e uma ontologia como referência. Chado foi estendido para permitir a representação da informação clínica por meio de um novo Módulo Clínico, que utiliza a estrutura de dados entidade-atributo-valor. Foi desenvolvido um pipeline para migração de dados de fontes heterogêneas de informação para o banco de dados integrado. O framework foi validado com dados clínicos provenientes de um Hospital Escola e de um banco de dados biomoleculares para pesquisa de pacientes com câncer de cabeça e pescoço, assim como informações de experimentos de microarray realizados para estes pacientes. Os principais requisitos almejados para o framework foram flexibilidade, robustez e generalidade. A validação realizada mostrou que o sistema proposto satisfaz as premissas, levando à integração necessária para a realização de análises e comparações dos dados. / The use of scientific knowledge to promote human health is the main goal of translational science. To make this possible, it is necessary to develop computational methods capable of dealing with the large volume and heterogeneity of information generated on the road between bench and clinical practice. A computational barrier to be overcome is the management and integration of clinical, biological and socio-demographics data. In this effort, ontologies play a crucial role, being a powerful artifact for knowledge representation. Tools for managing and storing clinical data in the area of translational science that have been developed, usually fail due to the lack on representing biological data or not offering integration with bioinformatics tools. In the field of genomics there are many different biological databases (such as AceDB and Ensembl), which are the basis for the construction of computational tools for genomic analysis in an organism independent way. Chado is a ontology-oriented biological database model which has gained popularity due to its robustness and flexibility, as a generic platform for biomolecular data. However, both Chado as other models of biological databases are not prepared to represent the clinical information of patients. This project consists in the proposal, implementation and validation of a practical framework for data integration, aiming to help translational research integrating data coming from different omics technologies with clinical and socio-demographic characteristics of patients. The instantiation of the designed framework resulted in a computational tool called IPTrans (Integrative Platform for Translational Research), which has Chado as template for genomic data and uses an ontology reference. Chado was extended to allow the representation of clinical information through a new Clinical Module, which uses the data structure entity-attribute-value. We developed a pipeline for migrating data from heterogeneous sources of information for the integrated database. The framework was validated with clinical data from a School Hospital and a database for biomolecular research of patients with head and neck cancer. The main requirements were targeted for the framework flexibility, robustness and generality. The validation showed that the proposed system satisfies the assumptions leading to integration required for the analysis and comparisons of data. Read more Bancos de Dados Biológicos Integração de Dados Ontologias Pesquisa Translacional Biological Databases Data Integration Ontologies Translational Research
105	Integração de dados para analise de desempenho de poços de petroleo / Data integration for performance analysis of petroleum wells Carrillo Arturo, Naisa Veronica 04 July 2008 (has links) Orientadores: Jose Ricardo Pelaquim Mendes, Celso Kazuyuki Morooka / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecanica, Instituto de Geociencias / Made available in DSpace on 2018-08-12T14:10:01Z (GMT). No. of bitstreams: 1 CarrilloArturo_NaisaVeronica_M.pdf: 9285828 bytes, checksum: cea4b1d24498e3db795cf1baac36b0bb (MD5) Previous issue date: 2008 / Resumo: Neste trabalho é proposto um parâmetro, denominado de índice de desempenho do sistema, que permite estudar o desempenho de poços de petróleo. Um diferencial deste parâmetro é que ele utiliza dados reais e abundantes de campo que são medidos periodicamente. Tal índice permite, por exemplo, avaliar o desempenho e as tecnologias utilizadas nos poços. Usando este índice, verificou-se a influência da geometria do poço para um mesmo campo e uma mesma zona produtora, comparando o desempenho dos poços verticais, direcionais e horizontais. Comparou-se também o desempenho do tipo de contenção de areia para esse mesmo campo e essa mesma zona produtora. Os dados utilizados neste trabalho foram gentilmente fornecidos pela Petrobras. / Abstract: In this work a new parameter called the System Performance Index is proposed, which allows a more profound study of the performance of petroleum wells. An outstanding characteristic of this parameter is that it uses a large amount of field data measured periodically. This index allows the assessing of the performance and technologies used in the wells. This study presents a comparison of the performance of vertical, directional and horizontal wells. The sand control technologies used in the wells are also evaluated. Finally, the proposed parameter enables a practical analysis that can be implemented as a strategic tool for oilfield, performance and optimization studies. Data used in this work were kindly supplied by Petrobras. / Mestrado / Explotação / Mestre em Ciências e Engenharia de Petróleo Read more Poços de petroleo Desempenho Produtividade Petroleum wells Data integration Performance Productivity index
106	An event-based approach to process environmental data = Um enfoque baseado em eventos para processar dados ambientais / Um enfoque baseado em eventos para processar dados ambientais Koga, Ivo Kenji, 1981- 23 August 2018 (has links) Orientador: Claudia Maria Bauzer Medeiros / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-23T23:06:49Z (GMT). No. of bitstreams: 1 Koga_IvoKenji_D.pdf: 2109870 bytes, checksum: 7ac5400b2e71be3e15b3bdf5504e3adf (MD5) Previous issue date: 2013 / Resumo: O resumo poderá ser visualizado no texto completo da tese digital / Abstract: The complete abstract is available with the full electronic document. / Doutorado / Ciência da Computação / Doutor em Ciência da Computação Processamento de eventos (Computação) Event processing (Computer science)
107	[en] SEMANTIC DATA INTEGRATION WITH AN ONTOLOGY FEDERATION. / [pt] INTEGRAÇÃO SEMÂNTICA DE DADOS ATRAVÉS DE FEDERAÇÃO DE ONTOLOGIAS SANDRA APARECIDA DIAS 16 October 2006 (has links) [pt] O advento da WEB propiciou a disseminação de bases de dados distribuídas e heterogêneas. Por vezes, a resposta a uma consulta demanda o uso de várias destas bases. É necessário, então, algum nível de integração destas. A publicação dessas bases nem sempre segue um padrão semântico. Em função disso parece ser essencial existir um meio de relacionar os diferentes dados para satisfazer tais consultas. Este processo é comumente denominado de integração de dados. A comunidade de Banco de Dados tem conhecimento de métodos para dar conta desta integração no contexto de federações de Bancos de Dados heterogêneos. No entanto, atualmente existem descrições mais ricas e com mais possibilidades de semântica, tais como aquelas induzidas pelo conceito de ontologia. A comunidade de Banco de Dados tem considerado ontologias na solução do problema da integração de Banco de Dados. O alinhamento ou merge de ontologias são algumas das propostas conhecidas da comunidade de WEB semântica. Este trabalho propõe o uso de métodos de merge de ontologias como solução ao problema da construção de uma federação de ontologias como método integrador de fontes de dados. O trabalho inclui a implementação de um estudo de caso na ferramenta Protegé. Este estudo de caso permite discutir aspectos de escalabilidade e de aplicabilidade da proposta como uma solução tecnologicamente viável. / [en] The WEB has spread out the use of heterogeneous distributed databases. Sometimes, the answer to a query demands the use of more than one database. Some level of integration among these databases is desired. However, frequently, the bases were not designed according a unique semantic pattern. Thus, it seems essential to relate the different data, in the respective base, in order to provide an adequate answer to the query. The process of building this relationship is often called data integration. The Data Base community has acquired enough knowledge to deal with this in the context of Data Base Heterogeneous Federation. Nowadays, there are more expressive model descriptions, namely ontologies. The Data Base community has also considered ontologies as a tool to contribute as part of a solution to the data integration problem. The Semantic WEB community defined alignment or merge of ontologies as one of the possible solutions to the some of this integration problem. This work has the aim of using merge of ontologies methods as a mean to define the construction of a Federation of ontologies as a mean to integrate source of data. The dissertation includes a case study written in the Protegé tool. From this case study, a discussion follows on the scalability and applicability of the proposal as a feasible technological solution for data integration. Read more [pt] ONTOLOGIA [en] ONTOLOGY [pt] BANCO DE DADOS [en] DATABASE [pt] INTEGRACAO DE DADOS [en] DATA INTEGRATION [pt] FEDERACAO [en] FEDERATION
108	XAP Integration Zhu, Mingjie, Liu, Qinghua January 2006 (has links) Abstract This bachelor thesis will present the XAP tool integration project. Apart from presenting the survey of integration techniques that includes integration models and case tool models, we have conducted a comparison of these models. Then we reason about their applicability in the XAP setting. We apply this survey into the XAP tool integration project – integrate three tools in one IDE on data level. In this IDE, the user can create a new project and use these three tools freely in the new created project. The database among them is shared. Software Engineering Programvaruteknik
109	Data Integration: Techniques and Evaluation Hackl, Peter, Denk, Michaela January 2004 (has links) (PDF) Within the DIECOFIS framework, ec3, the Division of Business Statistics from the Vienna University of Economics and Business Administration and ISTAT worked together to find methods to create a comprehensive database of enterprise data required for taxation microsimulations via integration of existing disparate enterprise data sources. This paper provides an overview of the broad spectrum of investigated methodology (including exact and statistical matching as well as imputation) and related statistical quality indicators, and emphasises the relevance of data integration, especially for official statistics, as a means of using available information more efficiently and improving the quality of a statistical agency's products. Finally, an outlook on an empirical study comparing different exact matching procedures in the maintenance of Statistics Austria's Business Register is presented.
110	Integrace Big Data a datového skladu / Integration of Big Data and data warehouse Kiška, Vladislav January 2017 (has links) Master thesis deals with a problem of data integration between Big Data platform and enterprise data warehouse. Main goal of this thesis is to create a complex transfer system to move data from a data warehouse to this platform using a suitable tool for this task. This system should also store and manage all metadata information about previous transfers. Theoretical part focuses on describing concepts of Big Data, brief introduction into their history and presents factors which led to need for this new approach. Next chapters describe main principles and attributes of these technologies and discuss benefits of their implementation within an enterprise. Thesis also describes technologies known as Business Intelligence, their typical use cases and their relation to Big Data. Minor chapter presents main components of Hadoop system and most popular related applications. Practical part of this work consists of implementation of a system to execute and manage transfers from traditional relation database, in this case representing a data warehouse, to cluster of a few computers running a Hadoop system. This part also includes a summary of most used applications to move data into Hadoop and a design of database metadata schema, which is used to manage these transfers and to store transfer metadata. Read more

Search results