• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 64
  • 1
  • 1
  • Tagged with
  • 68
  • 68
  • 49
  • 49
  • 20
  • 12
  • 10
  • 10
  • 9
  • 9
  • 9
  • 8
  • 8
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Modelo navegacional dinâmico, para implementação da integração inter-estrutural de dados. / Dynamic navigational model for implementation of the data inter-structural integration.

José Gomes Neto 04 November 2016 (has links)
Na última década, observaram-se substanciais mudanças nos tipos de dados processados, quando comparados à definição convencional de dados estruturados. Neste contexto, sistemas computacionais que em sua maioria acessam bases de dados convencionais, centralizadas, que armazenam dados estruturados, necessitam cada vez mais acessarem e processarem também dados não estruturados, distribuídos e em grandes quantidades. Fatores tais como versatilidade em abrigar dados não estruturados, coexistência, integração e difusão de dados complexos a velocidades superiores as velocidades até então observadas, restringem, em determinadas situações, o uso dos modelos de dados convencionais. Dessa forma, nesta Tese é proposto e formalizado um modelo de dados pós relacional, baseado nos conceitos de grafos complexos, também denominados, Redes Complexas. Por intermédio da utilização do modelo de grafos, define-se uma forma de se implementar uma integração inter-estrutural de dados, ou seja, os tradicionais dados estruturados, com os mais recentemente utilizados dados não estruturados, tais como os dados multimídia. Tal integração envolve todas as transações presentes em um banco de dados, ou seja, consulta, inserção, atualização e exclusão de dados. A denominação dada a tal forma de trabalho e implementação foi Modelo Navegacional Dinâmico - MND. Esse modelo representa diferentes estruturas de dados e sobretudo, permite que essas diferentes estruturas coexistam de forma integrada, agregando à informação resultante maior completeza e abrangência. Portanto, o MND associa os benefícios da junção da estrutura das Redes Complexas ao contexto de dados não estruturados, sobretudo no que tange à integração resultante de dados com estruturas distintas, conferindo assim às aplicações que necessitam desta integração, melhoria no aproveitamento dos recursos. / Over the last decade several changes in data processing have been observed when compared to the conventional structured data definition. In such context, computational systems accessing centralized databases need to process large, distributed, non-structured data as well. Factors like versatility in hosting data, coexistence, integration and diffusion of such complex data at high speeds can be, in some cases, troublesome when using conventional data models. In this work a post-relational, graph-based (also known as Complex Network) model, is presented. Such model enables the integration of both structured data and non-structured data, such as multimedia, allowing such structures to coexist. This integration involves all transactions found in a database, such as select, insert, delete and update data. The name given to this form of work and implementation was Navigational Model Dynamic - MND. This model represents different data structures and above all, allows these different structures to coexist in an integrated way, adding to the resulting information greater completeness and comprehensiveness. Hence, MND harnesses the benefits of Complex Network and non-structured data providing all relational data handling already available in other databases but also integration and better use of resources.
42

Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas / Data integration in gene networks inference: evaluation of biological and topological features

Vicente, Fabio Fernandes da Rocha 02 May 2016 (has links)
Os componentes celulares não atuam sozinhos, mas sim em uma rede de interações. Neste sentido, é fundamental descobrir como os genes se relacionam e compreender a dinâmica do sistema biológico. Este conhecimento pode contribuir para o tratamento de doenças, para o melhoramento genético de plantas e aumento de produção agrícola, por exemplo. Muitas redes gênicas são desconhecidas ou apenas conhecidas parcialmente. Neste contexto, a inferência de Redes Gênicas surgiu como possível solução e tem por objetivo recuperar a rede a partir de dados de expressão gênica utilizando modelos probabilísticos. No entanto, um problema intrínseco da inferência de redes é formalmente descrito como maldição da dimensionalidade (a quantidade de variáveis é muito maior que a quantidade de amostras). No contexto biológico, este problema é ainda agravado pois é necessário lidar com milhares de genes e apenas um ou duas dezenas de amostras de dados de expressão. Assim, os modelos de inferência buscam contornar este problema propondo soluções que minimizem o erro de estimação. Nos modelos de predição ainda há muitos empates, isto é, apenas os dados de expressão não são suficientes para decidir pela interação correta entre os genes. Neste contexto, a proposta de integração de outros dados biológicos além do dado de expressão gênica surge como possível solução. No entanto, estes dados são heterogêneos: referem-se a interações físicas, relacionamentos funcionais, localização, dentre outros. Além disto são representados de diferentes formas: como dado quantitativo, qualitativo, como atributos nominais ou atributos ordinais. Algumas vezes organizados em estrutura hierárquica, em outras como um grafo e ainda como anotação descritiva. Além disto, não está claro como cada tipo de dado pode contribuir com a inferência e redução do erro dos modelos. Portanto, é fundamental buscar compreender a relação entre os dados biológicos disponíveis, bem como investigar como integrá-los na inferência. Assim, neste trabalho desenvolveu-se três metodologias de integração de dados e a contribuição de cada tipo foi analisada. Os resultados mostraram que o uso conjunto de dados de expressão e outros dados biológicos melhora a predição das redes. Também apontaram para diferença no potencial de redução do erro de acordo com o tipo de dado. Além disto, os resultados mostraram que o conhecimento da topologia da rede também reduz o erro além de inferir redes topologicamente coerentes com a topologia esperada / It is widely known that the cellular components do not act in isolation but through a network of interactions. In this sense, it is essential to discover how genes interact with each other and to understand the dynamics of the biological system. This knowledge can contribute for the treatment of diseases, contribute for plant breeding and increased agricultural production. In this context, the inference of Gene Networks (GNs) has emerged as a possible solution, studying how to recover the network from gene expression data through probabilistic models. However, a known problem of network inference is formally described as curse of dimensionality (the number of variables is much larger than the number of samples). In biological problems, it is even worse since there is only few samples and thousands of genes. However, there are still many ties found in the prediction models, that is, only the expression data are frequently not enough to decide the correct interaction between genes. In this context, data integration is proposed as a possible solution. However, the data are heterogeneous, refer to physical interactions and functional location. They are represented in different ways as quantitative or qualitative information, being nominal or ordinal attributes. Sometimes organized in hierarchical structure or as a graph. In addition, it is unclear how each type of data can contribute to the inference and reduction of the error. Therefore, it is very important to understand the relationship between the biological information available. Also, it is important to investigate how to integrate them in the inference algorithm. Thus, this work has developed three data integration methodologies and also, the contribution of biological information was analyzed. The results showed that the combined use of expression data and biological information improves the inference. Moreover, the results shows distinct behaviour of distinct data in error reduction. Also, experiments that include topological features into the models, shows that the knowledge of the network topology can increase the corrctness of the inferred newtorks
43

Pareamento privado de atributos no contexto da resolução de entidades com preservação de privacidade.

NÓBREGA, Thiago Pereira da. 10 September 2018 (has links)
Submitted by Emanuel Varela Cardoso (emanuel.varela@ufcg.edu.br) on 2018-09-10T19:58:50Z No. of bitstreams: 1 THIAGO PEREIRA DA NÓBREGA – DISSERTAÇÃO (PPGCC) 2018.pdf: 3402601 bytes, checksum: b1a8d86821a4d14435d5adbdd850ec04 (MD5) / Made available in DSpace on 2018-09-10T19:58:50Z (GMT). No. of bitstreams: 1 THIAGO PEREIRA DA NÓBREGA – DISSERTAÇÃO (PPGCC) 2018.pdf: 3402601 bytes, checksum: b1a8d86821a4d14435d5adbdd850ec04 (MD5) Previous issue date: 2018-05-11 / A Resolução de entidades com preservação de privacidade (REPP) consiste em identificar entidades (e.g. Pacientes), armazenadas em bases de dados distintas, que correspondam a um mesmo objeto do mundo real. Como as entidades em questão possuem dados privados (ou seja, dados que não podem ser divulgados) é fundamental que a tarefa de REPP seja executada sem que nenhuma informação das entidades seja revelada entre os participantes (proprietários das bases de dados), de modo que a privacidade dos dados seja preservada. Ao final da tarefa de REPP, cada participante identifica quais entidades de sua base de dados estão presentes nas bases de dados dos demais participantes. Antes de iniciar a tarefa de REPP os participantes devem concordar em relação à entidade (em comum), a ser considerada na tarefa, e aos atributos das entidades a serem utilizados para comparar as entidades. Em geral, isso exige que os participantes tenham que expor os esquemas de suas bases de dados, compartilhando (meta-) informações que podem ser utilizadas para quebrar a privacidade dos dados. Este trabalho propõe uma abordagem semiautomática para identificação de atributos similares (pareamento de atributos) a serem utilizados para comparar entidades durante a REPP. A abordagem é inserida em uma etapa preliminar da REPP (etapa de Apresentação) e seu resultado (atributos similares) pode ser utilizado pelas etapas subsequentes (Blocagem e Comparação). Na abordagem proposta a identificação dos atributos similares é realizada utilizando-se representações dos atributos (Assinaturas de Dados), geradas por cada participante, eliminando a necessidade de divulgar informações sobre seus esquemas, ou seja, melhorando a segurança e privacidade da tarefa de REPP. A avaliação da abordagem aponta que a qualidade do pareamento de atributos é equivalente a uma solução que não considera a privacidade dos dados, e que a abordagem é capaz de preservar a privacidade dos dados. / The Privacy Preserve Record Linkage (PPRL) aims to identify entities, that can not have their information disclosed (e.g., Medical Records), which correspond to the same real-world object across different databases. It is crucial to the PPRL tasks that it is executed without revealing any information between the participants (database owners) during the PPRL task, to preserve the privacy of the original data. At the end of a PPRL task, each participant identifies which entities in its database are present in the databases of the other participants. Thus, before starting the PPRL task, the participants must agree on the entity and its attributes, to be compared in the task. In general, this agreement requires that participants have to expose their schemas, sharing (meta-)information that can be used to break the privacy of the data. This work proposes a semiautomatic approach to identify similar attributes (attribute pairing) to identify the entities attributes. The approach is inserted as a preliminary step of the PPRL (Handshake), and its result (similar attributes) can be used by subsequent steps (Blocking and Comparison). In the proposed approach, the participants generate a privacy-preserving representation (Data Signatures) of the attributes values that are sent to a trusted third-party to identify similar attributes from different data sources. Thus, by eliminating the need to share information about their schemas, consequently, improving the security and privacy of the PPRL task. The evaluation of the approach points out that the quality of attribute pairing is equivalent to a solution that does not consider data privacy, and is capable of preserving data privacy.
44

Integração de dados de expressão gênica global em tuberculose / Integration of data from global gene expression in tuberculosis

Ferreira, Carlos Diego de Andrade January 2011 (has links)
Submitted by Alessandra Portugal (alessandradf@ioc.fiocruz.br) on 2013-09-20T19:24:43Z No. of bitstreams: 1 Carlos Diego de Andrade Ferreira_Dissertação.pdf: 5365759 bytes, checksum: f39b0a04c2239947b512e3230e062333 (MD5) / Made available in DSpace on 2013-09-20T19:24:43Z (GMT). No. of bitstreams: 1 Carlos Diego de Andrade Ferreira_Dissertação.pdf: 5365759 bytes, checksum: f39b0a04c2239947b512e3230e062333 (MD5) Previous issue date: 2011 / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Vice Direção de Ensino, Informação e Comunicação. Rio de Janeiro, RJ, Brasil. / A tuberculose (TB) continua sendo uma das principais doenças associadas à morbidade e mortalidade no mundo, correspondendo a 1,7 milhões de mortes somente em 2009. Cerca de um terço da população mundial está infectada com seu agente etiológico, o Mycobacterium tuberculosis. Doenças infecciosas como a TB levam a modulações na expressão gênica do hospedeiro, que podem ser detectadas globalmente por ensaios de microarranjos de DNA. Estudos recentes in silico das respostas imunológicas moduladas em estudos de expressão gênica globais foram capazes de observar a diferença de expressão gênica de biomarcadores com potencial de diagnóstico e ferramentas de prognóstico na evolução da fase latente da tuberculose para a forma ativa da doença. Entretanto, até o momento nenhuma integração de diferentes estudos foi realizada. Os dados de microarranjos de DNA precisam ser submetidos a bancos de dados públicos, como o Gene Expression Omnibus (GEO), antes da publicação em artigos científicos, tornando-os disponíveis para uso por outros pesquisadores. A reanálise desses dados pode levar a novas descobertas, permitindo ainda a integração entre dados de diferentes experimentos ou até gerados em diferentes plataformas, como Affymetrix e Agilent. Nesta dissertação, onze conjuntos de dados referentes à infecção por M. tuberculosis, in vivo e in vitro, em hospedeiros humanos e murinos foram selecionados no GEO. Esses conjuntos de dados foram reanalisados e integrados para determinar quais os principais processos biológicos e vias de regulação gênica que estavam sofrendo alterações durante o processo infeccioso. Foram constatados que os processos biológicos relacionados com a resposta imune do hospedeiro, além de vias metabólicas relacionadas aos lisossomos, ao processo de apoptose, a receptores para ligação de citocinas, a receptores tipo NOD e a receptores tipo toll apresentavam alteração significativa nos conjuntos de dados reanalisados. Esses resultados apontam para utilização desses genes como biomarcadores de infecção e progressão a doença. Esses biomarcadores podem ser úteis no desenvolvimento de testes visando o diagnóstico e o prognóstico de tuberculose, bem como podem servir como alvos para futuras pesquisas no desenvolvimento de vacinas. / Tuberculosis (TB) remains a major disease associated with morbidity and mortality worldwide, accounting for 1.7 million deaths only in 2009. About a third of the world population is infected with its causative agent, Mycobacterium tuberculosis. Infectious diseases such as TB lead to modulation of host gene expression, which can generally be detected by DNA microarray assays. Recent studies of immune responses in silico modulated in global gene expression studies were able to observe the difference in gene expression of biomarkers with potential as diagnostic and prognostic tools in the evolution of the latent stage of tuberculosis to active disease. However, until now no integration of different studies has been performed. The DNA microarray data must be submitted to public databases, such as Gene Expression Omnibus (GEO), before the publication of scientific articles, making them available for use by other researchers. A reanalysis of these data can lead to new discoveries, while allowing the integration of data from different experiments or even generated in different platforms such as Affymetrix and Agilent. In this thesis, eleven data sets describing in vivo and in vitro infection with M. tuberculosis in human or murine hosts were selected in GEO. These data sets were reviewed and integrated to determine which biological processes and pathways were undergoing changes during the infectious process. It has been found that biological processes related to the host immune response, and metabolic pathways related to lysosomes, the process of apoptosis, cytokines-cytokines binding receptors, NOD like receptors and toll like receptors had a significant change in reanalyzed data sets. These results points to the use of these genes as biomarkers of infection and progression to disease while may serve as diagnostic and prognostic tests as well as targets for future research concerning the development of vaccines.
45

Análise da utilização da manufatura virtual no processo de desenvolvimento de produtos / Analysis of virtual manufacturing utilization in products development process

Mariella Consoni Florenzano Souza 17 June 2005 (has links)
A manufatura virtual representa uma abordagem emergente que as empresas podem adotar para melhorar seus processos de desenvolvimento de produtos, introduzindo novos produtos no mercado mais rapidamente e a um custo apropriado. A ideia fundamental é criar um ambiente integrado e sintético, composto por um conjunto de ferramentas e sistemas de software, tais como realidade virtual e simulação para apoiar esses processos. O objetivo deste trabalho é analisar a utilização da manufatura virtual no processo de desenvolvimento de produtos em termos de limitações existentes que podem ser superadas, proposta da manufatura virtual, benefícios, e desafios encontrados para sua aplicação. Para a realização da análise, foi desenvolvido um modelo para orientar a aplicação da manufatura virtual no processo de desenvolvimento de produtos que considera: as atividades do desenvolvimento de produtos que podem ser apoiadas por sistemas de software da manufatura virtual; os tipos de sistemas e suas funcionalidades; e alternativas de formatos neutros para habilitar a interoperabilidade de dados. O trabalho foi desenvolvido através da realização de estudos de caso, que forneceram informações para a análise da utilização da manufatura virtual e para a geração do modelo proposto. / Virtual manufacturing represents the emerging approach the enterprises can use to improve their processes, introducing new products more quickly in the market in a cost effective way. The fundamental idea is to create an integrated and synthetic environment, composed of software tools and systems such as virtual reality and simulation to support those processes. The purpose of this work is to analyze the utilization of virtual manufacturing in the product development process regarding current limitations that can be overcome by virtual manufacturing, its proposal, benefits and challenges for its application. For the analysis accomplishment, a product development model in virtual manufacturing environment was developed which considers: the product development activities that can be supported by virtual manufacturing systems; the system types and their functionalities; and neutral formats alternatives to enable data interoperability. The research was done by the accomplishment of case studies that provided information to the impact analysis and to the model development.
46

Grade estatística = uma abordagem para ampliar o potencial analítico de dados censitários / Statistical grid : an approach to extend the analytical power of census data

Bueno, Maria do Carmo Dias, 1962- 26 August 2018 (has links)
Orientador: Álvaro de Oliveira D'Antona / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Filosofia e Ciências Humanas / Made available in DSpace on 2018-08-26T05:40:47Z (GMT). No. of bitstreams: 1 Bueno_MariadoCarmoDias_D.pdf: 7981716 bytes, checksum: 356dc960778fb4aecc233ad1c7da89f7 (MD5) Previous issue date: 2014 / Resumo: Dois problemas relacionados com a utilização de dados agregados são bastante conhecidos e citados na literatura. O primeiro deles diz respeito à não coincidência entre as unidades para as quais os dados são disponibilizados e aquelas para as quais os dados são necessários; o segundo está relacionado com a estabilidade temporal das unidades de agregação. Como solução para esses problemas este trabalho propõe a utilização de células regulares dispostas em um sistema de grade para a agregação e disseminação de dados censitários, denominada "grade estatística". As células desta grade têm pequenas dimensões, podendo ser consideradas como "tijolos" que se juntam para formar qualquer recorte espacial desejado e não se alteram ao longo do tempo. A utilização de dados agregados em unidades de pequenas dimensões proporciona também um aumento do potencial analítico. Foram selecionadas duas unidades da federação ¿ Pará e São Paulo - para a criação da metodologia de geração da grade estatística e para a execução de aplicações práticas. A abordagem selecionada é híbrida, mesclando agregação e desagregação. A primeira utiliza os microdados censitários associados aos seus atributos de localização para a agregação dos dados; a segunda utiliza métodos espaciais e/ou estatísticos juntamente com dados secundários para a realocação espacial dos dados. Os resultados obtidos demonstraram que a abordagem híbrida é viável e deve ser utilizada quando existe uma grande variação na qualidade dos dados e a área de estudo abrange grandes extensões. Os dados obtidos apresentaram uma boa qualidade e a sua utilização permitiu a execução de análises com um maior nível de desagregação espacial, além de facilitar a integração de dados agregados em unidades geográficas diferentes / Abstract: Two problems associated with the use of aggregate data are well known and reported in the literature. The first concerns the mismatch between those units for which data is available and those for which data is needed; the second is related to the temporal stability of the aggregation units. As a solution to these problems, this study proposes the use of regular cells arranged in a grid-like pattern, called a "statistical grid," to aggregate and disseminate census data. The cells of this grid have small dimensions; they may be considered as "bricks" that come together to fill any desired spatial area and remain unchanged over time. The use of aggregate data in units of small dimensions also provides an increased potential for analysis. Two states ¿ Pará and São Paulo ¿ were selected to create a methodology for generating a statistical grid and to implement practical applications. A hybrid approach was selected, merging aggregation and disaggregation approaches. The first uses the census microdata associated with its location attributes; the second uses spatial and/or statistical methods and ancillary data. The results demonstrated that the hybrid approach is viable and should be used in the event of a large variation in data quality and when the study area encompasses large expanses. The data obtained are of good fit and their use enabled the execution of analysis with a higher level of spatial disaggregation, in addition to facilitating the integration of data available in different geographical units / Doutorado / Demografia / Doutora em Demografia
47

Systems Integration Tool: uma ferramenta para integração e visualização de dados em larga escala e sua aplicação em cana-de-açúcar / Systems Integration Tool: an integration and visualization tool for big data and their application on sugarcane

Piovezani, Amanda Rusiska 14 December 2017 (has links)
As respostas das plantas ao ambiente são orquestradas por fatores genéticos, bem como sua flexibilidade metabólica, uma vez que essas são sésseis. As respostas das plantas ao ambiente são regidas por fatores genéticos, bem como sua flexibilidade metabólica, uma vez que essas são sésseis. A forma com que os padrões gênicos e metabólicos redundam entre as células, refletem nos diferentes níveis organizacionais (célula, tecido, órgão e até o organismo como um todo). Por isso, para entendermos as respostas das plantas em determinados estágios de desenvolvimento ou condições é importante explorarmos ao máximo os diferentes níveis de regulação. Neste sentido, tem crescido a quantidade de dados biológicos obtidos através de métodos que produzem dados em larga escala, visando um estudo de forma sistêmica. Embora existam várias ferramentas para a integração de dados biológicos, elas estão desenvolvidas para organismos modelos, inviabilizando análises para outros, como a cana-de-açúcar, que possui vários dados biológicos disponíveis, mas com genoma complexo e incompleto. Tendo em vista a importância econômica da cana-de-açúcar e o interesse em entendermos o processo de degradação da parede celular, desenvolvemos a ferramenta SIT (Systems Integration Tool), para integração dos dados disponíveis (transcritoma, proteoma e atividade enzimática). A implementação da ferramenta foi realizada utilizando as linguagens de programação Perl e Java. SIT possui uma interface gráfica, podendo ser executada localmente, a qual possibilita a integração de até seis diferentes conjuntos de dados. A visualização do resultado é obtida na forma de redes complexas, permitindo ao usuário a visualização e edição dinâmica da integração. O uso da SIT permitiu no presente estudo, entre outros, a identificação de elementos chave na degradação da parede celular, presentes nos diferentes conjuntos de dados explorados, apontando portanto, potenciais alvos de estudos experimentais. SIT pode ser aplicada à diferentes conjuntos de dados, a qual poderá auxiliar em estudos futuros em várias áreas do conhecimento. / Plant are sessile organisms, and their responses to environmental stimuli are orchestrated by genetic factors, as well as by their metabolic flexibility. Inside the cell, there are genetic and metabolic patterns responsible for cell redundancy, and that reflects on different organizational levels (cell, tissue, organ, until a whole organism). Thus, to understand plant responses to certain conditions, it is important to understanding different regulatory levels. Recently, there was a large increase in availability of biological data. This happened due to the advance in next-generation sequencing techniques, which now enables more profound system biology studies. Despite the availability of several integration tools for analysis of biological data, these were developed for organism modeling. However, such tools are partially effective for sugarcane, for which there are large amounts of data, but has incomplete genome data. Due to the economic importance of sugarcane and aiming at understanding cell wall degradation process, we develop the software Systems Integration Tool (SIT). The tool integrates available data (transcriptomics, proteomics, and enzymatic activity). The implementation was performed in Perl and Java. SIT has a graphical interface, standalone execution, enabling integration until six layers of data. Integration results are generated as complex networks, allowing the users to visualize and dynamically edit the networks. The present study allowed the identification of key cell wall regulatory elements present on different data sets pointing out to potential targets for experimental validation. SIT can be applied to various data sets being capable of helping future studies in different areas of knowledge.
48

Desenvolvimento da plataforma CaneRegNet para anotação funcional e análises do transcriptoma da cana-de-açúcar / Development of CaneRegNet platform for functional annotation and analysis of sugarcane transcriptome

Nishiyama Junior, Milton Yutaka 13 April 2015 (has links)
A identificação de genes alvos, vias de sinalização e vias metabólicas para melhoramento de cana-de-açúcar associados a características de interesse, ainda são pouco conhecidos e estudados. Alguns estudos do transcriptoma através de plataformas de microarranjo têm buscado identificar listas de genes, para experimentos tecido- específico ou submetidos a condições de estresse bióticos e abióticos. Estudos pontuais destes dados tem sido associados a vias metabólicas ou vias de sinalização já descritas na literatura, de forma a identificar alterações relacionadas a padrões de expressão gênica. Porém, estas relações em cana-de-açúcar são pouco conhecidas e estudadas. O estudo e entendimento de cana-de-açúcar por meio da diversidade genética e de sua adaptação ao ambiente é um grande desafio, principalmente pela ausência de um genoma sequenciado e por possuir um genoma complexo. Apresentamos nossos resultados para tentar superar tais limitações e desafios para estudos de expressão gênica. Foram desenvolvidas metodologias para anotação funcional do transcriptoma, centradas na transferência de anotação, identificação de vias metabólicas e enzimas pelo método de similaridade bi-direcional, predição de genes full-length, análises de ortologia e desenho de oligonucleotídeos para microarranjos customizados, resultando no ORFeoma de cana-de-açúcar, na identificação e classificação de famílias de fatores de transcrição e identificação de genes ortólogos entre gramíneas. Além disso, desenvolvemos uma plataforma para processamento e análise automatizada de experimentos por microarranjo, para armazenamento, recuperação e integração com a anotação funcional. Adicionalmente desenvolvemos e implementamos métodos para seleção de genes diferencialmente e significativamente expressos, e abordagens para análise de enriquecimento de categorias, e escores de atividade de vias metabólicas. De forma a integrar a anotação funcional do transcriptoma aos estudos por expressão gênica, desenvolvemos a plataforma CaneRegNet e uma interface para integração desta rede de dados biológicos e conhecimentos, composta por aplicativos para consulta e prospecção de dados por análises de agrupamento e correlação entre experimentos de microarranjo, possibilitando a geração de novas hipóteses e predições dentro da organização da regulação celular. / The identification of target genes, metabolic and signaling pathways associated with characteristics of interest to the sugarcane improvement are still poorly known and studied. Some transcritptome studies through microarray platforms has tried to identify lists of genes, for tissue-specific experiments or subjected to conditions of biotic and abiotic stress. In the literature specific studies of these data has already been associated with metabolic or signaling pathway, in order to identify changes in these tracks related to patterns of gene expression. However, these relations are still little know and generally defined slightly. The study and understanding of sugarcane by means of genetic diversity and its adaptation to the environment is a major challenge, mainly due to the absence of a sequenced genome and by your complex genome. We present our results to surpass this barrier e challenges for the study of gene expression. Methodologies were developed for the transcriptome functional annotation, focused on the annotation transfer, identification of metabolic pathways and enzymes by the bi- directional method; prediction of full-length genes; ortology analysis and probe design for customized microarrays, resulting in the sugarcane ORFeome, the identification and classification of transcription factor families and identification of ortholog genes between grasses. Besides that, we have developed a plataform for automated processing and analysis for microarray experiments, to store, retrieve and integration with the functional annotation. Additionally, we have developed and implemented methods for identification of differentially and significantly expressed genes, and approaches for over-represented analysis and functional class scoring (FCS). To integrate the functional annotation and the studies by gene expression profile, we have developed the CaneRegNet platform and an interface to integrate this network of biological data and knowledge, composed by searching and data mining tools for clustering and correlations between microarray experiments, enabling the generation of new hypothesis and predictions around the organization of cellular regulation.
49

Uma abordagem de integração de dados de redes PPI e expressão gênica para priorizar genes relacionados a doenças complexas / An integrative approach combining PPI networks and gene expression to prioritize genes related to complex diseases

Simões, Sérgio Nery 30 June 2015 (has links)
Doenças complexas são caracterizadas por serem poligênicas e multifatoriais, o que representa um desafio em relação à busca de genes relacionados a elas. Com o advento das tecnologias de sequenciamento em larga escala do genoma e das medições de expressão gênica (transcritoma), bem como o conhecimento de interações proteína-proteína, doenças complexas têm sido sistematicamente investigadas. Particularmente, baseando-se no paradigma Network Medicine, as redes de interação proteína-proteína (PPI -- Protein-Protein Interaction) têm sido utilizadas para priorizar genes relacionados às doenças complexas segundo suas características topológicas. Entretanto, as redes PPI são afetadas pelo viés da literatura, em que as proteínas mais estudadas tendem a ter mais conexões, degradando a qualidade dos resultados. Adicionalmente, métodos que utilizam somente redes PPI fornecem apenas resultados estáticos e não-específicos, uma vez que as topologias destas redes não são específicas de uma determinada doença. Neste trabalho, desenvolvemos uma metodologia para priorizar genes e vias biológicas relacionados à uma dada doença complexa, através de uma abordagem integrativa de dados de redes PPI, transcritômica e genômica, visando aumentar a replicabilidade dos diferentes estudos e a descoberta de novos genes associados à doença. Após a integração das redes PPI com dados de expressão gênica, aplicamos as hipóteses da Network Medicine à rede resultante para conectar genes sementes (relacionados à doença, definidos a partir de estudos de associação) através de caminhos mínimos que possuam maior co-expressão entre seus genes. Dados de expressão em duas condições (controle e doença) são usados separadamente para obter duas redes, em que cada nó (gene) dessas redes é pontuado segundo fatores topológicos e de co-expressão. Baseado nesta pontuação, desenvolvemos dois escores de ranqueamento: um que prioriza genes com maior alteração entre suas pontuações em cada condição, e outro que privilegia genes com a maior soma destas pontuações. A aplicação do método a três estudos envolvendo dados de expressão de esquizofrenia recuperou com sucesso genes diferencialmente co-expressos em duas condições, e ao mesmo tempo evitou o viés da literatura. Além disso, houve uma melhoria substancial na replicação dos resultados pelo método aplicado aos três estudos, que por métodos convencionais não alcançavam replicabilidade satisfatória. / Complex diseases are characterized as being poligenic and multifactorial, so this poses a challenge regarding the search for genes related to them. With the advent of high-throughput technologies for genome sequencing and gene expression measurements (transcriptome), as well as the knowledge of protein-protein interactions, complex diseases have been sistematically investigated. Particularly, Protein-Protein Interaction (PPI) networks have been used to prioritize genes related to complex diseases according to its topological features. However, PPI networks are affected by ascertainment bias, in which the most studied proteins tend to have more connections, degrading the quality of the results. Additionally, methods using only PPI networks can provide just static and non-specific results, since the topologies of these networks are not specific of a given disease. In this work, we developed a methodology to prioritize genes and biological pathways related to a given complex disease, through an approach that integrates data from PPI networks, transcriptomics and genomics, aiming to increase replicability of different studies and to discover new genes associated to the disease. The methodology integrates PPI network and gene expression data, and then applies the Network Medicine Hypotheses to the resulting network in order to connect seed genes (obtained from association studies) through shortest paths possessing larger coexpression among their genes. Gene expression data in two conditions (control and disease) are used to obtain two networks, where each node (gene) in these networks is rated according to topological and coexpression aspects. Based on this rating, we developed two ranking scores: one that prioritizes genes with the largest alteration between their ratings in each condition, and another that favors genes with the greatest sum of these scores. The application of this method to three studies involving schizophrenia expression data successfully recovered differentially co-expressed gene in two conditions, while avoiding the ascertainment bias. Furthermore, when applied to the three studies, the method achieved a substantial improvement in replication of results, while other conventional methods did not reach a satisfactory replicability.
50

AcCORD: um modelo colaborativo assíncrono para a reconciliação de dados / AcCORD: asynchronous collaborative data reconciliation model

Almeida, Dayse Silveira de 28 April 2016 (has links)
Reconciliação é o processo de prover uma visão consistente de dados provenientes de várias fontes de dados. Embora existam na literatura trabalhos voltados à proposta de soluções de reconciliação baseadas em colaboração assíncrona, o desafio de reconciliar dados quando vários usuários colaborativos trabalham de forma assíncrona sobre as mesmas cópias locais de dados, compartilhando somente eventualmente as suas decisões de integração particulares, tem recebido menos atenção. Nesta tese de doutorado investiga-se esse desafio, por meio da proposta do modelo AcCORD (Asynchronous COllaborative data ReconcIliation moDel). AcCORD é um modelo colaborativo assíncrono para reconciliação de dados no qual as atualizações dos usuários são mantidas em um repositório de operações na forma de dados de procedência. Cada usuário tem o seu próprio repositório para armazenar a procedência e a sua própria cópia das fontes. Ou seja, quando inconsistências entre fontes importadas são detectadas, o usuário pode tomar decisões de integração para resolvê-las de maneira autônoma, e as atualizações que são executadas localmente são registradas em seu próprio repositório. As atualizações são compartilhadas entre colaboradores quando um usuário importa as operações dos repositórios dos demais usuários. Desde que diferentes usuários podem ter diferentes pontos de vista para resolver o mesmo conflito, seus repositórios podem estar inconsistentes. Assim, o modelo AcCORD também inclui a proposta de diferentes políticas de reconciliação multiusuário para resolver conflitos entre repositórios. Políticas distintas podem ser aplicadas por diferentes usuários para reconciliar as suas atualizações. Dependendo da política aplicada, a visão final das fontes importadas pode ser a mesma para todos os usuários, ou seja, um única visão global integrada, ou resultar em distintas visões locais para cada um deles. Adicionalmente, o modelo AcCORD também incorpora um método de propagação de decisões de integração, o qual tem como objetivo evitar que um usuário tome decisões inconsistentes a respeito de um mesmo conflito de dado presente em diferentes fontes, garantindo um processo de reconciliação multiusuário mais efetivo. O modelo AcCORD foi validado por meio de testes de desempenho que avaliaram as políticas propostas, e por entrevistas a usuários que avaliaram não somente as políticas propostas mas também a qualidade da reconciliação multiusuário. Os resultados obtidos demonstraram a eficiência e a eficácia do modelo proposto, além de sua flexibilidade para gerar uma visão integrada ou distintas visões locais. As entrevistas realizadas demonstraram diferentes percepções dos usuários quanto à qualidade do resultado provido pelo modelo AcCORD, incluindo aspectos relacionados à consistência, aceitabilidade, corretude, economia de tempo e satisfação. / Reconciliation is the process of providing a consistent view of the data imported from different sources. Despite some efforts reported in the literature for providing data reconciliation solutions with asynchronous collaboration, the challenge of reconciling data when multiple users work asynchronously over local copies of the same imported data has received less attention. In this thesis we investigate this challenge. We propose AcCORD, an asynchronous collaborative data reconciliation model. It stores users integration decision in logs, called repositories. Repositories keep data provenance, that is, the operations applied to the data sources that led to the current state of the data. Each user has her own repository for storing the provenance. That is, whenever inconsistencies among imported sources are detected, the user may autonomously take decisions to solve them, and integration decisions that are locally executed are registered in her repository. Integration decisions are shared among collaborators by importing each others repositories. Since users may have different points of view, repositories may also be inconsistent. Therefore, AcCORD also introduces several policies that can be applied by different users in order to solve conflicts among repositories and reconcile their integration decisions. Depending on the applied policy, the final view of the imported sources may either be the same for all users, that is, a single integrated view, or result in distinct local views for each of them. Furthermore, AcCORD encompasses a decision integration propagation method, which is aimed to avoid that a user take inconsistent decisions over the same data conflict present in different sources, thus guaranteeing a more effective reconciliation process. AcCORD was validated through performance tests that investigated the proposed policies and through users interviews that investigated not only the proposed policies but also the quality of the multiuser reconciliation. The results demonstrated the efficiency and efficacy of AcCORD, and highlighted its flexibility to generate a single integrated view or different local views. The interviews demonstrated different perceptions of the users with regard to the quality of the result provided by AcCORD, including aspects related to consistency, acceptability, correctness, time-saving and satisfaction.

Page generated in 0.1038 seconds