Global ETD Search

231	Access control and inference problem in data integration systems / Problème d'inférence et contrôle d'accès dans les systèmes d'intégration de données Haddad, Mehdi 01 December 2014 (has links) Dans cette thèse nous nous intéressons au contrôle d’accès dans un système issu d’une intégration de données. Dans un système d’intégration de données un médiateur est défini. Ce médiateur a pour objectif d’offrir un point d’entrée unique à un ensemble de sources hétérogènes. Dans ce type d’architecture, l’aspect sécurité, et en particulier le contrôle d’accès, pose un défi majeur. En effet, chaque source, ayant été construite indépendamment, définit sa propre politique de contrôle d’accès. Le problème qui émerge de ce contexte est alors le suivant : "Comment définir une politique représentative au niveau du médiateur et qui permet de préserver les politiques des sources de données impliquées dans la construction du médiateur?" Préserver les politiques des sources de données signifie qu’un accès interdit au niveau d’une source doit également l’être au niveau du médiateur. Aussi, la politique du médiateur doit préserver les données des accès indirects. Un accès indirect consiste à synthétiser une information sensible en combinant des informations non sensibles et les liens sémantiques entre ces informations. Détecter tous les accès indirects dans un système est appelé problème d’inférence. Dans ce manuscrit, nous proposons une méthodologie incrémentale qui permet d’aborder le problème d’inférence dans un contexte d’intégration de données. Cette méthodologie est composée de trois phases. La première, phase de propagation, permet de combiner les politiques sources et ainsi générer une politique préliminaire au niveau médiateur. La deuxième phase, phase de détection, caractérise le rôle que peuvent jouer les relations sémantiques entre données afin d’inférer une information confidentielle. Par la suite, nous introduisant, au sein de cette phase, une approche basée sur les graphes afin d’énumérer tous les accès indirects qui peuvent induire l’accès à une information sensible. Afin de remédier aux accès indirects détectés nous introduisons la phase de reconfiguration qui propose deux solutions. La première solution est mise en œuvre au niveau conceptuel. La seconde solution est mise en œuvre lors de l’exécution. / In this thesis we are interested in controlling the access to a data integration system. In a data integration system, a mediator is defined. This mediator aims at providing a unique entry point to several heterogeneous sources. In this kind of architecture security aspects and access control in particular represent a major challenge. Indeed, every source, designed independently of the others, defines its own access control policy. The problem is then: "How to define a representative policy at the mediator level that preserves sources’ policies?" Preserving the sources’ policies means that a prohibited access at the source level should also be prohibited at the mediator level. Also, the policy of the mediator needs to protect data against indirect accesses. An indirect access occurs when one could synthesize sensitive information from the combination of non sensitive information and semantic constraints. Detecting all indirect accesses in a given system is referred to as the inference problem. In this manuscript, we propose an incremental methodology able to tackle the inference problem in a data integration context. This methodology has three phases. The first phase, the propagation phase, allows combining source policies and therefore generating a preliminary policy at the mediator level. The second phase, the detection phase, characterizes the role of semantic constraints in inducing inference about sensitive information. We also introduce in this phase a graph-based approach able to enumerate all indirect access that could induce accessing sensitive information. In order to deal with previously detected indirect access, we introduce the reconfiguration phase which provides two solutions. The first solution could be implemented at design time. The second solution could be implemented at runtime. Informatique Sécurité informatique Controle d'accès Intégration de données Problème dinférence Intégration de politique d'autorisation Information Technology Data security Access control Data integration Inference problem Authorization policy integration 005.807 2
232	Desenvolvimento da plataforma CaneRegNet para anotação funcional e análises do transcriptoma da cana-de-açúcar / Development of CaneRegNet platform for functional annotation and analysis of sugarcane transcriptome Nishiyama Junior, Milton Yutaka 13 April 2015 (has links) A identificação de genes alvos, vias de sinalização e vias metabólicas para melhoramento de cana-de-açúcar associados a características de interesse, ainda são pouco conhecidos e estudados. Alguns estudos do transcriptoma através de plataformas de microarranjo têm buscado identificar listas de genes, para experimentos tecido- específico ou submetidos a condições de estresse bióticos e abióticos. Estudos pontuais destes dados tem sido associados a vias metabólicas ou vias de sinalização já descritas na literatura, de forma a identificar alterações relacionadas a padrões de expressão gênica. Porém, estas relações em cana-de-açúcar são pouco conhecidas e estudadas. O estudo e entendimento de cana-de-açúcar por meio da diversidade genética e de sua adaptação ao ambiente é um grande desafio, principalmente pela ausência de um genoma sequenciado e por possuir um genoma complexo. Apresentamos nossos resultados para tentar superar tais limitações e desafios para estudos de expressão gênica. Foram desenvolvidas metodologias para anotação funcional do transcriptoma, centradas na transferência de anotação, identificação de vias metabólicas e enzimas pelo método de similaridade bi-direcional, predição de genes full-length, análises de ortologia e desenho de oligonucleotídeos para microarranjos customizados, resultando no ORFeoma de cana-de-açúcar, na identificação e classificação de famílias de fatores de transcrição e identificação de genes ortólogos entre gramíneas. Além disso, desenvolvemos uma plataforma para processamento e análise automatizada de experimentos por microarranjo, para armazenamento, recuperação e integração com a anotação funcional. Adicionalmente desenvolvemos e implementamos métodos para seleção de genes diferencialmente e significativamente expressos, e abordagens para análise de enriquecimento de categorias, e escores de atividade de vias metabólicas. De forma a integrar a anotação funcional do transcriptoma aos estudos por expressão gênica, desenvolvemos a plataforma CaneRegNet e uma interface para integração desta rede de dados biológicos e conhecimentos, composta por aplicativos para consulta e prospecção de dados por análises de agrupamento e correlação entre experimentos de microarranjo, possibilitando a geração de novas hipóteses e predições dentro da organização da regulação celular. / The identification of target genes, metabolic and signaling pathways associated with characteristics of interest to the sugarcane improvement are still poorly known and studied. Some transcritptome studies through microarray platforms has tried to identify lists of genes, for tissue-specific experiments or subjected to conditions of biotic and abiotic stress. In the literature specific studies of these data has already been associated with metabolic or signaling pathway, in order to identify changes in these tracks related to patterns of gene expression. However, these relations are still little know and generally defined slightly. The study and understanding of sugarcane by means of genetic diversity and its adaptation to the environment is a major challenge, mainly due to the absence of a sequenced genome and by your complex genome. We present our results to surpass this barrier e challenges for the study of gene expression. Methodologies were developed for the transcriptome functional annotation, focused on the annotation transfer, identification of metabolic pathways and enzymes by the bi- directional method; prediction of full-length genes; ortology analysis and probe design for customized microarrays, resulting in the sugarcane ORFeome, the identification and classification of transcription factor families and identification of ortholog genes between grasses. Besides that, we have developed a plataform for automated processing and analysis for microarray experiments, to store, retrieve and integration with the functional annotation. Additionally, we have developed and implemented methods for identification of differentially and significantly expressed genes, and approaches for over-represented analysis and functional class scoring (FCS). To integrate the functional annotation and the studies by gene expression profile, we have developed the CaneRegNet platform and an interface to integrate this network of biological data and knowledge, composed by searching and data mining tools for clustering and correlations between microarray experiments, enabling the generation of new hypothesis and predictions around the organization of cellular regulation. Anotação funcional Banco de dados Bioinformática Bioinformatics Data integration Data mining Database Functional annotation Integração de dados Microarray platform Plataforma de microarranjo Prospecção de dados Sugarcane transcriptome Transcriptoma cana-de- açúcar
233	Uma abordagem de integração de dados de redes PPI e expressão gênica para priorizar genes relacionados a doenças complexas / An integrative approach combining PPI networks and gene expression to prioritize genes related to complex diseases Simões, Sérgio Nery 30 June 2015 (has links) Doenças complexas são caracterizadas por serem poligênicas e multifatoriais, o que representa um desafio em relação à busca de genes relacionados a elas. Com o advento das tecnologias de sequenciamento em larga escala do genoma e das medições de expressão gênica (transcritoma), bem como o conhecimento de interações proteína-proteína, doenças complexas têm sido sistematicamente investigadas. Particularmente, baseando-se no paradigma Network Medicine, as redes de interação proteína-proteína (PPI -- Protein-Protein Interaction) têm sido utilizadas para priorizar genes relacionados às doenças complexas segundo suas características topológicas. Entretanto, as redes PPI são afetadas pelo viés da literatura, em que as proteínas mais estudadas tendem a ter mais conexões, degradando a qualidade dos resultados. Adicionalmente, métodos que utilizam somente redes PPI fornecem apenas resultados estáticos e não-específicos, uma vez que as topologias destas redes não são específicas de uma determinada doença. Neste trabalho, desenvolvemos uma metodologia para priorizar genes e vias biológicas relacionados à uma dada doença complexa, através de uma abordagem integrativa de dados de redes PPI, transcritômica e genômica, visando aumentar a replicabilidade dos diferentes estudos e a descoberta de novos genes associados à doença. Após a integração das redes PPI com dados de expressão gênica, aplicamos as hipóteses da Network Medicine à rede resultante para conectar genes sementes (relacionados à doença, definidos a partir de estudos de associação) através de caminhos mínimos que possuam maior co-expressão entre seus genes. Dados de expressão em duas condições (controle e doença) são usados separadamente para obter duas redes, em que cada nó (gene) dessas redes é pontuado segundo fatores topológicos e de co-expressão. Baseado nesta pontuação, desenvolvemos dois escores de ranqueamento: um que prioriza genes com maior alteração entre suas pontuações em cada condição, e outro que privilegia genes com a maior soma destas pontuações. A aplicação do método a três estudos envolvendo dados de expressão de esquizofrenia recuperou com sucesso genes diferencialmente co-expressos em duas condições, e ao mesmo tempo evitou o viés da literatura. Além disso, houve uma melhoria substancial na replicação dos resultados pelo método aplicado aos três estudos, que por métodos convencionais não alcançavam replicabilidade satisfatória. / Complex diseases are characterized as being poligenic and multifactorial, so this poses a challenge regarding the search for genes related to them. With the advent of high-throughput technologies for genome sequencing and gene expression measurements (transcriptome), as well as the knowledge of protein-protein interactions, complex diseases have been sistematically investigated. Particularly, Protein-Protein Interaction (PPI) networks have been used to prioritize genes related to complex diseases according to its topological features. However, PPI networks are affected by ascertainment bias, in which the most studied proteins tend to have more connections, degrading the quality of the results. Additionally, methods using only PPI networks can provide just static and non-specific results, since the topologies of these networks are not specific of a given disease. In this work, we developed a methodology to prioritize genes and biological pathways related to a given complex disease, through an approach that integrates data from PPI networks, transcriptomics and genomics, aiming to increase replicability of different studies and to discover new genes associated to the disease. The methodology integrates PPI network and gene expression data, and then applies the Network Medicine Hypotheses to the resulting network in order to connect seed genes (obtained from association studies) through shortest paths possessing larger coexpression among their genes. Gene expression data in two conditions (control and disease) are used to obtain two networks, where each node (gene) in these networks is rated according to topological and coexpression aspects. Based on this rating, we developed two ranking scores: one that prioritizes genes with the largest alteration between their ratings in each condition, and another that favors genes with the greatest sum of these scores. The application of this method to three studies involving schizophrenia expression data successfully recovered differentially co-expressed gene in two conditions, while avoiding the ascertainment bias. Furthermore, when applied to the three studies, the method achieved a substantial improvement in replication of results, while other conventional methods did not reach a satisfactory replicability. Complex diseases Data integration Doenças complexas Gene prioritization Integração de dados Interação proteína-proteína Network Medicine Network Medicine Priorização gênica Protein-protein interaction
234	AcCORD: um modelo colaborativo assíncrono para a reconciliação de dados / AcCORD: asynchronous collaborative data reconciliation model Almeida, Dayse Silveira de 28 April 2016 (has links) Reconciliação é o processo de prover uma visão consistente de dados provenientes de várias fontes de dados. Embora existam na literatura trabalhos voltados à proposta de soluções de reconciliação baseadas em colaboração assíncrona, o desafio de reconciliar dados quando vários usuários colaborativos trabalham de forma assíncrona sobre as mesmas cópias locais de dados, compartilhando somente eventualmente as suas decisões de integração particulares, tem recebido menos atenção. Nesta tese de doutorado investiga-se esse desafio, por meio da proposta do modelo AcCORD (Asynchronous COllaborative data ReconcIliation moDel). AcCORD é um modelo colaborativo assíncrono para reconciliação de dados no qual as atualizações dos usuários são mantidas em um repositório de operações na forma de dados de procedência. Cada usuário tem o seu próprio repositório para armazenar a procedência e a sua própria cópia das fontes. Ou seja, quando inconsistências entre fontes importadas são detectadas, o usuário pode tomar decisões de integração para resolvê-las de maneira autônoma, e as atualizações que são executadas localmente são registradas em seu próprio repositório. As atualizações são compartilhadas entre colaboradores quando um usuário importa as operações dos repositórios dos demais usuários. Desde que diferentes usuários podem ter diferentes pontos de vista para resolver o mesmo conflito, seus repositórios podem estar inconsistentes. Assim, o modelo AcCORD também inclui a proposta de diferentes políticas de reconciliação multiusuário para resolver conflitos entre repositórios. Políticas distintas podem ser aplicadas por diferentes usuários para reconciliar as suas atualizações. Dependendo da política aplicada, a visão final das fontes importadas pode ser a mesma para todos os usuários, ou seja, um única visão global integrada, ou resultar em distintas visões locais para cada um deles. Adicionalmente, o modelo AcCORD também incorpora um método de propagação de decisões de integração, o qual tem como objetivo evitar que um usuário tome decisões inconsistentes a respeito de um mesmo conflito de dado presente em diferentes fontes, garantindo um processo de reconciliação multiusuário mais efetivo. O modelo AcCORD foi validado por meio de testes de desempenho que avaliaram as políticas propostas, e por entrevistas a usuários que avaliaram não somente as políticas propostas mas também a qualidade da reconciliação multiusuário. Os resultados obtidos demonstraram a eficiência e a eficácia do modelo proposto, além de sua flexibilidade para gerar uma visão integrada ou distintas visões locais. As entrevistas realizadas demonstraram diferentes percepções dos usuários quanto à qualidade do resultado provido pelo modelo AcCORD, incluindo aspectos relacionados à consistência, aceitabilidade, corretude, economia de tempo e satisfação. / Reconciliation is the process of providing a consistent view of the data imported from different sources. Despite some efforts reported in the literature for providing data reconciliation solutions with asynchronous collaboration, the challenge of reconciling data when multiple users work asynchronously over local copies of the same imported data has received less attention. In this thesis we investigate this challenge. We propose AcCORD, an asynchronous collaborative data reconciliation model. It stores users integration decision in logs, called repositories. Repositories keep data provenance, that is, the operations applied to the data sources that led to the current state of the data. Each user has her own repository for storing the provenance. That is, whenever inconsistencies among imported sources are detected, the user may autonomously take decisions to solve them, and integration decisions that are locally executed are registered in her repository. Integration decisions are shared among collaborators by importing each others repositories. Since users may have different points of view, repositories may also be inconsistent. Therefore, AcCORD also introduces several policies that can be applied by different users in order to solve conflicts among repositories and reconcile their integration decisions. Depending on the applied policy, the final view of the imported sources may either be the same for all users, that is, a single integrated view, or result in distinct local views for each of them. Furthermore, AcCORD encompasses a decision integration propagation method, which is aimed to avoid that a user take inconsistent decisions over the same data conflict present in different sources, thus guaranteeing a more effective reconciliation process. AcCORD was validated through performance tests that investigated the proposed policies and through users interviews that investigated not only the proposed policies but also the quality of the multiuser reconciliation. The results demonstrated the efficiency and efficacy of AcCORD, and highlighted its flexibility to generate a single integrated view or different local views. The interviews demonstrated different perceptions of the users with regard to the quality of the result provided by AcCORD, including aspects related to consistency, acceptability, correctness, time-saving and satisfaction. Compartilhamento de dados Conflict resolution Data integration Data provenance Data reconciliation Data sharing Integração de dados Procedência dos dados Reconciliação de dados Resolução de conflitos
235	[en] INTEGRATION OF REPOSITORIES OF DIGITAL LIBRARY SYSTEMS AND LEARNING MANAGEMENT SYSTEMS / [pt] INTEGRAÇÃO DE REPOSITÓRIOS DE SISTEMAS DE BIBLIOTECAS DIGITAIS E SISTEMAS DE APRENDIZAGEM GEORGIA REGINA RODRIGUES GOMES 18 May 2007 (has links) [pt] Com o uso generalizado das tecnologias de informação no apoio ao ensino, é comum disponibilizar conteúdos digitais, seja através de Sistemas de Bibliotecas Digitais (DLMS) ou de Sistemas de Gerência de Aprendizagem (LMS). No entanto, estes sistemas funcionam de forma independente, têm características diferentes e manipulam tipos diferentes de materiais, sendo seus repositórios com dados e metadados heterogêneos e distribuídos. Os conteúdos destes repositórios seriam melhor aproveitados se estivessem integrados a um ambiente comum, ou fossem acessados de modo integrado a partir dos ambientes de de DLMS e LMS. Nesta tese é apresentada uma visão homogênea dos conteúdos de DLMS e LMS. Para esta homogeneização utilizou-se uma extensão da arquitetura de mediadores e tradutores que trata a integração de metadados, assim como ontologias para tratamento semântico. Foram consideradas ontologias locais para descrever os metadados de cada repositório e uma ontologia global para a integração. No entanto, os documentos dos repositórios dos DLMS tendem a ser monolíticos e não têm um enfoque na reutilização( reuso). Assim, foram definidas regras para extração dos conteúdos mais importantes destes documentos, o que possibilita a reutilização. Esta extração envolve técnicas de mineração de texto e utiliza regras para descobrir as definições contidas nos documentos. Foi desenvolvido um protótipo que demonstra a viabilidade do processo. Para facilitar o entendimento do trabalho, é apresentado um estudo de caso que utiliza a técnica proposta e o protótipo desenvolvido. O trabalho facilita e enriquece o desenvolvimento de materiais de aprendizagem, uma vez que torna os conteúdos de documentos das bibliotecas digitais reutilizáveis e integrados aos Objetos de Aprendizagem (LO) existentes. / [en] With the widespread use of Information Technology for teaching support, it is usual to made digital content available through Digital Library Systems (DLMS) or Learning Management Systems (LMS).These systems, however, work independently, have different characteristics and manipulate different types of materials, and their data and metadata repositories are heterogeneous and distributed. The content of repositories would be better used if it was integrated in the same environment or accessed in an integrated way from DLMS and LMS. This thesis presents a homogeneous view of DLMS and LMS content. In order to provide such homogenization, it is proposed an extension of the mediator and wrapper architecture for dealing with metadata integration and ontologies for treating semantics. Local ontologies are used for describing each metadata repository, and a global ontology for the integration. As documents of DLMS repositories tend to be monolithic and not to follow a reuse approach, rules for extracting the most important content from these documents were developed in order to make them reusable. This extraction includes text mining techniques as well as rules for discovering definitions embedded in the documents. A prototype was developed which implements the extraction and proves the feasibility of this approach. In order to make the work easier to understand, it is presented a case study that uses the proposed technique and the prototype. The work described in this thesis facilitates and enriches the development of learning material by making the content of digital library documents reusable and integrated to existing learning objects. [pt] BIBLIOTECAS DIGITAIS [en] DIGITAL LIBRARIES [pt] ONTOLOGIA [en] ONTOLOGY [pt] BANCO DE DADOS [en] DATABASE [pt] EDUCACAO VIA WEB [en] E-LEARNING [pt] OBJETOS DE APRENDIZADO [en] LEARNING OBJECTS [pt] INTEGRACAO DE DADOS [en] DATA INTEGRATION
236	AcCORD: um modelo colaborativo assíncrono para a reconciliação de dados Almeida, Dayse Silveira de 28 April 2016 (has links) Reconciliação é o processo de prover uma visão consistente de dados provenientes de várias fontes de dados. Embora existam na literatura trabalhos voltados à proposta de soluções de reconciliação baseadas em colaboração assíncrona, o desafio de reconciliar dados quando vários usuários colaborativos trabalham de forma assíncrona sobre as mesmas co´pias locais de dados, compartilhando somente eventualmente as suas decisões de integração particulares, tem recebido menos atenção. Nesta tese de doutorado investiga-se esse desafio, por meio da proposta do modelo AcCORD (Asynchronous COllaborative data ReconcIliation moDel). AcCORD é um modelo colaborativo assíncrono para reconciliação de dados no qual as atualizações dos usuários são mantidas em um repositório de operações na forma de dados de procedência. Cada usuário tem o seu próprio repositório para armazenar a procedência e a sua própria cópia das fontes. Ou seja, quando inconsistências entre fontes importadas são detectadas, o usuário pode tomar decisões de integração para resolvê-las de maneira autônoma, e as atualizações que são executadas localmente são registradas em seu próprio repositório. As atualizações são compartilhadas entre colaboradores quando um usuário importa as operações dos repositórios dos demais usuários. Desde que diferentes usuários podem ter diferentes pontos de vista para resolver o mesmo conflito, seus repositórios podem estar inconsistentes. Assim, o modelo Ac- CORD também inclui a proposta de diferentes políticas de reconciliação multiusuário para resolver conflitos entre repositórios. Políticas distintas podem ser aplicadas por diferentes usuários para reconciliar as suas atualizações. Dependendo da política aplicada, a visão final das fontes importadas pode ser a mesma para todos os usuários, ou seja, um única visão global integrada, ou resultar em distintas visões locais para cada um deles. Adicionalmente, o modelo AcCORD também incorpora um método de propagação de decisões de integração, o qual tem como objetivo evitar que um usuário tome decisões inconsistentes a respeito de um mesmo conflito de dado presente em diferentes fontes, garantindo um processo de reconciliação multiusuário mais efetivo. O modelo AcCORD foi validado por meio de testes de desempenho que avaliaram as políticas propostas, e por entrevistas a usuários que avaliaram não somente as políticas propostas mas também a qualidade da reconciliação multiusuário. Os resultados obtidos demonstraram a eficiência e a eficácia do modelo proposto, além de sua flexibilidade para gerar uma visão integrada ou distintas visões locais. As entrevistas realizadas demonstraram diferentes percepções dos usuários quanto à qualidade do resultado provido pelo modelo AcCORD, incluindo aspectos relacionados à consistência, aceitabilidade, corretude, economia de tempo e satisfacão. / Reconciliation is the process of providing a consistent view of the data imported from different sources. Despite some efforts reported in the literature for providing data reconciliation solutions with asynchronous collaboration, the challenge of reconciling data when multiple users work asyn- chronously over local copies of the same imported data has received less attention. In this thesis we investigate this challenge. We propose AcCORD, an asynchronous collaborative data reconciliation model. It stores users’ integration decision in logs, called repositories. Repositories keep data prove- nance, that is, the operations applied to the data sources that led to the current state of the data. Each user has her own repository for storing the provenance. That is, whenever inconsistencies among im- ported sources are detected, the user may autonomously take decisions to solve them, and integration decisions that are locally executed are registered in her repository. Integration decisions are shared among collaborators by importing each other’s repositories. Since users may have different points of view, repositories may also be inconsistent. Therefore, AcCORD also introduces several policies that can be applied by different users in order to solve conflicts among repositories and reconcile their integration decisions. Depending on the applied policy, the final view of the imported sources may either be the same for all users, that is, a single integrated view, or result in distinct local views for each of them. Furthermore, AcCORD encompasses a decision integration propagation method, which is aimed to avoid that a user take inconsistent decisions over the same data conflict present in different sources, thus guaranteeing a more effective reconciliation process. AcCORD was validated through performance tests that investigated the proposed policies and through users’ interviews that investigated not only the proposed policies but also the quality of the multiuser reconciliation. The re- sults demonstrated the efficiency and efficacy of AcCORD, and highlighted its flexibility to generate a single integrated view or different local views. The interviews demonstrated different perceptions of the users with regard to the quality of the result provided by AcCORD, including aspects related to consistency, acceptability, correctness, time-saving and satisfaction. Reconciliação de dados Resolução de conflitos Integração de dados Compartilhamento de dados Procedência de dados Data reconciliation Conflict resolution Data integration Data sharing Data provenance
237	Construção e análise de modelos topológicos de redes biológicas usando a ontologia MONET Silva, João Paulo Müller da 06 March 2006 (has links) Made available in DSpace on 2015-03-05T13:56:59Z (GMT). No. of bitstreams: 0 Previous issue date: 6 / Hewlett-Packard Brasil Ltda / Um dos mais importantes desafios para a biologia pós-genômica é atender a estrutura e o comportamento das interações moleculares complexas que controlam o comportamento celular. Para tanto é essencial à integração dos dados biológicos referentes a estas interações armazenadas em diversos banco de dados. Este é um problema difícil, pois estes dados estão disponíveis em banco de dados públicos espalhados geograficamente na rede mundial de computadores e cada um destes possui um sistema diferente de gerenciamento, formato ou visão de como representar os dados. Os principais problemas para a realização desta tarefa são:a necessidade de se desenvolver e aplicar parsers para cada banco de dados sem ausência de um vocabulário unificado. Como uma alternativa para facilitar estes problemas, este trabalho propõe a ontologia MONET (Molecular Network Ontology) que tem como objetivo ser um modelo integrado para a rede de redes que existe dentro da celula. Tal visão integrada ajuda a entender as interações de larga escala / One of the most important challenges for biology in the post-genomic is to understand the structure and behavior of the molecular interactions that controls cell behavior. Therefore is essential to integrate biological data concerning these interactions, which are stored in different databases. The integration task is dificult because these data are distributed in public databases on the world wide web and each database has diferent management systems, formats and views of how to represent biological data. The two main problems involved here are the dificulty in parsing the data when dealing with heterogeneous at file formats and the inconsistencies due to the absence of an united vocabulary. As an alternative to facilitate these problems this work proposes MONET (the Molecular Network) ontology, an integration model for the unifying of diferent molecular networks that exist inside the cell. Such integrated view facilitates the understanding of the large-scale interactions responsible for the behavior of Ciências Exatas e da Terra integração de dados interação proteína-proteína metabolismo ontologias regulação gênica data integration metabolic pathways ontology
238	Prise en compte des dépendances entre données thématiques utilisateur et données topographiques lors d’un changement de niveau de détail / Taking into account the dependences between user thematic data and topographic data when the level of detail is changed Jaara, Kusay 10 March 2015 (has links) Avec l'importante disponibilité de données topographiques de référence, la création des données géographiques n'est plus réservée aux professionnels de l'information géographique. De plus en plus d'utilisateurs saisissent leurs propres données, que nous appelons données thématiques, en s'appuyant sur ces données de référence qui jouent alors le rôle de données support. Les données thématiques ainsi saisies font sens en tant que telles, mais surtout de par leurs relations avec les données topographiques. La non prise en compte des relations entre données thématiques et topographiques lors de traitements modifiant les unes ou les autres peut engendrer des incohérences, notamment pour les traitements liés au changement de niveau de détail. L'objectif de la thèse est de définir une méthodologie pour préserver la cohérence entre les données thématiques et topographiques lors d'un changement de niveau de détail. Nous nous concentrons sur l'adaptation des données thématiques suite à une modification des données topographiques, processus que nous appelons migration des données thématiques. Nous proposons d'abord un modèle pour la migration de données thématiques ponctuelles sur réseau composé de : (1) un modèle pour décrire le référencement des données thématiques sur les données topographiques par des relations spatiales (2) une méthode de relocalisation basée sur ces relations. L'approche consiste à identifier les relations finales attendues en fonction des relations initiales et des changements sur les données topographiques entre les états initial et final. La relocalisation est alors effectuée grâce à une méthode multicritère de manière à respecter au mieux les relations attendues. Une mise en œuvre est présentée sur des cas d'étude jouets et sur un cas réel fourni par un service de l'Etat gestionnaire de réseau routier. Nous discutons enfin l'extension du modèle proposé pour traiter la prise en compte des relations pour d'autres applications que la migration de données thématiques / With the large availability of reference topographic data, creating geographic data is not exclusive to experts of geographic information any more. More and more users rely on reference data to create their own data, hereafter called thematic data. Reference data then play the role of support for thematic data. Thematic data make sense by themselves, but even more by their relations with topographic data. Not taking into account the relations between thematic and topographic data during processes that modify the former or the latter may cause inconsistencies, especially for processes that are related to changing the level of detail. The objective of this thesis is to define a methodology to preserve the consistency between thematic and topographic when the level of detail is modified. This thesis focuses on the adaptation of thematic data after a modification of topographic data: we call this process thematic data migration. We first propose a model for the migration of punctual thematic data hosted by a network. This model is composed of: (1) a model to describe the referencing of thematic data on topographic data using spatial relations (2) a method to re-locate thematic data based on these relations. The approach consists in identifying the expected final relations according to the initial relations and the modifications of topographic data between the initial and the final state. The thematic data are then re-located using a multi-criteria method in order to satisfy, as much as possible, the expected relations. An implementation is presented on toy problems and on a real use case provided by a French public authority in charge of road network management. The extension of the proposed model to take into account the relations for other applications than thematic data migration is also discussed Données géographiques Données thématiques Données topographiques Référencement spatial indirect Relations spatiales Intégration de données utilisateur Geographic data Thematic data Topographic data Indirect spatial referencing Spatial relations User data integration
239	IDEO Integrador de dados da Execução Orçamentária Brasileira: um estudo de caso da integração de dados das receitas e despesas nas Esferas Federal, Estadual Governo de São Paulo, e Municipal Municípios do Estado de São Paulo / The integration of multi-source heterogeneous data: an open data case study for budgetary execution in Brazil. José Rodolfo Beluzo 30 September 2015 (has links) Este trabalho apresenta um grupo de processos para a integracao de dados e esquemas das receitas e despesas da execucao do orcamento publico brasileiro nas tres esferas governamentais: governo federal, estadual e municipios. Estes processos visam resolver problemas de heterogeneidade encontrados pelo cidadao ao buscar por informacoes publicas em diferentes entes. Estas informacoes atualmente sao disponibilizadas pelos portais de transparencia que seguem a obrigatoriedade definida pelo arcabouco legal brasileiro, no qual estes devem publicar, dentre outras informacoes, o registro de receitas, despesas, transferencias financeiras e processos licitatorios, de forma integra, primaria, autentica e atualizada. Porem, apesar das exigencias citadas por lei, nao existe um padrao para publicacao, alem de inconsistencias e ambiguidades de dados entre os diferentes portais. Assim, este trabalho visa resolver estes problemas de heterogeneidade enfrentados pelo cidadao. Para tal, como prova de conceito foram selecionados os dados de receitas e despesas do governo federal, do governo do estado de Sao Paulo e de 645 municipios do estado de Sao Paulo. Este trabalho padronizou um modelo conceitual de receitas e despesas baseado no manual tecnico do orcamento redigido pelo governo federal anualmente. A partir deste modelo criou-se esquemas de dados padronizados de acordo com os datasets que estao disponibilizados nos portais de transparencia de cada ente federativo, assim como um esquema integrado entre estes. Os dados de execucao orcamentaria do periodo de 2010 a 2014 dos governos citados foram extraidos dos portais, passando por um processo de transformacao e limpeza, e carregados no sistema integrador. Apos os dados carregados no sistema, a partir do prototipo foi possivel obter informacoes a respeito da execucao orcamentaria as quais nao eram possiveis de se realizar de forma direta acessando os portais de transparencia, ou, quando possivel o trabalho de compilacao da informacao seria muito elevado. Tambem foi possivel analisar e apontar possiveis falhas sistemicas nos portais de transparencia atraves dos resultados obtidos no processo, podendo contribuir com a melhoria destes. / This dissertation presents a process group for data integration and schemes of the Brazilian public budget s revenues and expenditures from all government level spheres (municipalities, states and nationwide). These process group aims to solve some heterogeneity problems to access public information provided by different government entities. Budget information is currently disclosed on e-gov portals, which must comply the requirements set by the Brazilian legal framework. Data about revenues, expenses, financial transfers and bidding processes must be published in a primary, authentic and updated way. However, there is no standards for publication, besides the poor data quality and inconsistencies found in the same data provided by different portals. Thus, this work aims to give some contributions to address these heterogeneity problems. To achieve this, we implemented a proof of concept that gathers revenue and expenditure data from the Brazilian federal government, the state government of Sao Paulo and 645 municipalities of Sao Paulo state. As a result, this work has standardized a conceptual model of revenues and expenses based on the technical manual of the budget. From this model, we created standardized data schemas according to the datasets that are available at the website of transparency of each government entity, as well as an integrated scheme between them. Data disclosed from 2010-2014 by all mentioned government were gathered, cleaned and loaded into the prototype. The resulting data warehouse allows queries about budget execution in Brazil that are not possible to perform directly accessing the transparency portals, or, when it is possible, this compilation work is very time consuming. During the validation phase was also possible to analyze and identify possible some failures in the e-gov portals and some recomendations try to give some contribution to their improvement. Dados abertos Dados abertos governamentais Data warehouse Integração de dados Orçamento público Data integration Data warehouse Open data Open government data Public budget
240	Arquitetura e métodos de integração de dados e interoperabilidade aplicados na saúde mental / Investigation of the effectiveness of data integration and interoperability methods applied to mental health Miyoshi, Newton Shydeo Brandão 16 March 2018 (has links) A disponibilidade e integração das informações em saúde relativas a um mesmo paciente entre diferentes níveis de atenção ou entre diferentes instituições de saúde é normalmente incompleta ou inexistente. Isso acontece principalmente porque os sistemas de informação que oferecem apoio aos profissionais da saúde não são interoperáveis, dificultando também a gestão dos serviços a nível municipal e regional. Essa fragmentação da informação também é desafiadora e preocupante na área da saúde mental, em que normalmente se exige um cuidado prolongado e que integra diferentes tipos de serviços de saúde. Problemas como a baixa qualidade e indisponibilidade de informações, assim como a duplicidade de registros, são importantes aspectos na gestão e no cuidado prolongado ao paciente portador de transtornos mentais. Apesar disso, ainda não existem estudos objetivos demonstrando o impacto efetivo da interoperabilidade e integração de dados na gestão e na qualidade de dados para a área de saúde mental. Objetivos: Neste contexto, o projeto tem como objetivo geral propor uma arquitetura de interoperabilidade para a assistência em saúde regionalizada e avaliar a efetividade de técnicas de integração de dados e interoperabilidade para a gestão dos atendimentos e internações em saúde mental na região de Ribeirão Preto, assim como o impacto na melhoria e disponibilidade dos dados por meio de métricas bem definidas. Métodos: O framework de interoperabilidade proposto tem como base a arquitetura cliente-servidor em camadas. O modelo de informação de interoperabilidade foi baseado em padrões de saúde internacionais e nacionais. Foi proposto um servidor de terminologias baseado em padrões de informação em saúde. Foram também utilizados algoritmos de Record Linkage para garantir a identificação unívoca do paciente. Para teste e validação da proposta foram utilizados dados de diferentes níveis de atenção à saúde provenientes de atendimentos na rede de atenção psicossocial na região de Ribeirão Preto. Os dados foram extraídos de cinco fontes diferentes: (i) a Unidade Básica de Saúde da Família - I, de Santa Cruz da Esperança; (ii) o Centro de Atenção Integrada à Saúde, de Santa Rita do Passa Quatro; (iii) o Hospital Santa Tereza; (iv) as informações de solicitações de internação contidas no SISAM (Sistema de Informação em Saúde Mental); e (v) dados demográficos do Barramento do Cartão Nacional de Saúde do Ministério da Saúde. As métricas de qualidade de dados utilizadas foram completude, consistência, duplicidade e acurácia. Resultados: Como resultado deste trabalho, foi projetado, desenvolvido e testado a plataforma de interoperabilidade em saúde, denominado eHealth-Interop. Foi adotada uma proposta de interoperabilidade por meio de serviços web com um modelo de integração de dados baseado em um banco de dados centralizador. Foi desenvolvido também um servidor de terminologias, denominado eHealth-Interop Terminology Server, que pode ser utilizado como um componente independente e em outros contextos médicos. No total foram obtidos dados de 31340 registros de pacientes pelo SISAM, e-SUS AB de Santa Cruz da Esperança, do CAIS de Santa Rita do Passa Quatro, do Hospital Santa Tereza e do Barramento do CNS do Ministério da Saúde. Desse total, 30,47% (9548) registros foram identificados como presente em mais de 1 fonte de informação, possuindo diferentes níveis de acurácia e completude. A análise de qualidade de dados, abrangendo todas os registros integrados, obteve uma melhoria na completude média de 18,40% (de 56,47% para 74,87%) e na acurácia sintática média de 1,08% (de 96,69% para 96,77%). Na análise de consistência houve melhoras em todas as fontes de informação, variando de uma melhoria mínima de 14.4% até o máximo de 51,5%. Com o módulo de Record Linkage foi possível quantificar, 1066 duplicidades e, dessas, 226 foram verificadas manualmente. Conclusões: A disponibilidade e a qualidade da informação são aspectos importantes para a continuidade do atendimento e gerenciamento de serviços de saúde. A solução proposta neste trabalho visa estabelecer um modelo computacional para preencher essa lacuna. O ambiente de interoperabilidade foi capaz de integrar a informação no caso de uso de saúde mental com o suporte de terminologias clínicas internacionais e nacionais sendo flexível para ser estendido a outros domínios de atenção à saúde. / The availability and integration of health information from the same patient between different care levels or between different health services is usually incomplete or non-existent. This happens especially because the information systems that support health professionals are not interoperable, making it difficult to manage services at the municipal and regional level. This fragmentation of information is also challenging and worrying in the area of mental health, where long-term care is often required and integrates different types of health services and professionals. Problems such as poor quality and unavailability of information, as well as duplicate records, are important aspects in the management and long-term care of patients with mental disorders. Despite this, there are still no objective studies that demonstrate the effective impact of interoperability and data integration on the management and quality of data for the mental health area. Objectives: In this context, this project proposes an interoperability architecture for regionalized health care management. It also proposes to evaluate the effectiveness of data integration and interoperability techniques for the management of mental health hospitalizations in the Ribeirão Preto region as well as the improvement in data availability through well-defined metrics. Methods: The proposed framework is based on client-service architecture to be deployed in the web. The interoperability information model was based on international and national health standards. It was proposed a terminology server based on health information standards. Record Linkage algorithms were implemented to guarantee the patient identification. In order to test and validate the proposal, we used data from different health care levels provided by the mental health care network in the Ribeirão Preto region. The data were extracted from five different sources: the Family Health Unit I of Santa Cruz da Esperança, the Center for Integrated Health Care of Santa Rita do Passa Quatro, Santa Tereza Hospital, the information on hospitalization requests system in SISAM (Mental Health Information System) and demographic data of the Brazilian Ministry of Health Bus. Results: As a result of this work, the health interoperability platform, called eHealth-Interop, was designed, developed and tested. A proposal was adopted for interoperability through web services with a data integration model based on a centralizing database. A terminology server, called eHealth-Interop Terminology Server, has been developed that can be used as an independent component and in other medical contexts. In total, 31340 patient records were obtained from SISAM, eSUS-AB from Santa Cruz da Esperança, from CAIS from Santa Rita do Passa Quatro, from Santa Tereza Hospital and from the CNS Service Bus from the Brazillian Ministry of Health. 47% (9548) records were identified as present in more than 1 information source, having different levels ofaccuracy and completeness. The data quality analysis, covering all integrated records, obtained an improvement in the average completeness of 18.40% (from 56.47% to 74.87%) and the mean syntactic accuracy of 1.08% (from 96,69% to 96.77%). In the consistency analysis there were improvements in all information sources, ranging from a minimum improvement of 14.4% to a maximum of 51.5%. With the Record Linkage module it was possible to quantify 1066 duplications, of which 226 were manually verified. Conclusions: The information\'s availability and quality are both important aspects for the continuity of care and health services management. The solution proposed in this work aims to establish a computational model to fill this gap. It has been successfully applied in the mental health care context and is flexible to be extendable to other medical domains. Data Integration Data Quality Health Information Systems Health Terminologies Interoperabilidade Interoperability Mental Health Qualidade de Dados Record Linkage Record Linkage Saúde Mental Sistemas de Informação em Saúde Terminologias em Saúde

Search results