11 |
MPPI: um modelo de procedência para subsidiar processos de integração / MPPI: a provenance model to support data integration processesTomazela, Bruno 05 February 2010 (has links)
A procedência dos dados consiste no conjunto de metadados que possibilita identificar as fontes e os processos de transformação aplicados aos dados, desde a criação até o estado atual desses dados. Existem diversas motivações para se incorporar a procedência ao processo de integração, tais como avaliar a qualidade dos dados das fontes heterogêneas, realizar processos de auditoria dos dados e de atribuição de autoria aos proprietários dos dados e reproduzir decisões de integração. Nesta dissertação é proposto o MPPI, um modelo de procedência para subsidiar processos de integração. O modelo enfoca sistemas nos quais as fontes de dados podem ser atualizadas somente pelos seus proprietários, impossibilitando que a integração retifique eventuais conflitos de dados diretamente nessas fontes. O principal requisito do MPPI é que ele ofereça suporte ao tratamento de todas as decisões de integração realizadas em processos anteriores, de forma que essas decisões possam ser reaplicadas automaticamente em processos de integração subsequentes. O modelo MPPI possui quatro características. A primeira delas consiste no mapeamento da procedência dos dados em operações de cópia, edição, inserção e remoção, e no armazenamento dessas operações em um repositório de operações. A segunda característica é o tratamento de operações de sobreposição, por meio da proposta das políticas blind, restrict, undo e redo. A terceira característica consiste na identificação de anomalias decorrentes do fato de que fontes de dados autônomas podem alterar os seus dados entre processos de integração, e na proposta de quatro tipos de validação das operações frente a essas anomalias: validação completa, da origem, do destino, ou nenhuma. A quarta característica consiste na reaplicação de operações, por meio da proposta dos métodos VRS (do inglês Validate and Reapply in Separate) e VRT (do inglês Validate and Reapply in Tandem) e da reordenação segura do repositório, os quais garantem que todas as decisões de integração tomadas pelo usuário em processos de integração anteriores sejam resolvidas automaticamente e da mesma forma em processos de integração subsequentes. A validação do modelo MPPI foi realizada por meio de testes de desempenho que investigaram o tratamento de operações de sobreposição, o método VRT e a reordenação segura, considerando como base as demais características do modelo. Os resultados obtidos mostraram a viabilidade de implementação das políticas propostas para tratamento de operações de sobreposição em sistemas de integração reais. Os resultados também mostraram que o método VRT proporcionou ganhos de desempenho significativos frente à coleta quando o objetivo é restabelecer resultados de processos de integração que já foram executados pelo menos uma vez. O ganho médio de desempenho do método VRT foi de pelo menos 93%. Ademais, os testes também mostraram que reordenar as operações antes da reaplicação pode melhorar ainda mais o desempenho do método VRT / Data provenance is the set of metadata that allows for the identification of sources and transformations applied to data, since its creation to its current state. There are several advantages of incorporating data provenance into data integration processes, such as to estimate data quality and data reliability, to perform data audit, to establish the copyright and ownership of data, and to reproduce data integration decisions. In this master\'s thesis, we propose the MPPI, a novel data provenance model that supports data integration processes. The model focuses on systems in which only owners can update their data sources, i.e., the integration process cannot correct the sources according to integration decisions. The main goal of the MPPI model is to handle decisions taken by the user in previous integration processes, so they can be automatically reapplied in subsequent integration processes. The MPPI model introduces the following properties. It is based on mapping provenance data into operations of copy, edit, insert and remove, which are stored in an operation repository. It also provides four techniques to handle overlapping operations: blind, restrict, undo and redo. Furthermore, it identifies anomalies generated by sources that are updated between two data integration processes and proposes four validation approaches to avoid these anomalies: full validation, source validation, target validation and no validation. Moreover, it introduces two methods that perform the reapplication of operations according to decisions taken by the user, called the VRS (Validate and Reapply in Separate) and the VRT (Validate and Reapply in Tandem) methods, in addition to extending the VRT method with the safe reordering optimization. The MPPI model was validated through performance tests that investigated overlapping operations, the VRT method and the safe reordering optimization. The tests showed that the techniques proposed to handle overlapping operations are feasible to be applied to real integration systems. The results also demonstrated that the VRT method provided significant performance gains over data gathering when the goal is to reestablish previous integration results. The performance gains were of at least 93%. Furthermore, the performance results also showed that reordering the operations before the reapplication process can improve even more the performance of the VRT method
|
12 |
MPPI: um modelo de procedência para subsidiar processos de integração / MPPI: a provenance model to support data integration processesBruno Tomazela 05 February 2010 (has links)
A procedência dos dados consiste no conjunto de metadados que possibilita identificar as fontes e os processos de transformação aplicados aos dados, desde a criação até o estado atual desses dados. Existem diversas motivações para se incorporar a procedência ao processo de integração, tais como avaliar a qualidade dos dados das fontes heterogêneas, realizar processos de auditoria dos dados e de atribuição de autoria aos proprietários dos dados e reproduzir decisões de integração. Nesta dissertação é proposto o MPPI, um modelo de procedência para subsidiar processos de integração. O modelo enfoca sistemas nos quais as fontes de dados podem ser atualizadas somente pelos seus proprietários, impossibilitando que a integração retifique eventuais conflitos de dados diretamente nessas fontes. O principal requisito do MPPI é que ele ofereça suporte ao tratamento de todas as decisões de integração realizadas em processos anteriores, de forma que essas decisões possam ser reaplicadas automaticamente em processos de integração subsequentes. O modelo MPPI possui quatro características. A primeira delas consiste no mapeamento da procedência dos dados em operações de cópia, edição, inserção e remoção, e no armazenamento dessas operações em um repositório de operações. A segunda característica é o tratamento de operações de sobreposição, por meio da proposta das políticas blind, restrict, undo e redo. A terceira característica consiste na identificação de anomalias decorrentes do fato de que fontes de dados autônomas podem alterar os seus dados entre processos de integração, e na proposta de quatro tipos de validação das operações frente a essas anomalias: validação completa, da origem, do destino, ou nenhuma. A quarta característica consiste na reaplicação de operações, por meio da proposta dos métodos VRS (do inglês Validate and Reapply in Separate) e VRT (do inglês Validate and Reapply in Tandem) e da reordenação segura do repositório, os quais garantem que todas as decisões de integração tomadas pelo usuário em processos de integração anteriores sejam resolvidas automaticamente e da mesma forma em processos de integração subsequentes. A validação do modelo MPPI foi realizada por meio de testes de desempenho que investigaram o tratamento de operações de sobreposição, o método VRT e a reordenação segura, considerando como base as demais características do modelo. Os resultados obtidos mostraram a viabilidade de implementação das políticas propostas para tratamento de operações de sobreposição em sistemas de integração reais. Os resultados também mostraram que o método VRT proporcionou ganhos de desempenho significativos frente à coleta quando o objetivo é restabelecer resultados de processos de integração que já foram executados pelo menos uma vez. O ganho médio de desempenho do método VRT foi de pelo menos 93%. Ademais, os testes também mostraram que reordenar as operações antes da reaplicação pode melhorar ainda mais o desempenho do método VRT / Data provenance is the set of metadata that allows for the identification of sources and transformations applied to data, since its creation to its current state. There are several advantages of incorporating data provenance into data integration processes, such as to estimate data quality and data reliability, to perform data audit, to establish the copyright and ownership of data, and to reproduce data integration decisions. In this master\'s thesis, we propose the MPPI, a novel data provenance model that supports data integration processes. The model focuses on systems in which only owners can update their data sources, i.e., the integration process cannot correct the sources according to integration decisions. The main goal of the MPPI model is to handle decisions taken by the user in previous integration processes, so they can be automatically reapplied in subsequent integration processes. The MPPI model introduces the following properties. It is based on mapping provenance data into operations of copy, edit, insert and remove, which are stored in an operation repository. It also provides four techniques to handle overlapping operations: blind, restrict, undo and redo. Furthermore, it identifies anomalies generated by sources that are updated between two data integration processes and proposes four validation approaches to avoid these anomalies: full validation, source validation, target validation and no validation. Moreover, it introduces two methods that perform the reapplication of operations according to decisions taken by the user, called the VRS (Validate and Reapply in Separate) and the VRT (Validate and Reapply in Tandem) methods, in addition to extending the VRT method with the safe reordering optimization. The MPPI model was validated through performance tests that investigated overlapping operations, the VRT method and the safe reordering optimization. The tests showed that the techniques proposed to handle overlapping operations are feasible to be applied to real integration systems. The results also demonstrated that the VRT method provided significant performance gains over data gathering when the goal is to reestablish previous integration results. The performance gains were of at least 93%. Furthermore, the performance results also showed that reordering the operations before the reapplication process can improve even more the performance of the VRT method
|
13 |
Uma arquitetura para integração de dados baseada em ontologiaPASSOS, Rômulo Augusto Nogueira de Oliveira January 2006 (has links)
Made available in DSpace on 2014-06-12T15:59:45Z (GMT). No. of bitstreams: 2
arquivo5535_1.pdf: 1875807 bytes, checksum: 9e6355c63ff21d259661357334e3ad9c (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2006 / Nos dias atuais, soluções para comércio eletrônico em larga escala devem tratar de vários
desafios da integração de informação. Alguns problemas nesta tarefa envolvem o tratamento da
explosão do número de mapeamentos e do problema da padronização em si. Muito esforço tem
surgido com o objetivo de solucionar a integração em e-Business, entretanto inflando em número
e gerando inconsistências. O propósito deste trabalho é fornecer um método utilizando uma
camada superior, uma ontologia principal, intermediando os domínios. Essa ontologia deve ser o
mais genérica possível dentre os domínios inferiores, que especializam e a instanciam de acordo
com necessidades individuais. A vantagem é associar conceitos de ontologias com padrões e
tecnologias da Web Semântica com o objetivo de preservar a independência na distribuição dos
dados, porém preservando a consistência da informação. Essa arquitetura é validada pela
implementação de um protótipo usando uma interface e um projeto Web e a Linguagem de
Ontologia da Web (Ontology Web Language OWL, recomendação da W3C)
|
14 |
O gerenciador de consultas de um sistema de integração de dadosCOSTA, Thiago Alves January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:14Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / O principal objetivo da integração de dados é prover uma visão integrada de diversas fontes
de dados distribuídas e heterogêneas, transmitindo ao usuário uma ilusão de um sistema
centralizado e homogêneo. Um sistema de integração de dados fornece ao usuário um esquema
global que contém componentes que representam as entidades e relacionamentos das fontes
locais. Diversos são os desafios a serem enfrentados pela integração de dados. Um deles é a
reformulação consultas. Esta é um processo de um sistema de integração de dados que tem a
tarefa de reformular uma consulta do usuário sobre o esquema global em subconsultas para as
fontes locais.
Para viabilizar o processo de reformulação de consultas, um sistema de integração de dados
deve fornecer mapeamentos entre os componentes do esquema global e os componentes dos
esquemas das fontes locais. Deve-se escolher um enfoque para esse mapeamento. Os
mapeamentos mais utilizados são Local-As-View (LAV) e o Global-As-View (GAV). No GAV,
para cada componente do esquema global é escrita uma consulta sobre os esquemas locais. No
LAV, ao invés de escrever consultas que definem como as entidades do esquema global são
obtidos, são definidas consultas que descrevem como obter a extensão das fontes de dados a
partir do esquema global. A principal diferença desses dois enfoques está na capacidade de
evoluir com as mudanças nos esquemas das fontes locais e com o processo de reformulação de
consultas.
Nossa proposta consiste em definir e implementar um gerenciador de consultas para o
Integra. Este é um sistema de integração de dados proposto por [Lóscio03a] baseado em
mediadores que oferece uma visão integrada de dados distribuídos em diversas fontes de dados
autônomas e heterogêneas, de acordo com o enfoque GAV
|
15 |
O gerenciador de consultas de um sistema de integração de dadosCOSTA, Thiago Alves January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:33Z (GMT). No. of bitstreams: 2
arquivo9551_1.pdf: 1191336 bytes, checksum: 17d282e0b1686ef5fc082629548b1c89 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / O principal objetivo da integração de dados é prover uma visão integrada de diversas fontes
de dados distribuídas e heterogêneas, transmitindo ao usuário uma ilusão de um sistema
centralizado e homogêneo. Um sistema de integração de dados fornece ao usuário um esquema
global que contém componentes que representam as entidades e relacionamentos das fontes
locais. Diversos são os desafios a serem enfrentados pela integração de dados. Um deles é a
reformulação consultas. Esta é um processo de um sistema de integração de dados que tem a
tarefa de reformular uma consulta do usuário sobre o esquema global em subconsultas para as
fontes locais.
Para viabilizar o processo de reformulação de consultas, um sistema de integração de dados
deve fornecer mapeamentos entre os componentes do esquema global e os componentes dos
esquemas das fontes locais. Deve-se escolher um enfoque para esse mapeamento. Os
mapeamentos mais utilizados são Local-As-View (LAV) e o Global-As-View (GAV). No GAV,
para cada componente do esquema global é escrita uma consulta sobre os esquemas locais. No
LAV, ao invés de escrever consultas que definem como as entidades do esquema global são
obtidos, são definidas consultas que descrevem como obter a extensão das fontes de dados a
partir do esquema global. A principal diferença desses dois enfoques está na capacidade de
evoluir com as mudanças nos esquemas das fontes locais e com o processo de reformulação de
consultas.
Nossa proposta consiste em definir e implementar um gerenciador de consultas para o
Integra. Este é um sistema de integração de dados proposto por [Lóscio03a] baseado em
mediadores que oferece uma visão integrada de dados distribuídos em diversas fontes de dados
autônomas e heterogêneas, de acordo com o enfoque GAV
|
16 |
Análise gênica de comorbidades a partir da integração de dados epidemiológicos / Comorbidities genetic analysis from epidemological data integrationKarla Ferraz Néto 01 December 2014 (has links)
A identificação de genes responsáveis por doenças humanas pode fornecer conhecimentos sobre mecanismos patológicos e psicológicos que são essenciais para o desenvolvimento de novos diagnósticos e terapias. Sabemos que uma doença é raramente uma consequência de uma anormalidade num único gene, porém reflete desordens de uma rede intra e intercelular complexa. Muitas metodologias conhecidas na Bioinformática são capazes de priorizar genes relacionados a uma determinada doença. Algumas abordagens também podem validar a pertinência ou não destes genes em relação à doença estudada. Uma abordagem de priorização de genes é a investigação a partir de doenças que acometem pacientes ao mesmo tempo, as comorbidades. Existem muitas fontes de dados biomédicos que podem ser utilizadas para a coleta de comorbidades. Desta forma, podemos coletar pares de doenças que formam comorbidades epidemiológicas e assim analisar os genes de cada doença. Esta análise serve para expandirmos a lista de genes candidatos de cada uma dessas doenças e justificarmos a relação gênica entre essas comorbidades. O objetivo principal deste projeto é o de integração dos dados epidemiológicos e genéticos para a realização da predição de genes causadores de doenças. Isto se dará através do estudo de comorbidade destas doenças. / The identification of genes responsible for human diseases can provide knowledge about pathological and physiological mechanisms that are essential for the development of new diagnostics and therapeutics. It is known that a disease is rarely a consequence of an abnormality in a single gene, but reflects complex intra and intercellular network disorders. Many methodologies known in Bioinformatics are able to prioritize genes related to a particular disease. Some approaches can also validate how appropriate or not these genes are relative to a disease. An approach for prioritizing genes is the research from diseases afecting patients at the same time, i.e. comorbidities. There are many sources of biomedical data that can be used to collect comorbidities and analyse genes of each disease. We can also expand the list of candidate genes for each singular disease and justify the genetic relationship of these comorbidities. The main objective of this project is the integration of epidemiologic and genetic data to perform the prediction of causing genes through the study of comorbidity of these illnesses.
|
17 |
Uma abordagem de integração de dados públicos sobre comorbidade para a predição de associação de doenças complexas / An approach of integrating public data on comorbidity for the prediction of association of complex diseasesSilva, Carla Fernandes da 02 May 2019 (has links)
Comorbidade é a coocorrência de dois ou mais distúrbios em uma pessoa. Identificar quais fatores genéticos ou quais são os mecanismos subjacentes à comorbidade é um grande desafio da ciência. Outra constatação relevante é que muitos pares de doenças que compartilham genes comuns não mostram comorbidade significativa nos registros clínicos. Vários estudos clínicos e epidemiológicos têm demonstrado que a comorbidade é uma situação médica universal porque pacientes com vários transtornos médicos são a regra e não a exceção. Neste trabalho, é proposta uma metodologia de predição de associação doença-doença por meio da integração de dados públicos sobre genes e sobre doenças e suas comorbidades. Analisando as redes formadas pelos genes e pelas doenças, a partir da utilização de cinco métodos de predição de links: Vizinhos Comuns, Adamic-Adar, Índice de Conexão Preferencial, Índice de Alocação de Recursos e Katz, a fim de encontrar novas relações de comorbidade. Como resultados foram criadas duas redes: uma rede epidemiológica chamada de rede_DATASUS com 1.941 nós e 248.508 arestas e uma rede gênica, rede_KEGG, com 288 nós e 1.983 arestas. E a predição em cima da rede_KEGG, e dentre as associações de doenças preditas e analisadas encontramos 6 associações preditas que estão presentes na rede_DATASUS e relatos na literatura. Acreditamos que as associações entre genes podem elucidar as causas de algumas comorbidades / Comorbidity is the co-occurrence of two or more heath disturbances in a person. Identify which genetic factors or what are the biological mechanisms underlying the comorbidity is a big challenge in science. Another relevant finding is that many pairs of diseases that share common genes do not show significant comorbidity clinical records. Several clinical and epidemiological studies have shown that comorbidity is a universal medical situation because patients with various medical disorders are the rule and not the exception In this work, a methodology of prediction of disease-illness is provided through the integration of data on genes and on diseases and their comorbidities. Analyzing how to redesign genes and diseases, using five link prediction methods: Common Neighbours, Adamic-Adar, Preferential Attachment Index, Resource Allocation Index and emph Katz, an end to find new relationships of comorbidity. As a redesigned network: an epidemiological network called network_DATASUS network with 1,941 nodes and 248,508 edges and a genetic network, network_KEGG, with 288 nodes and 1,983 edges. And the prediction over network_KEGG, and among the predicted and analyzed combinations are 6 predicted classes that are present in network_DATASUS and reports in the literature. We believe that the associations between genes can elucidate the causes of some comorbidities
|
18 |
Genômica translacional: integrando dados clínicos e biomoleculares / Translational genomics: integrating clinical and biomolecular dataMiyoshi, Newton Shydeo Brandão 06 February 2013 (has links)
A utilização do conhecimento científico para promoção da saúde humana é o principal objetivo da ciência translacional. Para que isto seja possível, faz-se necessário o desenvolvimento de métodos computacionais capazes de lidar com o grande volume e com a heterogeneidade da informação gerada no caminho entre a bancada e a prática clínica. Uma barreira computacional a ser vencida é o gerenciamento e a integração dos dados clínicos, sócio-demográficos e biológicos. Neste esforço, as ontologias desempenham um papel essencial, por serem um poderoso artefato para representação do conhecimento. Ferramentas para gerenciamento e armazenamento de dados clínicos na área da ciência translacional que têm sido desenvolvidas, via de regra falham por não permitir a representação de dados biológicos ou por não oferecer uma integração com as ferramentas de bioinformática. Na área da genômica existem diversos modelos de bancos de dados biológicos (tais como AceDB e Ensembl), os quais servem de base para a construção de ferramentas computacionais para análise genômica de uma forma independente do organismo de estudo. Chado é um modelo de banco de dados biológicos orientado a ontologias, que tem ganhado popularidade devido a sua robustez e flexibilidade, enquanto plataforma genérica para dados biomoleculares. Porém, tanto Chado quanto os outros modelos de banco de dados biológicos não estão preparados para representar a informação clínica de pacientes. Este projeto de mestrado propõe a implementação e validação prática de um framework para integração de dados, com o objetivo de auxiliar a pesquisa translacional integrando dados biomoleculares provenientes das diferentes tecnologias omics com dados clínicos e sócio-demográficos de pacientes. A instanciação deste framework resultou em uma ferramenta denominada IPTrans (Integrative Platform for Translational Research), que tem o Chado como modelo de dados genômicos e uma ontologia como referência. Chado foi estendido para permitir a representação da informação clínica por meio de um novo Módulo Clínico, que utiliza a estrutura de dados entidade-atributo-valor. Foi desenvolvido um pipeline para migração de dados de fontes heterogêneas de informação para o banco de dados integrado. O framework foi validado com dados clínicos provenientes de um Hospital Escola e de um banco de dados biomoleculares para pesquisa de pacientes com câncer de cabeça e pescoço, assim como informações de experimentos de microarray realizados para estes pacientes. Os principais requisitos almejados para o framework foram flexibilidade, robustez e generalidade. A validação realizada mostrou que o sistema proposto satisfaz as premissas, levando à integração necessária para a realização de análises e comparações dos dados. / The use of scientific knowledge to promote human health is the main goal of translational science. To make this possible, it is necessary to develop computational methods capable of dealing with the large volume and heterogeneity of information generated on the road between bench and clinical practice. A computational barrier to be overcome is the management and integration of clinical, biological and socio-demographics data. In this effort, ontologies play a crucial role, being a powerful artifact for knowledge representation. Tools for managing and storing clinical data in the area of translational science that have been developed, usually fail due to the lack on representing biological data or not offering integration with bioinformatics tools. In the field of genomics there are many different biological databases (such as AceDB and Ensembl), which are the basis for the construction of computational tools for genomic analysis in an organism independent way. Chado is a ontology-oriented biological database model which has gained popularity due to its robustness and flexibility, as a generic platform for biomolecular data. However, both Chado as other models of biological databases are not prepared to represent the clinical information of patients. This project consists in the proposal, implementation and validation of a practical framework for data integration, aiming to help translational research integrating data coming from different omics technologies with clinical and socio-demographic characteristics of patients. The instantiation of the designed framework resulted in a computational tool called IPTrans (Integrative Platform for Translational Research), which has Chado as template for genomic data and uses an ontology reference. Chado was extended to allow the representation of clinical information through a new Clinical Module, which uses the data structure entity-attribute-value. We developed a pipeline for migrating data from heterogeneous sources of information for the integrated database. The framework was validated with clinical data from a School Hospital and a database for biomolecular research of patients with head and neck cancer. The main requirements were targeted for the framework flexibility, robustness and generality. The validation showed that the proposed system satisfies the assumptions leading to integration required for the analysis and comparisons of data.
|
19 |
Classificação taxonômica de sequências obtidas com meta-ômicas por meio de integração de dados / Taxonomic classification of sequences obtained with meta-omics by data integrationLima, Felipe Prata 20 August 2019 (has links)
Comunidades microbianas possuem papéis importantes em processos que ocorrem em diversos ambientes, tais como solos, oceanos e o trato gastrointestinal dos seres humanos. Portanto, é de interesse a compreensão da estrutura e do funcionamento dessas comunidades. A estrutura dessas comunidades, em termos de organismos componentes, pode ser determinada com o uso do sequenciamento de nova geração em conjunto com as técnicas meta-ômicas e pela análise taxonômica das sequências obtidas com programas de classificação taxonômica. Se por um lado diversos programas estão disponíveis, por outro lado eles cometem erros, como a identificação parcial dos organismos presentes na amostra e a identificação de organismos que não estão presentes na amostra (os falsos positivos - FPs). Algumas abordagens foram propostas para a melhoria das classificações taxonômicas obtidas por esses programas com a redução desses FPs, porém elas abordam apenas um tipo de meta-ômica, a metagenômica. Neste trabalho, propomos uma nova abordagem através da integração de diferentes meta-ômicas - metagenômicas shotgun e de amplicons de 16S, e metatranscritômica. Exploramos os resultados de classificações de dados simulados e mocks para a extração de variáveis e desenvolvemos modelos de classificação para discriminação de predições de espécies de bactérias classificadas como corretas ou incorretas. Comparamos o desempenho dos resultados obtidos entre as meta-ômicas individuais e os obtidos através da integração observando o balanceamento entre a precisão e a sensibilidade. De acordo com as medidas calculadas com nossos conjuntos de dados, nossa abordagem demonstrou melhorias na classificação com a redução de FPs e aumentos para a medida F1, quando comparada com abordagens não integrativas, inclusive com o uso de métodos de combinação de classificadores. Para facilitar seu uso, desenvolvemos o Gunga, uma ferramenta que incorpora a abordagem desenvolvida em formato de pacote do R, com funcionalidades para a integração de dados de classificação taxonômica com diferentes meta-ômicas e a classificação das predições incorretas. / Microbial communities play important roles in processes that occur in diverse environments, such as soils, oceans, and the gastrointestinal tract of humans. Therefore, it is of interest to understand the structure and functioning of these communities. The structure of these communities, in terms of component organisms, can be determined by the use of the next generation sequencing in conjunction with the meta-omics techniques and by the taxonomic analysis of the sequences obtained with taxonomic classification programs. If on the one hand several programs are available, on the other hand they make mistakes, such as the partial identification of the organisms present in the sample and the identification of organisms that are not present in the sample (the false positives - FPs). Some approaches have been proposed to improve the taxonomic classifications obtained by these programs with the reduction of these FPs, but they address only one type of meta-omics, the metagenomics. In this work, we propose a new approach by integrating different meta-omics - shotgun and 16S amplicon metagenomics, and metatranscriptomics. We explored the classifications results of simulated data and mocks for variable extraction and developed classification models for discriminating predictions of bacterial species classified as correct or incorrect. We compared the performance of the results obtained between the individual meta-omics and the obtained through the integration observing the balance between precision and sensitivity. According to the measures calculated with our data sets, our approach has shown improvements in the classification with the reduction of the FPs and increases for the F1 measure, when compared to non-integrative approaches, including the use of classifiers combination methods. To facilitate its use, we developed the Gunga, a tool that incorporates the developed approach in R package format, with features for the integration of taxonomic classification data with different meta-omics and the classification of the incorrect predictions.
|
20 |
Usando Assertivas de Correspondência para Especificação e Geração de Visões XML para Aplicações Web / Using assertive of correspondence for specification and generation of XML view for applications WebLemos, Fernando Cordeiro de January 2007 (has links)
LEMOS, Fernando Cordeiro de. Usando Assertivas de Correspondência para Especificação e Geração de Visões XML para Aplicações Web. 2007. 115 f. : Dissertação (mestrado) - Universidade Federal do Ceará, Centro de Ciências, Departamento de Computação, Fortaleza-CE, 2007. / Submitted by guaracy araujo (guaraa3355@gmail.com) on 2016-06-24T19:44:28Z
No. of bitstreams: 1
2007_dis_fclemos.pdf: 1586971 bytes, checksum: d5add67ad3fb40e35813240332a35900 (MD5) / Approved for entry into archive by guaracy araujo (guaraa3355@gmail.com) on 2016-06-24T19:47:37Z (GMT) No. of bitstreams: 1
2007_dis_fclemos.pdf: 1586971 bytes, checksum: d5add67ad3fb40e35813240332a35900 (MD5) / Made available in DSpace on 2016-06-24T19:47:37Z (GMT). No. of bitstreams: 1
2007_dis_fclemos.pdf: 1586971 bytes, checksum: d5add67ad3fb40e35813240332a35900 (MD5)
Previous issue date: 2007 / Web applications that have large number of pages, whose contents are dynamically extracted from one or more databases, and that requires data intensive access and update, are known as "data-intensive Web applications" (DIWA applications) [7]. In this work, the requirements for the content of each page of the application are specified by an XML view, which is called Navigation View (NV). We believe that the data of NVs are stored in a relational or XML database. In this work, we propose an approach to specify and generate NVs for Web applications whose content is extracted from one or more data sources. In the proposed approach, a NV is specified conceptually with the help of a set of Correspondence Assertions [44], so that the definition of NV can be generated automatically based on assertions of view. / Aplicações Web que possuem grande número de páginas, cujos conteúdos são dinamicamente extraídos de banco de dados, e que requerem intenso acesso e atualização dos dados, são conhecidas como “data-intensive Web applications” (aplicações DIWA). Neste trabalho, os requisitos de conteúdo de cada página da aplicação são especificados através de uma visão XML, a qual denominamos Visão de Navegação (VN). Consideramos que os dados das VNs estão armazenados em um banco de dados relacional ou XML. Nesse trabalho, propomos um enfoque para especificação e geração de VNs para aplicações Web cujo conteúdo é extraído de uma ou mais fontes de dados. No enfoque proposto, uma VN é especificada conceitualmente com a ajuda de um conjunto de Assertivas de Correspondência, de forma que a definição da VN pode ser gerada automaticamente a partir das assertivas da visão.
|
Page generated in 0.0301 seconds