• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 12
  • 4
  • Tagged with
  • 16
  • 16
  • 12
  • 12
  • 8
  • 8
  • 8
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

The taxonomic name resolution service: an online tool for automated standardization of plant names

Boyle, Brad, Hopkins, Nicole, Lu, Zhenyuan, Raygoza Garay, Juan Antonio, Mozzherin, Dmitry, Rees, Tony, Matasci, Naim, Narro, Martha, Piel, William, Mckay, Sheldon, Lowry, Sonya, Freeland, Chris, Peet, Robert, Enquist, Brian January 2013 (has links)
BACKGROUND:The digitization of biodiversity data is leading to the widespread application of taxon names that are superfluous, ambiguous or incorrect, resulting in mismatched records and inflated species numbers. The ultimate consequences of misspelled names and bad taxonomy are erroneous scientific conclusions and faulty policy decisions. The lack of tools for correcting this 'names problem' has become a fundamental obstacle to integrating disparate data sources and advancing the progress of biodiversity science.RESULTS:The TNRS, or Taxonomic Name Resolution Service, is an online application for automated and user-supervised standardization of plant scientific names. The TNRS builds upon and extends existing open-source applications for name parsing and fuzzy matching. Names are standardized against multiple reference taxonomies, including the Missouri Botanical Garden's Tropicos database. Capable of processing thousands of names in a single operation, the TNRS parses and corrects misspelled names and authorities, standardizes variant spellings, and converts nomenclatural synonyms to accepted names. Family names can be included to increase match accuracy and resolve many types of homonyms. Partial matching of higher taxa combined with extraction of annotations, accession numbers and morphospecies allows the TNRS to standardize taxonomy across a broad range of active and legacy datasets.CONCLUSIONS:We show how the TNRS can resolve many forms of taxonomic semantic heterogeneity, correct spelling errors and eliminate spurious names. As a result, the TNRS can aid the integration of disparate biological datasets. Although the TNRS was developed to aid in standardizing plant names, its underlying algorithms and design can be extended to all organisms and nomenclatural codes. The TNRS is accessible via a web interface at http://tnrs.iplantcollaborative.org/ webcite and as a RESTful web service and application programming interface. Source code is available at https://github.com/iPlantCollaborativeOpenSource/TNRS/ webcite.
2

OTO: ontology term organizer

Huang, Fengqiong, Macklin, James A., Cui, Hong, Cole, Heather A., Endara, Lorena January 2015 (has links)
BACKGROUND: The need to create controlled vocabularies such as ontologies for knowledge organization and access has been widely recognized in various domains. Despite the indispensable need of thorough domain knowledge in ontology construction, most software tools for ontology construction are designed for knowledge engineers and not for domain experts to use. The differences in the opinions of different domain experts and in the terminology usages in source literature are rarely addressed by existing software. METHODS: OTO software was developed based on the Agile principles. Through iterations of software release and user feedback, new features are added and existing features modified to make the tool more intuitive and efficient to use for small and large data sets. The software is open source and built in Java. RESULTS: Ontology Term Organizer (OTO; http://biosemantics.arizona.edu/OTO/) is a user-friendly, web-based, consensus-promoting, open source application for organizing domain terms by dragging and dropping terms to appropriate locations. The application is designed for users with specific domain knowledge such as biology but not in-depth ontology construction skills. Specifically OTO can be used to establish is_a, part_of, synonym, and order relationships among terms in any domain that reflects the terminology usage in source literature and based on multiple experts' opinions. The organized terms may be fed into formal ontologies to boost their coverage. All datasets organized on OTO are publicly available. CONCLUSION: OTO has been used to organize the terms extracted from thirty volumes of Flora of North America and Flora of China combined, in addition to some smaller datasets of different taxon groups. User feedback indicates that the tool is efficient and user friendly. Being open source software, the application can be modified to fit varied term organization needs for different domains.
3

Arquitetura orientada a serviços para aquisição de dados de experimentos em Weblab de abelhas. / Service oriented architecture for data acquisition of experiments in bee Weblab.

Najm, Leandro Halle 17 June 2011 (has links)
Experimentos ambientais são fundamentais para entender os efeitos das mudanças climáticas, como o decréscimo de polinizadores encontrados na natureza. Esses experimentos devem ser compartilhados com uma metodologia integrada. Desenvolver e aplicar ferramentas de tecnologia da informação em diferentes áreas de pesquisa é primordial para melhorar processos de controle e análise de dados, sem requisitar que pesquisadores de outras áreas tenham conhecimentos avançados em tecnologias da computação. Para isso, é importante a utilização de uma infraestrutura de hardware e software aberta e disponível aos pesquisadores, por meio de portais na web conhecidos como Weblabs, para aquisição e compartilhamento de dados obtidos através de sensores. Este trabalho apresenta uma arquitetura de sistemas de informação para a implementação de Weblabs a partir dos conceitos de SOA, para solucionar o problema de heterogeneidade e interoperabilidade de ambientes, visto que os dados são coletados por diferentes tecnologias de redes de sensores em suas bases de dados. Para tanto, fez-se necessária a modelagem de uma base de dados central capaz de armazenar dados oriundos de diferentes sistemas, acessíveis por meio do consumo de serviços disponibilizados pelo Weblab. / Environmental experiments are fundamental to understand the effects of climate change, such as the decline of pollinators in nature. These experiments should be shared with an integrated methodology. Develop and apply tools of information technology in different areas of research is essential for improving process control and data analysis, without requiring that researchers from other fields have advanced knowledge in computing technologies. For this it is important to use an open infrastructure of hardware and software made available to researchers through web portals, known as Weblab for acquisition and sharing of data obtained by sensors. This paper presents a model of information systems architecture for the implementation of a Weblab based on the concepts of SOA, to solve the problem of heterogeneity and interoperability of environments, since the data is collected by different network technologies of sensors in its databases. It was necessary for the modeling of central database capable of storing data from different systems accessible through the consumption of the service provided by the Weblab.
4

Estratégias de computação para suportar interoperabilidade entre modelos processados por ferramentas de modelagem de distribuição de espécies. / Computational strategies to support interoperability between models processed by species distribution modeling tools.

Borba, Cleverton Ferreira 15 August 2017 (has links)
A área de pesquisa denominada Informática para Biodiversidade enfrenta o desafio de suprir a demanda por tecnologia de apoio à conservação da biodiversidade. Dentre as áreas da ecologia que se beneficiam de recursos tecnológicos, a modelagem de distribuição de espécies se destaca pelo número de ferramentas e de algoritmos desenvolvidos para os pesquisadores da área. No entanto, estudos demostram que a modelagem tem se tornado mais complexa, bem como, a necessidade por melhorias da aplicação de novas técnicas e soluções computacionais. A interoperabilidade computacional para os dados de biodiversidade, que incluem os modelos gerados pelas ferramentas de modelagem, é citada pelos autores e pesquisadores da área como uma preocupação que demanda estudos, definição de melhores práticas e soluções de computação. Cada tópico que envolve a modelagem como, algoritmos, parâmetros, dados de ocorrência, camadas ambientais, ferramentas e técnicas para a elaboração de modelos, além dos padrões de metadados e perfis de aplicação, são objetos de estudo para que seja possível a interoperabilidade nesse campo de pesquisa. Este trabalho apresenta, portanto, uma estratégia computacional para apoiar a interoperabilidade entre os modelos gerados pelas ferramentas de modelagem de distribuição de espécies, através do uso de padrões de metadados e pelo desenvolvimento de um perfil de aplicação que apoie essa interoperabilidade. São apresentados dois estudos de caso com o objetivo de validar essas estratégias e uma arquitetura computacional para apoiar comunidades de desenvolvimento de ferramentas de modelagem a buscarem essa interoperabilidade entre os dados fornecidos e processados por elas. As contribuições deste trabalho envolvem a disponibilização de um perfil de aplicação voltado para a área de modelagem de distribuição de espécies, um protótipo de software para processar os modelos gerados pelas ferramentas de modelagem, o incentivo e o uso do digital objetct identification para disponibilização dos dados, além do processo de pesquisa e da validação de metodologias que foram utilizadas para se alcançarem os resultados desta pesquisa. / The research area called Informatics for Biodiversity faces the challenge of meeting the demand for technology to support biodiversity conservation. Among the areas of ecology that benefit from technological resources, the modeling of species distribution is notable for the number of tools and algorithms developed to researchers in this area. However, studies have shown that modeling has become more complex, as well as the need for improvements in the application of new techniques and computational solutions. The computational interoperability for biodiversity data, which includes models generated by modeling tools, is cited by authors and researchers in the field as a concern that demands studies, definition of best practices and computing solutions. Each topic that involves modeling such as algorithms, parameters, occurrence data, environmental layers, tools, techniques for the elaboration of models, standards of metadata and application profiles are objects of study of this dissertation. This thesis presents a computational strategy to support the interoperability between the models generated by the modeling tools of species distribution, through the use of metadata standards and the development of an application profile that supports this interoperability. Two case studies are presented with the objective of validating these strategies and we also present a computational architecture to support communities to develop of modeling tools to seek this interoperability between the data supplied and processed by them. The contributions of this work involve the provision of an application profile for the area of species distribution modeling, a software prototype to process the models generated by the modeling tools, the incentive and use of the digital objetct identification to make data available, and in addition to the process of research and validation of methodologies that were used to summarize the results of this research.
5

Estratégias de computação para suportar interoperabilidade entre modelos processados por ferramentas de modelagem de distribuição de espécies. / Computational strategies to support interoperability between models processed by species distribution modeling tools.

Cleverton Ferreira Borba 15 August 2017 (has links)
A área de pesquisa denominada Informática para Biodiversidade enfrenta o desafio de suprir a demanda por tecnologia de apoio à conservação da biodiversidade. Dentre as áreas da ecologia que se beneficiam de recursos tecnológicos, a modelagem de distribuição de espécies se destaca pelo número de ferramentas e de algoritmos desenvolvidos para os pesquisadores da área. No entanto, estudos demostram que a modelagem tem se tornado mais complexa, bem como, a necessidade por melhorias da aplicação de novas técnicas e soluções computacionais. A interoperabilidade computacional para os dados de biodiversidade, que incluem os modelos gerados pelas ferramentas de modelagem, é citada pelos autores e pesquisadores da área como uma preocupação que demanda estudos, definição de melhores práticas e soluções de computação. Cada tópico que envolve a modelagem como, algoritmos, parâmetros, dados de ocorrência, camadas ambientais, ferramentas e técnicas para a elaboração de modelos, além dos padrões de metadados e perfis de aplicação, são objetos de estudo para que seja possível a interoperabilidade nesse campo de pesquisa. Este trabalho apresenta, portanto, uma estratégia computacional para apoiar a interoperabilidade entre os modelos gerados pelas ferramentas de modelagem de distribuição de espécies, através do uso de padrões de metadados e pelo desenvolvimento de um perfil de aplicação que apoie essa interoperabilidade. São apresentados dois estudos de caso com o objetivo de validar essas estratégias e uma arquitetura computacional para apoiar comunidades de desenvolvimento de ferramentas de modelagem a buscarem essa interoperabilidade entre os dados fornecidos e processados por elas. As contribuições deste trabalho envolvem a disponibilização de um perfil de aplicação voltado para a área de modelagem de distribuição de espécies, um protótipo de software para processar os modelos gerados pelas ferramentas de modelagem, o incentivo e o uso do digital objetct identification para disponibilização dos dados, além do processo de pesquisa e da validação de metodologias que foram utilizadas para se alcançarem os resultados desta pesquisa. / The research area called Informatics for Biodiversity faces the challenge of meeting the demand for technology to support biodiversity conservation. Among the areas of ecology that benefit from technological resources, the modeling of species distribution is notable for the number of tools and algorithms developed to researchers in this area. However, studies have shown that modeling has become more complex, as well as the need for improvements in the application of new techniques and computational solutions. The computational interoperability for biodiversity data, which includes models generated by modeling tools, is cited by authors and researchers in the field as a concern that demands studies, definition of best practices and computing solutions. Each topic that involves modeling such as algorithms, parameters, occurrence data, environmental layers, tools, techniques for the elaboration of models, standards of metadata and application profiles are objects of study of this dissertation. This thesis presents a computational strategy to support the interoperability between the models generated by the modeling tools of species distribution, through the use of metadata standards and the development of an application profile that supports this interoperability. Two case studies are presented with the objective of validating these strategies and we also present a computational architecture to support communities to develop of modeling tools to seek this interoperability between the data supplied and processed by them. The contributions of this work involve the provision of an application profile for the area of species distribution modeling, a software prototype to process the models generated by the modeling tools, the incentive and use of the digital objetct identification to make data available, and in addition to the process of research and validation of methodologies that were used to summarize the results of this research.
6

Arquitetura orientada a serviços para aquisição de dados de experimentos em Weblab de abelhas. / Service oriented architecture for data acquisition of experiments in bee Weblab.

Leandro Halle Najm 17 June 2011 (has links)
Experimentos ambientais são fundamentais para entender os efeitos das mudanças climáticas, como o decréscimo de polinizadores encontrados na natureza. Esses experimentos devem ser compartilhados com uma metodologia integrada. Desenvolver e aplicar ferramentas de tecnologia da informação em diferentes áreas de pesquisa é primordial para melhorar processos de controle e análise de dados, sem requisitar que pesquisadores de outras áreas tenham conhecimentos avançados em tecnologias da computação. Para isso, é importante a utilização de uma infraestrutura de hardware e software aberta e disponível aos pesquisadores, por meio de portais na web conhecidos como Weblabs, para aquisição e compartilhamento de dados obtidos através de sensores. Este trabalho apresenta uma arquitetura de sistemas de informação para a implementação de Weblabs a partir dos conceitos de SOA, para solucionar o problema de heterogeneidade e interoperabilidade de ambientes, visto que os dados são coletados por diferentes tecnologias de redes de sensores em suas bases de dados. Para tanto, fez-se necessária a modelagem de uma base de dados central capaz de armazenar dados oriundos de diferentes sistemas, acessíveis por meio do consumo de serviços disponibilizados pelo Weblab. / Environmental experiments are fundamental to understand the effects of climate change, such as the decline of pollinators in nature. These experiments should be shared with an integrated methodology. Develop and apply tools of information technology in different areas of research is essential for improving process control and data analysis, without requiring that researchers from other fields have advanced knowledge in computing technologies. For this it is important to use an open infrastructure of hardware and software made available to researchers through web portals, known as Weblab for acquisition and sharing of data obtained by sensors. This paper presents a model of information systems architecture for the implementation of a Weblab based on the concepts of SOA, to solve the problem of heterogeneity and interoperability of environments, since the data is collected by different network technologies of sensors in its databases. It was necessary for the modeling of central database capable of storing data from different systems accessible through the consumption of the service provided by the Weblab.
7

Um estudo sobre qualidade de dados em biodiversidade: aplicação a um sistema de digitalização de ocorrências de espécies / A study about data quality in biodiversity: application to a species ocurrences digitization system

Veiga, Allan Koch 09 February 2012 (has links)
Para o combate da atual crise de sustentabilidade ambiental, diversos estudos sobre a biodiversidade e o meio ambiente têm sido realizados com o propósito de embasar estratégias eficientes de conservação e uso de recursos naturais. Esses estudos são fundamentados em avaliações e monitoramentos da biodiversidade que ocorrem por meio da coleta, armazenamento, análise, simulação, modelagem, visualização e intercâmbio de um volume expressivo de dados sobre a biodiversidade em amplo escopo temporal e espacial. Dados sobre ocorrências de espécies são um tipo de dado de biodiversidade particularmente importante, pois são amplamente utilizados em diversos estudos. Contudo, para que as análises e os modelos gerados a partir desses dados sejam confiáveis, os dados utilizados devem ser de alta qualidade. Assim, para melhorar a Qualidade de Dados (QD) sobre ocorrências de espécies, o objetivo deste trabalho foi realizar um estudo sobre QD aplicado a dados de ocorrências de espécies que permitisse avaliar e melhorar a QD por meio de técnicas e recursos de prevenção a erros. O estudo foi aplicado a um Sistema de Informação (SI) de digitalização de dados de ocorrências de espécies, o Biodiversity Data Digitizer (BDD), desenvolvido no âmbito dos projetos da Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) e BioAbelha FAPESP. Foi realizada uma revisão da literatura sobre dados de ocorrências de espécies e sobre os seus domínios de dados mais relevantes. Para os domínios de dados identificados como mais importantes (táxon, geoespacial e localização), foi realizado um estudo sobre a Avaliação da QD, no qual foi definido um conceito de QD em relação a cada domínio de dados por meio da identificação, definição e inter-relação de dimensões de QD (aspectos) importantes e de problemas que afetam essas dimensões. Embasado nesse estudo foram identificados recursos computacionais que permitissem melhorar a QD por meio da redução de erros. Utilizando uma abordagem de Gerenciamento da QD de prevenção a erros, foram identificados 13 recursos computacionais que auxiliam na prevenção de 8 problemas de QD, proporcionando, assim, uma melhoria da acurácia, precisão, completude, consistência, credibilidade da fonte e confiabilidade de dados taxonômicos, geoespaciais e de localização de ocorrências de espécies. Esses recursos foram implementados em duas ferramentas integradas ao BDD. A primeira é a BDD Taxon Tool. Essa ferramenta facilita a entrada de dados taxonômicos de ocorrências livres de erros por meio de, entre outros recursos, técnicas de fuzzy matching e sugestões de nomes e de hierarquias taxonômicas baseados no Catalog of Life. A segunda ferramenta, a BDD Geo Tool, auxilia o preenchimento de dados geoespaciais e de localização de ocorrências de espécies livres de erros por meio de técnicas de georeferenciamento a partir de descrição em linguagem natural da localização, de georeferenciamento reverso e de mapas interativos do Google Earth, entre outros recursos. Este trabalho demonstrou que com a implementação de determinados recursos computacionais em SI, problemas de QD podem ser reduzidos por meio da prevenção a erros. Como consequência, a QD em domínios de dados específicos é melhorada em relação a determinadas dimensões de QD. / For fighting the current environment sustainability crisis, several studies on biodiversity and the environment have been conducted in order to support efficient strategies for conservation and sustainable use of natural resources. These studies are based on assessment and monitoring of biodiversity that occur by means of the collection, storage, analysis, simulation, modeling, visualization and sharing of a significant volume of biodiversity data in broad temporal and spatial scale. Species occurrences data are a particularly important type of biodiversity data because they are widely used in various studies. Nevertheless, for the analyzing and modeling obtained from these data to be reliable, the data used must be high quality. Thus, to improve the Data Quality (DQ) of species occurrences, the aim of this work was to conduct a study about DQ applied to species occurrences data that allowed assessing and improving the DQ using techniques and resources to prevent errors. This study was applied to an Information System (IS) designed to digitize species occurrences, the Biodiversity Data Digitizer (BDD), that was developed in the scope of the Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) and BioAbelha FAPESP projects. A literature review about species occurrences data and about the most relevant data domains was conducted. For the most important data domains identified (taxon, geospatial and location), a study on the DQ Assessment was performed, in which important DQ dimensions (aspects) and problems that affect theses dimensions were identified, defined and interrelated. Based upon this study, computational resources were identified that would allow improving the DQ by reducing errors. Using the errors preventing DQ Management approach, 13 computing resources to support the prevention of 8 DQ problems were identified, thus providing an improvement of accuracy, precision, completeness, consistency, credibility of source and believability of taxonomic, geospatial and location data of species occurrences. These resources were implemented in two tools integrated to the BDD IS. The first tool is the BDD Taxon Tool. This tool facilitates the entrance of error-free taxonomic data of occurrences by means of fuzzy matching techniques and suggestions for taxonomic names and hierarchies based on Catalog of Life, among other resources. The second tool, the BDD Geo Tool, helps to fill in error-free geospatial and location data about species occurrence by means of georeferencing techniques from natural language description of location, reverse georeferencing and Google Earth interactive maps, among other resources. This work showed that with the development of certain computing resources integrated to an IS, DQ problems are reduced by preventing errors. As a result of reducing some problems in particular, the DQ in specific data domains is improved for certain DQ dimensions.
8

Modelo para análise de desempenho do processo de replicação de dados em portais de biodiversidade. / Model for performance analysis of the replication process of biodiversity portal data.

Salvanha, Pablo 08 December 2009 (has links)
Atualmente muitas instituições mantêm coleções de espécimes biológicas, e através de ferramentas computacionais digitalizam e disponibilizam seus dados para acesso através de portais de dados de biodiversidade. Um exemplo deste tipo de ferramenta é o portal de espécimes utilizado pelo GBIF (Global Biodiversity Information Facility), que centraliza em suas bases de dados milhões de registros, provenientes de instituições de diferentes localizações. A replicação das bases de dados locais nos portais é realizada através da utilização de protocolos (DiGIR / TAPIR) e esquemas de dados (DarwinCore). Entretanto a execução desta solução demanda uma grande quantidade de tempo, englobando tanto a transferência dos fragmentos de dados como o processamento dos mesmos dentro do portal. Com o crescimento da digitalização de dados dentro das instituições, este cenário tende a ser agravado cada vez mais, dificultando assim a manutenção de dados sempre atualizados dentro dos portais. Esta pesquisa propõe uma análise do processo de replicação de dados com objetivo de avaliar seu desempenho. Para isto é utilizado o portal de biodiversidade de polinizadores da IABIN como estudo de caso, o qual possui, além da replicação de dados convencionais o suporte a dados de interação. Com os resultados desta pesquisa é possível simular situações antes da efetivação das mesmas, prevendo assim qual será o seu desempenho. Adicionalmente estes resultados podem contribuir para melhorias futuras deste processo, visando a diminuição do tempo necessário da disponibilização dos dados dentro de portais de biodiversidade. / Currently many institutions keep collections of biological specimens, and through computational tools they digitalize and provide access to their data through biodiversity data portals. An example of this tool is the specimens portal used by GBIF (Global Biodiversity Information Facility), which focuses on its databases millions of records from different institutions around the world. The replication of databases in those portals is accomplished through the use of protocols (DiGIR / TAPIR) and data schemas (DarwinCore). However the implementation of this solution demands a large amount of time, encompassing both, the transfer of fragments of data as processing data within the portal. With the growth of data digitalization within the institutions, this scenario tends to be increasingly exacerbated, making it hard to maintenance the records up to date within the portals. This research proposes analyze the replication process data to evaluate its performance. To reach this objective is used the IABIN biodiversity portal of pollinators as study case, which support both situations: the conventional data and the interaction data replication. With the results of this research is possible to simulate situations before its execution, thus predicting what will be its performance. Additionally these results may contribute to future improvements of this process; in order to decrease the time required to make the data available in the biodiversity portals.
9

Modelo para análise de desempenho do processo de replicação de dados em portais de biodiversidade. / Model for performance analysis of the replication process of biodiversity portal data.

Pablo Salvanha 08 December 2009 (has links)
Atualmente muitas instituições mantêm coleções de espécimes biológicas, e através de ferramentas computacionais digitalizam e disponibilizam seus dados para acesso através de portais de dados de biodiversidade. Um exemplo deste tipo de ferramenta é o portal de espécimes utilizado pelo GBIF (Global Biodiversity Information Facility), que centraliza em suas bases de dados milhões de registros, provenientes de instituições de diferentes localizações. A replicação das bases de dados locais nos portais é realizada através da utilização de protocolos (DiGIR / TAPIR) e esquemas de dados (DarwinCore). Entretanto a execução desta solução demanda uma grande quantidade de tempo, englobando tanto a transferência dos fragmentos de dados como o processamento dos mesmos dentro do portal. Com o crescimento da digitalização de dados dentro das instituições, este cenário tende a ser agravado cada vez mais, dificultando assim a manutenção de dados sempre atualizados dentro dos portais. Esta pesquisa propõe uma análise do processo de replicação de dados com objetivo de avaliar seu desempenho. Para isto é utilizado o portal de biodiversidade de polinizadores da IABIN como estudo de caso, o qual possui, além da replicação de dados convencionais o suporte a dados de interação. Com os resultados desta pesquisa é possível simular situações antes da efetivação das mesmas, prevendo assim qual será o seu desempenho. Adicionalmente estes resultados podem contribuir para melhorias futuras deste processo, visando a diminuição do tempo necessário da disponibilização dos dados dentro de portais de biodiversidade. / Currently many institutions keep collections of biological specimens, and through computational tools they digitalize and provide access to their data through biodiversity data portals. An example of this tool is the specimens portal used by GBIF (Global Biodiversity Information Facility), which focuses on its databases millions of records from different institutions around the world. The replication of databases in those portals is accomplished through the use of protocols (DiGIR / TAPIR) and data schemas (DarwinCore). However the implementation of this solution demands a large amount of time, encompassing both, the transfer of fragments of data as processing data within the portal. With the growth of data digitalization within the institutions, this scenario tends to be increasingly exacerbated, making it hard to maintenance the records up to date within the portals. This research proposes analyze the replication process data to evaluate its performance. To reach this objective is used the IABIN biodiversity portal of pollinators as study case, which support both situations: the conventional data and the interaction data replication. With the results of this research is possible to simulate situations before its execution, thus predicting what will be its performance. Additionally these results may contribute to future improvements of this process; in order to decrease the time required to make the data available in the biodiversity portals.
10

Uma infraestrutura semântica para integração de dados científicos sobre biodiversidade / A semantic infrastructure for integrating biodiversity scientific data

Serique, Kleberson Junio do Amaral 21 December 2017 (has links)
Pesquisas na área de biodiversidade são, em geral, transdisciplinares por natureza. Essas pesquisas tentam responder problemas complexos que necessitam de conhecimento transdisciplinar e requerem a cooperação entre pesquisadores de diversas disciplinas. No entanto, é raro que duas ou mais disciplinas distintas tenham observações, dados e métodos em formatos que permitam a colaboração imediata sobre hipóteses complexas e transdisciplinares. Hoje, a velocidade com que qualquer disciplina obtêm avanços científicos depende de quão bem seus pesquisadores colaboram entre si e com tecnologistas das áreas de bancos de dados, gerenciamento de workflow, visualização e tecnologias, como computação em nuvem. Dentro desse cenário, a Web Semântica surge, não só como uma nova geração de ferramentas para a representação de informações, mais também para a automação, integração, interoperabilidade e reutilização de recursos. Neste trabalho, uma infraestrutura semântica é proposta para a integração de dados científicos sobre biodiversidade. Sua arquitetura é baseada na aplicação das tecnologias da Web Semântica para se desenvolver uma infraestrutura eficiente, robusta e escalável aplicada ao domínio da Biodiversidade. O componente central desse ambiente é a linguagem BioDSL, uma Linguagem de Domínio Especifico (DSL) para mapear dados tabulares para o modelo RDF, seguindo os princípios de Linked Open Data. Esse ambiente integrado também conta com uma interface Web, editores e outras facilidades para conversão/integração de conjuntos de dados sobre biodiversidade. Para o desenvolvimento desse ambiente, houve a participação de instituições de pesquisa parceiras que atuam na área de biodiversidade da Amazônia. A ajuda do Laboratório de Interoperabilidade Semântica do Instituto Nacional de Pesquisas da Amazônia (INPA) foi fundamental para a especificação e testes do ambiente. Foram pesquisados vários casos de uso com pesquisadores do INPA e realizados testes com o protótipo do sistema. Nesses testes, ele foi capaz de converter arquivos de dados reais sobre biodiversidade para RDF e interligar automaticamente entidades presentes nesses dados a entidades presentes na web (nuvem LOD). Num experimento envolvendo 1173 registros de espécies ameaçadas, o ambiente conseguiu recuperar automaticamente 967 (82,4%) entidades (URIs) da LOD referentes a essas espécies, com matching completo para o nome das espécies, 149 (12,7%) com matching parcial (apenas um dos nomes da espécie), 36 (3,1%) não tiveram correspondências (sem resultados nas buscas) e 21 (1,7%) sem registro das especies na LOD. / Research in the area of biodiversity is, in general, transdisciplinary in nature. This type of research attempts to answer complex problems that require transdisciplinary knowledge and require the cooperation between researchers of diverse disciplines. However, it is rare for two or more distinct disciplines to have observations, data, and methods in formats that allow immediate collaboration on complex and transdisciplinary hypotheses. Today, the speed which any discipline gets scientific advances depends on how well its researchers collaborate with each other and with technologists from the areas of databases, workflow management, visualization, and internet technologies. Within this scenario, the Semantic Web arises not only as a new generation of tools for information representation, but also for automation, integration, interoperability and resource reuse. In this work, a semantic infrastructure is proposed for the integration of scientific data on biodiversity. This architecture is based on the application of Semantic Web technologies to develop an efficient, robust and scalable infrastructure for use in the field of Biodiversity. The core component of this infrastructure is the BioDSL language, a Specific Domain Language (DSL) to map tabular data to the RDF model, following the principles of Linked Open Data. This integrated environment also has a Web interface, editors and other facilities for converting/integrating biodiversity datasets. For the development of this environment, we had the participation of partner research institutions that work with Amazon biodiversity. The help of the Laboratory of Semantic Interoperability of the National Institute of Amazonian Research (INPA) was fundamental for the specification and tests of this infrastructure. Several use cases were investigated with INPA researchers and tests were carried out with the system prototype. In these tests, the prototype was able to convert actual biodiversity data files to RDF and automatically interconnect entities present in these data to entities present on the web (LOD cloud). In an experiment involving 1173 records of endangered species, the environment was able to automatically retrieve 967 (82.4%) LOD entities (URIs) for these species, with complete matching for the species name, 149 (12.7%) with partial matching (only one of the species names), 36 (3,1%) with no matching and 21 (1,7%) no have records at LOD.

Page generated in 0.4716 seconds