Spelling suggestions: "subject:"1species occurrences"" "subject:"1species eccurrences""
1 |
Um estudo sobre qualidade de dados em biodiversidade: aplicação a um sistema de digitalização de ocorrências de espécies / A study about data quality in biodiversity: application to a species ocurrences digitization systemVeiga, Allan Koch 09 February 2012 (has links)
Para o combate da atual crise de sustentabilidade ambiental, diversos estudos sobre a biodiversidade e o meio ambiente têm sido realizados com o propósito de embasar estratégias eficientes de conservação e uso de recursos naturais. Esses estudos são fundamentados em avaliações e monitoramentos da biodiversidade que ocorrem por meio da coleta, armazenamento, análise, simulação, modelagem, visualização e intercâmbio de um volume expressivo de dados sobre a biodiversidade em amplo escopo temporal e espacial. Dados sobre ocorrências de espécies são um tipo de dado de biodiversidade particularmente importante, pois são amplamente utilizados em diversos estudos. Contudo, para que as análises e os modelos gerados a partir desses dados sejam confiáveis, os dados utilizados devem ser de alta qualidade. Assim, para melhorar a Qualidade de Dados (QD) sobre ocorrências de espécies, o objetivo deste trabalho foi realizar um estudo sobre QD aplicado a dados de ocorrências de espécies que permitisse avaliar e melhorar a QD por meio de técnicas e recursos de prevenção a erros. O estudo foi aplicado a um Sistema de Informação (SI) de digitalização de dados de ocorrências de espécies, o Biodiversity Data Digitizer (BDD), desenvolvido no âmbito dos projetos da Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) e BioAbelha FAPESP. Foi realizada uma revisão da literatura sobre dados de ocorrências de espécies e sobre os seus domínios de dados mais relevantes. Para os domínios de dados identificados como mais importantes (táxon, geoespacial e localização), foi realizado um estudo sobre a Avaliação da QD, no qual foi definido um conceito de QD em relação a cada domínio de dados por meio da identificação, definição e inter-relação de dimensões de QD (aspectos) importantes e de problemas que afetam essas dimensões. Embasado nesse estudo foram identificados recursos computacionais que permitissem melhorar a QD por meio da redução de erros. Utilizando uma abordagem de Gerenciamento da QD de prevenção a erros, foram identificados 13 recursos computacionais que auxiliam na prevenção de 8 problemas de QD, proporcionando, assim, uma melhoria da acurácia, precisão, completude, consistência, credibilidade da fonte e confiabilidade de dados taxonômicos, geoespaciais e de localização de ocorrências de espécies. Esses recursos foram implementados em duas ferramentas integradas ao BDD. A primeira é a BDD Taxon Tool. Essa ferramenta facilita a entrada de dados taxonômicos de ocorrências livres de erros por meio de, entre outros recursos, técnicas de fuzzy matching e sugestões de nomes e de hierarquias taxonômicas baseados no Catalog of Life. A segunda ferramenta, a BDD Geo Tool, auxilia o preenchimento de dados geoespaciais e de localização de ocorrências de espécies livres de erros por meio de técnicas de georeferenciamento a partir de descrição em linguagem natural da localização, de georeferenciamento reverso e de mapas interativos do Google Earth, entre outros recursos. Este trabalho demonstrou que com a implementação de determinados recursos computacionais em SI, problemas de QD podem ser reduzidos por meio da prevenção a erros. Como consequência, a QD em domínios de dados específicos é melhorada em relação a determinadas dimensões de QD. / For fighting the current environment sustainability crisis, several studies on biodiversity and the environment have been conducted in order to support efficient strategies for conservation and sustainable use of natural resources. These studies are based on assessment and monitoring of biodiversity that occur by means of the collection, storage, analysis, simulation, modeling, visualization and sharing of a significant volume of biodiversity data in broad temporal and spatial scale. Species occurrences data are a particularly important type of biodiversity data because they are widely used in various studies. Nevertheless, for the analyzing and modeling obtained from these data to be reliable, the data used must be high quality. Thus, to improve the Data Quality (DQ) of species occurrences, the aim of this work was to conduct a study about DQ applied to species occurrences data that allowed assessing and improving the DQ using techniques and resources to prevent errors. This study was applied to an Information System (IS) designed to digitize species occurrences, the Biodiversity Data Digitizer (BDD), that was developed in the scope of the Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) and BioAbelha FAPESP projects. A literature review about species occurrences data and about the most relevant data domains was conducted. For the most important data domains identified (taxon, geospatial and location), a study on the DQ Assessment was performed, in which important DQ dimensions (aspects) and problems that affect theses dimensions were identified, defined and interrelated. Based upon this study, computational resources were identified that would allow improving the DQ by reducing errors. Using the errors preventing DQ Management approach, 13 computing resources to support the prevention of 8 DQ problems were identified, thus providing an improvement of accuracy, precision, completeness, consistency, credibility of source and believability of taxonomic, geospatial and location data of species occurrences. These resources were implemented in two tools integrated to the BDD IS. The first tool is the BDD Taxon Tool. This tool facilitates the entrance of error-free taxonomic data of occurrences by means of fuzzy matching techniques and suggestions for taxonomic names and hierarchies based on Catalog of Life, among other resources. The second tool, the BDD Geo Tool, helps to fill in error-free geospatial and location data about species occurrence by means of georeferencing techniques from natural language description of location, reverse georeferencing and Google Earth interactive maps, among other resources. This work showed that with the development of certain computing resources integrated to an IS, DQ problems are reduced by preventing errors. As a result of reducing some problems in particular, the DQ in specific data domains is improved for certain DQ dimensions.
|
2 |
Um estudo sobre qualidade de dados em biodiversidade: aplicação a um sistema de digitalização de ocorrências de espécies / A study about data quality in biodiversity: application to a species ocurrences digitization systemAllan Koch Veiga 09 February 2012 (has links)
Para o combate da atual crise de sustentabilidade ambiental, diversos estudos sobre a biodiversidade e o meio ambiente têm sido realizados com o propósito de embasar estratégias eficientes de conservação e uso de recursos naturais. Esses estudos são fundamentados em avaliações e monitoramentos da biodiversidade que ocorrem por meio da coleta, armazenamento, análise, simulação, modelagem, visualização e intercâmbio de um volume expressivo de dados sobre a biodiversidade em amplo escopo temporal e espacial. Dados sobre ocorrências de espécies são um tipo de dado de biodiversidade particularmente importante, pois são amplamente utilizados em diversos estudos. Contudo, para que as análises e os modelos gerados a partir desses dados sejam confiáveis, os dados utilizados devem ser de alta qualidade. Assim, para melhorar a Qualidade de Dados (QD) sobre ocorrências de espécies, o objetivo deste trabalho foi realizar um estudo sobre QD aplicado a dados de ocorrências de espécies que permitisse avaliar e melhorar a QD por meio de técnicas e recursos de prevenção a erros. O estudo foi aplicado a um Sistema de Informação (SI) de digitalização de dados de ocorrências de espécies, o Biodiversity Data Digitizer (BDD), desenvolvido no âmbito dos projetos da Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) e BioAbelha FAPESP. Foi realizada uma revisão da literatura sobre dados de ocorrências de espécies e sobre os seus domínios de dados mais relevantes. Para os domínios de dados identificados como mais importantes (táxon, geoespacial e localização), foi realizado um estudo sobre a Avaliação da QD, no qual foi definido um conceito de QD em relação a cada domínio de dados por meio da identificação, definição e inter-relação de dimensões de QD (aspectos) importantes e de problemas que afetam essas dimensões. Embasado nesse estudo foram identificados recursos computacionais que permitissem melhorar a QD por meio da redução de erros. Utilizando uma abordagem de Gerenciamento da QD de prevenção a erros, foram identificados 13 recursos computacionais que auxiliam na prevenção de 8 problemas de QD, proporcionando, assim, uma melhoria da acurácia, precisão, completude, consistência, credibilidade da fonte e confiabilidade de dados taxonômicos, geoespaciais e de localização de ocorrências de espécies. Esses recursos foram implementados em duas ferramentas integradas ao BDD. A primeira é a BDD Taxon Tool. Essa ferramenta facilita a entrada de dados taxonômicos de ocorrências livres de erros por meio de, entre outros recursos, técnicas de fuzzy matching e sugestões de nomes e de hierarquias taxonômicas baseados no Catalog of Life. A segunda ferramenta, a BDD Geo Tool, auxilia o preenchimento de dados geoespaciais e de localização de ocorrências de espécies livres de erros por meio de técnicas de georeferenciamento a partir de descrição em linguagem natural da localização, de georeferenciamento reverso e de mapas interativos do Google Earth, entre outros recursos. Este trabalho demonstrou que com a implementação de determinados recursos computacionais em SI, problemas de QD podem ser reduzidos por meio da prevenção a erros. Como consequência, a QD em domínios de dados específicos é melhorada em relação a determinadas dimensões de QD. / For fighting the current environment sustainability crisis, several studies on biodiversity and the environment have been conducted in order to support efficient strategies for conservation and sustainable use of natural resources. These studies are based on assessment and monitoring of biodiversity that occur by means of the collection, storage, analysis, simulation, modeling, visualization and sharing of a significant volume of biodiversity data in broad temporal and spatial scale. Species occurrences data are a particularly important type of biodiversity data because they are widely used in various studies. Nevertheless, for the analyzing and modeling obtained from these data to be reliable, the data used must be high quality. Thus, to improve the Data Quality (DQ) of species occurrences, the aim of this work was to conduct a study about DQ applied to species occurrences data that allowed assessing and improving the DQ using techniques and resources to prevent errors. This study was applied to an Information System (IS) designed to digitize species occurrences, the Biodiversity Data Digitizer (BDD), that was developed in the scope of the Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) and BioAbelha FAPESP projects. A literature review about species occurrences data and about the most relevant data domains was conducted. For the most important data domains identified (taxon, geospatial and location), a study on the DQ Assessment was performed, in which important DQ dimensions (aspects) and problems that affect theses dimensions were identified, defined and interrelated. Based upon this study, computational resources were identified that would allow improving the DQ by reducing errors. Using the errors preventing DQ Management approach, 13 computing resources to support the prevention of 8 DQ problems were identified, thus providing an improvement of accuracy, precision, completeness, consistency, credibility of source and believability of taxonomic, geospatial and location data of species occurrences. These resources were implemented in two tools integrated to the BDD IS. The first tool is the BDD Taxon Tool. This tool facilitates the entrance of error-free taxonomic data of occurrences by means of fuzzy matching techniques and suggestions for taxonomic names and hierarchies based on Catalog of Life, among other resources. The second tool, the BDD Geo Tool, helps to fill in error-free geospatial and location data about species occurrence by means of georeferencing techniques from natural language description of location, reverse georeferencing and Google Earth interactive maps, among other resources. This work showed that with the development of certain computing resources integrated to an IS, DQ problems are reduced by preventing errors. As a result of reducing some problems in particular, the DQ in specific data domains is improved for certain DQ dimensions.
|
3 |
Limitations in Global Information on Species OccurrencesMeyer, Carsten 13 May 2015 (has links)
Detaillierte Informationen über die Verbreitungsareale von Arten sind essentiell für die Beantwortung zentraler Fragen der Ökologie, Evolutionsbiologie und Biogeographie. Solche Informationen sind auch notwendig, um Naturschutzressourcen kostenwirksam zwischen verschiedenen Regionen und Maßnahmen zu verteilen. Unser Wissen über Artverbreitungen beruht vor allem auf Punktdaten, die das Vorkommen einer bestimmten Art an einem bestimmten Ort zu einem bestimmten Zeitpunkt belegen (nachstehend „Records“). Riesige Mengen solcher Records wurden über internationale Data-Sharing-Netzwerke mobilisiert, allen voran durch die Global Biodiversity Information Facility (GBIF). Auch wenn diese Netzwerke die Zugänglichkeit zu solchen Informationen enorm verbessert haben, ist unser Wissen über globale Artverbreitungen immer noch äußerst lückenhaft und von grober räumlicher Auflösung – der sogenannte Wallace’sche Wissensrückstand. Vorhandene Informationen enthalten zudem zahlreiche Unsicherheiten, Fehler und Daten-‘Biases’. Diese könnten durch Ort-spezifische Faktoren wie Zugänglichkeit oder durch artspezifische Faktoren, wie Entdeckungswahrscheinlichkeit, verursacht werden. Zukünftiges Sammeln und Mobilisieren von Informationen sollte so gestaltet werden, dass der erreichte Nutzen der Records für Forschung und Naturschutz maximiert wird. Hierfür ist ein tiefgehendes Verständnis der Lücken, Unsicherheiten und Biases in den Informationen sowie der sie verursachenden Faktoren notwendig. Bisher wurden diese Mängel in globalen Artverbreitungsinformationen niemals quantitativ untersucht. Mit meiner Dissertation liefere ich die ersten globalen Analysen zu Mängeln von digital verfügbaren Verbreitungsinformationen für terrestrische Wirbeltiere und Landpflanzen.
Ich habe >300 Millionen Records für Landpflanzen und drei Gruppen terrestrischer Wirbeltiere (Amphibien, Säugetiere, Vögel) über GBIF abgerufen. Diese Informationen habe ich mit taxonomischen Datenbanken sowie unabhängigen Verbreitungskarten und Checklisten verbunden. Auf Grundlage der erstellten Datensätze habe ich unterschiedliche Formen von Informations-Mängeln für verschiedene taxonomische Gruppen und auf mehreren räumlichen Maßstäben untersucht. In Kapitel I habe Daten-Abdeckung sowie Daten-Unsicherheiten in Informationen zu Pflanzenvorkommen jeweils in Bezug auf Taxonomie, Raum und Zeit quantifiziert. Für diese insgesamt 6 Maße habe in anschließend Variation in den drei Dimensionen (Taxonomie, Raum, Zeit) gemessen. Zudem habe ich mithilfe von paarweisen Spearman-Rang-Korrelationen und Hauptkomponentenanalysen die Zusammenhänge zwischen diesen verschiedenen Formen von Informationsmängeln analysiert. In Kapitel II habe ich anhand von terrestrischen Wirbeltieren zwei spezielle Aspekte von Datenabdeckung zwischen geographischen Regionen verglichen: i) die Datendichte und ii) die Vollständigkeit der abgedeckten Arten. Durch Multi-Modell-Analysen habe ich die Effekte von zwölf potentiellen sozioökonomischen Einflussfaktoren auf Informationsmängel verglichen, und zwar einzeln für jede der drei Wirbeltiergruppen auf jeder von vier verschiedenen räumlichen Auflösungen. In Kapitel III habe ich anhand von Säugetieren drei Aspekte von Datenabdeckung zwischen einzelnen Arten verglichen: i) die Anzahl von Records pro Art, ii) die räumliche Abdeckung der Verbreitungsareale durch Records, und iii) den räumlichen Bias in der Abdeckung verschiedener Teile der Verbreitungsareale. Durch Multi-Modell-Analysen und Variations-Partitionierung habe ich die Effekte von verschiedenen Artmerkmalen, Größe und Form der Verbreitungsareale sowie von sozioökonomischen Faktoren untersucht. Diese Analysen habe ich auf globalem Maßstab sowie einzeln für sechs zoogeographische Gebiete durchgeführt.
In meiner Dissertation habe ich in allen untersuchten Aspekten von Artverbreitungsinformationen starke Biases gefunden. Die Anzahl von Records variierte um mehrere Größenordnungen zwischen Arten und zwischen geographischen Gebieten. Verschiedene Maße von Datenabdeckung und Datenunsicherheiten zeigten klare taxonomische, geographische und zeitliche Muster. Ich fand beispielsweise Höchstwerte von taxonomischer Abdeckung in industrialisierten westlichen Ländern, aber auch in einigen tropischen Gebieten wie Mexiko. Im Gegensatz dazu gab es in weiten Teilen Afrikas und Asiens entweder gar keine oder nur sehr veraltete Informationen. Da taxonomische, räumliche und zeitliche Abdeckung jeweils durch die Anzahl der Records numerisch eingeschränkt sind, fand ich zwischen diesen Maßen gemäßigte bis starke positive Korrelationen. Maße von Datenunsicherheiten hingegen korrelierten kaum untereinander oder mit Datenabdeckungsmaßen.
In Kapitel II habe ich den Einfluss von zwölf potentiellen sozioökonomischen Einflussfaktoren auf Datendichte und Datenvollständigkeit von geographischen Artgemeinschaften untersucht. Nur vier hatten einen durchweg für alle untersuchten Wirbeltiergruppen und räumlichen Auflösungen starken Einfluss. Dies waren der Endemitenreichtum, die räumliche Nähe zu Daten-beisteuernden Institutionen, politische Mitgliedschaft im GBIF-Netzwerk, sowie lokal verfügbare Forschungsgelder. Andere Faktoren, von denen man oft annimmt, dass sie eine große Rolle spielen würden, hatten einen erstaunlich geringen Einfluss, wie z.B. Verkehrsinfrastruktur oder Größe und Finanzausstattungen westlicher Daten-beisteuernder Institutionen. Meine Analysen in Kapitel III ergaben, dass die vier in Kapitel II identifizierten sozioökonomischen Schlüsselfaktoren ebenfalls einen starken Einfluss auf Artverbreitungsinformationen auf der Ebene von einzelnen Arten hatten. Jedoch unterschied sich ihre relative Wichtigkeit deutlich zwischen geographischen Gebieten. Zwischenartliche Unterschiede in Verbreitungsinformationen waren zudem sehr stark durch Größe und Form der Verbreitungsareale beeinflusst. Dies unterstützt meine Hypothese, dass diese geometrischen Faktoren die Wahrscheinlichkeit beeinflussen, dass sich Verbreitungsgebiete bestimmter Arten mit Untersuchungsgebieten von Feldforschern überschneiden, was wiederum Aufswirkungen auf die Wahrscheinlichkeiten hat, mit denen diese Arten besammelt werden. Entgegen unserer Annahmen hatten Artmerkmale wie etwa Nachtaktivität, die das Entdecken oder Sammeln bestimmter Arten wahrscheinlich machen sollten, kaum einen Einfluss auf zwischenartliche Unterschiede in Verbreitungsinformationen.
Die Ergebnisse meiner Dissertation lassen wichtige Schlussfolgerungen darüber zu, wie mobilisierte Artverbreitungsinformationen effizient genutzt und verbessert werden können. Erstens belegen meine Ergebnisse schwerwiegende Mängel in digital verfügbaren Artverbreitungsinformationen, insbesondere für Gebiete und Arten von besonderer Wichtigkeit für den Naturschutz. Zweitens zeigen sie, dass für die allermeisten Arten feiner aufgelöste Informationen nur durch Artverbreitungsmodelle erreicht werden können, die mit geringen Datenmengen auskommen, die starke Datenunsicherheiten und Biases innehaben. Eine vielversprechende Methode, um in solchen Modellen mit Biases umzugeben, ist das explizite Einbeziehen der Bias-verursachenden Faktoren in die Modelle, und meine Ergebnisse bieten hilfreiche Anhaltspunkte für die Auswahl relevanter Faktoren. Drittens schaffen meine Ergebnisse eine empirische Grundlage zur Überwachung von Fortschritten in der Verbesserung weltweiter Artverbreitungsinformationen. Schließlich schafft mein Identifizieren der global wichtigsten Informations-limitierenden Faktoren sowie das Unterscheiden verschiedener Informationsaspekte eine Grundlage dafür, um Aktivitäten zu identifizieren, die Datenmängel effektiv beheben können. Als wichtigste Aktivitäten empfehle ich unter anderem i) das Unterstützen von Bemühungen zur Datenmobilisierung in Institutionen, die in geographischer Nähe zu datenarmen Gebieten liegen, ii) das Fördern von Kooperation zwischen großen Schwellenländern und Data-Sharing-Netzwerken, iii) die Durchführung von neuen Biodiversitäts-Surveys im zentralen Afrika und südlichen Asien, um weitgehend veraltete Informationen zu aktualisieren, und iv) das Verschieben des Fokus von Datensammel- und Datenmobilisierungsbemühungen auf Asien sowie Arten mit begrenzten Verbreitungsarealen.
|
Page generated in 0.1979 seconds