In this study, the safety of using ETL processes to migrate geographical data between heterogeneous data sources was investigated, as well as whether certain data structures are more prone to integrity loss during such migrations. Geographical data in various vector structures was migrated using ETL software, FME, from a legacy data source (Oracle 11g with integrated Esri geodatabases) to another (PostgreSQL 14.10 with the PostGIS extension) in order to explore the aforementioned challenges. The maintenance of data integrity post-migration was assessed by comparing the difference between the geodata housed in Oracle 11g (the source) and PostgreSQL 14.10 (the destination) using ArcGIS Pro's built-in tools and a Python script. Further evaluation of the role of ETL processes in geographical data migration included conducting interviews with specialists in databases, data migration, and FME both before and after the migration. The study concludes that different vector structures are affected differently. Whereas points and lines maintained 100% data integrity across all datasets, polygons achieved 99.95% accuracy in one out of the three tested datasets. Managing this issue can be addressed by implementing a repair process during the Transform stage of an ETL process. However, such a process does not guarantee an entirely successful outcome; although the affected area was significantly reduced post-repair, the polygons contained a higher amount of mismatches. / I denna studie undersöktes om ETL-processer kan användas på ett säkert sätt för att migrera geografiska data mellan heterogena datakällor, samt om vissa datastrukturer är mer benägna att förlora integritet under sådana migrationer. Geografiskt data i olika vektorstrukturer migrerades med hjälp av ETL-programvaran FME, från en föråldrad datakälla (Oracle 11g med integrerade Esri geodatabaser) till en annan (PostgreSQL 14.10 med PostGIS-tillägget) för att utforska de ovannämnda frågorna. Dataintegritet mättes genom att jämföra skillnaden mellan geodatan på Oracle 11g (källan) och PostgreSQL 14.10 (destinationen) med hjälp av ArcGIS Pro's inbyggda verktyg och ett Python skript. För att ytterligare utvärdera rollen av ETL-processer i migrering av geografiskt data genomfördes intervjuer med specialister inom databaser, datamigration och FME, både före och efter migrationen. Studien konstaterar att olika vektorstrukturer påverkas olika. Medan punkter och linjer bibehöll 100% datatillförlitlighet över alla dataset, uppnådde polygoner 99,95% noggrannhet i ett av de tre testade dataseten. Hantering av detta problem kan adresseras genom att implementera en reparationsprocess under Transform-steget av en ETL-process. Dock garanterar inte en sådan process ett helt lyckat resultat; även om den påverkade arean minskades avsevärt efter reparationen, innehöll polygonerna ett högre antal avvikelser.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:ltu-105824 |
Date | January 2024 |
Creators | Sihvola, Toni |
Publisher | Luleå tekniska universitet, Institutionen för system- och rymdteknik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0019 seconds