Return to search

Utvärdering av inläsning av XML-kontra flatfiler

Examensarbetet har utförts på Skatteverkets kontor i Visby. Eftersom Skatteverket arbetar med ett befintligt projekt som medför en kommande förändring på filformatet från flatfil till XML-fil så fanns en oro över att det nya formatet skulle medföra prestandaproblem. Därför ville Skatteverket göra en utvärdering på inläsningen från filformaten till en databas med fokus på prestanda men även andra kvalitetskriterier. Målet med examensarbetet var att jämföra inläsningen av de olika filformaten där systemet skulle klara av hundratals till hundratusentals kontrolluppgifter för att sedan sammanställa resultatet av jämförelsen i en rapport. För att arbetet skulle kunna utföras så behövdes en lokal utvecklings- och testmiljö installeras. Testdata behövde även tas fram för att kunna utföra utvärderingen. Slutsatsen blev inte helt oväntat att flatfilsformatet är snabbare att läsa av än XML-formatet. Detta grundar sig i att XML-formatet innehåller betydligt fler tecken än flatfilsformatet. Flatfilsparsern var i genomsnitt 29% snabbare än XML-parsern i de fallen då ett hundratal kontrolluppgifter till flera hundratusentals parsades. Resultatet var dock mer oväntat då skillnaden i filstorlek mellan formaten förhöll sig konstant runt 80% för samma antal kontrolluppgifter. I min mening tycker jag att skillnaden i berarbetningstid och filstorlek borde ha varit mer jämna procentuellt. En graf med bearbetningstiderna finns att se i rapporten. Resultatet blev fyra stycken Eclipse-projekt på totalt 2988 rader kod. XML-parsern som valdes för utvärderingen var SAX-parsern, vilket var den mest lämpade parsern då den strömmar inläsningen av XML-dokument och håller därför en låg minnesanvändning. Flatfilsparsern var lite knepigare, då det inte fanns en färdig parser att tillgå som var anpassat efter formatet, därför var jag tvungen att skriva en egen parser för Skatteverkets format. Detta går att läsa mer om i rapporten.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:liu-87037
Date January 2012
CreatorsPettersson, Mathias
PublisherLinköpings universitet, Institutionen för datavetenskap, Linköpings universitet, Tekniska högskolan
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0021 seconds