Return to search

En jämförelse av prestanda mellan centraliserad och decentraliserad datainsamling

In the modern world, data and information is used on a larger scale than ever before. Much of this information is stored on the internet in many different shapes, like articles, files and webpages, among others. If you try to start a new project or company that depends on this data there is a need for a way to efficiently search for, sort and gather what you need to process. A common method to achieve this is called Web scraping, that can be implemented in several different ways to search and gather data. This can be an expensive investment for smaller companies, as Web scraping is an intensive process that requires that you pay for a powerful enough server to manage everything. The purpose of this report is to investigate whether there exist other cheaper alternatives to implement Web scraping, that don’t require access to expensive servers. To find an answer to this, it was necessary to research the subject of Web scraping further along with different system architectures that are used in the industry to implement it. This research was then used to develop a Web scraping application that was implemented on both a centralised server and as a decentralised implementation on an Android device. Finally all the summarized research and results from performance tests of the two applications were used in order to provide a result. The conclusion drawn from these results was that decentralised android implementations is a valid and functional solution for Web scraping today, however the difference in performance means it’s not always useful for every situation. Instead it must be handled based on the specifications and requirements of the particular company. There is also a very limited amount of research done on this topic, which means it needs further investigation in order to keep developing implementations and knowledge on this particular subject. / I den moderna världen används data och information i en större skala än någonsin tidigare. Mycket av denna information och data kan hittas på internet i många olika former som artiklar, filer, webbsidor med mera. Om man försöker att starta ett nytt projekt eller företag som är beroende av delar av denna data behövs det ett sätt att effektivt söka igenom den, sortera ut det som söks och samla in den för att hanteras. Ett vanligt sätt att göra detta är en metod som kallas Web scraping, som kan implementeras på flera olika sätt för att söka och samla in den funna datan. För små företag kan detta bli en kostsam satsning, då Web scraping är en intensiv process som vanligtvis kräver att man måste betala för att driva en tillräckligt kraftfull server som kan hantera datan. Syftet med denna rapport är att undersöka om det finns giltiga och billigare alternativ för att implementera Web scraping lösningar, som inte kräver tillgång till kostsamma serverlösningar. För att svara på detta utfördes en undersökning runt Web scraping, samt olika systemarkitekturer som används för att utveckla dessa system i den nuvarande marknaden samt hur de kan implementeras. Med denna kunskap utvecklades en Web scraping applikation som anpassades för att samla in ingredienser från recept artiklar på internet. Denna implementation anpassades sedan för två olika lösningar, en centraliserad på en server och en decentraliserad, för Android enheter. Till slut summerades all den insamlade faktan, tillsammans med enhetstester utförda på test implementationerna för att få ut ett resultat. Slutsatsen som drogs av detta resultat var att decentraliserade Android implementationer är en giltig och funktionell lösning för Web scraping idag, men skillnaden i prestanda innebär att det inte alltid är en användbar lösning, istället måste det bestämmas beroende på ett företags behov och specifikationer. Dessutom är forskningen runt detta ämne begränsat, och kräver vidare undersökning och fördjupning för att förbättra kunskaper och implementationer av detta område i framtiden.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-291266
Date January 2021
CreatorsHidén, Filip, Qvarnström, Magnus
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:38

Page generated in 0.0022 seconds