Development of different methods for processing information has long been a central area in computer science. Being able to structure and compile different types of information can streamline many tasks that facilitate various assignments. In addition, the web is getting bigger and as a result larger amounts of information become more accessible. It also means that it can be more difficult to find and compile relevant information. This raises the questions; Is a layered architecture suitable for extracting semi-structured data from various web-based documents such as HTML and PDF and structuring the content as generically as possible? and How can you find semi-structured data in various forms of documents on the web based on keywords to save the data in tabular form? Review of previous research shows a gap when it comes to processing different levels of structures with the web as a source of data. When processing data, previous projects have usually used a layered architecture where each layer has a specific task and it is also this architecture that was chosen for this artifact. To create the artifact, the Design and Creation method is applied with an included literature study. This method is common in assignments where the goal is to create an artifact with the purpose of answering research questions. Tests of the artifact are also performed in this method and result in how well the artifact follows instructions and whether or not it can answer the research questions. This work has resulted in an artifact that works well and lays a foundation for future work. However, there is room for improvement such as that the artifact could be able to understand context and find more relevant information, but also for future research on how other software can be implemented to streamline and improve results. / Utveckling av olika metoder för att bearbeta information har länge varit ett centralt område inom datavetenskap. Att kunna strukturera och sammanställa olika typer av information kan effektivisera många uppgifter som underlättar olika uppdrag. Dessutom blir webben större och som ett resultat blir större mängder information mer tillgänglig. Det gör också att det kan vara svårare att hitta och sammanställa relevant information. Detta väcker frågorna; Lämpar sig lagerarkitektur för att extrahera semi-strukturerad data från olika webbaserade dokument som HTML och PDF och strukturera innehållet så generiskt som möjligt? och Hur kan man hitta semi-strukturerad data i olika former av dokument på webben baserat på nyckelord för att spara data i tabellform? Granskning av tidigare forskning visar på ett gap när det gäller att bearbeta olika nivåer av strukturer med webben som datakälla. Vid bearbetning av data har tidigare projekt vanligtvis använt en lagerarkitektur där varje lager har en specifik uppgift och det är även denna arkitektur som valdes för denna artefakt. För att skapa artefakten tillämpas Design and Creation metoden med en inkluderad litteraturstudie. Denna metod är vanlig i arbeten där målet är att skapa en artefakt med syftet att svara på forskningsfrågor. Tester av artefakten utförs också i denna metod och resulterar i hur väl artefakten följer instruktionerna och om den kan svara på forskningsfrågorna eller inte. Detta arbete har resulterat i en artefakt som fungerar bra och som lägger en grund för framtida arbete. Det finns dock utrymme för förbättringar som att artefakten skulle kunna förstå sammanhang och hitta mer relevant information, men också för framtida forskning om hur annan mjukvara kan implementeras för att effektivisera och förbättra resultat.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:mau-52106 |
Date | January 2022 |
Creators | Bramell, Fredrik, From, From |
Publisher | Malmö universitet, Institutionen för datavetenskap och medieteknik (DVMT) |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0131 seconds