Spelling suggestions: "subject:"eeb scraper"" "subject:"eeb scrapers""
1 |
A Web Scraper For Forums : Navigation and text extraction methodsPalma, Michael, Zhou, Shidi January 2017 (has links)
Web forums are a popular way of exchanging information and discussing various topics. These websites usually have a special structure, divided into boards, threads and posts. Although the structure might be consistent across forums, the layout of each forum is different. The way a web forum presents the user posts is also very different from how a news website presents a single piece of information. All of this makes the navigation and extraction of text a hard task for web scrapers. The focus of this thesis is the development of a web scraper specialized in forums. Three different methods for text extraction are implemented and tested before choosing the most appropriate method for the task. The methods are Word Count, Text-Detection Framework and Text-to-Tag Ratio. The handling of link duplicates is also considered and solved by implementing a multi-layer bloom filter. The thesis is conducted applying a qualitative methodology. The results indicate that the Text-to-Tag Ratio has the best overall performance and gives the most desirable result in web forums. Thus, this was the selected methods to keep on the final version of the web scraper. / Webforum är ett populärt sätt att utbyta information och diskutera olika ämnen. Dessa webbplatser har vanligtvis en särskild struktur, uppdelad i startsida, trådar och inlägg. Även om strukturen kan vara konsekvent bland olika forum är layouten av varje forum annorlunda. Det sätt på vilket ett webbforum presenterar användarinläggen är också väldigt annorlunda än hur en nyhet webbplats presenterar en enda informationsinlägg. Allt detta gör navigering och extrahering av text en svår uppgift för webbskrapor. Fokuset av detta examensarbete är utvecklingen av en webbskrapa specialiserad på forum. Tre olika metoder för textutvinning implementeras och testas innan man väljer den lämpligaste metoden för uppgiften. Metoderna är Word Count, Text Detection Framework och Text-to-Tag Ratio. Hanteringen av länk dubbleringar noga övervägd och löses genom att implementera ett flerlagers bloom filter. Examensarbetet genomförs med tillämpning av en kvalitativ metodik. Resultaten indikerar att Text-to-Tag Ratio har den bästa övergripande prestandan och ger det mest önskvärda resultatet i webbforum. Således var detta den valda metoden att behålla i den slutliga versionen av webbskrapan.
|
2 |
Developing a Python based web scraper : A study on the development of a web scraper for TimeEditAndersson, Pontus January 2021 (has links)
I en värld där alltmer information lagras på internet är det svårt för en vanlig användare att hänga med. Även när informationen finns tillgänglig på en och samma hemsida kan den hemsidan sakna funktioner eller vara svår att läsa av. Idén bakom att skrapa hemsidor, tidningar eller spel på information är inte ny och detta examensarbete fokuserar på att bygga en web scraper med tillhörande hemsida där användare kan ladda upp sitt schema skrapat från TimeEdit. Hemsidan ska sedan presentera denna skrapade data på ett visuellt tilltalande sett. När system är färdigutvecklade utvärderas dem för att se om examensarbetets mål har uppnåtts samt om systemen har förbättrat det befintliga sättet att hantera schemaläggning i TimeEdit hos lärare och studenter. I sammanfattningen finns sedan framtida forskning och arbeten presenterat. / The concept of scraping the web is not new, however, with modern programming languages it is possible to build web scrapers that can collect unstructured data and save this in a structured way. TimeEdit, a scheduling platform used by Mid Sweden University, has no feasible way to count how many hours has been scheduled at any given week to a specific course, student, or professor. The goal of this thesis is to build a python-based web scraper that collects data from TimeEdit and saves this in a structured manner. Users can then upload this text file to a dynamic website where it is extracted from the file and saved into a predetermined database and unique to that user. The user can then get this data presented in a fast, efficient, and user-friendly way. This platform is developed and evaluated with the resulting platform being a good and fast way to scan a TimeEdit schedule and evaluate the extracted data. With the platform built future work is recommended to make it a finishes product ready for live use by all types of users.
|
3 |
Automating the extraction of Financial dataRollino, Nicolas, Ali, Rakin January 2022 (has links)
It is hard for retail investors and data providing companies to attain financial data of European companies. The work of extracting financial data of European companies is most likely done manually, which is a time-consuming process. This would explain why European companies’ data is supplied slower than American companies. This thesis attempts to see if it is possible to automatise the process of extracting financial data of European companies by creating two proof of concept systems. One focuses on collecting financial reports of European companies using a web scraper and directly scrapes the reports from the source. The other system extracts financial data from the reports using Amazon Web Services(AWS), specifically the text extraction tool called Textract. The system that collects financial reports from companies could not be automated and did not meet the expectations set by the company that commissioned the thesis. The system that extracts financial data from companies was promising as all data points of interest could be extracted. The second system was deemed promising however since it is reliant on a system that supplies it with reports, it cannot be implemented.The work conducted shows that automating the process of extracting financial data from European companies is not (yet) possible. Extracting the data from reports is possible however collecting the report is the bottleneck which is not possible. It would have been better to manually collect financial reports instead of using a web scraper in this thesis. This was a bottleneck which could be solved in future projects. / Det svårt för privata investerare och företag som tillhandahåller data att få tillgång till finansiella data om europeiska företag. Uppgiften att extrahera finansiella data från europeiska företag sker med största sannolikhet manuellt, vilket är en tidskrävande process. Detta skulle förklara varför europeiska företags finansiella data levereras långsammare än amerikanska företag. Denna rapport försöker testa ifall det är möjligt att automatisera processen att extrahera finansiella data för europeiska företag genom att skapa två proof of concept-system. En fokuserar på att samla in finansiella rapporter från europeiska företag som använder en webbskrapa och skrapar rapporterna direkt från källan. Det andra systemet extraherar finansiella data från rapporterna med hjälp av Amazon Web Services(AWS), specifikt verktyget som extraherar text, även kallad Textract. Systemet som samlar in finansiella rapporter från företag kunde inte automatiseras och motsvarade inte de förväntningar som ställts av företaget som föreslog examensarbetet. Systemet som extraherar finansiella data från företag var lovande eftersom alla eftertraktade datapunkter kunde extraheras. Det andra systemet ansågs lovande men eftersom det är beroende av ett system som förser det med rapporter kan det inte implementeras. Arbetet som utförts visar att det ännu inte är möjligt att automatisera processen att extrahera finansiell data från europeiska företag. Det är möjligt att extrahera data från rapporter men att samla in rapporten är flaskhalsen som inte är möjlig. Det hade varit bättre att manuellt samla in finansiella rapporter istället i denna avhandling. Detta var en flaskhals som skulle kunna lösas i framtida projekt.
|
4 |
A Framework for Fashion Data Gathering, Hierarchical-Annotation and Analysis for Social Media and Online Shop : TOOLKIT FOR DETAILED STYLE ANNOTATIONS FOR ENHANCED FASHION RECOMMENDATIONWara, Ummul January 2018 (has links)
Due to the transformation of different recommendation system from contentbased to hybrid cross-domain-based, there is an urge to prepare a socialnetwork dataset which will provide sufficient data as well as detail-level annotation from a predefined hierarchical clothing category and attribute based vocabulary by considering user interactions. However, existing fashionbased datasets lack either in hierarchical-category based representation or user interactions of social network. The thesis intends to represent two datasets- one from photo-sharing platform Instagram which gathers fashionistas images with all possible user-interactions and another from online-shop Zalando with every cloths detail. We present a design of a customized crawler that enables the user to crawl data based on category or attributes. Moreover, an efficient and collaborative web-solution is designed and implemented to facilitate large-scale hierarchical category-based detaillevel annotation of Instagram data. By considering all user-interactions, the developed solution provides a detail-level annotation facility that reflects the user’s preference. The web-solution is evaluated by the team as well as the Amazon Turk Service. The annotated output from different users proofs the usability of the web-solution in terms of availability and clarity. In addition to data crawling and annotation web-solution development, this project analyzes the Instagram and Zalando data distribution in terms of cloth category, subcategory and pattern to provide meaningful insight over data. Researcher community will benefit by using these datasets if they intend to work on a rich annotated dataset that represents social network and resembles in-detail cloth information. / Med tanke på trenden inom forskning av rekommendationssystem, där allt fler rekommendationssystem blir hybrida och designade för flera domäner, så finns det ett behov att framställa en datamängd från sociala medier som innehåller detaljerad information om klädkategorier, klädattribut, samt användarinteraktioner. Nuvarande datasets med inriktning mot mode saknar antingen en hierarkisk kategoristruktur eller information om användarinteraktion från sociala nätverk. Detta projekt har syftet att ta fram två dataset, ett dataset som insamlats från fotodelningsplattformen Instagram, som innehåller foton, text och användarinteraktioner från fashionistas, samt ett dataset som insamlats från klädutbutdet som ges av onlinebutiken Zalando. Vi presenterar designen av en webbcrawler som är anpassad för att kunna hämta data från de nämnda domänerna och är optimiserad för mode och klädattribut. Vi presenterar även en effektiv webblösning som är designad och implementerad för att möjliggöra annotering av stora mängder data från Instagram med väldigt detaljerad information om kläder. Genom att vi inkluderar användarinteraktioner i applikationen så kan vår webblösning ge användaranpassad annotering av data. Webblösningen har utvärderats av utvecklarna samt genom AmazonTurk tjänsten. Den annoterade datan från olika användare demonstrerar användarvänligheten av webblösningen. Utöver insamling av data och utveckling av ett system för webb-baserad annotering av data så har datadistributionerna i två modedomäner, Instagram och Zalando, analyserats. Datadistributionerna analyserades utifrån klädkategorier och med syftet att ge datainsikter. Forskning inom detta område kan dra nytta av våra resultat och våra datasets. Specifikt så kan våra datasets användas i domäner som kräver information om detaljerad klädinformation och användarinteraktioner.
|
5 |
Advancing Multisensor Satellite Image Fusion : Techniques, Challenges, and Data Acquisition / Vidareutveckling av multisensor satellitbildsfusion : tekniker,utmaningar och datainsamlingMüller, Kristoffer January 2024 (has links)
Throughout the years of space exploration, the usage of Earth observation satellites has increased tremendously. The usage today extends beyond optical sensors, encompassing radars, infrared, and laser sensors. For this thesis, the usage of optical, synthetic aperture radar, and LiDAR sensors were looked at to see if the fusion of these different sensors could enhance the overall image quality. A crucial aspect of satellite image fusion, regardless of sensor type, is preprocessing to ensure the individual images can be seamlessly merged. Ultimately these preprocessing steps are individual to both the sensors and even different satellites. The topic of remote sensing and satellite image fusion is extensive and complex. Therefore, this thesis aims to explore various fusion techniques, data sources, and algorithms to contribute to a deeper understanding of the advantages but mostly challenges associated with multisensor satellite image fusion. A web scraper was developed to collect data from the European Space Agency’s Third Party Mission website, a central repository for satellite missions and Earth images. The scraper made it possible to select different satellites and find the image areas which they had in common. A way to process this data is then presented on how to process the images and finally fuse them. The three fusion algorithms that were used were a simple weighted average, intensity hue saturation, and the pansharpening method. The pansharpening increased both the spatial and spectral resolution whereas the fusion of the optical and synthetic aperture radar gave some mixed results. There are a lot of things that could be explored in the future, such as utilizing more complex fusion algorithms or using additional satellite sensors. However, the web scraper and the processing flowchart stand as notable achievements of this thesis, simplifying the entire process of multisensor satellite image fusion. / Genom åren har användningen av jordobservationsatelliter ökat avsevärt inom rymdforskning. Användningen sträcker sig idag bortom optiska sensorer och inkluderar även radar-, infraröd- och lasersensorer. I detta examensarbete undersöks användningen av optiska, syntetisk aperturradar- och LiDARsensorer för att se om fusionen av dessa olika sensorer kan förbättra helhetsbilden av ett område. En avgörande aspekt av satellitbildsfusion, oavsett sensortyp, är förbehandling för att säkerställa att de individuella bilderna kan smidigt integreras. Slutligen är dessa förbehandlingsteg specifika för både sensorerna och olika satelliter. Ämnet fjärranalys och fusion av satellitbilder är omfattande och komplext. Därför syftar detta examensarbete till att utforska olika fusionsmetoder, datakällor och algoritmer för att bidra till en djupare förståelse för fördelarna och utmaningarna med multisensor fusion av satellitbilder. Ett av huvudproblemen under examensarbetet var datainsamling och databehandling. För att överkomma detta utvecklades en webbskrapare för att samla in data från European Space Agencys Third Party Mission hemsida, en central databas för satellituppdrag och bilder av jorden. Skrapan möjliggjorde valet av olika satelliter och identifieringen av gemensamma bildområden. En metod för databehandling presenteras sedan för att bearbeta bilderna och slutligen förena dem. De tre fusionsalgoritmerna som användes var en enkel viktad medelvärdesmetod, intensitetssättning och pansharpening. Pansharpening ökade både den spatiala och spektrala upplösningen, medan fusionen av optiska och syntetisk aperturradar gav blandade resultat. Det finns många områden som kan utforskas i framtiden, såsom användning av mer komplexa fusionsalgoritmer eller ytterligare satellitsensorer. Sammanfattande kan webbskrapan och behandlingsflödet ses som betydande framsteg i detta examensarbete och förhoppningsvis förenkla hela processen med multisensor fusion av satellitbilder.
|
6 |
Data Analysis of Discussions, Regarding Common Vulnerabilities and Exposures, and their Sentiment on Social Media / Dataanalys av diskussioner, gällande vanliga säkerhetssårbarheter och exponeringar, och deras sentiment på sociala medierRahmati, Mustafa, Grujicic, Danijel January 2022 (has links)
As common vulnerabilites and exposures are detected, they are also discussed in various social platforms. The problem is that only a few of the posts made about them, are getting enough attention. This leads to an unawareness of potential and critical threats against systems. It is therefore important to look for patterns that make certain vulnerabilites more or less discussed. To do so, a framework was made for collecting discussions around cybersecurity and more specific vulnerabilites/exposures called CVE from Reddit. In addition, some of the desired data was collected from Twitter. Thereafter, the sentiments of the collected posts were calculated to see patterns between popular subreddits and the attitude shown in them. This was done with three methods: Flair, TextBlob and Vader. The results showed for instance that general discussions about information security were considered to be more positive than discussions of common vulnerabilites and exposures. Another result showed that the spread of CVEs that have a partial impact, are higher in Reddit, and is increasing almost exponentially. CVSS scores showed that a CVE with a CVSS score of around 7 is more likely to appear. Many CVEs in Reddit was also discussed before and after they were disclosed. The implication of this work might be that more and more people might use Reddit to discuss specific types of CVEs in a suitable subreddit, as well as being aware of common vulnerabilites and exposures, in order to prevent future threats.
|
Page generated in 0.0575 seconds