Spelling suggestions: "subject:"crawler"" "subject:"trawler""
51 |
Generic Data HarvesterAsp, William, Valck, Johannes January 2022 (has links)
This report goes through the process of developing a generic article scraper which shall extract relevant information from an arbitrary web article. The extraction is implemented by searching and examining the HTML of the article, by using Python and XPath. The data that shall be extracted is the title, summary, publishing date and body text of the article. As there is no standard way that websites, and in particular news articles, is built, the extraction needs to be adapted for every different structure and language of articles. The resulting program should provide a proof of concept method of extracting the data showing that future development is possible. The thesis host company Acuminor is working with financial crime intelligence and are collecting information through articles and reports. To scale up the data collection and minimize the maintenance of the scraping programs, a general article scraper is needed. There exist an open source alternative called Newspaper, but since this is no longer being maintained and it can be argued is not properly designed, an internal implementation for the company could be beneficial. The program consists of a main class that imports extractor classes that have an API for extracting the data. Each extractor are decoupled from the rest in order to keep the program as modular as possible. The extraction for title, summary and date are similar, with the extractors looking for specific HTML tags that contain some common attribute that most websites implement. The text extraction is implemented using a tree that is built up from the existing text on the page and then searching the tree for the most likely node containing only the body text, using attributes such as amount of text, depth and number of text nodes. The resulting program does not match the performance of Newspaper, but shows promising results on every part of the extraction. The text extraction is very slow and often takes too much text of the article but provides a great blueprint for further improvement at the company. Acuminor will be able to have their in-house article extraction that suits their wants and needs. / Den här rapporten går igenom processen av att utveckla en generisk artikelskrapare som ska extrahera reöevamt information från en godtycklig artikelhemsida. Extraheringen kommer bli implementerad genom att söka igenom och undersöka HTML-en i artikeln, genom att använda Python och XPath. Datan som skall extraheras är titeln, summering, publiceringsdatum och brödtexten i artikeln. Eftersom det inte finns något standard sätt som hemsidor, och mer specifikt nyhetsartiklar är uppbyggda, extraheringen måste anpassas för varje olika struktur och språk av artiklar. Det resulterande programmed skall visa på ett bevis för ett koncept sätt att extrahera datan som visar på att framtida utveckling är möjlig. Projektets värdföretag Acuminor jobbar inom finansiell brottsintelligens och samlar ihop information genom artiklar och rapporter. För att skala upp insamlingen av data och minimera underhåll av skrapningsprogrammen, behövs en generell artikelskrapare. Det existerar ett öppen källkodsalternativ kallad Newspaper, men eftersom denna inte länge är underhållen och det kan argumenteras att den inte är så bra designad, är en intern implementation för företaget fördelaktigt. Programmet består av en huvudklass som importerar extraheringsklasser som har ett API för att extrahera datan. Varje extraherare är bortkopplad från resten av programmet för att hålla programmet så moodulärt som möjligt. Extraheringen för titel, summering och datum är liknande, där extragherarna tittar efter specifika HTML taggar som innehåller något gemensamt attribut som de flesta hemsidor implementerar. Textextraheringen är implementerad med ett träd som byggs upp från grunden från den existerande texten på sidan och sen söks igenom för att hitta den mest troliga noden som innehåller brödtexten, där den använder attribut såsom text, djup och antal textnoder. Det resulterande programmet matchar inte prestandan av Newspaper, men visar på lovande resultat vid varje del av extraheringen. Textextraheringen är väldigt långsam och hämtar ofta för mycket text från artikeln men lämnar ett bra underlag för vidare förbättring hos företaget. Allt som allt kommer Acuminor kunna bygga vidare på deras egna artikel extraherare som passar deras behov.
|
52 |
Administrativní budova Lomnického - stavebně technologická příprava stavby / Administrative building Lomnického - Building technology preparation of constructionHanzlík, Vlastimil January 2019 (has links)
This diploma thesis focuses on the construction and technological preparation of the office building in the Lomnického street. The aim of this work is to choose the appropriate construction process. The thesis contains a technical report of a construction and technological project, solutions of wider transport relations, time and financial object plan, itemized budget, design of a site equipment, design of the main building machines and mechanisms, time schedule, technological regulation, inspection and test plan, calculation of two options of the excavation of building pit and details to waterproofing of the substructure. In detail, the thesis is dedicated to secure the building pit enclosed by diaphragm walls.
|
53 |
Fuktkontroll av en ventilerad platta på mark : Modellering i COMSOL Multiphysics 5.5Liljestrand, Simon, Lundell, Viktor January 2020 (has links)
Krypgrunder i någon form har använts som grundkonstruktion i Sverige under långtid. Förr var det torpargrunder som med tiden blev isolerade krypgrunder och plintgrunder. Gemensamt för krypgrundskonstruktioner som är ventilerade med utomhusluft är att under sommarhalvåret blir det förhöjda relativa ånghalter. Syftet med fallstudien är att studera en uteluftsventilerad konstruktion med välisolerat bjälklag och markisolering. Konstruktionen är nedgrävd och ventilationen i grunden sker via en tunn spalt under marknivå. Luftspaltens temperatur och relativa ånghalt är av intresse för att avgöra om det finns risken för mögel i konstruktionen. En simulering av värmeflödet mellan byggnad och mark genomförs i COMSOLMultiphysics 5.5 för att avgöra temperaturfördelningen i konstruktionen. Temperaturfördelningen ligger som grund för fastställandet av relativ ånghalt i konstruktionens luftspalt. Simuleringen använder klimatdata för ett typår i Gävle. Simuleringen visar att det är höga temperaturer i luftspalten året runt. Detta ger enrelativ ånghalt som månadsmedel på 37–77% under ett år. Den höga temperaturen iluftspalten bidrar till att hålla konstruktionen torr då kritisk relativ ånghalt, 75–80%, inte överstigs under en längre period. Resultat är förvånansvärt positivt med en låg risk för mögeltillväxt i konstruktionen.Det finns många antaganden framförallt vilket luftflöde som återfinns i luftspalten.För att validera resultaten i arbetet så bör mätningar genomföras på de två prototyphus som existerar. / Crawl spaces in some form have been used as foundations in Sweden for a long time.In the past, it was uninsulated crawl spaces that eventually evolved into insulatedcrawl spaces and open plinth foundations. An increased relative humidity during thesummer is a common problem for crawl spaces that are ventilated with outdoor air. The purpose of the case study is to study an outdoor ventilated structure with wellinsulated floor and ground insulation. The construction is below ground level andthe ventilation takes place via a thin air gap below ground level. The temperatureand relative humidity in the air gap are of interest to determine if there is a risk ofmould growth in the design. A simulation of the heat flow between the building and the ground is carried out inCOMSOL Multiphysics 5.5 to determine the temperature distribution in the design.The temperature distribution is the basis for the determination of relative vaporcontent in the air gap of the structure.The simulation uses climate data for a typicalyear in Gävle. The simulation shows a high temperature in the air gap which gives a relative vaporcontent as a monthly average of 37–77% during a year. The high temperature in theair gap contributes to keeping the structure dry when critical relative humidity, 75–80%, is not exceeded for a longer period of time. The results are surprisingly positive with a low risk of mold growth in the construction.There are many assumptions, in particular, which airflow is found in the airgap. In order to validate the results in the work, measurements should be made onthe two prototype houses that exist.
|
Page generated in 0.0187 seconds