Spelling suggestions: "subject:"[een] SCRAPING"" "subject:"[enn] SCRAPING""
51 |
Evaluating and comparing different key phrase-based web scraping methods for training domain-specific fasttext models / Utvärdering och jämförelse av olika nyckelfrasbaserade webbskrapningsmetoder för att träna domänspecifika fasttextmodellerBook, Love January 2023 (has links)
The demand for automation of simple tasks is constantly increasing. While some tasks are easy to automate because the logic is fixed and the process is streamlined, other tasks are harder because the performance of the task is heavily reliant on the judgment of a human expert. Matching a consultant to an offer from a client is one such task, in which case the expert is either a manager to the consultants or someone within HR at the company. One way to approach this task is to model the specific domain of interest using natural language processing. If we can capture the relationships between relevant skills and phrases within the specific domain, we could potentially use the resulting embeddings in a consultant to offer matching scheme. In this paper, we propose a key phrase-based web scraping approach to collect the data we need for a domain-specific corpus. To retrieve the key phrases needed as prompts for web scraping, we propose using the transformer-based library KeyBERT on limited domain-specific in house data belonging to the consultant firm B3 Indes, in order to retrieve the most important phrases in their respective contexts. Facebook's Word2vec based language model fasttext is then used on the processed corpus to create the fixed word embeddings. We also investigate numerous different approaches for selecting the right key phrases for web scraping in a human similarity comparison scheme, as well as comparisons to a larger pretrained general domain fasttext model. We show that utilizing key phrases for a domain-specific fasttext model could be beneficial compared to using a larger pretrained model. The results are not consistently conclusive under the current analytical framework. The results also indicate that KeyBERT is beneficial when selecting the key phrases compared to the randomized sampling of relevant phrases; however, the results are not conclusive. / Efterfrågan för automatisering av enkla uppgifter efterfrågas alltmer. Medan vissa uppgifter är lätta att automatisera eftersom logiken är fast och processen är tydlig, är andra svårare eftersom utförandet av uppgiften starkt beror på en människas expertis. Att matcha en konsult till ett erbjudande från en klient är en sådan uppgift, där experten är antingen en chef för konsulterna eller någon inom HR på företaget. En metod för att hantera denna uppgift är att modellera det specifika området av intresse med hjälp av maskininlärningsbaserad språkteknologi. Om vi kan fånga relationerna mellan relevanta färdigheter och fraser inom det specifika området, skulle vi potentiellt kunna använda de resulterande inbäddningarna i ett matchningsprocess mellan konsulter och uppdrag. I denna rapport föreslås en nyckelordsbaserad webbskrapnings-metod för att samla in data som behövs för ett domänspecifikt korpus. För att hämta de nyckelord som behövs som input för webbskrapning, föreslår vi att använda transformator-baserade biblioteket KeyBERT på begränsad domänspecifik data från konsultbolaget B3 Indes, detta för att hämta de viktigaste fraserna i deras respektive sammanhang. Sedan används Facebooks Word2vec baserade språkmodell fasttext på det bearbetade korpuset för att skapa statiska inbäddningar. Vi undersöker också olika metoder för att välja rätt nyckelord för webbskrapning i en likhets-jämnförelse mot mänskliga experter, samt jämförelser med en större förtränad fasttext-modell som inte är domänspecifik. Vi visar att användning av nyckelord för webbskrapning för träning av en domänspecifik fasttext-modell skulle kunna vara fördelaktigt jämnfört med en förtränad modell, men resutaten är inte konsekvent signifikanta enligt det begränsade analytiska ramverket. Resultaten indikerar också att KeyBERT är fördelaktigt vid valet av nyckelord jämfört med slumpmässigt urval av relevanta fraser, men dessa resultat är inte heller helt entydiga.
|
52 |
adXtractor – Automated and Adaptive Generation of Wrappers for Information RetrievalAdemi, Muhamet January 2017 (has links)
The aim of this project is to investigate the feasibility of retrieving unstructured automotive listings from structured web pages on the Internet. The research has two major purposes: (1) to investigate whether it is feasible to pair information extraction algorithms and compute wrappers (2) demonstrate the results of pairing these techniques and evaluate the measurements. We merge two training sets available on the web to construct reference sets which is the basis for the information extraction. The wrappers are computed by using information extraction techniques to identify data properties with a variety of techniques such as fuzzy string matching, regular expressions and document tree analysis. The results demonstrate that it is possible to pair these techniques successfully and retrieve the majority of the listings. Additionally, the findings also suggest that many platforms utilise lazy loading to populate image resources which the algorithm is unable to capture. In conclusion, the study demonstrated that it is possible to use information extraction to compute wrappers dynamically by identifying data properties. Furthermore, the study demonstrates the ability to open non-queryable domain data through a unified service.
|
53 |
On the domain-specific formalization of requirement specifications - a case study of ETCS / Teil-automatisierte Formalisierung von Lastenheftanforderungen am Beispiel ETCSDorka, Moritz 16 October 2015 (has links) (PDF)
This paper presents a piece of software to automatically extract requirements captured in Microsoft Word files while using domain knowledge. In a subsequent step, these requirements are enhanced for implementation purposes and ultimately saved to ReqIF, an XML-based file format for the exchange of specification documents. ReqIF can be processed by a wide range of industry-standard requirements management tools. By way of this enhancement a formalization of both the document structure and selected elements of its natural language contents is achieved.
In its current version, the software was specifically developed for processing the Subset-026, a conceptually demanding specification document covering the core functionality of the pan-European train protection system ETCS.
Despite this initial focus, the two-part design of this thesis facilitates a generic applicability of its findings: Section 2 presents the fundamental challenges of weakly structured specification documents and devotes a large part to the computation of unique, but human-readable requirement identifiers. Section 3, however, delves into more domain-specific features, the text processing capabilities, and the actual implementation of this novel software.
Due to the open-source nature of the application, an adaption to other use-cases can be achieved with comparably little effort. / Diese Arbeit befasst sich mit einer Software zur automatisierten Extraktion von Anforderungen aus Dokumenten im Microsoft Word Format unter Nutzung von Domänenwissen. In einem nachgelagerten Schritt werden diese Anforderungen für Implementierungszwecke aufgewertet und schließlich als ReqIF, einem XML-basierten Dateiformat zum Austausch von Spezifikationsdokumenten, gespeichert. ReqIF wird von zahlreichen branchenüblichen Anforderungsmanagementwerkzeugen unterstützt. Durch die Aufwertung wird eine Formalisierung der Struktur sowie ausgewählter Teile der natürlichsprachlichen Inhalte des Dokuments erreicht.
Die jetzige Version der Software wurde speziell für die Verarbeitung des Subset-026 entwickelt, eines konzeptionell anspruchsvollen Anforderungsdokuments zur Beschreibung der Kernfunktionalität des europaweiten Zugsicherungssystems ETCS.
Trotz dieser ursprünglichen Intention erlaubt die zweigeteilte Gestaltung der Arbeit eine allgemeine Anwendung der Ergebnisse: Abschnitt 2 zeigt die grundsätzlichen Herausforderungen in Bezug auf schwach strukturierte Anforderungsdokumente auf und widmet sich dabei ausführlich der Ermittlung von eindeutigen, aber dennoch menschenlesbaren Anforderungsidentifikatoren. Abschnitt 3 befasst sich hingegen eingehender mit den domänenspezifischen Eigenschaften, den Textaufbereitungsmöglichkeiten und der konkreten Implementierung der neuen Software.
Da die Software unter open-source Prinzipien entwickelt wurde, ist eine Anpassung an andere Anwendungsfälle mit relativ geringem Aufwand möglich.
|
54 |
Från PSD2 till Open Banking : En analys av införandet av öppna API:er i enlighet med PSD2 och de kompletterande tekniska standarderna / From PSD2 to Open Banking : An analysis of the implementation of open APIs in accordance with PSD2 and the supplementing technical standardsChristerson, Johan January 2019 (has links)
Konceptet open banking i EU är resultatet av införandet av det andra betaltjänstdirektivet och de kompletterande tekniska standarderna för sträng kundautentisering och säker kommunikation. Regelverket syftar till att upprätta en harmoniserad betaltjänstmarknad som balanseras mellan en hög nivå av säkerhet och en generös åtkomst till kunddata, för att främja innovation och konkurrens. I framställningen som görs i uppsatsen presenteras marknadens utveckling, de huvudsakliga aktörerna, den tidigare betaltjänstregleringen, samt motiven bakom och syftena med den nya regleringen. Genom att ge tredjepartsleverantörer direkt åtkomst till kontoinstitutens kontosystem förändras betaltjänstmarknaden i grunden. Det redogörs även för hur betaltjänstmarknaden har, och framöver sannolikt kommer att, förändras till följd av kravet på införandet av öppna API:er, men även hur konsekvenserna förhåller sig till de uttalade syftena. Regleringen har goda möjligheter att få ämnad effekt, men det faktum att ansvaret för harmoniseringen till stor del har överlämnats till marknadens aktörer är problematiskt. Det är i huvudsak två områden som är centrala; harmoniseringen av öppna API:er och förbudet mot datahämtningsmetoden screen scraping. I uppsatsen riktas kritik mot avsaknaden av lagstiftade gemensamma standarder för API:er och den förskjutning av ansvaret som har skett från lagstiftaren till marknadens aktörer. En brist som potentiellt skulle kunna leda till en fragmenterad betaltjänstmarknad. Det klargörs även att det traditionella användandet av screen scraping nu inte är tillåtet eftersom förfarandet inte uppfyller de krav som ställs på datainhämtning i RTS:en. Övergången till öppna API:er innebär en stor förändring för alla aktörer. Det återstår ännu en viss osäkerhet avseende harmoniseringen och implementeringen av öppna API:er, samt hur bestämmelserna och dess effekter förhåller sig till regelverkets syften. I uppsatsen presenteras en potentiell lösning på harmoniseringsproblematiken i form av de långt gångna och till stora delar anammade standardiseringsinitiativen som har utvecklats av marknaden. Det är framledes av största vikt att de marknadsdrivna initiativen för gemensamma standarder anammas av kontoinstituten för att åstadkomma en harmoniserad miljö med open banking.
|
55 |
On the domain-specific formalization of requirement specifications - a case study of ETCSDorka, Moritz 25 August 2015 (has links)
This paper presents a piece of software to automatically extract requirements captured in Microsoft Word files while using domain knowledge. In a subsequent step, these requirements are enhanced for implementation purposes and ultimately saved to ReqIF, an XML-based file format for the exchange of specification documents. ReqIF can be processed by a wide range of industry-standard requirements management tools. By way of this enhancement a formalization of both the document structure and selected elements of its natural language contents is achieved.
In its current version, the software was specifically developed for processing the Subset-026, a conceptually demanding specification document covering the core functionality of the pan-European train protection system ETCS.
Despite this initial focus, the two-part design of this thesis facilitates a generic applicability of its findings: Section 2 presents the fundamental challenges of weakly structured specification documents and devotes a large part to the computation of unique, but human-readable requirement identifiers. Section 3, however, delves into more domain-specific features, the text processing capabilities, and the actual implementation of this novel software.
Due to the open-source nature of the application, an adaption to other use-cases can be achieved with comparably little effort.:1 Introduction 13
1.1 Motivation 14
1.2 Previous formalization attempts 15
2 Processing specification documents 17
2.1 Structural considerations 17
2.1.1 The input format: DOC 18
2.1.2 Different parts of a specification document 20
2.1.3 The output format: ReqIF 20
2.2 Enhancing requirement content 23
2.2.1 Visualizing dependencies 25
2.2.2 Querying for data 25
2.3 Computing requirement identifiers 28
2.3.1 Unwinding complex structures: Tables 33
2.3.2 Unwinding complex structures: Other structures 37
2.3.3 Summary 38
3 The tool 41
3.1 Basic usage 41
3.1.1 Dealing with embedded media 43
3.2 ReqIF output 45
3.2.1 Data associated with a requirement artifact 46
3.2.2 Links between requirement artifacts 52
3.2.3 Issues with IBM DOORS 55
3.3 Content formalization 56
3.3.1 Detection of recurring elements 56
3.3.2 Sublist dependencies 58
3.3.3 Intra-cell requirements 59
3.3.4 Unformalizable elements 61
3.4 Inner workings 62
3.4.1 List hierarchy algorithm 64
3.4.2 Techniques for natural language content 69
3.5 Comparison to other tools 72
3.6 Applying this tool to other documents 74
3.7 EN 50128 tool qualification 76
4 Outlook 77
5 Conclusion 79
A Appendices 83
A.1 Postprocessing statistics data 83
A.1.1 Clean up spurious external links 83
A.1.2 Merge data of several tool runs 84
A.2 Subset-026 keywords 85
A.2.1 Legal obligation 85
A.2.2 Weak words 85
A.2.3 Other keywords for the implementerEnhanced-field 86
Lists of Figures, Tables and Listings 87
Glossary 89
Terms specific to this thesis 92
Bibliography 93 / Diese Arbeit befasst sich mit einer Software zur automatisierten Extraktion von Anforderungen aus Dokumenten im Microsoft Word Format unter Nutzung von Domänenwissen. In einem nachgelagerten Schritt werden diese Anforderungen für Implementierungszwecke aufgewertet und schließlich als ReqIF, einem XML-basierten Dateiformat zum Austausch von Spezifikationsdokumenten, gespeichert. ReqIF wird von zahlreichen branchenüblichen Anforderungsmanagementwerkzeugen unterstützt. Durch die Aufwertung wird eine Formalisierung der Struktur sowie ausgewählter Teile der natürlichsprachlichen Inhalte des Dokuments erreicht.
Die jetzige Version der Software wurde speziell für die Verarbeitung des Subset-026 entwickelt, eines konzeptionell anspruchsvollen Anforderungsdokuments zur Beschreibung der Kernfunktionalität des europaweiten Zugsicherungssystems ETCS.
Trotz dieser ursprünglichen Intention erlaubt die zweigeteilte Gestaltung der Arbeit eine allgemeine Anwendung der Ergebnisse: Abschnitt 2 zeigt die grundsätzlichen Herausforderungen in Bezug auf schwach strukturierte Anforderungsdokumente auf und widmet sich dabei ausführlich der Ermittlung von eindeutigen, aber dennoch menschenlesbaren Anforderungsidentifikatoren. Abschnitt 3 befasst sich hingegen eingehender mit den domänenspezifischen Eigenschaften, den Textaufbereitungsmöglichkeiten und der konkreten Implementierung der neuen Software.
Da die Software unter open-source Prinzipien entwickelt wurde, ist eine Anpassung an andere Anwendungsfälle mit relativ geringem Aufwand möglich.:1 Introduction 13
1.1 Motivation 14
1.2 Previous formalization attempts 15
2 Processing specification documents 17
2.1 Structural considerations 17
2.1.1 The input format: DOC 18
2.1.2 Different parts of a specification document 20
2.1.3 The output format: ReqIF 20
2.2 Enhancing requirement content 23
2.2.1 Visualizing dependencies 25
2.2.2 Querying for data 25
2.3 Computing requirement identifiers 28
2.3.1 Unwinding complex structures: Tables 33
2.3.2 Unwinding complex structures: Other structures 37
2.3.3 Summary 38
3 The tool 41
3.1 Basic usage 41
3.1.1 Dealing with embedded media 43
3.2 ReqIF output 45
3.2.1 Data associated with a requirement artifact 46
3.2.2 Links between requirement artifacts 52
3.2.3 Issues with IBM DOORS 55
3.3 Content formalization 56
3.3.1 Detection of recurring elements 56
3.3.2 Sublist dependencies 58
3.3.3 Intra-cell requirements 59
3.3.4 Unformalizable elements 61
3.4 Inner workings 62
3.4.1 List hierarchy algorithm 64
3.4.2 Techniques for natural language content 69
3.5 Comparison to other tools 72
3.6 Applying this tool to other documents 74
3.7 EN 50128 tool qualification 76
4 Outlook 77
5 Conclusion 79
A Appendices 83
A.1 Postprocessing statistics data 83
A.1.1 Clean up spurious external links 83
A.1.2 Merge data of several tool runs 84
A.2 Subset-026 keywords 85
A.2.1 Legal obligation 85
A.2.2 Weak words 85
A.2.3 Other keywords for the implementerEnhanced-field 86
Lists of Figures, Tables and Listings 87
Glossary 89
Terms specific to this thesis 92
Bibliography 93
|
Page generated in 0.0452 seconds