Global ETD Search

1	Credit Modeling with Behavioral Data / Kreditmodellering med beteendedata Zhou, Jingning January 2022 (has links) In recent years, the Buy Now Pay Later service has spread across the e-commerce industry, and credit modeling is inevitable of interest for related companies to predict the default rate of the customers. The traditional data used in such models are financial bureaus which include credit records bought from external financial institutions. However, external financial bureaus are not ensured high quality, are expensive , and a large number of the population could lack bank records in some markets. In terms of ethics, the financial bureau can lead to discrimination between the traditional asset holder and the young generation, as well as the developed and developing countries for an international company. Instead of comparing different classification methods, this paper investigates the feasibility and usage of click behavior(CB) data from the customer in credit modeling by carrying out feature engineering and conducting comparative experiments. The study demonstrates whether and how we can use CB data as a new data source and the restrictions. The results show that despite the CB data doesn’t impact enhancing the performance of the traditional model, the CB data model has sufficient performance for orders with CB data and weak performance for orders in general due to the hitting rate of the CB data. The CB not only has predictability on orders placed in the shopping app but also on orders placed from other sources such as the website for the same customer. Besides, the CB data perform better on specific customer segments, including new customers, shopping app customers, and high order amount customers. Adding such segment indicators can improve the performance of the CB model. In addition, the best click behavioral feature set is selected by using correlation analysis and the Reverse Feature Elimination method. / Under de senaste åren har så kallade “Buy now, Pay later” (köp nu, betala senare) tjänster spridit sig över e-handelsbranschen, och kreditmodellering är oundvikligen av intresse för att förutsäga kundernas risk för fallissemang. De traditionella uppgifterna som används i sådana modeller kommer från till stor del från externa källor, såsom kreditupplysningar köpta från externa finansinstitut. Men externa finansbyråer har tillkortakommanden. Exempelvis kan kvaliteten vara otillräcklig, priset för tjänsten kan vara högt och ett stort antal av befolkningen kan sakna uppgifter. Från ett etiskt perspektiv kan användandet av denna data leda till diskriminering mellan den traditionella tillgångsinnehavaren och den yngre generationen, såväl som mellan de utvecklade länderna och utvecklingsländerna för ett internationellt företag. Istället för att jämföra olika klassificeringsmetoder, undersöker detta arbete genomförbarheten och användningsbarheten av att använda kunders klickbeteendedata (KB) i kreditmodellering genom att utföra variabelutveckling och jämförande experiment. Studien visar om och hur vi kan använda KB-data som en ny datakälla och vilka begränsningarna som medföljer. Resultaten visar att variabler baserad på KB-data inte har signifikant påverkan på kreditmodellers prestanda i allmänhet. Dock så har de en prediktiv förmåga när modeller tränas endast på ordrar där KB-data finns tillgängligt. Dessutom går studien igenom vilka kundsegment som främst gynnas av KB-data såsom nya kunder, kunder som gjort köp via Klarnas shopping app samt kunder med som gör stora köp. Att lägga till sådana segmentindikatorer kan förbättra KB-modellers prestanda. Credit modeling Behavioral data Feature engineering Kreditmodellering Beteendedata Funktionsteknik Computer and Information Sciences Data- och informationsvetenskap
2	Data Build Tool (DBT) Jobs in Hopsworks Chen, Zidi January 2022 (has links) Feature engineering at scale is always critical and challenging in the machine learning pipeline. Modern data warehouses enable data analysts to do feature engineering by transforming, validating and aggregating data in Structured Query Language (SQL). To help data analysts do this work, Data Build Tool (DBT), an open-source tool, was proposed to build and orchestrate SQL pipelines. Hopsworks, an open-source scalable feature store, would like to add support for DBT so that data scientists can do feature engineering in Python, Spark, Flink, and SQL in a single platform. This project aims to create a concept about how to build this support and then implement it. The project checks the feasibility of the solution using a sample DBT project. According to measurements, this working solution needs around 800 MB of space in the server and it takes more time than executing DBT commands locally. However, it persistently stores the results of each execution in HopsFS, which are available to users. By adding this novel support for SQL using DBT, Hopsworks might be one of the completest platforms for feature engineering so far. / Att utveckla funktioner i stor skala är alltid kritiskt och utmanande i pipeline för maskininlärning. Moderna datalager gör det möjligt för dataanalytiker att göra feature engineering genom att omvandla, validera och aggregera data i Structured Query Language (SQL). För att hjälpa dataanalytiker att utföra detta arbete föreslogs Data Build Tool (DBT), ett verktyg med öppen källkod, för att bygga och organisera SQL-pipelines. Hopsworks, ett skalbart funktionslager med öppen källkod, vill lägga till stöd för DBT så att datavetare kan göra funktionsutveckling i Python, Spark, Flink och SQL på en enda plattform. Det här projektet syftar till att skapa ett koncept för hur man bygger detta stöd och sedan genomföra det. Projektet kontrollerar lösningens genomförbarhet med hjälp av ett exempel på DBT-projekt. Enligt mätningar behöver denna fungerande lösning cirka 800 MB utrymme på servern och det tar mer tid än att utföra DBT-kommandon lokalt. Den lagrar dock permanent resultaten av varje körning i HopsFS, vilka är tillgängliga för användarna. Genom att lägga till detta nya stöd för SQL med DBT kan Hopsworks vara en av de mest kompletta plattformarna för funktionsutveckling hittills. feature engineering Structured Query Language (SQL) funktionsteknik strukturerat frågespråk (SQL) Computer and Information Sciences Data- och informationsvetenskap
3	Encoding Temporal Healthcare Data for Machine Learning Laczik, Tamás January 2021 (has links) This thesis contains a review of previous work in the fields of encoding sequential healthcare data and predicting graft- versus- host disease, a medical condition, based on patient history using machine learning. A new encoding of such data is proposed for machine learning purposes. The proposed encoding, called bag of binned weighted events, is a combination of two strategies proposed in previous work, called bag of binned events and bag of weighted events. An empirical experiment is designed to evaluate the predictive performance of the proposed encoding over various binning windows to that of the previous encodings, based on the area under the receiver operating characteristic curve (AUC) metric. The experiment is carried out on real- world healthcare data obtained from Swedish registries, using the random forest and the logistic regression algorithms. After filtering the data, solving quality issues and tuning hyperparameters of the models, final results are obtained. These results indicate that the proposed encoding strategy performs on par, or slightly better than the bag of weighted events, and outperforms the bag of binned events in most cases. However, differences in metrics show small differences. It is also observed that the proposed encoding usually performs better with longer binning windows which may be attributed to data noise. Future work is proposed in the form of repeating the experiment with different datasets and models, as well as changing the binning window length of the baseline algorithms. / Denna avhandling innehåller en recension av tidigare arbete inom områden av kodning av sekventiell sjukvårdsdata och förutsägelse av transplantat- mot- värdsjukdom, ett medicinskt tillstånd, baserat på patienthistoria med maskininlärning. En ny kodning av sådan data föreslås i maskininlärningssyfte. Den föreslagna kodningen, kallad bag of binned weighted events, är en kombination av två strategier som föreslagits i tidigare arbete, kallad bag of binned events och bag of weighted events. Ett empiriskt experiment är utformat för att utvärdera den föreslagna prestandan för den föreslagna kodningen över olika binningfönster jämfört med tidigare kodningar, baserat på AUC- måttet. Experimentet utförs på verkliga sjukvårdsdata som erhållits från svenska register, med random forest och logistic regression. Efter filtrering av data, lösning av kvalitetsproblem och justering av hyperparametrar för modellerna, erhålls slutliga resultat. Dessa resultat indikerar att den föreslagna kodningsstrategin presterar i nivå med, eller något bättre än bag of weighted events, och överträffar i de flesta fall bag of binned events. Skillnader i mått är dock små. Det observeras också att den föreslagna kodningen vanligtvis fungerar bättre med längre binningfönster som kan tillskrivas dataljud. Framtida arbete föreslås i form av att upprepa experimentet med olika datamängder och modeller, samt att ändra binningfönstrets längd för basalgoritmerna. Machine Learning Temporal Data Disease Prediction Feature Engineering Random Forest Logistic Regression Maskininlärning tidsdata förutsägelse av sjukdom funktionsteknik slumpmässig skog logistisk regression Computer and Information Sciences Data- och informationsvetenskap
4	Visual Framework for Cross-Disciplinary Specification of Digital Products Kornilova, Olga January 2020 (has links) A more integrated collaboration between different disciplines and stakeholders in the process of software development affects the quality of the end product and its user experience. The diversity of methodologies across the disciplines creates a need for an aligned set of practices, such as Agile User-Centered Design (AUCD), which is a cross-disciplinary integration of the Agile and User-Centered Design (UCD) methodologies. The initial research part of this work focuses on identifying the main challenges and needs of cross-disciplinary teams, particularly in AUCD. The research methodology is based on a systematic review of the latest academic publications in the area, complemented by surveying the digital industry practitioners from multiple disciplines. The identified challenges and needs are then addressed by proposing a solution: Digital Product Mapping Framework for the documentation of a holistic digital product specification in a visual way. The framework outcome is a design artifact that can be used as a communication medium for both designers, developers, and other stakeholders. The validation of design artifacts showcased its high readability rate among first-time users. Additionally, empirical user tests proved that such documentation of the digital product specification can facilitate the collaboration of cross-disciplinary teams and support such software development activities as maintaining a shared vision and estimation of project cost and scope. This research work presents the following methodologies that can be valuable for both further academic research and for industry practitioners: synthesis and validation of the challenges and needs of cross-disciplinary teams; a set of recommendations for the specification documentation practices for AUCD; design principles for a solution to address the identified challenges and meet the needs of the cross-disciplinary teams. Moreover, an improved version of the proposed framework can potentially lead to a form of documentation that can be applied in AUCD practices. / Ett mer integrerat samarbete mellan olika discipliner och intressenter i programvaruutvecklingen påverkar slutproduktens kvalitet och användarupplevelse. Mångfalden av metoder inom disciplinerna skapar ett behov av en anpassad uppsättning metoder, såsom Agile User-Centered Design (AUCD), vilket är en tvärvetenskaplig integration av Agile och User-Centered Design (UCD) -metoderna. Den inledande forskningsdelen av detta arbete fokuserar på att identifiera de största utmaningarna och behoven hos tvärvetenskapliga team, särskilt i AUCD. Forskningsmetoden bygger på en systematisk genomgång av de senaste akademiska publikationerna inom området, kompletterat med kartläggning av utövare inom den digitala industrin från flera discipliner. De identifierade utmaningarna och behoven hanteras sedan genom att föreslå en lösning: Digital Product Mapping Framework för dokumentation av en holistisk digital produktspecifikation på ett visuellt sätt. Ramresultatet är en designartefakt som kan användas som ett kommunikationsmedium för både designers, utvecklare och andra intressenter. Valideringen av designartefakter visade sin höga läsbarhetsgrad bland förstagångsanvändare. Dessutom bevisade empiriska användartester att sådan dokumentation av den digitala produktspecifikationen kan underlätta samarbete mellan tvärvetenskapliga team och stödja sådana programvaruutvecklingsaktiviteter som att upprätthålla en delad vision och uppskatta projektets kostnad och omfattning. Detta forskningsarbete presenterar följande metoder som kan vara värdefulla för både vidare akademisk forskning och för branschutövare: syntes och validering av tvärvetenskapliga teams utmaningar och behov; en uppsättning rekommendationer för specifikationsdokumentationspraxis för AUCD; utforma principer för en lösning för att hantera de identifierade utmaningarna och tillgodose behoven hos de tvärvetenskapliga teamen. Dessutom kan en förbättrad version av det föreslagna ramverket potentiellt leda till en form av dokumentation som kan användas i AUCD-praxis. AUCD agile product development user-centered design (UCD) digital product design visual framework functional engineering AUCD agil produktutveckling användarcentrerad design (UCD) digital produktdesign visuell ram funktionsteknik Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.1045 seconds