Global ETD Search

1	On the impact of geospatial features in real estate appraisal with interpretable algorithms / Om påverkan av geospatiala variabler i fastighetsvärdering med tolkbara algoritmer Jäger, Simon January 2021 (has links) Real estate appraisal is the means of defining the market value of land and property affixed to it. Many different features determine the market value of a property. For example, the distance to the nearest park or the travel time to the central business district may be significant when determining its market value. The use of machine learning in real estate appraisal requires algorithm accuracy and interpretability. Related research often defines these two properties as a trade-off and suggests that more complex algorithms may outperform intrinsically interpretable algorithms. This study tests these claims by examining the impact of geospatial features on interpretable algorithms in real estate appraisal. The experiments use property transactions from Oslo, Norway, and adds relative and global geospatial features for all properties using geocoding and spherical distance calculations. Such as the distance to the nearest park or the city center. The experiment implements three intrinsically interpretable algorithms; a linear regression algorithm, a decision tree algorithm, and a RuleFit algorithm. For comparison, it also implements two artificial neural network algorithms as a baseline. This study measures the impact of geospatial features using the algorithm performance by the coefficient of determination and the mean absolute error for the algorithm without and with geospatial features. Then, the individual impact of each geospatial feature is measured using four feature importance measures; mean decrease impurity, input variable importance, mean decrease accuracy, and Shapley values. The statistically significant results show that geospatial features improve algorithm performance. The improvement of algorithm performance is not unique to interpretable algorithms but occurs for all algorithms. Furthermore, it shows that interpretable algorithms are not axiomatically inferior to the tested artificial neural network algorithms. The distance to the city center and a nearby hospital are, on average, the most important geospatial features. While important for algorithm performance, precisely what the geospatial features capture remains for future examination. / Fastighetsvärdering är ett sätt att bestämma marknadsvärdet på mark och egendom som anbringas på den. Flera olika variabler påverkar marknadsvärdet för en fastighet. Avståndet till närmaste park eller restiden till det centrala affärsdistriktet kan till exempel vara betydande när man bestämmer ett marknadsvärde. Användningen av maskininlärning vid fastighetsvärdering kräver noggrannhet och tolkbarhet hos algoritmer. Relaterad forskning definierar ofta dessa två egenskaper som en kompromiss och föreslår att mer komplexa algoritmer kan överträffa tolkbara algoritmer. Den här studien testar dessa påståenden genom att undersöka påverkan av geospatiala variabler på tolkbara algoritmer i fastighetsvärdering. Experimentet använder fastighetstransaktioner från Oslo i Norge, och lägger till relativa och globala geospatiala variabler för alla fastigheter med hjälp av geokodning och sfäriska avståndsberäkningar. Såsom avståndet till närmaste park eller stadens centrum. Experimentet implementerar tre tolkbara algoritmer; en linjär regressionsalgoritm, en beslutsträdalgoritm och en RuleFit-algoritm. Som jämförelse implementerar den också två artificiella neuronnätsalgoritmer som en baslinje. Studien mäter påverkan av geospatiala variabler med algoritmprestanda genom determinationskoefficienten och det genomsnittliga absoluta felet för algoritmen med och utan geospatiala variabler. Därefter mäts den individuella påverkan av varje geospatial variabel med hjälp av fyra mått på variabelbetydelse; mean decrease impurity, input variabel importance, mean decrease accuracy och Shapley-värden. De statistiskt signifikanta resultaten visar att geospatiala variabler förbättrar algoritmers prestanda. Förbättringen av algoritmprestanda är inte unik för tolkningsbara algoritmer utan sker för alla algoritmer. Dessutom visar resultatet att tolkningsbara algoritmer inte är sämre än de testade artificiella neuronnätsalgoritmerna. Avståndet till stadens centrum och det närmaste sjukhuset är i genomsnitt de viktigaste geospatiala variablerna. Även om de geospatial variablerna är viktiga för algoritmprestanda, kvarstår frågan om vad exakt de betyder för framtida granskning. Geospatial Features Interpretable Artificial Intelligence Feature Importance Real Estate Appraisal Geospatiala Variabler Tolkningsbar Artificiell Intelligens Variabelbetydelse Fastighetsvärdering Computer Sciences Datavetenskap (datalogi)
2	Assessment of Predictive Models for Improving Default Settings in Streaming Services / Bedömning av prediktiva modeller för att förbättra standardinställningar i streamingtjänster Lattouf, Mouzeina January 2020 (has links) Streaming services provide different settings where customers can choose a sound and video quality based on personal preference. The majority of users never make an active choice; instead, they get a default quality setting which is chosen automatically for them based on some parameters, like internet connection quality. This thesis explores personalising the default audio setting, intending to improve the user experience. It achieves this by leveraging machine learning trained on the fraction of users that have made active choices in changing the quality setting. The assumption that user similarity in users who make an active choice can be leveraged to impact user experience was the idea behind this thesis work. It was issued to study which type of data from different categories: demographic, product and consumption is most predictive of a user's taste in sound quality. A case study was conducted to achieve the goals for this thesis. Five predictive model prototypes were trained, evaluated, compared and analysed using two different algorithms: XGBoost and Logistic Regression, and targeting two regions: Sweden and Brazil. Feature importance analysis was conducted using SHapley Additive exPlanations(SHAP), a unified framework for interpreting predictions with a game theoretic approach, and by measuring coefficient weights to determine the most predictive features. Besides exploring the feature impact, the thesis also answers how reasonable it is to generalise these models to non-selecting users by performing hypothesis testing. The project also covered bias analysis between users with and without active quality settings and how that affects the models. The models with XGBoost had higher performance. The results showed that demographic and product data had a higher impact on model predictions in both regions. Although, different regions did not have the same data features as most predictive, so there were differences observed in feature importance between regions and also between platforms. The results of hypothesis testing did not indicate a valid reason to consider the models to work for non-selective users. However, the method is negatively affected by other factors such as small changes in big datasets that impact the statistical significance. Data bias in some data features was found, which indicated a correlation but not the causation behind the patterns. The results of this thesis additionally show how machine learning can improve user experience in regards to default sound quality settings, by leveraging models on user similarity in users who have changed the sound quality to the most suitable for them. / Streamingtjänster erbjuder olika inställningar där kunderna kan välja ljud- och videokvalitet baserat på personliga preferenser. Majoriteten av användarna gör aldrig ett aktivt val; de tilldelas istället en standardkvalitetsinställning som väljs automatiskt baserat på vissa parametrar, som internetanslutningskvalitet. Denna avhandling undersöker anpassning av standardljudinställningen, med avsikt att förbättra användarupplevelsen. Detta uppnås genom att tillämpa maskininlärning på den andel användare som har aktivt ändrat kvalitetsinställningen. Antagandet att användarlikhet hos användare som gör ett aktivt val kan utnyttjas för att påverka användarupplevelsen var tanken bakom detta examensarbete. Det utfärdades för att studera vilken typ av data från olika kategorier: demografi, produkt och konsumtion är mest förutsägande för användarens smak i ljudkvalitet. En fallstudie genomfördes för att uppnå målen för denna avhandling. Fem prediktiva modellprototyper tränades, utvärderades, jämfördes och analyserades med två olika algoritmer: XGBoost och Logistisk Regression, och inriktade på två regioner: Sverige och Brasilien. Analys av funktionsvikt genomfördes med SHapley Additive exPlanations (SHAP), en enhetlig ram för att tolka förutsägelser med en spelteoretisk metod, och genom att mäta koefficientvikter för att bestämma de mest prediktiva funktionerna. Förutom att utforska funktionens påverkan, svarar avhandlingen också på hur rimligt det är att generalisera dessa modeller för icke-selektiva användare genom att utföra hypotesprövning. Projektet omfattade också biasanalys mellan användare med och utan aktiva kvalitetsinställningar och hur det påverkar modellerna. Modellerna med XGBoost hade högre prestanda. Resultaten visade att demografisk data och produktdata hade en högre inverkan på modellförutsägelser i båda regionerna. Däremot hade olika regioner inte samma datafunktioner som mest prediktiva, skillnader observerades i funktionsvikt mellan regioner och även mellan plattformar. Resultaten av hypotesprövningen indikerade inte på vägande anledning för att anse att modellerna skulle fungera för icke-selektiva användare. Däremot har metoden påverkats negativt av andra faktorer som små förändringar i stora datamängder som påverkar den statistiska signifikansen. Data bias hittades i vissa datafunktioner, vilket indikerade en korrelation men inte orsaken bakom mönstren. Resultaten av denna avhandling visar dessutom hur maskininlärning kan förbättra användarupplevelsen när det gäller standardinställningar för ljudkvalitet, genom att utnyttja modeller för användarlikhet hos användare som har ändrat ljudkvaliteten till det mest lämpliga för dem. Interpretable Machine Learning Machine Learning Shapley Additive Explanations User Settings User experience Användarinställningar Användarupplevelse Maskininlärning Shapley Additive Explanations Tolkningsbar Maskininlärning Computer and Information Sciences Data- och informationsvetenskap
3	Zero/Few-Shot Text Classification : A Study of Practical Aspects and Applications / Textklassificering med Zero/Few-Shot Learning : En Studie om Praktiska Aspekter och Applikationer Åslund, Jacob January 2021 (has links) SOTA language models have demonstrated remarkable capabilities in tackling NLP tasks they have not been explicitly trained on – given a few demonstrations of the task (few-shot learning), or even none at all (zero-shot learning). The purpose of this Master’s thesis has been to investigate practical aspects and potential applications of zero/few-shot learning in the context of text classification. This includes topics such as combined usage with active learning, automated data labeling, and interpretability. Two different methods for zero/few-shot learning have been investigated, and the results indicate that: • Active learning can be used to marginally improve few-shot performance, but it seems to be mostly beneficial in settings with very few samples (e.g. less than 10). • Zero-shot learning can be used produce reasonable candidate labels for classes in a dataset, given knowledge of the classification task at hand. • It is difficult to trust the predictions of zero-shot text classification without access to a validation dataset, but IML methods such as saliency maps could find usage in debugging zero-shot models. / Ledande språkmodeller har uppvisat anmärkningsvärda förmågor i att lösa NLP-problem de inte blivit explicit tränade på – givet några exempel av problemet (few-shot learning), eller till och med inga alls (zero-shot learning). Syftet med det här examensarbetet har varit att undersöka praktiska aspekter och potentiella tillämpningar av zero/few-shot learning inom kontext av textklassificering. Detta inkluderar kombinerad användning med aktiv inlärning, automatiserad datamärkning, och tolkningsbarhet. Två olika metoder för zero/few-shot learning har undersökts, och resultaten indikerar att: • Aktiv inlärning kan användas för att marginellt förbättra textklassificering med few-shot learning, men detta verkar vara mest fördelaktigt i situationer med väldigt få datapunkter (t.ex. mindre än 10). • Zero-shot learning kan användas för att hitta lämpliga etiketter för klasser i ett dataset, givet kunskap om klassifikationsuppgiften av intresse. • Det är svårt att lita på robustheten i textklassificering med zero-shot learning utan tillgång till valideringsdata, men metoder inom tolkningsbar maskininlärning såsom saliency maps skulle kunna användas för att felsöka zero-shot modeller. zero-shot learning few-shot learning text classification active learning automated data labeling interpretable machine learning deep learning NLP NLU zero-shot learning few-shot learning textklassificering aktiv inlärning automatiserad datamärkning tolkningsbar maskininlärning djupinlärning NLP NLU Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.068 seconds