• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 52
  • 9
  • 1
  • 1
  • Tagged with
  • 67
  • 30
  • 19
  • 18
  • 14
  • 13
  • 13
  • 13
  • 12
  • 12
  • 12
  • 11
  • 11
  • 9
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Investigating the Attribution Quality of LSTM with Attention and SHAP : Going Beyond Predictive Performance / En undersökning av attributionskvaliteten av LSTM med attention och SHAP : Bortom prediktiv prestanda

Kindbom, Hannes January 2021 (has links)
Estimating each marketing channel’s impact on conversion can help advertisers develop strategies and spend their marketing budgets optimally. This problem is often referred to as attribution modelling, and it is gaining increasing attention in both the industry and academia as access to online tracking data improves. Focusing on achieving higher predictive performance, the Long Short- Term Memory (LSTM) architecture is currently trending as a data-driven solution to attribution modelling. However, such deep neural networks have been criticised for being difficult to interpret. Interpretability is critical, since channel attributions are generally obtained by studying how a model makes a binary conversion prediction given a sequence of clicks or views of ads in different channels. Therefore, this degree project studies and compares the quality of LSTM attributions, calculated with SHapleyAdditive exPlanations (SHAP), attention and fractional scores to three baseline models. The fractional score is the mean difference in a model’s predicted conversion probability with and without a channel. Furthermore, a synthetic data generator based on a Poisson process is developed and validated against real data to measure attribution quality as the Mean Absolute Error (MAE) between calculated attributions and the true causal relationships between channel clicks and conversions. The experimental results demonstrate that the quality of attributions is not unambiguously reflected by the predictive performance of LSTMs. In general, it is not possible to assume a high attribution quality solely based on high predictive performance. For example, all models achieve ~82% accuracy on real data, whereas LSTM Fractional and SHAP produce the lowest attribution quality of 0:0566 and 0:0311 MAE respectively. This can be compared to an improved MAE of 0:0058, which is obtained with a Last-Touch Attribution (LTA) model. The attribution quality also varies significantly depending on which attribution calculation method is used for the LSTM. This suggests that the ongoing quest for improved accuracy may be questioned and that it is not always justified to use an LSTM when aiming for high quality attributions. / Genom att estimera påverkan varje marknadsföringskanal har på konverteringar, kan annonsörer utveckla strategier och spendera sina marknadsföringsbudgetar optimalt. Det här kallas ofta attributionsmodellering och det får alltmer uppmärksamhet i både näringslivet och akademin när tillgången till spårningsinformation ökar online. Med fokus på att uppnå högre prediktiv prestanda är Long Short-Term Memory (LSTM) för närvarande en populär datadriven lösning inom attributionsmodellering. Sådana djupa neurala nätverk har dock kritiserats för att vara svårtolkade. Tolkningsbarhet är viktigt, då kanalattributioner generellt fås genom att studera hur en modell gör en binär konverteringsprediktering givet en sekvens av klick eller visningar av annonser i olika kanaler. Det här examensarbetet studerar och jämför därför kvaliteten av en LSTMs attributioner, beräknade med SHapley Additive exPlanations (SHAP), attention och fractional scores mot tre grundmodeller. Fractional scores beräknas som medelvärdesdifferensen av en modells predikterade konverteringssannolikhet med och utan en viss kanal. Därutöver utvecklas en syntetisk datagenerator baserad på en Poissonprocess, vilken valideras mot verklig data. Generatorn används för att kunna mäta attributionskvalitet som Mean Absolute Error (MAE) mellan beräknade attributioner och de verkliga kausala sambanden mellan kanalklick och konverteringar. De experimentella resultaten visar att attributionskvaliteten inte entydigt avspeglas av en LSTMs prediktiva prestanda. Det är generellt inte möjligt att anta en hög attributionskvalitet enbart baserat på en hög prediktiv prestanda. Alla modeller uppnår exempelvis ~82% prediktiv träffsäkerhet på verklig data, medan LSTM Fractional och SHAP ger den lägsta attributionskvaliteten på 0:0566 respektive 0:0311 MAE. Det här kan jämföras mot en förbättrad MAE på 0:0058, som erhålls med en Last-touch-modell. Kvaliteten på attributioner varierar också signifikant beroende på vilket metod för attributionsberäkning som används för LSTM. Det här antyder att den pågående strävan efter högre prediktiv träffsäkerhet kan ifrågasättas och att det inte alltid är berättigat att använda en LSTM när attributioner av hög kvalitet eftersträvas.
62

Leveraging Explainable Machine Learning to Raise Awareness among Preadolescents about Gender Bias in Supervised Learning / Användning av förklarningsbar maskininlärning för att öka medvetenhet bland ungdomar om könsbias i övervakad inlärning

Melsion Perez, Gaspar Isaac January 2020 (has links)
Machine learning systems have become ubiquitous into our society. This has raised concerns about the potential discrimination that these systems might exert due to unconscious bias present in the data, for example regarding gender and race. Whilst this issue has been proposed as an essential subject to be included in the new AI curricula for schools, research has shown that it is a difficult topic to grasp by students. This thesis aims to develop an educational platform tailored to raise the awareness of the societal implications of gender bias in supervised learning. It assesses whether using an explainable model has a positive effect in teaching the impacts of gender bias to preadolescents from 10 to 13 years old. A study was carried out at a school in Stockholm employing an online platform with a classifier incorporating Grad-CAM as the explainability technique that enables it to visually explain its own predictions. The students were divided into two groups differentiated by the use of the explainable model or not. Analysis of the answers demonstrates that preadolescents significantly improve their understanding of the concept of bias in terms of gender discrimination when they interact with the explainable model, highlighting its suitability for educational programs. / Maskininlärningssystemen har blivit allmänt förekommande i vårt samhälle, vilket har lett till oro över den potentiella diskriminering som dessa system kan utöva när det gäller kön och ras. Detta med orsak av det bias som finns i datan. Även om detta problem har föreslagits som ett viktigt ämne som ska ingå i de nya AI-läroplanerna för skolor, har forskning visat att det är ett svårt ämne att förstå för studenter. Detta examensarbete syftar till att utveckla en utbildningsplattform för att öka medvetenhet om de samhälleliga konsekvenserna av könsbias inom övervakad maskinlärning. Det utvärderar huruvida användning av en förklaringsbar modell har en positiv effekt vid inlärning hos ungdomar mellan 10 och 13 år när det kommer till konsekvenserna av könsbias. En studie genomfördes på en skola i Stockholm med hjälp av en onlineplattform som använder en klassificeringsalgoritm med Grad-CAM förklaringsbar teknik som gör det möjligt för den att visuellt förklara sina egna förutsägelser. Eleverna delades in i två grupper som åtskiljdes genom att den ena gruppen använde den förklarbara modellen medan den andra inte gjorde det. Analysen av svaren visar att ungdomar markant förbättrar sin förståelse av könsdiskrimineringsbias när de interagerar med den förklarbara modellen, vilket lyfter fram dess lämplighet för användning inom utbildningsprogram.
63

[en] A CRITICAL VIEW ON THE INTERPRETABILITY OF MACHINE LEARNING MODELS / [pt] UMA VISÃO CRÍTICA SOBRE A INTERPRETABILIDADE DE MODELOS DE APRENDIZADO DE MÁQUINA

JORGE LUIZ CATALDO FALBO SANTO 29 July 2019 (has links)
[pt] À medida que os modelos de aprendizado de máquina penetram áreas críticas como medicina, sistema de justiça criminal e mercados financeiros, sua opacidade, que impede que as pessoas interpretem a maioria deles, se tornou um problema a ser resolvido. Neste trabalho, apresentamos uma nova taxonomia para classificar qualquer método, abordagem ou estratégia para lidar com o problema da interpretabilidade de modelos de aprendizado de máquina. A taxonomia proposta que preenche uma lacuna existente nas estruturas de taxonomia atuais em relação à percepção subjetiva de diferentes intérpretes sobre um mesmo modelo. Para avaliar a taxonomia proposta, classificamos as contribuições de artigos científicos relevantes da área. / [en] As machine learning models penetrate critical areas like medicine, the criminal justice system, and financial markets, their opacity, which hampers humans ability to interpret most of them, has become a problem to be solved. In this work, we present a new taxonomy to classify any method, approach or strategy to deal with the problem of interpretability of machine learning models. The proposed taxonomy fills a gap in the current taxonomy frameworks regarding the subjective perception of different interpreters about the same model. To evaluate the proposed taxonomy, we have classified the contributions of some relevant scientific articles in the area.
64

Modèles de Markov à variables latentes : matrice de transition non-homogène et reformulation hiérarchique

Lemyre, Gabriel 01 1900 (has links)
Ce mémoire s’intéresse aux modèles de Markov à variables latentes, une famille de modèles dans laquelle une chaîne de Markov latente régit le comportement d’un processus stochastique observable à travers duquel transparaît une version bruitée de la chaîne cachée. Pouvant être vus comme une généralisation naturelle des modèles de mélange, ces processus stochastiques bivariés ont entre autres démontré leur faculté à capter les dynamiques variables de maintes séries chronologiques et, plus spécifiquement en finance, à reproduire la plupart des faits stylisés des rendements financiers. Nous nous intéressons en particulier aux chaînes de Markov à temps discret et à espace d’états fini, avec l’objectif d’étudier l’apport de leurs reformulations hiérarchiques et de la relaxation de l’hypothèse d’homogénéité de la matrice de transition à la qualité de l’ajustement aux données et des prévisions, ainsi qu’à la reproduction des faits stylisés. Nous présentons à cet effet deux structures hiérarchiques, la première permettant une nouvelle interprétation des relations entre les états de la chaîne, et la seconde permettant de surcroît une plus grande parcimonie dans la paramétrisation de la matrice de transition. Nous nous intéressons de plus à trois extensions non-homogènes, dont deux dépendent de variables observables et une dépend d’une autre variable latente. Nous analysons pour ces modèles la qualité de l’ajustement aux données et des prévisions sur la série des log-rendements du S&P 500 et du taux de change Canada-États-Unis (CADUSD). Nous illustrons de plus la capacité des modèles à reproduire les faits stylisés, et présentons une interprétation des paramètres estimés pour les modèles hiérarchiques et non-homogènes. Les résultats obtenus semblent en général confirmer l’apport potentiel de structures hiérarchiques et des modèles non-homogènes. Ces résultats semblent en particulier suggérer que l’incorporation de dynamiques non-homogènes aux modèles hiérarchiques permette de reproduire plus fidèlement les faits stylisés—même la lente décroissance de l’autocorrélation des rendements centrés en valeur absolue et au carré—et d’améliorer la qualité des prévisions obtenues, tout en conservant la possibilité d’interpréter les paramètres estimés. / This master’s thesis is centered on the Hidden Markov Models, a family of models in which an unobserved Markov chain dictactes the behaviour of an observable stochastic process through which a noisy version of the latent chain is observed. These bivariate stochastic processes that can be seen as a natural generalization of mixture models have shown their ability to capture the varying dynamics of many time series and, more specifically in finance, to reproduce the stylized facts of financial returns. In particular, we are interested in discrete-time Markov chains with finite state spaces, with the objective of studying the contribution of their hierarchical formulations and the relaxation of the homogeneity hypothesis for the transition matrix to the quality of the fit and predictions, as well as the capacity to reproduce the stylized facts. We therefore present two hierarchical structures, the first allowing for new interpretations of the relationships between states of the chain, and the second allowing for a more parsimonious parameterization of the transition matrix. We also present three non-homogeneous models, two of which have transition probabilities dependent on observed explanatory variables, and the third in which the probabilities depend on another latent variable. We first analyze the goodness of fit and the predictive power of our models on the series of log returns of the S&P 500 and the exchange rate between canadian and american currencies (CADUSD). We also illustrate their capacity to reproduce the stylized facts, and present interpretations of the estimated parameters for the hierarchical and non-homogeneous models. In general, our results seem to confirm the contribution of hierarchical and non-homogeneous models to these measures of performance. In particular, these results seem to suggest that the incorporation of non-homogeneous dynamics to a hierarchical structure may allow for a more faithful reproduction of the stylized facts—even the slow decay of the autocorrelation functions of squared and absolute returns—and better predictive power, while still allowing for the interpretation of the estimated parameters.
65

Combined Actuarial Neural Networks in Actuarial Rate Making / Kombinerade aktuariska neurala nätverk i aktuarisk tariffanalys

Gustafsson, Axel, Hansén, Jacob January 2021 (has links)
Insurance is built on the principle that a group of people contributes to a common pool of money which will be used to cover the costs for individuals who suffer from the insured event. In a competitive market, an insurance company will only be profitable if their pricing reflects the covered risks as good as possible. This thesis investigates the recently proposed Combined Actuarial Neural Network (CANN), a model nesting the traditional Generalised Linear Model (GLM) used in insurance pricing into a Neural Network (NN). The main idea of utilising NNs for insurance pricing is to model interactions between features that the GLM is unable to capture. The CANN model is analysed in a commercial insurance setting with respect to two research questions. The first research question, RQ 1, seeks to answer if the CANN model can outperform the underlying GLM with respect to error metrics and actuarial model evaluation tools. The second research question, RQ 2, seeks to identify existing interpretability methods that can be applied to the CANN model and also showcase how they can be applied. The results for RQ 1 show that CANN models are able to consistently outperform the GLM with respect to chosen model evaluation tools. A literature search is conducted to answer RQ 2, identifying interpretability methods that either are applicable or are possibly applicable to the CANN model. One interpretability method is also proposed in this thesis specifically for the CANN model, using model-fitted averages on two-dimensional segments of the data. Three interpretability methods from the literature search and the one proposed in this thesis are demonstrated, illustrating how these may be applied. / Försäkringar bygger på principen att en grupp människor bidrar till en gemensam summa pengar som används för att täcka kostnader för individer som råkar ut för den försäkrade händelsen. I en konkurrensutsatt marknad kommer försäkringsbolag endast vara lönsamma om deras prissättning är så bra som möjligt. Denna uppsats undersöker den nyligen föreslagna Combined Actuarial Neural Network (CANN) modellen som bygger in en Generalised Linear Model (GLM) i ett neuralt nätverk, i en praktiskt och kommersiell försäkringskontext med avseende på två forskningsfrågor. Huvudidén för en CANN modell är att fånga interaktioner mellan variabler, vilket en GLM inte automatiskt kan göra. Forskningsfråga 1 ämnar undersöka huruvida en CANN modell kan prestera bättre än en GLM med avseende på utvalda statistiska prestationsmått och modellutvärderingsverktyg som används av aktuarier. Forskningsfråga 2 ämnar identifiera några tolkningsverktyg som kan appliceras på CANN modellen samt demonstrera hur de kan användas. Resultaten för Forskningsfråga 1 visar att CANN modellen kan prestera bättre än en GLM. En literatursökning genomförs för att svara på Forskningsfråga 2, och ett antal tolkningsverktyg identifieras. Ett tolkningsverktyg föreslås också i denna uppsats specifikt för att tolka CANN modellen. Tre av tolkningsverktygen samt det utvecklade verktyget demonstreras för att visa hur de kan användas för att tolka CANN modellen.
66

Combined Actuarial Neural Networks in Actuarial Rate Making / Kombinerade aktuariska neurala nätverk i aktuarisk tariffanalys

Gustafsson, Axel, Hansen, Jacob January 2021 (has links)
Insurance is built on the principle that a group of people contributes to a common pool of money which will be used to cover the costs for individuals who suffer from the insured event. In a competitive market, an insurance company will only be profitable if their pricing reflects the covered risks as good as possible. This thesis investigates the recently proposed Combined Actuarial Neural Network (CANN), a model nesting the traditional Generalised Linear Model (GLM) used in insurance pricing into a Neural Network (NN). The main idea of utilising NNs for insurance pricing is to model interactions between features that the GLM is unable to capture. The CANN model is analysed in a commercial insurance setting with respect to two research questions. The first research question, RQ 1, seeks to answer if the CANN model can outperform the underlying GLM with respect to error metrics and actuarial model evaluation tools. The second research question, RQ 2, seeks to identify existing interpretability methods that can be applied to the CANN model and also showcase how they can be applied. The results for RQ 1 show that CANN models are able to consistently outperform the GLM with respect to chosen model evaluation tools. A literature search is conducted to answer RQ 2, identifying interpretability methods that either are applicable or are possibly applicable to the CANN model. One interpretability method is also proposed in this thesis specifically for the CANN model, using model-fitted averages on two-dimensional segments of the data. Three interpretability methods from the literature search and the one proposed in this thesis are demonstrated, illustrating how these may be applied. / Försäkringar bygger på principen att en grupp människor bidrar till en gemensam summa pengar som används för att täcka kostnader för individer som råkar ut för den försäkrade händelsen. I en konkurrensutsatt marknad kommer försäkringsbolag endast vara lönsamma om deras prissättning är så bra som möjligt. Denna uppsats undersöker den nyligen föreslagna Combined Actuarial Neural Network (CANN) modellen som bygger in en Generalised Linear Model (GLM) i ett neuralt nätverk, i en praktiskt och kommersiell försäkringskontext med avseende på två forskningsfrågor. Huvudidén för en CANN modell är att fånga interaktioner mellan variabler, vilket en GLM inte automatiskt kan göra. Forskningsfråga 1 ämnar undersöka huruvida en CANN modell kan prestera bättre än en GLM med avseende på utvalda statistiska prestationsmått och modellutvärderingsverktyg som används av aktuarier. Forskningsfråga 2 ämnar identifiera några tolkningsverktyg som kan appliceras på CANN modellen samt demonstrera hur de kan användas. Resultaten för Forskningsfråga 1 visar att CANN modellen kan prestera bättre än en GLM. En literatursökning genomförs för att svara på Forskningsfråga 2, och ett antal tolkningsverktyg identifieras. Ett tolkningsverktyg föreslås också i denna uppsats specifikt för att tolka CANN modellen. Tre av tolkningsverktygen samt det utvecklade verktyget demonstreras för att visa hur de kan användas för att tolka CANN modellen.
67

Minds, Machines & Metaphors : Limits of AI Understanding

Másson, Mímir January 2024 (has links)
This essay critically examines the limitations of artificial intelligence (AI) in achieving human-like understanding and intelligence. Despite significant advancements in AI, such as the development of sophisticated machine learning algorithms and neural networks, current systems fall short in comprehending the cognitive depth and flexibility inherent in human intelligence. Through an exploration of historical and contemporary arguments, including Searle's Chinese Room thought experiment and Dennett's Frame Problem, this essay highlights the inherent differences between human cognition and AI. Central to this analysis is the role of metaphorical thinking and embodied cognition, as articulated by Lakoff and Johnson, which are fundamental to human understanding but absent in AI. Proponents of AGI, like Kurzweil and Bostrom, argue for the potential of AI to surpass human intelligence through recursive self-improvement and technological integration. However, this essay contends that these approaches do not address the core issues of experiential knowledge and contextual awareness. By integrating insights from contemporary scholars like Bender, Koller, Buckner, Thorstad, and Hoffmann, the essay ultimately concludes that AI, while a powerful computational framework, is fundamentally incapaple of replicating the true intelligence and understanding unique to humans.

Page generated in 0.1226 seconds