• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Anomaly Detection of Time Series Caused by International Revenue Share Fraud : Additive Model and Autoencoder Applications

Wang, Lingxiao January 2023 (has links)
In this paper, we compare the performance of two methods to find the attempts at fraud from the data provided by Sinch (formerly CLX Communications, which is a telecommunications and cloud communications platform as a service (PaaS) company). We consider the problem as finding the anomaly in a time series signal, where we ignore the duration of a single call or other features and only care about the total volume of calls in a certain period.\\ We compare Seasonal and Trend decomposition using Loess(STL) and auto-encoder-decoder under the scenario to find the anomaly in a certain period. It comes out that additive models like STL can discriminate the trending anomaly. As for auto-encoder-decoder, the anomaly can easily be found using local information, which makes the method conveniently applied. It remains a problem that unsupervised learning methods usually require manual inspection. In practical applications, we need to iterate many times with experts to find the most suitable method for that scenario. / I det här dokumentet jämför vi resultatet av två metoder för att hitta bedrägeriförsöken från data som tillhandahålls av Sinch (tidigare CLX Communications, som är ett telekommunikations- och molnkommunikations-plattform som en tjänst (PaaS)-företag). Vi betraktar problemet som att hitta anomalien i en tidsseriesignal, där vi ignorerar varaktigheten av ett enstaka samtal eller andra funktioner och tar bara hänsyn av den totala volymen samtal under en viss period. Vi jämför säsongs- och trenduppdelning med Loess(STL) och auto-encoder-decoder under scenariot för att hitta anomalien under en viss period. Det visar sig att additivmodeller som STL kan diskriminera trendavvikelsen. När det gäller auto-encoder-decoder, kan avvikelsen lätt hittas med hjälp av lokal information, vilket gör metoden Lämplig att tillämpa. Det är fortfarande ett problem att oövervakade inlärningsmetoder vanligtvis kräver manuell inspektion. I praktiska tillämpningar måste vi iterera många gånger med experter för att hitta den mest lämpliga metoden för det scenariot.
2

Machine learning for detecting fraud in an API

Sánchez Espunyes, Anna January 2022 (has links)
An Application Programming Interface (API) provides developers with a high-level framework that abstracts the underlying implementation of services. Using an API reduces the time developers spent on implementation, and it encourages collaboration and innovation from third-party developers. Making an API public has a risk: developers might use it inappropriately. Most APIs have a policy that states which behaviors are considered fraudulent. Detecting applications that fraudulently use an API is a challenging problem: it is unfeasible to review all applications that make requests. API providers aim to implement an automatic tool that accurately detects suspicious applications from all the requesting applications. In this thesis, we study the possibility of using machine learning techniques to detect fraud in Web APIs. We experiment with supervised learning methods (random forests and gradient boosting), clustering methods such as Density-Based Spatial Clustering of Applications with Noise (DBSCAN), and ensemble methods that combine the predictions of supervised learning methods and clustering methods. The dataset available contains data gathered when a developer creates an application and data collected when the application starts making HTTP requests. We derive a meaningful representation from the most important textual fields of the dataset using Sentence-BERT (S-BERT). Furthermore, we experiment with the predictive importance of the S-BERT embeddings. The method that achieves the best performance in the test set is an ensemble method that combines the results from the gradient boosting classifier and DBSCAN. Furthermore, this method performs better when using the S-BERT embeddings of the textual data of the applications, achieving an f1-score of 0.9896. / Ett API (Application Program Interface) ger utvecklare ett högnivåramverk som abstraherar den underliggande implementationen av tjänster. Användning av ett API reducerar tiden utvecklare lägger på implementation, och uppmuntrar samarbete med och innovation av tredjeparts-utvecklare. Att göra ett API publikt har ett risk: utvecklare kan utnyttja den på olämpliga sätt. De flesta API:erna har ett policy som beskriver beteenden som räknas som bedrägliga. Upptäckandet av applikationer som använder ett API på ett bedrägligt sätt är ett icke-trivialt problem, det är omöjligt att undersöka alla applikationer som skickar begäran till API:et. API leverantörerna siktar ständigt på att skapa ett automatiskt verktyg för att exakt upptäcka applikationer misstänkta för bedrägeri. I denna avhandling undersöks möjligheten av användning av maskininlärning för att upptäcka bedrägeri i Web API. Vi experimenterar med övervakad inlärningsmetoder (random forests och gradient boosting), klustring metoder som Density-Based Spatial Clustering of Applications with Noise (DBSCAN) och ensemble metoder som kombinerar prediktionerna av övervakad inlärningsmetoder och klustring metoder. Det tillgängliga datasetet innehåller data samlat när en utvecklare skapar en applikation och när den börjar skicka HTTP begäran. Vi härleder en meningsfull representation från de viktigaste textfälten i datasetet med hjälp av Sentence-BERT (SBERT). Dessutom experimenterar vi med den prediktiva betydelsen av S-BERT-inbäddningarna. Metoden som uppfyller den bästa prestandan i testsetet är ett ensemble metod som kombinerade resultaten från gradient boosting klassificeraren och DBSCAN. Denna metod presterar även bättre vid användning av S-BERT-inbäddnignarna av applikationernas textdata och därav uppnår ett f1-score på 0.9896.

Page generated in 0.0322 seconds