Loss of revenue due to erroneous invoicing is a serious problem for many companies in the repair and maintenance industry. Revenue loss can occur in many ways, for example by consistently charging the wrong hourly price for services. If a company is experiencing revenue loss, it is incredibly important to detect it, find where it is happening, and estimate the size of it in order to treat it. The goal of this work is to find statistical methods for detecting incorrectly charged services in a dataset of invoices, and estimate the loss of revenue in the same dataset. The dataset used comes from a real company experiencing revenue loss through incorrectly charged prices for services, and thus represents a real world instance of this problem. Multiple machine learning methods with different levels of supervision are tested for detecting anomalous invoice items and estimating revenue loss using raw invoice data. Neural network regression, and different decision tree regression methods, as well as an ensemble of these are tested and compared. The dataset has ground truth labels for each price, thus results are compared to real world targets. It is found that an ensemble using a weighted average of predictions from neural network regression and gradient boosted decision tree regression to predict the charged prices in an invoice dataset performs anomaly detection most reliably. On the top 1000 anomaly candidates, this method flags anomalies correctly 87% of the time, catching 45% of all anomalies. Moreover, in terms of estimating revenue loss, using a neural network to perform regression, a revenue loss error of just 13% is achieved. / Förlorad omsättning till följd av felaktig fakturering ar ett alvarligt problem for vissa företag i service- och reparationsbranchen. Detta kan uppstå på manga satt, till exempel genom konsekvent felaktig prissättning av tjänster. Om ett företag har stor förlust av omsättning ar det otroligt viktigt att upptäcka det, hitta var det sker, och uppskatta storleken av förlusten for att kunna behandla den. Malet med detta arbete ar att hitta statistiska metoder for att identifiera felaktigt prissatta tjänster i ett dataset av fakturor, och uppskatta förlorad omsättning i datasetet. Datasetet som används kommer från ett företag som förlorar omsättning på grund av just felfakturerat pris på tjänster, och representerar därför en verklig instans av detta problem. Ett flertal maskininlärningsmetoder, med olika grader av vägledning, används for att upptäcka felaktiga fakturarader och uppskatta förlorad omsättning i omärkt fakturadata. Regression med neuronnät, och olika beslutstradmetoder såväl som en ensembel av dessa testas och jämförs. Datasetet har sanningsenliga ettiketter till varje rad, därmed kan resultaten jämföras och utvärderas mot korrekta priser. Vi finner att en ensembel av ett neuralnät och ett gradientförstärkt beslutstrad for regression identifierar felaktiga prissättningar mest pålitligt. Pa de 1000 mest sannolika felen har denna metod ratt på 87%, vilket fångar 45% av alla fel. Vidare, med hänsyn till förlorad omsättning finner vi att ett neuralnät som utför regresssion uppnår ett fel på endast 13% i sitt estimat av förlorad omsättning.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-291773 |
Date | January 2020 |
Creators | Edholm, Gustav |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2020:929 |
Page generated in 0.0031 seconds