Return to search

Modelo de detección de fraude en clientes del servicio de agua potable de una empresa sanitaria

Ingeniera Civil Industrial / Aguas Andinas corresponde a la empresa sanitaria más grande del país, con alrededor de 1,8MM de clientes en la Región Metropolitana y una facturación anual de 509MM de m3 de agua potable, equivalente aproximadamente a $341MMM.
Todas las empresas sanitarias presentan cierto porcentaje de agua no facturada, vale decir, aquella agua potable que se produce, pero no logra cobrarse al consumidor final. Este índice es de alrededor del 30% y es explicado por 3 factores: pérdida técnica, pérdida por micromedición y pérdida por uso irregular. El presente trabajo de memoria pretende encargarse del tercer factor, relativo al agua no facturada por intervenciones que realizan las personas en sus medidores o red de agua potable, con el objeto de disminuir la lectura de m3. Este punto es el causante de una pérdida mensual estimada de 700.000 m3, lo que en dinero se traduce en $468MM.
Hasta ahora, la empresa ha utilizado ciertos criterios para detectar usuarios irregulares, como verificar cuáles de los clientes previamente visitados por personal técnico ha presentado una baja en su consumo (pues se sabe que algunos trabajadores gasfiteros ofrecen intervenir el medidor) o comprobar denuncias hechas por los clientes. Mas, se desaprovecha un sinfín de información con la que se cuenta y que podría aportar a una mayor detección de ilícitos, mejorándose la actual tasa de detección del 15%. Se tiene por cada 1% de mejora en dicha tasa aumenta la recaudación en $6MM.
El eje del trabajo lo constituye la metodología KDD, tendiente a extraer patrones útiles y coherentes de la información que se posee. Es así como se buscó obtener un modelo que señalara la probabilidad que tiene cada cliente de ser un irregular, con la mayor certeza posible, para lo cual se trabajó con datos de clientes irregulares y no irregulares, construyendo una base a la que se le aplicó 3 modelos de aprendizaje supervisado: regresión logística binaria, árbol de decisión CHAID y red neuronal, definiéndose el mejor modelo en base a los costos asociados a los errores tipo I y II.
El mejor método resultó ser el árbol de decisión, con la eficacia más alta igual a 75%, lo que conllevaba al costo por error más bajo. A la vez su eficiencia fue de 81,2%, por lo que en un escenario conservador, si se considera que la tasa de detección aumente de un 15% actual a un 40% con el nuevo método, se está ante una recuperación extra mensual de $150MM.
Finalmente, junto con la aplicación del modelo resultante de este trabajo se sugiere diseñar una estrategia orientada a mejorar la actual tasa de regularización del 55%, considerada baja, lo que aumentaría aún más la recuperación monetaria. Además se debe tener presente que este tipo de modelos posee un determinado ciclo de vida, vale decir, después de cierto tiempo de aplicación es altamente probable que la eficacia y eficiencia comiencen a decaer debido a cambios que vaya experimentando el universo bajo estudio. Por ello se recomienda retroalimentar cada cierto tiempo el modelo, utilizando toda la data que se vaya recolectando, de modo de mantener su calidad.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/117040
Date January 2014
CreatorsPatiño Espinoza, Victoria Yazmín del Rosario
ContributorsUrrutia Uribe, Rodolfo Andrés, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Industrial, San Martín Zurita, Ricardo, Schultz Soriano, Ximena
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAttribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.002 seconds