Hace un tiempo venció el periodo de embargo de mi paper más citado: «APATE: A novel approach for automated credit card transaction fraud detection using network-based extensions», publicado en Decision Support Systems en 2015. Este paper lo armamos mientras trabajaba como postdoctorante en el grupo de Bart Baesens, en la KU Leuven, Bélgica, y fue liderado por Véronique Van Vlasslaer, en ese entonces estudiante de doctorado. El paper está disponible gratuitamente para descarga aquí.
En este paper usamos la misma técnica que usa Google para dar peso a las páginas web del internet para medir cómo se propaga el fraude en las compras de tarjetas de crédito en línea. La idea es la siguiente: Además de contrastar el los patrones de compra de un comprador (usando el clásico modelo RFM), buscamos medir el riesgo que tiene una compra (par comprador – vendedor) dado los fraudes que hemos observado. Esto lo hacemos con el principio del algoritmo PageRank, que dice que tu importancia (tu riesgo de fraude) está medido a partir del riesgo de fraude de tus cercanos, como muestra la siguiente figura.

Red social que muestra las conexiones entre compradores y vendedores, unidos por las compras que realizan. Extraído de Van Vlasslaer et al. (2015), licencia CC BY-NC-ND.
Las conclusiones principales de nuestro trabajo fueron las siguientes:
- Las variables de redes sociales presentan muy baja correlación con las demás variables de comportamiento. Por lo tanto son una muy buena fuente de información.
- El modelo presenta una ganancia de entre un 5% a un 10% con respecto a modelos con menos fuentes de información, como se ve abajo.

Comparación AUC entre modelos con distintas fuentes de información. El modelo con redes sociales presenta un AUC de 0,986, muy por sobre el resto. Reproducido de Van Vlasslaer et al. (2015), licencia CC BY-NC-ND
- Tarda un par de horas en entrenar una red social para un par de millones de transacciones (el volumen diario esperado de transacciones), por lo que es necesario utilizar redes del día anterior en un caso real. Los resultados anteriores reflejan esta situación. Nuestro modelo es capaz de generar una predicción en un par de milisegundos.
- Las variables de redes sociales capturan nuevos patrones a medida que aparecen, sin necesidad de mayor información por parte del cliente más allá de reportar el robo. Las variables de comportamiento (RFM) permiten dar a su vez una alerta temprana cuando se observan comportamientos anómalos para cada cliente. Así, generamos perfiles de comportamiento muy complejos.
Siempre es mejor utilizar mejores fuentes de información que modelos más sofisticados, por lo que si tienen situaciones donde hay conexiones entre sus entidades, el uso de redes sociales presenta una gran oportunidad para mejorar sus modelos.