Hace un par de semanas me invitaron a un seminario en la Facultad de Economía y Negocios de la Universidad de Chile, donde presenté el trabajo conjunto con mi alumno de doctorado Kamesh Korangi y con Christophe Mues, ambos de la Universidad de Southampton en el Reino Unido, titulado «Un modelo de aprendizaje profundo basado en Transformers para la predicción de no pago en obligaciones crediticios para empresas medianas«.

Este trabajo, para el cual aún no hay paper disponible por lo que se debe considerar preliminar, utiliza aprendizaje profundo para modelar la curva de probabilidad de default en el tiempo para empresas medianas que tranzan en bolsa (midcaps). Estas empresas usualmente son analizadas con modelos estocásticos, pero nuestra hipótesis fue que vale la pena tratarlas con métodos de data science. Los resultados hablan por si solos. Les dejo la presentación que realizamos.

We recently showcased our multilayer network method at the CORS 2021 conference, held virtually this year. The presentation shows the results of this freely accessible preprint that is now in the final stages of publishing.

Our new paper focuses on leveraging multilayer networks to predict default events, extending our KDD MLF conference paper, published last year.

The title of the presentation is «Multilayer Network Analysis for Improved Credit Risk Prediction«. You can watch the video below.

As always, any comments or questions, I’m happy to hear your comments!

Citation: Óskarsdóttir, M., & Bravo, C. (2020). Multilayer Network Analysis for Improved Credit Risk Prediction. arXiv preprint arXiv:2010.09559.

Para partir el 2021, recientemente nos aceptaron el primer paper de lo que espero sea una colaboración larga con RappiBank, el área financiera de la compañía tecnológica Rappi. Nuestra primera colaboración buscó responder una pregunta muy simple: ¿Cuánto aportan las variables de otras líneas de negocio en el riesgo de crédito?

Antes de entrar a esto, ¿qué es una Super-App? Super-Apps son todas aquellas apps que permiten realizar múltiples funciones. Por ejemplo, para nuestro paper probamos delivery (la función más conocida de Rappi), transporte (taxis, bicicletas y varios otros tipos de ridesharing que ofrecen en Latam) y por supuesto, créditos. Tal vez la super-app más famosa es la China AliPay, que permite integrar múltiples servicios a través de su plataforma, no sólo pagos.

Ejemplos de Super-Apps. Realmente se puede acceder a todo con una de ellas…

Nuestro paper, disponible oficialmente aquí, pero también de forma gratuita en ArXiV o vía descarga directa acá, realiza un experimento exploratorio con la información de dos países donde estudiamos el impacto de las variables de este estilo. Nuestra conclusión: Las variables sirven para diferenciar patrones de riesgo, en particular cuando las variables de bureau están en valores intermedios o simplemente no están disponibles. Este efecto es particularmente notable en personas con bajo patrimonio.

Los resultados de este trabajo tienen implicancias importantes tanto por el tema de la inclusión financiera, la competitividad, y la interpretabilidad de patrones. Para lo primero, las super-apps tienen ventajas competitivas frente a las instituciones financieras clásicas, pues observan comportamientos revelados que se aplican a segmentos sin historial crediticio. No todos tienen tarjeta de crédito a los 18 años, pero la gran mayoría han pedido una pizza. Hay información valiosa que es utilizable para predecir el riesgo allí.

Para lo segundo, existe un incentivo económico en tener acceso a estas fuentes alternativas de información. Mi predicción es que habrán compras, acuerdos y fusiones entre la banca tradicional y estas apps de tal forma de tener acceso estos datos. Leyes de privacidad de los datos y acciones regulatorias serán claves para entender el impacto de estos nuevos actores financieros. Es totalmente factible que la banca se vea en desventaja pues sólo actores que tienen acceso a los datos debido a su integración pueden acceder a costo razonable a ciertos segmentos. También veo factible que bureaus de crédito intenten asociarse con estos controladores de datos para poder tener acceso a ellos.

Y por último, hay conflictos éticos en el uso de estas variables que deben ser resueltos. Una variable que resultó significativa es el porcentaje de propina que cada cliente deja. Propinas promedio están asociados con riesgo bajo el promedio. Propinas bajo el promedio están asociados con riesgo promedio. Pero propinas altas están asociadas con riesgo alto. Este resultado puede tener efectos importantes: si comenzamos a juzgar el riesgo de crédito a partir de la generosidad de las personas (ya los scores psicométricos son muy comunes), podemos dañar a los repartidores, quienes muchas veces están en riesgo de ganar bajo el mínimo. Aquí los reguladores tendrán el desafío de normar qué variables son aceptables y cuáles no. Tampoco, en mi opinión, deberían caer en declarar todas estas variables como no permitidas. Hay muchos comportamientos que tienen explicación clara, como el número de transacciones rechazadas.

En definitiva, estamos entrando a un nuevo mundo en el cual el riesgo es mirado de forma multidimensional, y tenemos que esforzarnos que estas nuevas dimensiones sean justas y suficientemente transparentes.

Los resultados preliminares de la colaboración con la Dra. María Óskarsdóttir, de la Unversidad de Reykjavík, fueron aceptados como paper Spotlight en el workshop de Machine Learning in Finance. Este workshop es parte de la conferencia KDD 2020 que originalmente se iba a realizar en San Diego, California, pero ahora será virtual dada la pandemia.

Lo bueno que sea virtual es que tuvimos que grabar un video de 10 minutos que será mostrado en la conferencia. Habrán sesiones de Q&A para quienes se registren, pero los videos como tales estarán disponibles para todo el mundo en el sitio del workshop. Para no esperar hasta agosto, les dejo el video abajo. ¡Cualquier comentario es bienvenido!

El paper en ArXiV acá.

Cita: Bravo and Óskardóttir (2020). Evolution of Credit Risk Using a Personalized PageRank Algorithm for Multilayer Networks. Proceedings of the 3rd Machine Learning in Finance Workshop, joint with the 2020 ACM Knowledge Discovery in Databases Conference. Online.

Hace algunos días venció el copyright del paper «A Robust profit measure for binary classification model evaluation» escrito por Franco Garrido, coautoreado por Wouter Verbeke (VUB, Bélgica) y por mi. Franco fue mi estudiante de magíster y por estos días es data scientist en Everis. Este paper es el resultado de su tesis de magíster.

El trabajo de Franco fue generalizar la medida EMP, que publicamos en el paquete de R del mismo nombre. La generalización permite inputs estocásticos más diversos. Es un interesante ejercicio que permite pensar en cómo integrar utilidades cuando mides curvas ROC y AUC.

Hace un tiempo venció el periodo de embargo de mi paper más citado: «APATE: A novel approach for automated credit card transaction fraud detection using network-based extensions», publicado en Decision Support Systems en 2015. Este paper lo armamos mientras trabajaba como postdoctorante en el grupo de Bart Baesens, en la KU Leuven, Bélgica, y fue liderado por Véronique Van Vlasslaer, en ese entonces estudiante de doctorado. El paper está disponible gratuitamente para descarga aquí.

En este paper usamos la misma técnica que usa Google para dar peso a las páginas web del internet para medir cómo se propaga el fraude en las compras de tarjetas de crédito en línea. La idea es la siguiente: Además de contrastar el los patrones de compra de un comprador (usando el clásico modelo RFM), buscamos medir el riesgo que tiene una compra (par comprador – vendedor) dado los fraudes que hemos observado. Esto lo hacemos con el principio del algoritmo PageRank, que dice que tu importancia (tu riesgo de fraude) está medido a partir del riesgo de fraude de tus cercanos, como muestra la siguiente figura.

Red social que muestra las conexiones entre compradores y vendedores, unidos por las compras que realizan. Extraído de Van Vlasslaer et al. (2015), licencia CC BY-NC-ND.

Las conclusiones principales de nuestro trabajo fueron las siguientes:

  • Las variables de redes sociales presentan muy baja correlación con las demás variables de comportamiento. Por lo tanto son una muy buena fuente de información.
  • El modelo presenta una ganancia de entre un 5% a un 10% con respecto a modelos con menos fuentes de información, como se ve abajo.

AUC para diferentes conjuntos de variables

Comparación AUC entre modelos con distintas fuentes de información. El modelo con redes sociales presenta un AUC de 0,986, muy por sobre el resto. Reproducido de Van Vlasslaer et al. (2015), licencia CC BY-NC-ND

 

  • Tarda un par de horas en entrenar una red social para un par de millones de transacciones (el volumen diario esperado de transacciones), por lo que es necesario utilizar redes del día anterior en un caso real. Los resultados anteriores reflejan esta situación. Nuestro modelo es capaz de generar una predicción en un par de milisegundos.
  • Las variables de redes sociales capturan nuevos patrones a medida que aparecen, sin necesidad de mayor información por parte del cliente más allá de reportar el robo. Las variables de comportamiento (RFM) permiten dar a su vez una alerta temprana cuando se observan comportamientos anómalos para cada cliente. Así, generamos perfiles de comportamiento muy complejos.

Siempre es mejor utilizar mejores fuentes de información que modelos más sofisticados, por lo que si tienen situaciones donde hay conexiones entre sus entidades, el uso de redes sociales presenta una gran oportunidad para mejorar sus modelos.

Hace algunas semanas me invitaron a publicar una columna en El Mercurio sobre algún tema que considerara interesante. Elegí hablar un poco acerca de las últimas investigaciones que he hecho, donde he tratado de integrar distintas fuentes de datos, integrando redes sociales, texto, y variables clásicas. Copio el texto acá, pero pueden ver la columna original aquí.

El valor está en la diversidad

Mucho se habla de Big Data, Data Science, Deep Learning y Analytics como las grandes fuentes de competitividad en una empresa. Pero el análisis de datos no tiene por qué ser Big, pero sí tiene que ser Deep: imaginativo y perspicaz.

Tomemos la inclusión financiera, por ejemplo, donde la meta es proveer el mayor acceso a financiamiento a todos los sectores de la sociedad. El riesgo en las PYME o en las personas que recién entran al mercado laboral es muy difícil de medir, ya que no existe historial financiero con el cual realizar estimaciones. Esto ha resultado en altas tasas de interés, baja cobertura, y en consecuencia menor crecimiento y empleo.

FICO, el proveedor más importante de modelos de riesgo de crédito, ha dicho que tres mil millones de personas podrían tener acceso a financiamiento a costo razonable, si pudiésemos medir mejor su riesgo. Ellos se encuentran actualmente probando el valor de la psicometría, el uso de test estándares como los utilizados para postular a un trabajo, para construir nuevos modelos de riesgo cuando no existe información crediticia. Pilotos en África y Asia ya permiten casi triplicar la tasa de detección de malos pagadores, y esto sólo en el primer año de uso.

A partir de la intersección de datos bancarios y datos de llamadas telefónicas entre personas, un equipo del que participo ha construido un sistema para personas sin historial crediticio, que predice el no pago con la misma eficacia de un modelo bancario clásico. Su secreto se encuentra en que construimos la red social de las llamadas telefónicas del solicitante, y calculamos la intensidad del contacto (las llamadas) con personas con buen historial. La responsabilidad financiera parece ser contagiosa: mientras menos riesgosas son las personas con quienes se contacta una persona, menos riesgosa es la persona misma. Mejor dicho, el contexto social de una persona tiene influencia sobre su comportamiento.

Estos ejemplos apuntan al verdadero valor de los datos. La inversión no debe ir por herramientas sofisticadas sin ningún objetivo claro. Hay que preguntarse qué fuentes de datos no se están utilizando, cómo incorporarlas, y finalmente qué, y más importante a quiénes, necesito para accionar sobre ellas. Esto siempre debe ser hecho con responsabilidad, respetando las leyes y los conflictos éticos potenciales (¿deberíamos usar psicometría o llamadas entre celulares?), pero una vez sobrepasadas estas barreras las ganancias son directas.

Todo esto es posible ya que podemos representar el comportamiento desde múltiples perspectivas. En los datos, tal como en las sociedades que éstos representan, el mayor valor se alcanza cuando se aprovecha la diversidad de todos bajo el alero de un modelo sólido.

Ayer venció el copyright de uno de mis papers publicados el año pasado, desarrollado en conjunto con Sebastián Maldonado de la Universidad de Los Andes (Chile). El paper se titula «Fieller Stability Measure: a novel model-dependent backtesting approach» y apareció en el Journal of the Operational Research Society en Abril de 2015. A partir de hoy el paper está disponible gratuitamente acá.

En este trabajo desarrollamos un nuevo método para hacer backtesting de nivel 0, es decir medir si los datos en los que estás aplicando el modelo siguen distribuyéndose de forma similar a los datos con los que se entrenó el modelo originalmente. Nuestro método se basa en incorporar la incerteza en la estimación de parámetros de la regresión (logística) original junto con la incerteza de los conjuntos de datos .

La idea es simple: Cuando estimamos un modelo la certeza en los parámetros depende de la calidad de los datos originales, por lo tanto cuánta variabilidad acepta el modelo en nuestros nuevos conjuntos de datos (antes de tener que recalibrar o reentrenar) debería estar relacionada a esta variabilidad. Esto lo realizamos a través de una relación entre el intervalo de confianza de los parámetros luego de estimar la regresión logística, y la incerteza en la población original dada por el intervalo de confianza entre las proporciones de las medias entre la distribución original y la nueva.

Otra ventaja del método es que permite gráficos bastante útiles, como el de abajo, para efectos de realizar el seguimiento. Esto en contrate con el Stability Index por ejemplo, el método más usado.

Fieller Stability Measure.

Variación significativa (sobre 95% de certeza) en una variable. Al comienzo el modelo es estable y luego hay un claro drift, que se hace significativo en el penúltimo trimestre.

 

Cualquier consulta sobre el método me pueden contactar por Twitter o dejar un comentario en la entrada. El método fue implementado por una de mis alumnas memoristas en un banco local, con bastante buenos resultados, así que creo que tiene su utilidad en la gestión del riesgo.

Como notas adicionales: Además de este paper, el trabajo de mi tesis de doctorado también tiene el copyright expirado, pronto haré una entrada con los detalles. ¡Sigue siendo lejos mi trabajo más extraño!

Hace algunas semanas aparecí en El Mercurio y en el Diario Financiero hablando sobre Big Data, Data Science, y los desafíos que Chile enfrentará en el área. Este es un pequeño resumen.

En Chile Tecnológico (El Mercurio), la entrevista se enfocó en la productividad que trae el uso de Data Science en las operaciones, qué industrias están más desarrolladas en Chile, y qué puede hacer una pequeña y mediana empresa para comenzar a utilizar este tipo de tecnologías. Este es el link al reportaje.

En Diario Financiero comentamos, junto a otros profesionales del área, sobre el valor agregado de usar Data Science en empresas, sobre el déficit de profesionales que habrá en el área, y qué se puede hacer para ello. El Instituto Sistemas Complejos de Ingeniería ha facilitado una copia offline de este reportaje acá.

Recientemente publicamos un trabajo en la conferencia ASONAM 2016 en San Francisco, trabajo conjunto con la estudiante de doctorado María Óskarsdóttir de la KU Leuven, sus supervisores, y otros colegas en Bélgica y Argentina.

En este trabajo conseguimos siete datasets de distintos países, de varias decenas de millones de clientes en total, con historiales de llamadas (CDR) para prepago y postpago, y construimos la red social compuesta de las llamadas entre los usuarios junto a medidas clásicas de Recency, Frequency y Monetary Value de las llamadas. La idea era investigar si esta información sirve (spoiler alert: ¡SI!) para predecir la fuga – o churn – a otra compañía móvil y cuáles métodos son mejores para predecir este evento. El paper está disponible gratuitamente acá. Este trabajo son los resultados preliminares de una publicación bajo revisión en el European Journal of Operational Research, que publicaré acá en algún momento.

Red Social

En este trabajo estudiamos cómo las redes sociales impactan la fuga de clientes en compañías de telefonía móvil. (Imagen por Zigomitros Athanasios)

Algunos insights interesantes de este trabajo:

  • El fenómeno de la fuga tiene un fuerte efecto local: Las influencias son en tu red directa (las personas a quienes más llamas son más propensas de fugarse contigo), pero esta influencia se propaga muy poco a los amigos de tus amigos. Probablemente esto significa que uno influencia su círculo local (familia y quizás amigos muy cercanos), pero no más allá.
  • Las variables de redes sociales son prácticamente independientes de otras: La propuesta de valor agregado de estas variables pasa porque representan información que no está contenida en ningún otro tipo de variables. No es «más de lo mismo», sino que es información totalmente novedosa, con muy baja correlación. Y al menos en fuga funciona bien para predecir, al igual que en fraude como probamos el año pasado (ver acá).
  • Desde el punto de vista teórico: No se gana mucho al usar collective inference en este problema, es mejor estimar variables con un modelo relacional y luego estimar un modelo predictivo en conjunto con variables clásicas. La razón puede tener que ver con la influencia local de la fuga.

Pienso que los resultados fueron muy interesantes. Actualmente preparamos un framework en R para poder realizar experimentos rápidamente, tenemos la publicación en EJOR bajo revisión, y estamos explorando el uso de estas herramientas en muchos otros campos. ¿Tienen experiencias similares? Feliz de leerlas.