Hace algunas semanas me invitaron a publicar una columna en El Mercurio sobre algún tema que considerara interesante. Elegí hablar un poco acerca de las últimas investigaciones que he hecho, donde he tratado de integrar distintas fuentes de datos, integrando redes sociales, texto, y variables clásicas. Copio el texto acá, pero pueden ver la columna original aquí.
El valor está en la diversidad
Mucho se habla de Big Data, Data Science, Deep Learning y Analytics como las grandes fuentes de competitividad en una empresa. Pero el análisis de datos no tiene por qué ser Big, pero sí tiene que ser Deep: imaginativo y perspicaz.
Tomemos la inclusión financiera, por ejemplo, donde la meta es proveer el mayor acceso a financiamiento a todos los sectores de la sociedad. El riesgo en las PYME o en las personas que recién entran al mercado laboral es muy difícil de medir, ya que no existe historial financiero con el cual realizar estimaciones. Esto ha resultado en altas tasas de interés, baja cobertura, y en consecuencia menor crecimiento y empleo.
FICO, el proveedor más importante de modelos de riesgo de crédito, ha dicho que tres mil millones de personas podrían tener acceso a financiamiento a costo razonable, si pudiésemos medir mejor su riesgo. Ellos se encuentran actualmente probando el valor de la psicometría, el uso de test estándares como los utilizados para postular a un trabajo, para construir nuevos modelos de riesgo cuando no existe información crediticia. Pilotos en África y Asia ya permiten casi triplicar la tasa de detección de malos pagadores, y esto sólo en el primer año de uso.
A partir de la intersección de datos bancarios y datos de llamadas telefónicas entre personas, un equipo del que participo ha construido un sistema para personas sin historial crediticio, que predice el no pago con la misma eficacia de un modelo bancario clásico. Su secreto se encuentra en que construimos la red social de las llamadas telefónicas del solicitante, y calculamos la intensidad del contacto (las llamadas) con personas con buen historial. La responsabilidad financiera parece ser contagiosa: mientras menos riesgosas son las personas con quienes se contacta una persona, menos riesgosa es la persona misma. Mejor dicho, el contexto social de una persona tiene influencia sobre su comportamiento.
Estos ejemplos apuntan al verdadero valor de los datos. La inversión no debe ir por herramientas sofisticadas sin ningún objetivo claro. Hay que preguntarse qué fuentes de datos no se están utilizando, cómo incorporarlas, y finalmente qué, y más importante a quiénes, necesito para accionar sobre ellas. Esto siempre debe ser hecho con responsabilidad, respetando las leyes y los conflictos éticos potenciales (¿deberíamos usar psicometría o llamadas entre celulares?), pero una vez sobrepasadas estas barreras las ganancias son directas.
Todo esto es posible ya que podemos representar el comportamiento desde múltiples perspectivas. En los datos, tal como en las sociedades que éstos representan, el mayor valor se alcanza cuando se aprovecha la diversidad de todos bajo el alero de un modelo sólido.