Modelo para cruce de productos - Selección de metodologías

7. Selección de metodologías

7.2 Modelo para cruce de productos

En este punto, se cuenta con una herramienta analítica que permite predecir el comportamiento de un cliente con cada uno de los productos financieros del banco, lo cual provee información que puede ser utilizada en estrategias para lograr la profundización de los clientes. Sin embargo, esta información no permite al banco saber si el cliente está interesado en aceptar dichos productos. En este orden de ideas, es de gran interés para el banco lograr que las ofertas dirigidas a los clientes tengan la mayor efectividad posible, es decir, un cliente puede tener un muy buen comportamiento esperado con un crédito de consumo, debido a sus ingresos y su perfil demográfico, pero su nivel de endeudamiento con otros bancos o su comportamiento con los otros productos, pueden indicar que no esté interesado en adquirir este producto. Lo cual se traduce en mala utilización de las comunicaciones y posible saturación de los clientes

Para lo cual, se decidió desarrollar, de manera paralela al sistema de recomendación de ratings, un modelo que permita conocer la propensión de un cliente a aceptar cada uno de los productos del banco, en caso que le sean ofrecidos.

Este modelo, denominado modelo de cruce, se desarrolla a partir de la misma base que se utilizó en la metodología combinada del sistema de recomendación de ratings, con la diferencia que la variable de respuesta es ahora un indicador binario, que se traduce en si el cliente adquirió o no el producto en una ventana de tiempo de seis meses a partir del mes focal.

Para ilustrar mejor lo anterior, en el siguiente grafico se muestra la estructura de la base de datos que se utilizó para este modelo, que como se dijo antes, es similar a la de la base de datos de la metodología combinada de ratings, ya que se selecciona de manera iterativa una variable de respuesta, la cual corresponde al vector de adquisición por producto en una ventana de tiempo observada de seis meses. Sin embargo, para este caso no se utilizan los demás vectores de respuesta como variable independiente. Pues, dichos vectores corresponden a variables de clasificación observadas en un momento futuro, a diferencia de los ratings que se basan en información observada en el pasado.

Ilustración 12: Estructura de la base de datos para modelo de predicción de cruce de productos

Antes de proceder a implementar los modelos predictivos, cabe resaltar que las variables de respuesta presentan un problema conocido como desbalanceo de los datos. Esto hace referencia a que la cantidad de casos positivos que se encuentran en el periodo observado, representa una porción muy pequeña del total de clientes, entre el 1% y el 3% dependiendo del producto. Esto último genera que las predicciones estén sesgadas hacia los valores negativos y se puedan observar indicadores de desempeño muy altos en los modelos, pero estos no son del todo acertados, pues un modelo podría clasificar todas, o casi todas las predicciones como no ocurrencia del evento, y acertaría en más del 95% de los casos.

Para resolver lo anterior, el problema se abordó con la ayuda de una función de R llamada ‘ovun.sample’. El balanceo de los datos se puede realizar de varias maneras, se puede hacer over sampling, que se refiere a replicar algunos casos donde se presenta el evento a partir de la simulación de nuevos perfiles. También existe el under sampling, que, por el contrario, elimina algunos de los perfiles donde no se presenta el evento.

Al final, las dos metodologías persiguen el mismo objetivo, que es aumentar el porcentaje de casos positivos y balancear la muestra. Aunque no se puede afirmar que una metodología sea mejor que la otra, ya que depende de las características de la base, una buena alternativa es utilizar una heurística que las combine ambas metodologías, que es lo que hace la función mencionada anteriormente. De esta manera, se aplicó la función a la base de datos, también de forma iterativa por producto, y se fijó el balanceo para que llegara a que el 10% de los casos presentaran el cruce del producto.

Una vez se cuentan con las bases balanceadas por producto, al igual que se hizo con las metodologías de ratings, se van a utilizar los modelos Random Forrest y GBM para calcular las predicciones. Como se mencionó anteriormente, estos modelos son de gran versatilidad y también sirven como modelos de clasificación, donde en este caso, se quiere predecir la probabilidad que el cliente acepte el producto. Además, dado que es la misma base de clientes, se sabe que hay variables que contienen datos faltantes, por lo tanto, los modelos basados en arboles de decisión siguen siendo la mejor alternativa.

Adicionalmente, en esta metodología se decidió incluir las predicciones de cruce para productos como los seguros de fraude, vehículo, vida y otros; que no son productos netamente financieros, pero están asociados a la banca de retail y son una buena alternativa para complementar el portafolio de los clientes logrando la profundización.

A continuación, se resume en una tabla cual modelo se seleccionó por producto de acuerdo con el indicador de área bajo la curva (AUC). El detalle de los modelos por producto se puede encontrar en el anexo dos.

Tabla 7: Selección de mejor modelo por producto para cruce de productos

En la columna modelo se encuentra la referencia del modelo seleccionado, donde ‘GBM 0.01 15’ corresponde a un modelo GBM con tasa de aprendizaje de 0.01 y profundidad de 15 nodos. De igual manera, ‘RF 18’, por ejemplo, corresponde a un Random Forest con 18 nodos de profundidad.

En el anexo 2 se puede apreciar la importancia de variables, curva ROC y las distribuciones de probabilidades para cada uno de los productos.

Para los productos de consumo, como lo son la tarjeta de crédito, avances y créditos de consumo, se observar una curva ROC con una sensibilidad marcada y con área bajo la curva mayor a 0.87. Adicionalmente, los gráficos de distribución de probabilidades muestran que el modelo muestra una discriminación marcada en cuanto a la clasificación de cruce en los productos.

Por otro lado, para los productos de ahorro como lo son las cuentas de ahorro, cuentas corrientes, cuentas de nómina, CDTs y productos de ahorro alternativo, se observa un comportamiento más inestable, donde las cuentas de ahorro y el producto de ahorro alternativo no presentan una sensibilidad marcada en la curva ROC y el grafico de distribución de probabilidades ratifica lo anterior al exponer una baja discriminación en el cruce. Por el contrario, los productos como cuentas corrientes, cuentas de nómina y CDTs, que de paso cabe aclarar son productos que poseen menos del 5% de los usuarios del banco, presentan una curva ROC con una sensibilidad mucho

Modelo Producto Validation AUC Validation Gini

GBM 0.01 15 TDC 0.8796 0.7593 RF 18 TRD 0.7488 0.4975 RF 18 PAC 0.7676 0.5353 GBM 0.01 15 AVA 0.8712 0.7424 RF 18 CCO 0.8861 0.7722 RF 15 CTE 0.9547 0.9094 RF 15 ABR 0.7452 0.4903 RF 15 CDT 0.9561 0.9121 RF 18 FRD 0.7377 0.4753 RF 18 OTR 0.7377 0.4753 RF 15 VEH 0.7217 0.4433 RF 15 VDA 0.8607 0.7214

más marcada y distribución de probabilidades con buena discriminación. Sin embargo, al revisar las variables más importantes en estos últimos tres productos, es de notar que las cuentas corrientes dependen básicamente del uso de los clientes con el crédito de consumo y los CDTs dependen de la interacción que haya tenido el cliente con CDTs en el pasado, pues prácticamente los clientes que han tenido o tienen un CDT tienden a renovarlo y, por último, las cuentas de nómina son prácticamente un sub producto de las cuentas de ahorro.

Finalmente, los productos complementarios como los seguros de vida, vehículo, fraude y otros, presentan baja sensibilidad en las curvas ROC y su distribución de probabilidades tampoco muestra buena discriminación, por lo que los perfiles de las variables más importantes no ofrecen información de buena calidad para predecir la probabilidad de adquisición de estos productos. En conclusión, el modelo de cruce desarrollado se muestra como una buena herramienta en cuanto a los productos de consumo y con puntos a mejorar para los demás productos. Sin embargo, son precisamente los productos de consumo los más rentables y finalmente, aquellos productos como los seguros, presentan una gran dependencia de las variables relacionadas con la tarjeta de crédito como lo son el indicador de uso, antigüedad, cuotas promedio y hábito de pago, y por otro lado, es la tarjeta de crédito el producto base de los créditos de consumo, y por consiguiente, mejorar los indicadores de uso y cruce en los productos de consumo, se espera sirva para mejorar los indicadores de cruce con los demás productos, o por lo menos, mejorar la información de las variables relacionadas con estos.

In document IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE RECOMENDACIÓN PARA PROFUNDIZACIÓN DE CLIENTES Y CRUCE DE PRODUCTOS EN UN BANCO DE RETAIL (página 40-44)