• No se han encontrado resultados

Predicción de la adquisición de productos financieros de los clientes Pyme en BBVA

N/A
N/A
Protected

Academic year: 2021

Share "Predicción de la adquisición de productos financieros de los clientes Pyme en BBVA"

Copied!
49
0
0

Texto completo

(1)

Predicción de la adquisición de productos financieros de los clientes Pyme

en BBVA

Angela María Arias Rojas

Camilo Alejandro Rodríguez Pinzón

John Pablo Calvo López

Noviembre 2018

Universidad de Los Andes

Facultad de Ingeniería Industrial

Maestría en Inteligencia Analítica Para la Toma de Decisiones

Proyecto de Grado

(2)

Contenido

1 Introducción ... 1 2 Pregunta de Negocio ... 4 3 Objetivos ... 5 3.1 Objetivo General ... 5 3.2 Objetivos Específicos ... 5 4. Marco Teórico ... 6 4.1 Revisión Literaria ... 6

4.2 Marco Teórico Estadístico... 8

4.2.1 Modelos de Regresión Logística ... 8

4.2.2 Modelo de Análisis Discriminante Lineal (LDA) ... 8

4.2.3 Modelo Basado en Arboles de Predicción. Random Forest ... 9

4.2.4 Modelo Basado en Arboles para Predicción. Boosting ... 9

4.2.5 Modelo Basado en Redes Neuronales ... 10

4.3 Métricas de Comparación de Modelos ... 10

5 Metodología ... 13

5.1 Descripción y Tratamiento de Datos ... 13

5.1.1 Fuentes de Información, Base de Datos y Variables ... 13

5.1.2 Tratamiento de Datos ... 15

5.1.3 Análisis Exploratorio de los Datos ... 20

5.2 Cross Validation y Leave One Out Cross Validation (LOOCV) ... 28

5.2.1 Cross Validation ... 28

5.2.2 Leave One Out Cross Validation - LOOCV ... 29

5.3 Modelamiento ... 29

5.3.1 Modelo de Regresión Logit ... 29

5.3.2 Modelo de Análisis Discriminante (LDA) ... 31

5.3.3 Modelo Basado en Árboles de Decisión. Random Forest ... 32

5.3.4 Modelo Basado en Árboles de Decisión. Boosting ... 34

5.3.5 Modelo Basado en Redes Neuronales ... 36

5.4 Comparación de Modelos ... 37

6 Conclusiones y Recomendaciones ... 39

7 Bibliografía ... 41

(3)

Tabla de Contenido Tablas

Tabla 1. Matriz de confusión ... 11

Tabla 2. Listado de variables ... 14

Tabla 3. Matriz de Confusión para el modelo de Regresión Logit ... 30

Tabla 4. Métricas en Subconjunto de entrenamiento y prueba del modelo de Regresión Logit. ... 30

Tabla 5. Variables significativas del modelo de Regresión Logit ... 31

Tabla 6. Matriz de Confusión del modelo LDA ... 32

Tabla 7. Métricas del modelo LDA ... 32

Tabla 8. Matriz de Confusión del modelo Random Forest. ... 33

Tabla 9. Métricas en Subconjunto de entrenamiento y prueba del modelo Random Forest. ... 33

Tabla 10. Variables significativas del modelo Random Forest. ... 34

Tabla 11. Matriz de Confusión del modelo Boosting Tree ... 35

Tabla 12. Métricas en Subconjunto de entrenamiento y prueba del modelo Boosting Tree. ... 35

Tabla 13. Variables significativas del modelo Boosting Tree. ... 35

Tabla 14. Matriz de Confusión del modelo Red Neuronal. ... 37

Tabla 15. Métricas en Subconj. de entrenamiento y prueba del mod. Red Neuronal. ... 37

Tabla 16. Resumen de Métricas para los distintos modelos de clasificación. ... 38

(4)

Tabla de Contenido de Figuras

Figura 1. Curva ROC ... 12

Figura 2. Mapa de valores faltantes ... 15

Figura 3. Gráficas antes y después del balanceo usando SMOTE ... 19

Figura 4. Matriz de correlaciones ... 21

Figura 5. Distribución de la variable Acepta ... 21

Figura 6. Distribución de la variable Segmento cliente ... 22

Figura 7. Distribución de la variable Segmento cliente para la variable Acepta ... 22

Figura 8. Distribución de la variable Calif_Riesgo para la variable Acepta ... 23

Figura 9. Distribución de la variable Rango_de_Ventas para la variable Acepta ... 23

Figura 10. Distribución de la variable Macro_Sector para la variable Acepta ... 24

Figura 11. Distribución de la variable Peor_Calificación para la variable Acepta ... 24

Figura 12. Distribución de la variable Meses_Ult_Apertura para la variable Acepta ... 25

Figura 13. Distribución de la variable Meses_Ult_Apertura para la variable Acepta ... 25

Figura 14. Distribución de la variable Cuota_Banquero para la variable Acepta ... 26

Figura 15. Distribución de la variable Dif_Saldo_Prom_Activo_trim para la variable Acepta ... 26

Figura 16. Distribución de la variable Antigüedad_Cliente para la variable Acepta ... 26

Figura 17. Distribución de la variable Dif_Saldo_Prom_Activo_mes para la variable Acepta ... 27

Figura 18. Distribución de la variable Saldo_prom_Otros_Prod para la variable Acepta ... 27

Figura 19. Distribución de la variable Endeuda_BBVA para la variable Acepta ... 28

Figura 20. Distribución de la variable Dif_Saldo_prom_Activo_anual para la variable Acepta ... 28

Figura 21. Curva ROC para el modelo de Regresión Logit ... 30

Figura 22. Curva ROC del modelo LDA ... 32

Figura 23. Curva ROC para el modelo Random Forest. ... 33

Figura 24. Curva ROC modelo Boosting Tree ... 35

(5)

1 1 Introducción

El sector Pyme en Colombia desde 2004 agrupa a todas aquellas pequeñas y medianas empresas con una cantidad de empleados entre los 11 a los 200 trabajadores, adicionalmente éstas deben contar con un valor en activos entre los 501 y 30.000 salarios mínimos mensuales legales vigentes. Según datos de Confecamaras (2018) actualmente existen alrededor de 1.500.000 empresas catalogadas como micro, pequeñas y medianas en el Registro Único Empresarial -RUE. La revista Dinero (2017) en su artículo “Ranking de las mejores pymes en Colombia en 2017”, informa que las pymes aportan el 80% del empleo en Colombia y afirma que las 1.000 pymes más grandes del país en el 2016 tuvieron ventas por $19 billones.

Para evaluar el estado actual y la proyección del sector Pyme en Colombia, se creó el Indicador Pyme Anif conocido como IPA. Este indicador mide semestralmente el clima económico del sector utilizando variables tales como el índice de situación económica actual, el volumen de ventas y las expectativas de desempeño y de ventas para el siguiente periodo. Un valor de este indicador por encima de los 73 puntos refleja un buen clima económico, mientras que un valor de 55 puntos es un resultado regular para el mismo. Durante 2017 y el primer semestre de 2018 el IPA tuvo valores semestrales de 61, 54 y 61 puntos, estos datos en si presentan un crecimiento del sector de las Pymes en Colombia para 2018 y generan optimismo para el futuro cercano, lo que podría beneficiar a los actores involucrados en todo este mercado entre ellos los bancos.

De manera creciente los bancos se sienten más atraídos a prestar a las pymes por medio de diferentes líneas, entre ellas capital de trabajo, recursos de liquidez, cupos rotativos, tarjetas empresariales, cartas comerciales, entre otros. Según un artículo publicado por el diario La República (2018) el 40% de los créditos fueron dirigidos a empresas recién constituidas y según el portal Finanzas Personales (2018) las entidades financieras más fuertes en este tipo de

(6)

2 mercado son Bancolombia, Banco Caja Social, Davivienda, Banco de Bogotá, Colpatria y el BBVA.

Actualmente la Dirección Estratégica de Persona Jurídica del Banco BBVA tiene dentro de sus principales objetivos disminuir la fuga de clientes del segmento Pyme. La Dirección de Inteligencia Comercial del banco informó que la deserción de clientes Pyme para el año de 2017 fue del 16.1% y según cifras de la Superintendencia Financiera de Colombia, el BBVA tiene el 7.6% total de la cartera comercial. Está pérdida de participación en el mercado es una de las causas principales de la disminución en la rentabilidad esperada para este segmento. Por lo anterior, un objetivo fundamental de la Dirección Estratégica de Persona Jurídica es el de aumentar la profundización en términos de portafolio de sus clientes para el año 2019.

El BBVA es un banco con un enfoque Data Driven, que se fundamenta en la toma de decisiones estratégicas basadas en el análisis de datos y su interpretación, razón por la cual ha decidido realizar un proyecto de profundización de clientes, a través de la potencialización y optimización mediante una campaña comercial proactiva y preventiva de la deserción basada en el uso de herramientas analíticas, aprendizaje automático y aprendizaje profundo. La línea de producto escogida para desarrollar este proyecto es la de crédito para capital de trabajo.

Para el desarrollo de esta investigación la metodología CRISP es una base para, a través de sus etapas, dar respuesta al problema planteado. En un primer momento se realiza una revisión literaria donde se aterrizan distintas soluciones a problemáticas similares en entidades financieras mediante el uso de modelos estadísticos, de aprendizaje automático y de aprendizaje profundo. En segunda instancia se realiza una labor de familiarización y limpieza de datos que busca garantizar unos resultados confiables, se desarrollan 5 modelos de clasificación y se selecciona el que mejores métricas de desempeño arroja.

(7)

3 De acuerdo con los resultados obtenidos se presentan las conclusiones y una serie de recomendaciones que buscan, no solo aumentar la efectividad de la campaña comercial, identificando el perfil del cliente potencial que tendrá la mayor probabilidad de aceptar el producto financiero, si no, también profundizar la relación comercial entre el cliente pyme y el banco, evitando que otra entidad financiera lo capte.

(8)

4 2 Pregunta de Negocio

¿Cuáles son los clientes con cupo pre aprobados que tienen la mayor probabilidad de adquirir la oferta del banco y en los que se debe enfocar la gestión comercial?

(9)

5 3 Objetivos

3.1 Objetivo General

Determinar los clientes potenciales del segmento pyme en los que debería enfocarse el área comercial con el fin de priorizar las estrategias de campaña del banco.

3.2 Objetivos Específicos

 Identificar las variables que influyen de manera significativa en la probabilidad de adquisición de un crédito por parte de un cliente pyme.

 Desarrollar distintos modelos prescriptivos que permita determinar aquellos clientes del segmento pyme, que tienen la mayor probabilidad de adquirir los productos del banco BBVA.

 Identificar, a partir de distintas métricas de comparación, el modelo que mejor desempeño tenga para determinar aquellos clientes, del segmento pyme, que tienen la mayor probabilidad de adquirir los productos del banco BBVA.

(10)

6 4. Marco Teórico

4.1 Revisión Literaria

Son muchos los problemas que la estadística, los modelos de aprendizaje automático y el aprendizaje profundo nos ayudan a resolver. El sector financiero no es una excepción en la adopción de este tipo de herramientas. Las decisiones comerciales y de mercadeo directo de los bancos son más importantes que nunca para preservar la relación con los mejores clientes.

La Universidad de California ha puesto a disposición del público la base de datos de Moro et al., 2014, que contiene una campaña de mercadeo de una institución bancaria portuguesa, la cual se desarrolla a través de llamadas telefónicas y se busca predecir si el cliente contactado tomará o no el producto por ellos ofrecido. La base de datos consta de 45.211 registros y contiene 21 variables incluida la variable dependiente, las variables independientes corresponden a información relacionada con el cliente, tal como la edad, estado laboral, estado civil, educación, si posee préstamos, entre otras. Adicionalmente, la base contiene otras variables de contexto social y económico, tales como, tasa de desempleo, índices de precios del consumidor y demás.

Sobre esta base de datos varios autores han trabajado aplicando distintos modelos de predicción. Elsalamony (2014), hace uso de técnicas como redes neuronales de percepción multicapa (MLPNN), árboles aumentados naïve bayes (TAN) también conocido como redes bayesianas, regresión logística (LR) y el modelo basado en árboles de decisión de Ross Quinlan o C5.0. El propósito de su artículo era incrementar la efectividad de la campaña mediante la identificación de las variables principales que la impactan, logrando concluir que, en los modelos C5.0, LR y MLPNN la variable más importante es la duración de la llamada, mientras que para el modelo TAN, la variable más importante es la edad del cliente. El autor encuentra que el modelo C5.0 es el que logra tener un mejor rendimiento que los otros modelos. Por otro lado, Karim & Rahman (2013) utilizan los modelos naïve bayes y el modelo basado en árboles

(11)

7 de decisión C4.5, del que concluyen que es más probable tomar el producto bancario si el encuestado tiene un trabajo administrativo, si está casado y si la educación es secundaria o universitaria. Para este estudio el mejor modelo de predicción es el C4.5 sobre el modelo naïve bayes. Finalmente, Choong (2017), inicia su estudio haciendo un análisis exploratorio de los datos, para seleccionar las variables más importantes, realiza unas transformaciones y crea unas nuevas variables agrupando las originales. Para este paper se contrasta un modelo lineal generalizado (GLM), un modelo lineal generalizado ajustado mediante Boosting (GLMB), el modelo basado en árboles de clasificación y regresión (CART), un modelo de gradiente estocástico ajustado mediante Boosting (GBM), un modelo de predicción basado en árboles – Random Forest, un modelo basado en árboles de inferencia condicional (CIT) y un modelo de regresión spline multivariado adaptativo (MARS). En este caso el autor concluye que las variables que más impactan la decisión de tomar o no el producto son las variables ocupación y el nivel educativo, lo cual es coherente para él pues, es probable que la ocupación y el nivel educativo estén fuertemente correlacionados con el saldo bancario del cliente. Ahora bien, en este paper el autor concluye que, en su opinión, el alcance del estudio está limitado por el volumen y la disponibilidad de los datos, por ejemplo, los datos no proporcionan una indicación del precio y la rentabilidad del producto que se comercializa o el costo de cada llamada, adicionalmente destaca que como todos los modelos actuariales, un ejercicio de modelado predictivo no debe considerarse como un ejercicio único, ya que las relaciones entre las variables y el comportamiento del cliente pueden cambiar con el tiempo y recomienda que, una vez se haya seleccionado un modelo, éste se debe actualizar continuamente.

En concordancia con lo revisado anteriormente, este estudio busca determinar los clientes potenciales del segmento pyme en los que debería enfocarse el área comercial del BBVA, con el fin de priorizar las estrategias de campaña del banco, pero difiere en cuanto ahora no se clasificarán personas naturales, sino personas jurídicas, por lo que las variables

(12)

8 independientes serán diferentes. En la sección 4.2 se hará una breve descripción de los modelos a contrastar, la sección 4.3 hará su parte en cuanto a las métricas a utilizar para comparar los resultados de los distintos modelos y en el capítulo 5 se hablará sobre el tratamiento que se aplicará a los datos, describirá las variables a utilizar, así como su modelamiento y comparación de modelos.

4.2 Marco Teórico Estadístico

Los modelos de clasificación revisados para este trabajo son descritos brevemente en este literal

4.2.1 Modelos de Regresión Logística

También conocido como regresión logit o modelo logístico, este modelo permite predecir una salida o variable de respuesta categórica en función de distintas variables auxiliares, independientes o predictoras.

Agresti (1996). El modelo de regresión logística tiene una forma lineal por la función logit, así:

𝑙𝑜𝑔𝑖𝑡[𝜋(𝑥)] = log ( 𝜋(𝑥)

1 − 𝜋(𝑥)) = 𝛽0+ 𝛽1𝑥1 + 𝛽2𝑥2+ ⋯ + 𝛽𝑛𝑥𝑛

Donde 𝜋(𝑥), denota la probabilidad de éxito cuando 𝑋 = 𝑥, adicionalmente 𝜋(𝑥) crece o decrece como una función en forma de S.

4.2.2 Modelo de Análisis Discriminante Lineal (LDA)

Amat (2016). En este método de clasificación se conocen a priori dos o más categorías a las que se asignan nuevas observaciones, en función de distintas variables auxiliares o características.

Haciendo uso del teorema de Bayes, LDA estima la probabilidad de que una observación, dado un determinado valor de los predictores, pertenezca a cada una de las clases

(13)

9 de la variable cualitativa, esto es 𝑃(𝑌 = 𝑘|𝑋 = 𝑥). Finalmente, se asigna la observación a la clase 𝑘 para la que la probabilidad predicha es mayor.

4.2.3 Modelo Basado en Arboles de Predicción. Random Forest

Valencia (2018). La idea fundamental de un árbol es la estratificación del espacio de predictores (Input Space), esto es, generar una partición de 𝜒𝜖ℝ𝑃 a través de particiones binarias secuenciales en una variable a la vez. En general, los árboles de decisión resultan un buen modelo para explicar la influencia de las variables predictoras sobre la variable de respuesta 𝑦.

Sin embargo, tienen serias limitaciones al momento de predecir por dos razones:  Cambios de muestras pueden generar árboles con particiones completamente

diferentes.

 Los modelos son sesgados.

Una forma de mejorar el desempeño de los árboles de decisión para predecir es utilizarlos como bloques individuales en métodos de ensamblaje, aunque esto puede afectar la interpretabilidad de los árboles.

El modelo Random Forest es una técnica utilizada para crear un modelo predictivo a través de árboles de decisión. Además de reducir la variabilidad del modelo, es capaz de reducir las correlaciones positivas entre los árboles individuales, mediante la selección de un subconjunto de predictores en cada árbol.

4.2.4 Modelo Basado en Arboles para Predicción. Boosting

Este tipo de modelos conserva la idea que se revisó en el punto anterior, no obstante, los modelos basados en árboles de predicción que usan Boosting, buscan mejorar la precisión del modelo. Se debe tener cuidado en su uso pues el Boosting puede llevar a sobre ajustes, por

(14)

10 lo que saber elegir el punto de parada es importante. Mason, Baxter, Bartlett & Frean (1999) dan una discusión profunda sobre el tema.

4.2.5 Modelo Basado en Redes Neuronales1

Este tipo de modelo está formado por un conjunto de unidades neuronales simples y copia el comportamiento del cerebro humano usando el modelo de aprendizaje de las neuronas. De esta manera, las redes neuronales aprenden y se forman a sí mismas (aprendizaje automático), en lugar de ser programadas de forma explícita.

La información inicial o variables de entrada atraviesan la red neuronal, donde ocurren diferentes operaciones, produciendo unos valores de salida.

Cada neurona está conectada con otras a través de unos enlaces. En estos enlaces el valor de salida de la neurona anterior es multiplicado por un valor de peso. Estos pesos en los enlaces pueden incrementar o inhibir el estado de activación de las neuronas adyacentes. Del mismo modo, a la salida de la neurona, puede existir una función limitadora o umbral, que modifica el valor resultado o impone un límite que se debe sobrepasar antes de propagarse a otra neurona. Esta función se conoce como función de activación.

Adicionalmente, en el proceso de aprendizaje, el modelo busca minimizar una función de pérdida que evalúa la red en su totalidad. Los valores de los pesos de las neuronas se van actualizando, con el fin de lograr reducir el valor de la función de pérdida, a través del proceso denominado propagación hacia atrás.

4.3 Métricas de Comparación de Modelos

En problemas de clasificación, los términos verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos (que también se relacionan con los conocidos errores tipo I

(15)

11 y tipo II en estadística) comparan los resultados obtenidos del modelo clasificador que se está probando (𝑦̂) contra los valores reales (𝑦).

Los términos positivo y negativo se refieren a la predicción del clasificador (estimado), y los términos verdadero y falso se refieren a si esa predicción corresponde a la realidad (observación).

Garet, Witten, Hastie & Tibshirani (2013) lo resume en lo que se conoce como matriz de confusión, así:

Tabla 1. Matriz de confusión.

Fuente: An Introduction to Statistical Learning

De la tabla 1 se utilizarán las siguientes métricas para evaluar los modelos de clasificación:

 True positive rate, recall o sensitivity: Proporción de los valores que el modelo predijo como positivo, sobre el total de valores realmente positivos.

∑ 𝑇𝑃 𝑇𝑃 + 𝐹𝑁

 AUC: Proporciona una medición agregada del rendimiento en todos los umbrales de clasificación posibles. Esta métrica se puede interpretar como la probabilidad de que el modelo clasifique un ejemplo positivo aleatorio más alto que un ejemplo negativo aleatorio.

 ROC curve: muestra gráficamente toda la gama de valores para la relación entre la sensitivity y especificity en función del threshold. La curva ROC ideal abraza la esquina superior izquierda, lo que indica una alta tasa de positivos verdaderos y una

(16)

12 baja tasa de falsos positivos, es decir, genera un buen diagnóstico en el subconjunto de prueba, así:

Figura 1. Curva ROC.

(17)

13 5 Metodología

5.1 Descripción y Tratamiento de Datos

A continuación, se presentan las fuentes de información que se tuvieron en cuenta para poder llevar a cabo la ejecución de este proyecto, se hace una breve descripción de la base de datos a trabajar y las variables que la conforman. Adicionalmente, se explica el tratamiento que se le dio a los datos faltantes y a las variables, la manera en que se particionó la base datos para evitar el sobre ajuste de los modelos, la técnica empleada para la normalización de los datos de forma que las variables quedaran en una escala comparable, lo cual facilitó la convergencia de los modelos y el tratamiento que se le dio al desbalanceo encontrado en las clases de la variable respuesta 𝑦.

5.1.1 Fuentes de Información, Base de Datos y Variables

Fuentes de información

Para poder contar con una base de datos que tuviera información confiable, de calidad y que fuera relevante para este proyecto, el banco facilitó las siguientes fuentes de información:  Base de datos de pagos y abonos: Esta base contiene información detallada de las transacciones que involucran las entradas y salidas de dinero de todos los clientes del Banco.

 Laboratorio analítico regional: Es la plataforma del banco que contiene el Data warehouse, en donde se encuentra disponible toda la información considerada relevante para el perfilamiento de los clientes.

 Saldos Diarios: Esta base es generada diariamente por el área financiera y contiene todos los saldos de los productos vigentes de los clientes.

(18)

14  Centrales de riesgo: Esta base es emitida por los Bureau de crédito y en ella se encuentra información del comportamiento crediticio de los clientes en el sistema financiero colombiano.

Base de datos y variables

Este proyecto trabajó con una base de datos final conformada por 998 registros y 69 variables repartidas en 51 variables continuas y 18 variables categóricas.

Cada registro corresponde a un cliente del segmento pyme y revela su información de saldos medios de recursos de inversión y recursos del último año, información transaccional, calificación financiera, nivel de ventas, actividad económica, venta cruzada y antigüedad con el banco.

La variable de estudio fue nombrada Acepta e indica si un cliente aceptó o no la oferta comercial del banco.

Las variables independientes fueron:

Tabla 2. Listado de variables.

Nombre de Variable Nombre de Variable

Acepta Macro_Sector

Antigüedad_Cliente Meses_Ult_Apertura Calif_Riesgo Peor_Calificacion Cliente_con _CDT Rango_de_Ventas Cliente_con _Cred_Comex Saldo_prom_CDT

Cliente_con _Cred_Empr. Saldo_prom_Cred_Comex Cliente_con _Cta_Aho Saldo_prom_Cred_Empr Cliente_con _Cta_Cte Saldo_prom_Cta_Aho Cliente_con _Factoring Saldo_prom_Cta_Cte Cliente_con _Fondo_Inversion Saldo_prom_Factoring Cliente_con _Leasing Saldo_prom_Fondo_Inversion Cliente_con _Libre_Inversion Saldo_prom_Leasing

Cliente_con _Otros_Prod Saldo_prom_Libre_Inversion Cliente_con _Sobregiro Saldo_prom_Otros_Prod Corte_Contable Saldo_prom_Sobregiro

(19)

15 Nombre de Variable Nombre de Variable

Cuota_Banquero Segmento_Cliente Dif_cantidad_Transacc_anual Tipo_Producto Dif_cantidad_Transacc_mes Var_cantidad_Transacc_anual Dif_cantidad_Transacc_sem Var_cantidad_Transacc_mes Dif_cantidad_Transacc_trim Var_cantidad_Transacc_sem Dif_Monto_Transado_anual Var_cantidad_Transacc_trim Dif_Monto_Transado_mes Var_Monto_Transado_anual Dif_Monto_Transado_sem Var_Monto_Transado_mes Dif_Monto_Transado_trim Var_Monto_Transado_sem Dif_Saldo_Prom_Pasivo_anual Var_Monto_Transado_trim Dif_Saldo_Prom_Pasivo_mes Var_Saldo_Prom_Pasivo_anual Dif_Saldo_Prom_Pasivo_sem Var_Saldo_Prom_Pasivo_mes Dif_Saldo_Prom_Pasivo_trim Var_Saldo_Prom_Pasivo_sem Dif_Saldo_Prom_Activo_anual Var_Saldo_Prom_Pasivo_trim Dif_Saldo_Prom_Activo_mes Var_Saldo_Prom_Activo_anual Dif_Saldo_Prom_Activo_sem Var_Saldo_Prom_Activo_mes Dif_Saldo_Prom_Activo_trim Var_Saldo_Prom_Activo_sem Endeuda_BBVA Var_Saldo_Prom_Activo_trim Endeuda_Otros_Bancos Ventas_Anuales_Cliente Endeuda_Total

Fuente: Elaboración propia

La descripción de todas las variables se puede consultar en el Anexo 1.

5.1.2 Tratamiento de Datos

Identificación y Manejo de NA´s

Se observó que el sistema identificó 32.405 datos faltantes, equivalentes al 20.17% de los datos totales iniciales. Visualmente el comportamiento de los NA’s fue:

Figura 2. Mapa de valores faltantes.

(20)

16 La figura 2 muestra el comportamiento de los NA’s (celdas en color rojo) por variable (eje x) y registro (eje y).

Las variables con mayor cantidad de datos faltantes fueron las relacionadas con los saldos promedios de los productos que los clientes pyme poseían con el banco: saldo promedio CDT, saldo promedio crédito comex, saldo promedio crédito empresas, saldo promedio cuenta de ahorro, saldo promedio factoring, saldo promedio fondo de inversión, saldo promedio leasing, saldo promedio libre inversión, saldo promedio otros productos, saldo promedio sobregiro y saldo promedio crédito público. Esas variables poseían más del 70% de su información como faltante.

Después de revisar estos casos con el banco, se determinó que la acción a tomar era reemplazar los NA’s con valor de 0, ya que dichos datos no correspondían a información faltante si no al hecho que el cliente pyme no poseía determinados productos con el banco y por lo tanto el sistema no asignaba valor alguno a ese producto dejando vacía la celda. De esta manera, se crearon variables indicadoras por cada producto para poder saber si el valor de 0 correspondía a que el cliente no poseía ese producto específico con el banco o en caso de poseerlo, el saldo promedio de ese producto era 0.

Una vez ajustados esos casos, se obtuvo una reducción al 0.112% de NA’s, es decir, 180 datos faltantes en 73 registros.

Finalmente, dado que la cantidad de registros con datos faltantes era pequeña, se decidió retirar esta información de la base reduciendo su tamaño de 1.071 a 998.

Tratamiento de variables

Al hacer una exploración inicial de la base de datos, se encontró un total de 150 variables. Estas variables fueron revisadas y se encontró que 104 variables dependían del tiempo y correspondían a 4 grupos de información: los saldos medio del pasivo mensual del

(21)

17 cliente pyme entre enero de 2015 y marzo de 2018, los saldos medio del activo mensual del cliente pyme entre enero de 2015 y marzo de 2018, el total o cantidad de transacciones realizadas del cliente pyme entre marzo de 2017 y marzo de 2018 y el monto o valor transado por cliente pyme marzo de 2017 y marzo de 2018.

Para reducir estas variables, se crearon para cada grupo de información 8 variables así:  Grupo 1: 4 variables que calcularon las diferencias de los saldos medio del pasivo mensual del cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior; 4 variables que calcularon la variación relativa de los saldos medio del pasivo mensual del cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior.

 Grupo 2: 4 variables que calcularon las diferencias de los saldos medio del activo mensual del cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior; 4 variables que calcularon la variación relativa de los saldos medio del activo mensual del cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior.

 Grupo 3: 4 variables que calcularon las diferencias del total o cantidad de transacciones realizadas del cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior; 4 variables que calcularon la variación relativa del total o cantidad de transacciones realizadas del cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y

(22)

18 el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior.

 Grupo 4: 4 variables que calcularon las diferencias del monto o valor transado por cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior; 4 variables que calcularon la variación relativa del monto o valor transado por cliente pyme entre el último mes y el mes inmediatamente anterior, el último mes y el trimestre anterior, el último mes y el semestre anterior, el último mes y el mismo mes del año anterior.

En total se crearon 32 nuevas variables que reemplazaron las 104 variables iniciales. Así se redujo el número de variables en la base de datos pasando de tener 150 a 69 variables.

Subconjuntos de entrenamiento y prueba

La base de datos se particionó en dos subconjuntos, uno de entrenamiento al que se le asignó el 70% de los datos y otro de prueba al que se le asignó el 30% de los datos. Dicha partición garantizó una distribución proporcional en los valores positivos de la variable de interés (=1), respecto de los valores negativos (=0).

Esta división de los datos se llevó a cabo para garantizar que el modelo pudiera generalizarse mejor a nuevos datos y para evitar el sobreajuste de este.

Normalización

Las variables de la base de datos presentaban diferentes unidades de medida, por lo cual los datos se normalizaron haciendo uso de la metodología de escalamiento de variables con máximos y mínimos así:

𝑋 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑑𝑎 = 𝑋 − 𝑋𝑚𝑖𝑛 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

(23)

19 Este procedimiento se aplicó en el subconjunto de entrenamiento y se obtuvieron los valores máximos y mínimos de las variables. Posteriormente, con dichos valores se escalaron los datos del subconjunto de prueba.

Balanceo de clases

Durante el proceso de exploración de la base de datos, se detectó un problema de desbalanceo en las clases de la variable respuesta Acepta. Se observó que la variable tomaba el valor de 0 (clase 1) el 80% de las veces y el valor de 1 (clase 2) el 20% restante, haciendo que la probabilidad de que una observación estuviera en la primera clase fuera mucho mayor a la probabilidad de que estuviera en la segunda clase.

Para resolver este problema y balancear los datos se utilizó el método de remuestreo SMOTE, propuesto por Chawla, Bowyer, Hall & Kegelmeyer (2002), sobre el subconjunto de entrenamiento, el cual sobre muestreó de manera sintética la clase minoritaria. De esta manera se obtuvo una base de 1198 registros en la cual la nueva distribución de las clases fue del 53% para la clase 1 y del 47% para la clase 2.

Figura 3. Gráficas antes y después del balanceo usando SMOTE.

Fuente: Elaboración propia.

La figura 3 permite comparar para el caso de las variables antigüedad del cliente (eje x) y cuota banquero (eje y) como estaban los datos antes y después del balanceo de clases.

(24)

20 5.1.3 Análisis Exploratorio de los Datos

Una de las actividades iniciales en el desarrollo del proyecto fue hacer un análisis exploratorio de los datos para conocer y entender la información y facilitar la interpretación de los resultados. Para esto se llevó a cabo un análisis de correlaciones y un análisis descriptivo de los cuales se pudo identificar las relaciones existentes entre las diferentes variables y la dependencia con la variable respuesta.

Correlaciones entre variables continuas

Al ejecutar el análisis de correlaciones se encontró que las variables asociadas con las diferencias y variaciones relativas de los saldos medio del pasivo mensual del cliente pyme, las diferencias y variaciones relativas de los saldos medio del activo mensual del cliente pyme, las diferencias y variaciones relativas del total o cantidad de transacciones realizadas del cliente pyme y las diferencias y variaciones relativas del monto o valor transado por cliente pyme estaban altamente correlacionadas entre sí. Lo mismo ocurrió con las diferentes variables de saldos promedios de los diferentes productos que estaban relacionadas con las diferencias de saldos medios del activo y del pasivo.

También se identificaron aquellas variables más correlacionadas con la variable respuesta. Estas fueron:

Diferencia del saldo medio activo mensual (Dif_Saldo_Prom_Activo_mes), Diferencia del saldo medio activo trimestral (Dif_Saldo_Prom_Activo_trim) y Diferencia del saldo medio activo anual (Dif_Saldo_Prom_Activo_anual).

La variable con mayor correlación inversa fue Meses desde la última apertura (Meses_Ult_Apertura). También se observó que el coeficiente de correlación de estas variables no fue muy alto, pues el valor mayor resultó ser del 37%.

(25)

21

Figura 4. Matriz de correlaciones.

Fuente: Elaboración propia.

La figura 4 muestra la matriz de correlaciones para la triangular superior. Aquellos casos en los que se observan los colores azules y rojo más intenso son las variables que están fuertemente correlacionadas.

Análisis descriptivo

Resultó de interés para este proyecto analizar las variables relevantes obtenidas del análisis de correlaciones, así como otras variables de interés:

Figura 5. Distribución de la variable Acepta.

Fuente: Elaboración propia.

Se encontró que la base suministrada por el banco estaba principalmente compuesta por clientes pyme que no aceptaron la oferta representando el 80%. Los clientes que si aceptaron la oferta fueron el 20% (figura 5).

(26)

22

Figura 6. Distribución de la variable Segmento cliente.

Fuente: Elaboración propia.

En cuanto a la distribución de los tipos de segmento de clientes presentes en la base, se encontró que el 88% estaba compuesto por los clientes del tipo pyme, y el 12% por emprendedores o personas naturales con negocio (figura 6).

Figura 7. Distribución de la variable Segmento cliente para la variable Acepta.

Fuente: Elaboración propia.

Fue de interés revisar el comportamiento de los segmentos de los clientes que aceptaron la oferta comercial. Se identificó que los clientes del segmento pyme aceptaron en mayor proporción la oferta que los clientes emprendedores, siendo del 26 y 17 % respectivamente (figura 7).

(27)

23

Figura 8. Distribución de la variable Calif_Riesgo para la variable Acepta.

Fuente: Elaboración propia.

Se observó que, del total de clientes la proporción de aquellos con una calificación de riesgo B+ y tomaron el préstamo fue del 26.6%, correspondiendo a la mayor proporción entre las calificaciones de riesgo. Por otro lado, las clasificaciones con menor proporción fueron B+2 y CC+. En general los clientes mejor clasificados en riesgo tuvieron más oportunidades de estar interesados en la oferta y que el banco se las aprobara (figura 8).

Figura 9. Distribución de la variable Rango_de_Ventas (cifras en millones de pesos) para

la variable Acepta.

Fuente: Elaboración propia.

La mayoría de los clientes pyme de la base generaron ventas anuales menores a $6.000 millones. En este grupo de clientes la proporción que aceptó la oferta fue del 14 % mientras que en las pymes que generaron mayores niveles de ventas, esta proporción aumentó a más del 30% (figura 9).

(28)

24

Figura 10. Distribución de la variable Macro_Sector para la variable Acepta.

Fuente: Elaboración propia.

El sector en donde se concentraron la mayoría de los clientes pyme fue el de comercio al por mayor con el 44%, seguido por el sector de industria manufactureras con el 19%. Mientras que los sectores con menos concentración fueron el minero energético y actividades inmobiliarias.

En cuanto a la aceptación de la oferta, fueron los sectores: comercio al por mayor con el 24.7%, minero energético con el 23.1% y construcción con el 22.2% aquellos con mayor proporción (figura 10).

Figura 11. Distribución de la variable Peor_Calificación para la variable Acepta.

Fuente: Elaboración propia.

Los clientes de la base tuvieron un perfilamiento y un cupo pre aprobado, por esta razón la cantidad de clientes que contaban con una calificación negativa fueron muy pocos; la

(29)

25 proporción de clientes que aceptaron la oferta fue mayor en los clientes con la mejor clasificación AA (figura 11).

Figura 12. Distribución de la variable Meses_Ult_Apertura para la variable Acepta.

Fuente: Elaboración propia.

Para la variable meses de la última apertura de productos, se observó que los clientes que aceptaron la oferta tenían un intervalo de tiempo menor entre el momento que aceptaron la oferta y abrieron su último producto bancario, que el de los clientes que no aceptaron (figura 12).

Figura 13. Distribución de la variable Meses_Ult_Apertura para la variable Acepta.

Fuente: Elaboración propia.

La misma variable Meses_Ult_Apertura en un gráfico de violines mostró de una forma más clara su comportamiento (figura 13).

(30)

26

Figura 14. Distribución de la variable Cuota_Banquero para la variable Acepta.

Fuente: Elaboración propia.

Se encontró que los clientes que aceptaron la oferta comercial tuvieron una mayor cuota banquero, es decir el banco tuvo una mayor presencia en su deuda comercial que otros bancos (figura 14).

Figura 15. Distribución de la variable Dif_Saldo_Prom_Activo_trim para la variable Acepta.

Fuente: Elaboración propia.

Se evidenció una diferencia positiva en los saldos medios de los productos de Activo trimestral para los clientes que aceptaron la oferta, igualmente la magnitud de las variaciones fue mucho mayor para estos casos (figura 15).

Figura 16. Distribución de la variable Antigüedad_Cliente para la variable Acepta.

(31)

27 En cuanto a la antigüedad del cliente se observó un comportamiento similar de los clientes que aceptaron la oferta y los que no la aceptaron en cuanto a la forma y distribución de los violines (figura 16).

Figura 17. Distribución de la variable Dif_Saldo_Prom_Activo_mes para la variable Acepta.

Fuente: Elaboración propia.

Se evidenció una diferencia positiva en los saldos medios de los productos de Activo mensual para los clientes que aceptaron la oferta. También se encontró que la magnitud de las variaciones de este grupo fue mucho mayor (figura 17)

Figura 18. Distribución de la variable Saldo_prom_Otros_Prod para la variable Acepta.

Fuente: Elaboración propia.

El saldo promedio de otros productos para los clientes que no aceptaron la oferta estuvo distribuido en valores menores a los de los clientes que aceptaron la oferta (figura 18).

(32)

28

Figura 19. Distribución de la variable Endeuda_BBVA para la variable Acepta.

Fuente: Elaboración propia.

Los clientes que aceptaron la oferta tuvieron valores más altos de endeudamiento comercial con el banco y su mediana fue mayor que los que no aceptaron (figura 19).

Figura 20. Distribución de la variable Dif_Saldo_prom_Activo_anual para la variable Acepta.

Fuente: Elaboración propia.

Al igual que las variables de diferencias entre saldo vistas anteriormente, la variación anual entre los clientes que aceptaron la oferta fue más alta y distribuida positivamente hacia los valores mayores a cero a diferencia de los que no aceptaron la oferta que incluso presentaron perdida en sus saldos comerciales (figura 20).

5.2 Cross Validation y Leave One Out Cross Validation (LOOCV) 5.2.1 Cross Validation

Garet, Witten, Hastie & Tibshirani (2013), mencionan que la validación cruzada es probablemente el método más simple y más utilizado para estimar el error de predicción. Este

(33)

29 proceso de decidir si los resultados numéricos que cuantifican las relaciones hipotéticas entre variables son aceptables como descripciones de los datos, se conoce como validación. Generalmente, una estimación de error para el modelo se realiza después del entrenamiento, esto se conoce usualmente como evaluación de residuos. En este proceso, se realiza una estimación numérica de la diferencia entre las respuestas estimadas y las originales, también llamada error de entrenamiento. Sin embargo, esto solo nos da una idea de qué tan bien se desempeña nuestro modelo con los datos utilizados para entrenarlo. Ahora es posible que el modelo se adapte a los datos por debajo o por encima. Por tanto, el problema con esta técnica de evaluación es que no da una indicación de qué tan bien el modelo generalizará a un conjunto de datos independientes o nuevos registros.

5.2.2 Leave One Out Cross Validation - LOOCV

La validación cruzada LOOCV, es un caso particular de la validación cruzada Leave P Out, donde P=1. El proceso es similar al del método de remuestreo de Jackknife, sin embargo, en la validación cruzada se calcula un estadístico sobre las muestras de la izquierda, mientras que con Jackknife el estadístico se calcula sobre las muestras que se han conservado.

5.3 Modelamiento

En esta sección se expone la forma en la que se aplicaron los distintos modelos en R y Python, las funciones utilizadas, así como la presentación de las salidas, una vez ejecutados los códigos de programación.

5.3.1 Modelo de Regresión Logit

Para correr este modelo se utilizó el paquete caret en el software estadístico R.

La variable dependiente 𝑦 a predecir fue Acepta. Se utilizaron todas las variables independientes 𝑥 (69 variables).

(34)

30 La función utilizada para aplicar validación cruzada fue traincontrol(), tomando en el argumento method la opción cv con K=10.

Para modelar los datos del subconjunto de entrenamiento se usó la función train(), tomando en el argumento family, la opción binomial(), para indicar la ejecución de un modelo de clasificación.

Finalmente, la función utilizada para predecir la variable respuesta 𝑦 en los subconjuntos de entrenamiento y prueba fue predict(), tomando en el argumento type, la opción prob.

Los resultados obtenidos del modelo fueron:

Tabla 3. Matriz de Confusión para el modelo de Regresión Logit.

Reales

Predicciones 0 1

0 198 15

1 42 44

Fuente: Elaboración propia

Tabla 4. Métricas en Subconjunto de entrenamiento y prueba del modelo de Regresión

Logit. Métrica Subconjunto Entrenamiento Subconjunto Prueba Recall 0.7304965 0.7457627 AUC 0.807 0.7854

Fuente: Elaboración propia

Figura 21. Curva ROC para el modelo de Regresión Logit.

Fuente: Elaboración propia

(35)

31

Tabla 5. Variables significativas del modelo de Regresión Logit.

Variable Overall Dif_Saldo_Prom_Activo_mes 100.00 Meses_Ult_Apertura 81.65 Cliente_con _Factoring 74.51 Saldo_prom_Cred_Comex 72.20 Calif_Riesgo (CC) 68.30 Dif_cantidad_Transacc_sem 66.29 Var_cantidad_Transacc_trim 62.32 Var_cantidad_Transacc_anual 60.40 Dif_Saldo_Prom_Activo_trim 56.60 Dif_Saldo_Prom_Pasivo_sem 53.93 Var_cantidad_Transacc_mes 53.40

Macro sector (industrias Manofactureras) 53.25

Var_Monto_Transado_anual 52.42

Calif_Riesgo (B+) 51.23

Macro sector (Al por mayor y por menor, vehículos y motos) 50.52 Macro sector (Actividades profesionales, científicas y técnicas) 50.34

Var_Monto_Transado_sem 50.30

Rango_de_Ventas (8.000 - 10.000) 50.17

Calif_Riesgo (CC+) 49.21

Rango_de_Ventas (6.000 - 8.000) 48.95

Fuente: Elaboración propia

5.3.2 Modelo de Análisis Discriminante (LDA)

Este modelo se trabajó con la base de datos sin particionar debido a que se utilizó LOOCV, haciendo p=1 observación como el conjunto de prueba y las observaciones restantes como el conjunto de entrenamiento.

En este caso no fue necesario utilizar los datos balanceados, dada la naturaleza del modelo pues este determinó las probabilidades a priori de estar en cada clase.

Para correr este modelo se utilizó el paquete MASS en el software estadístico R.

La variable dependiente 𝑦 a predecir fue Acepta. Se utilizaron todas las variables independientes 𝑥 (69 variables).

La función utilizada para aplicar validación cruzada fue traincontrol(), tomando en el argumento method la opción cv = TRUE.

(36)

32 Finalmente, la función utilizada para predecir la variable respuesta 𝑦 en los datos totales fue predict()$class.

Los resultados obtenidos del modelo se muestran a continuación.

Tabla 6. Matriz de Confusión del modelo LDA.

Reales

Predicciones 0 1

0 772 94

1 26 106

Fuente: Elaboración propia

Tabla 7. Métricas del modelo LDA.

Métrica Base Total recall 0.53 AUC 0.7487

Fuente: Elaboración propia

Figura 22. Curva ROC del modelo LDA.

Fuente: Elaboración propia

5.3.3 Modelo Basado en Árboles de Decisión. Random Forest

Para correr este modelo se utilizaron los paquetes randomForest, caret y e1071 en el software estadístico R.

La variable dependiente 𝑦 a predecir fue Acepta. Se utilizaron todas las variables independientes 𝑥 (69 variables).

La función utilizada para aplicar validación cruzada fue traincontrol(), tomando en el argumento method la opción cv con K=10.

(37)

33 Para modelar los datos del subconjunto de entrenamiento se usó la función train(), tomando en el argumento method, la opción rf.

Los parámetros afinados del modelo mtry (cantidad de variables usadas en el modelo), maxnodes (número máximo de nodos que pueden tener los árboles y que determinan la profundidad de estos) y ntree (número de árboles para crecer) que se utilizaron fueron 8, 25 y 2000 respectivamente.

Finalmente, la función utilizada para predecir la variable respuesta 𝑦 en los subconjuntos de entrenamiento y prueba fue predict().

Los resultados obtenidos del modelo fueron:

Tabla 8. Matriz de Confusión del modelo Random Forest.

Reales

Predicciones 0 1

0 217 19

1 23 40

Fuente: Elaboración propia

Tabla 9. Métricas en Subconjunto de entrenamiento y prueba del modelo Random Forest.

Métrica Subconjunto Entrenamiento Subconjunto Prueba Recall 0.9184 0.6780 AUC 0.9498 0.7911

Fuente: Elaboración propia

Figura 23. Curva ROC para el modelo Random Forest.

Fuente: Elaboración propia

(38)

34

Tabla 10.Variables significativas del modelo Random Forest.

Variable Overall Dif_Saldo_Prom_Activo_mes 100.00 Var_Saldo_Prom_Activo_mes 97.23 Endeuda_BBVA 94.21 Saldo_prom_Sobregiro 86.24 Meses_Ult_Apertura 84.22 Saldo_prom_Libre_Inversion 76.89 Saldo_prom_Cta_Cte 76.74 Cuota_Banquero 73.34 Dif_Saldo_Prom_Pasivo_anual 72.44 Endeuda_Total 70.20 Dif_Saldo_Prom_Pasivo_mes 63.35 Saldo_prom_Cred_Empr 62.69 Dif_Saldo_Prom_Activo_trim 61.51 Saldo_prom_Leasing 60.50 Endeuda_Otros_Bancos 60.10 Var_Saldo_Prom_Activo_trim 59.99 Dif_Saldo_Prom_Pasivo_trim 58.44 Ventas_Anuales_Cliente 55.85 Dif_Saldo_Prom_Pasivo_sem 51.27 Dif_Saldo_Prom_Activo_anual 50.28

Fuente: Elaboración propia

5.3.4 Modelo Basado en Árboles de Decisión. Boosting

Para correr este modelo se utilizaron los paquetes gbm, caret y e1071 en el software estadístico R.

La variable dependiente 𝑦 a predecir fue Acepta. Se utilizaron todas las variables independientes 𝑥 (69 variables).

La función utilizada para aplicar validación cruzada fue traincontrol(), tomando en el argumento method la opción cv con K=10.

Para modelar los datos del subconjunto de entrenamiento se usó la función train(), tomando en el argumento method la opción gvm.

Los parámetros afinados del modelo ntrees (número total de árboles para ajustar), interaction.depth (profundidad máxima de cada árbol), shrinkage (tasa de aprendizaje o

(39)

35 reducción de tamaño de paso) y n.minobsinnode (observaciones mínimas en los nodos terminales de los árboles) que se utilizaron fueron 200, 3, 0.1 y 10 respectivamente.

Finalmente, la función utilizada para predecir la variable respuesta 𝑦 en los subconjuntos de entrenamiento y prueba fue predict().

Los resultados obtenidos del modelo fueron:

Tabla 11.Matriz de Confusión del modelo Boosting Tree.

Reales

Predicciones 0 1

0 207 18

1 33 41

Fuente: Elaboración propia

Tabla 12.Métricas en Subconjunto de entrenamiento y prueba del modelo Boosting Tree.

Métrica Subconjunto Entrenamiento Subconjunto Prueba Recall 0.9734 0.6949 AUC 0.9859 0.7787

Fuente: Elaboración propia

Figura 24.Curva ROC modelo Boosting Tree.

Fuente: Elaboración propia

A continuación, se muestran las variables más importantes del modelo en la tabla 13.

Tabla 13. Variables significativas del modelo Boosting Tree.

Variable Overall Dif_Saldo_Prom_Activo_mes 100 Endeuda_BBVA 34.32 Saldo_prom_Sobregiro 23.38 Saldo_prom_Cta_Cte 22.1 Var_Saldo_Prom_Activo_mes 15.86 Saldo_prom_Libre_Inversion 14.6 Meses_Ult_Apertura 10.28

(40)

36 Variable Overall Dif_Saldo_Prom_Pasivo_anual 10.22 Saldo_prom_Cred_Comex 8.01 Var_Saldo_Prom_Pasivo_trim 6.41 Endeuda_Total 6.33 Corte_Contable (2017) 6.01 Corte_Contable (2015) 5.83 Dif_cantidad_Transacc_mes 4.95 Antigüedad_Cliente 4.82 Saldo_prom_Leasing 4.73 Var_cantidad_Transacc_anual 4.46 Saldo_prom_Cred_Empr 3.87 Dif_Monto_Transado_sem 3.82 Dif_Saldo_Prom_Activo_anual 3.31

Fuente: Elaboración propia

5.3.5 Modelo Basado en Redes Neuronales

Para correr este modelo, se utilizaron las siguientes librerías en el lenguaje de programación Python:

Secuential del paquete Keras.models; Dense y activation del paquete Keras.Layers; SGD del paquete Keras.Optimizers; metrics del paquete sklearn.

La variable dependiente 𝑦 a predecir fue Acepta; Se utilizaron todas las variables independientes 𝑥 (92 variables. Este número aumentó porque se tuvieron que crear tantas variables como niveles de variables categóricas había).

El modelo utilizado fue una red neuronal de 3 capas, de las cuales 2 fueron capas ocultas. La primera capa oculta tuvo 120 neuronas y activación relu; La segunda capa oculta tuvo 60 neuronas y activación relu; La capa de salida tuvo 1 neurona y activación sigmoid.

La función utilizada para el proceso de aprendizaje de la red fue model.compile(). La función de pérdida utilizada para el argumento loss fue binary_crossentropy; El optimizador utilizado fue SGD, con una taza de aprendizaje lr = 0.0001.

Para modelar los datos del subconjunto de entrenamiento se usó la función model.fit(), tomando en el argumento epochs el valor de 200.

(41)

37 Finalmente, la función utilizada para predecir la variable respuesta 𝑦 en los subconjuntos de entrenamiento y prueba fue model.predict_classes().

Los resultados obtenidos del modelo fueron:

Tabla 14. Matriz de Confusión del modelo Red Neuronal.

Reales

Predicciones 0 1

0 190 11

1 50 48

Fuente: Elaboración propia

Tabla 15.Métricas en Subconjunto de entrenamiento y prueba del modelo Red Neuronal. Métrica Subconjunto Entrenamiento Subconjunto Prueba Recall 0.9131 0.8135 AUC 0.9439 0.8026

Fuente: Elaboración propia

Figura 25. Curva ROC del modelo Red Neuronal.

Fuente: Elaboración propia

5.4 Comparación de Modelos

Para la comparación de los distintos modelos se calcularon las métricas recall y AUC. Para seleccionar el modelo con el mejor desempeño se calculó el promedio ponderado de ambas métricas, dando un peso del 60% a recall y del 40% al AUC.

La asignación de los pesos se hizo teniendo en cuenta que, por la naturaleza del problema, era importante revisar que el modelo lograra clasificar correctamente la mayor

(42)

38 cantidad de veces a los clientes con mayor probabilidad de adquirir el producto financiero del banco.

Los resultados de las métricas, así como el cálculo del promedio ponderado se muestran a continuación en la tabla 16:

Tabla 16.Resumen de Métricas para los distintos modelos de clasificación.

Modelo Recall AUC Promedio ponderado Red Neuronal 0.8135 0.8026 0.80914

Logit 0.7458 0.7854 0.76164 Boosting Tree 0.6949 0.7787 0.72842 Random Forest 0.678 0.7911 0.72324

LDA 0.53 0.7487 0.61748

Fuente: Elaboración propia

(43)

39 6 Conclusiones y Recomendaciones

Se realizó un análisis de los clientes del segmento pyme para entender su comportamiento y se aplicaron 5 tipos de modelamiento diferentes que permitieron responder la pregunta clave de este proyecto.

El modelo que mejor desempeño obtuvo para determinar los clientes que tienen la mayor probabilidad de adquirir los productos del banco BBVA, fue la Red neuronal profunda de 3 capas, el cual obtuvo un promedio ponderado del recall y el AUC del 80.91%. Por tal motivo se recomienda implementar este modelo y hacerle un seguimiento periódico, incluyendo nuevos registros que permitan alimentar el modelo y mejorar las métricas de desempeño.

Las variables que influyeron de manera significativa en la probabilidad de adquisición de los productos que ofrece el banco BBVA, para la mayoría de los modelos se presentan en la tabla 17:

Tabla 17. Variables más significativas en la mayoría de los modelos.

Variables Meses_Ult_Apertura

Dif_Saldo_Prom_Activo_mes Dif_Saldo_Prom_ Activo _trim Dif_Saldo_Prom_ Activo _anual Dif_Saldo_Prom_Pasivo_sem Dif_Saldo_Prom_Pasivo_anual Var_Saldo_Prom_Activo_mes Var_cantidad_Transacc_anual Saldo_prom_Cred_Comex Saldo_prom_Cred_Empr Saldo_prom_Sobregiro Saldo_prom_Libre_Inversion Saldo_prom_Cta_Cte Saldo_prom_Leasing Endeuda_BBVA Endeuda_Total

(44)

40 Lograr identificar estas variables que impactan el comportamiento de las pyme es un gran avance para el banco ya que no se contaban con estudios previos para este segmento y dan un punto de partida para seguir explorando el grupo.

El modelo seleccionado constituye una potente herramienta de priorización de leads para la fuerza de ventas y le servirá al banco en el incremento de la productividad de los ejecutivos de ventas al ayudar a concentrar los esfuerzos en aquellos clientes que cuentan con una mayor probabilidad de compra, este hecho puede llegar a tener un impacto significativo en la optimización de la agenda visitas de la fuerza de ventas.

Los clientes que han tenido una actividad reciente con el banco son los que tienen la mayor probabilidad de aceptar la oferta comercial, esto evidencia que el banco cuenta con clientes recurrentes en sus compras los cuales constituyen la base de su actividad comercial, así mismo existen clientes que están inscritos en sus bases de datos, pero que no han aperturado un crédito en muchos meses y su actividad es mínima, este tipo de clientes al estar alejados del banco, tienen menores posibilidades de tomar una oferta pues su relación con el banco no está fortalecida , por lo cual se recomienda realizar una oferta más atractiva y diferenciadora para este grupo de clientes de forma tal que aumente la efectividad de las campañas.

(45)

41 7 Bibliografía

Agresti, A. (1996) Introduction to categorical data analysis. Jhon Wiley & Sons, INC.

Amat, J. (2016, Septiembre) Análisis discriminante lineal (LDA) y Análisis discriminante cuadrático (QDA). Recuperado de

https://github.com/JoaquinAmatRodrigo/Estadistica-con-R/blob/master/PDF_format/28_Linear_Discriminant_Analysis_LDA_y_Quadratic_Discrimin ant_Analysis_QDA.pdf

Chawla, N. Bowyer, K. Hall, L. Kegelmeyer, W. (2002) SMOTE: Synthetic Minority Over-sampling Technique. Journal of Intelligence Research. Vol. 16. Pag. 321-357.

Choong, A. (2017) Predictive Analytics in marketing. A practical example from retail banking. SAS big data committee. Research Note 1. Singapore.

Clavijo, S. (2018, Agosto 10) Indicador Pyme Anif (IPA): resultados del primer semestre. Recuperado de

https://www.larepublica.co/analisis/sergio-clavijo-500041/indicador-pyme-anif-ipa-resultados-del-primer-semestre

Conoce todo sobre las pymes. (2018, Julio 12). Recuperado de

https://www.grupobancolombia.com/wps/portal/negocios-pymes/actualizate/legal-y-tributario/todo-sobre-las-pymes-en-colombia

Elsalamony, H. (2014) Bank direct marketing analysis of data mining techniques. International Journal of Computer Applications. Vol. 85 No. 7.

Garet, J. Witten, D. Hastie, T. & Tibshirani, R. (2013). An Introduction to statistical learning with applications in R. Springer. New York.

Greenwell, B. Boehmke, B. Cunningham, J. and GBM Developers (2018). gbm: Generalized Boosted Regression Models. R package version 2.1.4. https://CRAN.R-project.org/package=gbm

Karim, M. and Rahman, R. (2013) Decision tree and nave bayes algorithm for classification and generation of actionable knowledge for direct marketing. Journal of software engineering and applications. Vol 6, pag. 196-206.

Kuhn, M. (2016). caret: Classification and Regression Training. R package version 6.0-71. https://CRAN.R-project.org/package=caret

Liaw, A. and Wiener, M. (2002). Classification and Regression by randomForest. R News. Vol. 2. (Num. 3), pág. 18--22.

(46)

42 Mason, Llew & Baxter, Jonathan & Bartlett, Peter & Frean, Marcus. (1999). Boosting Algorithms as Gradient Descent in Function Space. Consultado el 14 de noviembre en: http://papers.nips.cc/paper/1766-boosting-algorithms-as-gradient-descent.pdf

Meyer, D. Dimitriadou, E. Hornik, K. Weingessel, A. and Leisch, F (2017). e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package version 1.6-8. https://CRAN.R- project.org/package=e1071

Moro, S. Cortez, P. and Rita, P. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014

¿Qué crédito es más conveniente para su empresa el crecimiento de su empresa?. (s.f). Recuperado de

http://www.finanzaspersonales.co/credito/articulo/credito-empresarial-que-es-el-credito-empresarial-y-como-se-pide

Ranking de las mejores pymes de Colombia de 2017. (2017, Septiembre 14). Recuperado de https://www.dinero.com/edicion-impresa/caratula/articulo/ranking-de-las-mejores-pymes-de-colombia-en-2017

Valencia, C. (2018) Notas de clase. Maestría en inteligencia analítica para la toma de decisiones. Universidad de los Andes.

Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York.

(47)

43 8 Anexos

Anexo 1

Nombre Variable Descripción Tipo Variable

Acepta Determina si el cliente aceptó o no la oferta comercial. Para el caso estudio es la variable respuesta Y. Categórica-Dicotómica Antigüedad_Cliente Meses de antigüedad del cliente desde el momento de su vinculación hasta marzo de 2018 continua

Calif_Riesgo Identifica si la empresa presenta una calificación de riesgo determinada Categórica-Dicotómica

Cliente_con _CDT Indica si el cliente cuenta con un CDT Categórica-Dicotómica

Cliente_con _Cred_Comex Indica si el cliente cuenta con crédito de comercio exterior Categórica-Dicotómica

Cliente_con _Cred_Empr Indica si el cliente cuenta con crédito Empresarial Categórica-Dicotómica

Cliente_con _Cta_Aho Indica si el cliente cuenta con un Cuentas ahorros Categórica-Dicotómica

Cliente_con _Cta_Cte Indica si el cliente cuenta con un Cuentas corriente Categórica-Dicotómica

Cliente_con _Factoring Indica si el cliente cuenta con un factoring Categórica-Dicotómica

Cliente_con _Fondo_Inversion Indica si el cliente cuenta con un fondo de inversión Categórica-Dicotómica

Cliente_con _Leasing Indica si el cliente cuenta con un leasing Categórica-Dicotómica

Cliente_con _Libre_Inversion Indica si el cliente cuenta con un crédito comercial Categórica-Dicotómica

Cliente_con _Otros_Prod Indica si el cliente cuenta con otros productos Categórica-Dicotómica

Cliente_con _Sobregiro Indica si el cliente cuenta con descubierto(sobregiro) Categórica-Dicotómica

Corte_Contable Corte contable de la última información financiera del cliente Categórica-Dicotómica

Cuota_Banquero Razón entre el endeudamiento del cliente con el BBVA con respecto a las otras entidades Continua Dif_cantidad_Transacc_anual Diferencia de la cantidad de transacciones realizadas en el mes i respecto al último mes del año anterior Continua Dif_cantidad_Transacc_mes Diferencia de la cantidad de transacciones realizadas en el mes i respecto al mes inmediatamente anterior Continua Dif_cantidad_Transacc_sem Diferencia de la cantidad de transacciones realizadas en el mes i respecto al último mes del semestre anterior Continua Dif_cantidad_Transacc_trim Diferencia de la cantidad de transacciones realizadas en el mes i respecto al último mes del trimestre anterior Continua Dif_Monto_Transado_anual Diferencia del monto transado en el mes i con respecto al último mes del año anterior Continua Dif_Monto_Transado_mes Diferencia del monto transado en el mes i con respecto al mes inmediatamente anterior Continua Dif_Monto_Transado_sem Diferencia del monto transado en el mes i con respecto al último mes del semestre anterior Continua

(48)

44

Dif_Monto_Transado_trim Diferencia del monto transado en el mes i con respecto al último mes del trimestre anterior Continua Dif_Saldo_Prom_Pasivo_anual Diferencia del saldo promedio de los productos de préstamo del mes i con respecto al último mes del año anterior Continua Dif_Saldo_Prom_Pasivo_mes Diferencia del saldo promedio de los productos de préstamo del mes i con respecto al mes inmediatamente

anterior

Continua

Dif_Saldo_Prom_Pasivo_sem Diferencia del saldo promedio de los productos de préstamo del mes i con respecto al último mes del semestre anterior

Continua

Dif_Saldo_Prom_Pasivo_trim Diferencia del saldo promedio de los productos de préstamo del mes i con respecto al último mes del trimestre anterior

Continua

Dif_Saldo_Prom_Activo_anual Diferencia del saldo promedio de los productos de inversión del mes i con respecto al último mes del año anterior Continua Dif_Saldo_Prom_Activo_mes Diferencia del saldo promedio de los productos de inversión del mes i con respecto al mes inmediatamente

anterior

Continua

Dif_Saldo_Prom_Activo_sem Diferencia del saldo promedio de los productos de inversión del mes i con respecto al último mes del semestre anterior

Continua

Dif_Saldo_Prom_Activo_trim Diferencia del saldo promedio de los productos de inversión del mes i con respecto al último mes del trimestre anterior

Continua

Endeuda_BBVA Saldo de la deuda con BBVA Continua

Endeuda_Otros_Bancos Saldo de la deuda con otras entidades financieras Continua

Endeuda_Total Saldo total con todas las entidades Continua

Macro_Sector Corresponde a la agrupación sectorial de la actividad económica Categórica

Meses_Ult_Apertura Tiempo transcurrido en meses entre la fecha del último producto contratado y marzo de 2018 Continua

Peor_Calificacion Identifica la peor calificación histórica en el sector Categórica

Rango_de_Ventas Identifica el rango de ventas Categórica

Saldo_prom_CDT Saldo promedio en el mes del producto CDT Continua

Saldo_prom_Cred_Comex Saldo promedio en el mes del producto Crédito de comercio exterior Continua

Saldo_prom_Cred_Empr Saldo promedio en el mes del producto Crédito Empresarial Continua

Saldo_prom_Cta_Aho Saldo promedio en el mes del producto Cuenta de Ahorros Continua

Saldo_prom_Cta_Cte Saldo promedio en el mes del producto Cuenta Corriente Continua

Saldo_prom_Factoring Saldo promedio en el mes del producto Factoring Continua

Saldo_prom_Fondo_Inversion Saldo promedio en el mes del producto Fondo de Inversión Continua

Saldo_prom_Leasing Saldo promedio en el mes del producto Leasing Continua

Referencias

Documento similar

Gastos derivados de la recaudación de los derechos económicos de la entidad local o de sus organis- mos autónomos cuando aquélla se efectúe por otras enti- dades locales o

If certification of devices under the MDR has not been finalised before expiry of the Directive’s certificate, and where the device does not present an unacceptable risk to health

In addition to the requirements set out in Chapter VII MDR, also other MDR requirements should apply to ‘legacy devices’, provided that those requirements

The notified body that issued the AIMDD or MDD certificate may confirm in writing (after having reviewed manufacturer’s description of the (proposed) change) that the

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Las probabilidades de éxito de este procedimiento serán distintas en función de la concreta actuación del reclamante antes de que se produjera la declaración de incons-.. En caso

Los resultados ponen de manifiesto que hay diferencias significativas al 1% entre las cinco especialidades en algunas variables del grupo Físico- manipulativo (salud, resistencia a

Luis Miguel Utrera Navarrete ha presentado la relación de Bienes y Actividades siguientes para la legislatura de 2015-2019, según constan inscritos en el