• No se han encontrado resultados

Aplicación de la técnica estadistica Clúster K Medias para la segmentación orientada a comprender las necesidades de financiamiento de clientes de una entidad financiera

N/A
N/A
Protected

Academic year: 2020

Share "Aplicación de la técnica estadistica Clúster K Medias para la segmentación orientada a comprender las necesidades de financiamiento de clientes de una entidad financiera"

Copied!
80
0
0

Texto completo

(1)UNIVERSIDAD NACIONAL DE INGENIERÍA FACULTAD DE INGENIERÍA ECONÓMICA, ESTADÍSTICA Y CIENCIAS SOCIALES Escuela Profesional de Ingeniería Estadística. APLICACIÓN DE LA TÉCNICA ESTADÍSTICA CLÚSTER K-MEDIAS PARA LA SEGMENTACIÓN ORIENTADA A COMPRENDER LAS NECESIDADES DE FINANCIAMIENTO DE CLIENTES DE UNA ENTIDAD FINANCIERA. Presentado por: FRANCO RAFAEL BAZÁN PÉREZ. INFORME DE SUFICIENCIA PARA OBTENER EL TÍTULO PROFESIONAL DE INGENIERO ESTADÍSTICO. LIMA-PERÚ 2015.

(2) A mis padres Erwin y Gloria a quienes les estaré eternamente agradecido por su constante apoyo incondicional.. ii.

(3) AGRADECIMIENTOS A mi alma mater, mis maestros y compañeros que hicieron posible cumplir este gran reto.. iii.

(4) ÍNDICE. DEDICATORIA ........................................................................................................................... ii AGRADECIMIENTOS ................................................................................................................iii RESUMEN....................................................................................................................................vi ABSTRACT ................................................................................................................................. vii INTRODUCCION ........................................................................................................................ 1 CAPITULO I................................................................................................................................. 3 1.1 Problemática ........................................................................................................................ 3 1.2 Formulación del problema .................................................................................................. 6 1.2.1 Problema General ......................................................................................................... 6 1.2.2 Problemas Específicos.................................................................................................. 6 1.3 Objetivos de la investigación .............................................................................................. 6 1.3.1 Objetivo General .......................................................................................................... 6 1.3.2 Objetivos Específicos ................................................................................................... 6 1.4 Justificación del estudio ...................................................................................................... 7 1.5 Limitación del Estudio ........................................................................................................ 7 1.6 Delimitación del Estudio ..................................................................................................... 8 CAPITULO II ............................................................................................................................... 9 2.1 Antecedentes de la investigación ........................................................................................ 9 2.2 Bases Teóricas ................................................................................................................... 15 2.2.1 Componentes Principales ........................................................................................... 15 2.2.2 K – medias.................................................................................................................. 17 2.3 Marco Conceptual ............................................................................................................. 19 CAPITULO III ............................................................................................................................ 22 4.1 Diseño de la investigación................................................................................................. 22 4.2 Construcción de la matriz de datos ................................................................................... 22 4.3 Preparación para el análisis ............................................................................................... 28 4.3.1 Detección de datos atípicos ........................................................................................ 28 4.3.2 Selección de variables ................................................................................................ 28 4.4 Análisis Explorativo de las variables seleccionadas ......................................................... 32 4.5 Aplicación y evaluación de la técnica ............................................................................... 47 CAPITULO IV ............................................................................................................................ 53 iv.

(5) 5.1 Selección del número de clústeres..................................................................................... 53 5.2 Validación y Clasificación de nuevos casos...................................................................... 55 5.3 Caracterización de clústeres .............................................................................................. 57 CAPITULO V ............................................................................................................................. 62 6.1 Conclusiones ..................................................................................................................... 62 6.1.1 Conclusión General .................................................................................................... 62 6.1.2 Conclusiones específicas ............................................................................................ 62 6.2 Recomendaciones .............................................................................................................. 65 CAPITULO VI ............................................................................................................................ 66 BIBLIOGRAFIA..................................................................................................................... 66 ANEXOS..................................................................................................................................... 68. v.

(6) RESUMEN. El presente informe se centró en corroborar el alto potencial con el que cuenta la técnica de clústerización k-medias, que díó tratamiento a la ausencia de grupos naturales dentro del conjunto de clientes de una entidad financiera, ya que su metodología garantiza un buen desempeño para información compleja y de gran dimensión, además que sus resultados son de muy fácil compresión para su posterior análisis. Adicionalmente con la aplicación de la técnica estadística clúster k-medias se logró encontrar similitudes dentro de los grupos generados así como una óptima particularidad de los grupos que los diferencien entre sí, el proceso incluyó trabajar en la selección de variables que puedan diferenciar comportamientos diversos según esta perspectiva, además se seleccionó el número idóneo de clústeres que mejor describan los diversos comportamientos. Se trabajó a partir de información histórica de clientes, con una permanencia mínima de 1 año, se logró corroborar el alto potencial de la técnica y se planteó así 7 grupos diferenciados de clientes, siendo estos: Consolidado Ancla, Consolidado Pujante, Consolidado Agresivo, Consolidado Maduro, Aspiracional Flemático, Aspiracional Conservador y Aspiracional Maduro. Palabras clave: Clústerizacion, k-medias, centroide, Financiamiento, pymes. vi.

(7) ABSTRACT. This report focused on corroborating the high potential that has the technique of k-means clústering, this technique treated the absence of natural groups within the set of costumers of a financial institution, as its methodology ensures a good performance for complex an high dimension information, besides, its results are very easy to understand for further analysis. In addition, with the application of k-means clúster methodology we will achieve find similarities within groups generated and optimum characteristic of groups that differ from one another, the process will include work on the selection of variables that can differentiate different behaviors according this perspective, besides, the selection of the best number of clústers that describes the various behaviors. Working from historical customer information with a minimum stay of one year, will be achieved confirm the high potential of the technique and 7 distinct groups of customers and raised, these being: Anchor Consolidated, Thriving Consolidated,. Aggressive. Consolidated, Mature Consolidated,. Phlegmatic Aspirational, Conservative aspirational and Mature aspirational. Keywords:. k-means. clústering,. centroids,. Funding,. characterization.. vii.

(8) INTRODUCCION. El presente informe de suficiencia se centró en la aplicación de la técnica exploratoria de clústerización k-medias y de corroborar su alto potencial en la búsqueda de segmentos diferenciados dando tratamiento a la ausencia de grupos diferenciados en el conjunto de clientes de una entidad financiera. Para fundamentar la selección de la técnica es preciso enunciar sus principales cualidades, estas se resumen en dos conceptos; el primero es su alto rendimiento en data de gran dimensión ya sea en variables u observaciones, y el segundo por su fácil aplicación y comprensión de los resultados generados, estas cualidades la llevan a formar parte de las herramientas estadísticas más usadas para la clústerización de bases de datos. Si bien este informe tuvo como finalidad principal la búsqueda de grupos diferenciados, la aplicación también ayudó a corroborar las cualidades que nos han hecho decidir su elección para afrontar el problema. El contexto bajo el cual se buscó encontrar los grupos diferenciados es comprender las necesidades de financiamiento con las que cuentan los clientes objeto de estudio, guiados a identificar innovadoras estrategias de posicionamiento de los productos o servicios que se les puede ofrecer. Para diseñar estas estrategias fue necesario generar variables que expliquen la frecuencia con la cual los clientes consumen los productos financieros, cuales son estos productos, con cuanto monto promedio cuentan en cada uno de ellos, cuanta participación tiene la entidad con respecto al resto del sistema financiero, cual es el plazo promedio de crédito, etc. Por último el estudio debería de encontrar que las variables mencionadas cuentan con algún. 1.

(9) tipo de relación con variables demográficas, económicas, sociales, etc., y así diferenciar los grupos generados. Es a raíz de esta visión y dado que en la entidad financiera de estudio no hay una segmentación interna que se use para estos fines, que se planteó identificar los patrones de comportamiento existentes en el financiamiento al que recurren los clientes, siendo estos pequeños empresarios que buscan invertir en bienes o activos para llevar adelante sus objetivos de posicionamiento en el mercado. Dentro de los principales documentos a los que se tuvo acceso, y que forma parte de la revisión bibliográfica, está el publicado en agosto del 2008 por la Universidad Esan, titulado Segmentación psicográfica de la pequeña y microempresa, este estudio logró a partir de encuestas diseñadas de dos teorías de segmentación extranjeras, comprender de mejor manera la relación casi dependiente que tienen estas empresas con el sistema financiero y que muestra grupos muy diferenciados de estos usuarios del crédito. Luego de plantear los objetivos y revisar los antecedentes se procedió a reunir la mayor cantidad información que se tenga sobre nuestros clientes y así empezar con la preparación de la esta y posterior análisis, la data está comprendida por información del sistema financiero peruano, información de la base de contribuyentes de Sunat y la del sistema de ingreso de solicitudes de crédito de la entidad financiera. El análisis arrojó conclusiones muy importantes en torno a los objetivos, se llegó a identificar 7 grupos diferenciados de clientes que gracias al uso de la técnica clúster se logró corroborar su homogeneidad interna y a la vez heterogeneidad entre los grupos. La metodología estuvo compuesta por la identificación de outliers y la selección de variables, ayudando de esta forma los resultados más exactos. Dentro de los 7 grupos se identificó 3 que están asociados al segmento Aspiracional o Emprendedor, según la segmentación interna de la entidad financiera, estos serán Aspiracional Flemático, Aspiracional Conservador y Aspiracional Maduro; y cuatro al segmento consolidado, siendo estos: Consolidado Ancla, Consolidado Pujante, Consolidado Agresivo, Consolidado Maduro.. 2.

(10) CAPITULO I. 1.1 Problemática. El uso de técnicas estadísticas exploratorias multivariadas ha cobrado una relevancia muy notoria en las diversas áreas donde los procesos diarios almacenan gran cantidad de información sin que esta pueda ser procesada y analizada de manera efectiva para la toma de decisiones, este problema no es ajeno a la entidad financiera en donde la falta de explotación de la información almacenada hace que no se pueda visualizar posibles grupos naturales. de. observaciones donde la dispersión general quede diversificada para su mejor manejo y análisis. Según lo mencionado inicialmente, de las diversas técnicas estadísticas exploratorias se usó convenientemente la de clústerización la cual buscara que las observaciones de cada grupo sean muy similares y a la vez que cada grupo sea lo más distinto posible de otro cualquiera. Según Prabhdip Kaur y Shruti Aggrwal (2013) en su artículo “Comparative Study of Clústering Techniques” los algoritmos de clústerizacion son muy diversas y cada algoritmo posee alguna particularidad que lo puede hace más conveniente que otro, un solo algoritmo no posee todos los requerimientos que lo haga ser el mejor es por ello que es difícil de escoger un solo algoritmo con un propósito en específico. Sin embargo, guiados por el estudio mencionado, plantearemos ver el funcionamiento de la técnica de clústerizacion k medias que está basada en el particionamiento y cuenta con las 3.

(11) ventajas de tener un buen desempeño para información compleja y de gran dimensión, además que los resultados generados son de muy fácil compresión y posterior análisis. Ya ilustrada la problemática estadística esta se amplió en función de la encontrada en el campo de aplicación, encontrada a partir de mi corta experiencia laboral dentro de áreas de inteligencia comercial y gestión de ingresos he notado el gran potencial de información que se maneja, tanto de información interna como las conseguidas del exterior, y que sin embargo no se sabe dar el tratamiento que deberían de recibir para poder sacar el máximo provecho, esta es una gran desventaja, más aun cuando se ha comprobado el gran impacto que tienen las estrategias que van de la mano con la explotación de información. Esta desventaja se vuelve una problemática para cualquier empresa que no ha iniciado un correcto manejo de la información, y que sin embargo tiene el objetivo claro de personalizar su oferta en función de las necesidades y expectativas de sus clientes. Esta problemática, que no permite diversificar las estrategias de captación o fidelización, se trasmite a los clientes generando disgusto e incomodidad, como por ejemplo recibir propuestas de crédito no acorde con sus necesidades o que en ocasiones son minúsculas que obligan a los clientes a buscar otras opciones de financiamiento. Por todo ello las empresas están dando prioridad a la explotación de la información para así conocer mejor a sus clientes y poder direccionar de mejor manera sus estrategias. Adicionalmente, fruto del análisis de ingresos en función del número de productos la entidad financiera encontró un gran potencial dentro de su cartera de clientes, según el grafico 1.0.1 que fue generado a partir de una muestra de clientes caracterizados por ser de la provincia Lima y con un buen comportamiento financiero se puede visualizar la relación entre el ingreso promedio anual, el número de productos y el porcentaje de casos encontrados, de la primera barra de la izquierda se puede decir que el ingreso promedio anual de los clientes que solo cuentan con un producto financiero es de 6 mil soles, representando estos casos el 86 por ciento del total de clientes.. 4.

(12) Gráfico 1.0.1 Gráfico de Sedimentación. Ingreso Promedio Anual (En miles de Soles) 70. % Casos 100%. 86.1% 67. 60. 80%. 50 60%. 40 41. 30. 40%. 20. 12.3%. 10 0. 6. 13. 1. 2. 28 20%. 1.4%. 0.2%. 0.0%. 3. 4. 6. 0%. Numero de productos financieros. La cantidad de clientes con dos productos financieros cae abruptamente ya que solo representan el 12.3 por ciento, pero estos casos cuentan con un ingreso promedio de 13 mil soles, sucesivamente se puede notar la misma tendencia, habiendo muy pocos casos de clientes con varios productos pero que estos en promedio generan altos ingresos a la entidad financiera. Esto es visto como una problemática y al mismo tiempo como un potencial muy grande ya que la concentración de clientes con un solo producto es muy elevado, y si se realiza las correctas estrategias comerciales para la colocación de un segundo producto o un tercero ya genera gran impacto en los ingresos de la entidad financiera, de allí la importancia vital de comprender las necesidades para direccionar estas estrategias. La combinación de los puntos expuestos amplia el enfoque de la problemática tornando más urgente su tratamiento, el impulso que da el haber encontrado un gran potencial en los clientes que únicamente cuenta con uno o dos productos nos lleva a la pregunta de cómo se debe de abordar, la solución más convincente obliga a hacer uso de la información histórica que se tiene de los clientes ya que no hay estudios previos que se hayan hecho para poder tomar decisiones como que se debe de ofrecer a los clientes con cierto perfil o a que grupo se debería de dar mayor prioridad y así minimizar los recursos que se pueda invertir para solucionar esta problemática.. 5.

(13) 1.2 Formulación del problema. 1.2.1 Problema General Es necesario corroborar el óptimo desempeño de la técnica estadística kmedias para lidiar con la ausencia de segmentos naturales en los clientes de una entidad financiera y por consiguiente puedan mejorar sus políticas de crédito. 1.2.2 Problemas Específicos Es necesario confirmar que la técnica estadística k-medias es una metodología de segmentación eficiente y conveniente para la búsqueda de segmentos diferenciados que ayuden a comprender las necesidades de financiamiento de los clientes de una entidad financiera. la entidad financiera no cuenta con políticas de crédito bien dirigidas´, partiendo de la ausencia de grupos diferenciados y correctamente caracterizados por alguna metodología de segmentación,. 1.3 Objetivos de la investigación. 1.3.1 Objetivo General Corroborar el buen funcionamiento de la técnica de clústerización kmedias como metodología de segmentación, para dar para dar tratamiento a la falta de grupos naturales dentro de los clientes de una entidad financiera y además les ayude a mejorar sus políticas de crédito. 1.3.2 Objetivos Específicos Verificar el desempeño de la técnica de clústerización k-medias para asi corroborar que es una metodología eficiente y conveniente para la búsqueda de segmentos diferenciados que ayuden a comprender las necesidades de financiamiento de los clientes de una entidad financiera. 6.

(14) Proponer políticas de crédito bien dirigidas, a partir de la formación de grupos diferenciados y caracterizados mediante la técnica de clústerizacion k-medias.. 1.4 Justificación del estudio. El presente estudio se justificó en la búsqueda de corroborar el potencial que posee la técnica de clústerización k-medias para dar tratamiento, en esta ocasión, a la ausencia de grupos naturales dentro de un grupo de clientes de una entidad financiera. Características como su alto potencial para ser usada en data de alta dimensionalidad así como lo sencillo que es la lectura de sus resultados hace que se justifique su elección de entre otras técnicas de clústerización. El presente estudio encontró una justificación adicional en la ausencia de una óptima metodología estadística que de tratamiento a la falta de una adecuada segmentación de clientes de la entidad financiera, para que así sea usada de una manera muy efectiva para sus intereses. De cara al negocio financiero viene del lado de la solución de la problemática antes mencionada, según la cual se espera mejorar o implementar las estrategias comerciales sobre el ofrecimiento de productos de crédito que estén más de acorde con las necesidades de financiamiento de los pequeños empresarios. Estas estrategias ayudaran a generar campañas más efectivas y mejorar el uso de los recursos por parte de la empresa financiera.. 1.5 Limitación del Estudio. En cuanto a la información donde se dió aplicación a la técnica clúster kmedias el estudio se limitó a trabajar con clientes de la entidad financiera, es decir, provincias donde tienen sectorizados a sus clientes, estos comprenden los departamentos de Lima, Piura, Lambayeque, Trujillo, Iquitos, Junín, Cusco, Arequipa, Tacna.. 7.

(15) 1.6 Delimitación del Estudio. Para generar un mejor desempeño de la técnica clúster k-medias y así llegar a concluir de manera generalizable, el estudio se ha orientado a trabajar con información homogénea, para ello esta ha sido delimitada, solo se incluye pequeños empresarios que se han mantenido como clientes al menos un año entre el periodo de noviembre 2013 a mayo 2014, además que manejaron productos como: Líneas Revolventes, Capital de Trabajo, Créditos estaciones, Leasing, Activo Fijo y compra de deuda.. 8.

(16) CAPITULO II 2.1 Antecedentes de la investigación Los primeros antecedentes que se han incluido en esta sección están asociados a la técnica estadística, donde se resaltó el valor e importancia que se le atribuye a la metodología. Adicionalmente se han agregado antecedentes secundarios que están asociadas a la aplicación y que será tomada en cuenta para la terminología que se usara en la investigación así como para enriquecer las conclusiones. El Instituto de Tecnología de la India GLNA publicó el año 2012 una investigación titulada: “A Comparative Study of Various Clústering Algorithms in Data Mining”, la cual tiene como autores a: Verma et al, Srivastava et al, Chack et al, Diswar et al, Gupta et al. [:10]. En este trabajo se muestra los resultados hallados a partir de la comparación que se realizó al correr diversas técnicas de segmentación a una conjunto de datos bancarios relacionados a información bancaria, para de esta forma determinar las ventajas y desventajas de cada una de las técnicas , así como cual resulta más eficiente. La base de datos está conformada por 11 atributos y 600 observaciones, el herramienta donde se procesó la información es el software Libre Weka. Las técnicas de segmentación analizadas fueron las siguientes: K-Means, Segmentación Jerárquica, Segmentación DBScan, Segmentación basada en Densidad, Optics y El algoritmo EM. El análisis arrojó los siguientes resultados:. 9.

(17) 1. “El rendimiento del algoritmo k-medias incrementa cuando el Error Cuadrático Medio disminuye y el Error Cuadrático Medio disminuye cuando el número de clústers aumenta”. 2. “El rendimiento del Algoritmo k-medias es mejor que el Algoritmo de Segmentación Jerárquico” 3. “Todos los algoritmos presentan alguna ambigüedad en algunos datos (ruido) cuando segmentan”. 4. “La calidad del Algoritmo EM incrementa cuando incrementa la información”. 5. “DBScan y Optics no tienen un eficiente desempeño en datas pequeñas”. 6. “Los Algoritmos K-medias y EM son muy sensibles a ruidos en la información. Este ruido hace difícil que el algoritmo encuentre buenos clústers, afectando los resultados del algoritmo”. 7. “El Algoritmo K-medias es más rápido que cualquier otro algoritmo y también genera resultados de alta calidad con data extensa”. 8. “El algoritmo de segmentación Jerárquico es mas sensible al ruido en la información”. 9. “Correr los algoritmos de segmentación en cualquier otro software produce casi los mismos resultados aun cambiando alguno de sus factores, esto debido a que la mayoría de software de segmentación usan el mismo procedimiento al implementar el algoritmo”.. En Mayo del 2012 La Revista Internacional de Aplicaciones Informáticas publicó un estudio titulado: “Segmenting the Banking Market Strategy by Clústering”, la cual tiene como autores a Kumar et al, Chaitanya et al, Madhavan et al. [:10]. El objetivo que persigue esta investigación es encontrar grupos de clientes que tengan necesidades compartidas y así poder mejorar las estrategias de marketing. Para que puedan alcanzar este fin el estudio fue manejado en dos fases, la primera fase incluye la segmentación por medio de la metodología 10.

(18) estadística k-medias, con la particularidad de que los clientes son agrupados de acuerdo a las variables de la metodología de valoración de clientes RFM, la cual gira en torno a las variables Recencia, Frecuencia y Monto. Para la segunda fase se cuenta con variables demográficas las cuales se usan para particionar los clústers en nuevos subclústers. Finalmente el proceso concluye con la generación del perfil del cliente, para ello se usa la metodología LTV (Valor de Tiempo de vida de los clientes). Parte del proceso de clústerización que encontramos en el estudio de Kumar et al, Chaitanya et al, Madhavan et al.(2012) [:10], menciona: “Consideramos los clientes registrados como n-observaciones usando valores demográficos y a través de RFM estos son clústerizados, por ejemplo, en cada clúster consideramos datos demográficos (estudiantes, empleados, jubilados, granjeros, ciudadanos acomodados) y usando las variables RFM (depósitos, disposiciones, transacciones), como valor de media central, los clientes son agrupados”. En conclusión los criterios presentados en este estudio logran dar una apropiada dirección al propósito de analizar las características y comportamientos de los clientes, de hecho se escoge y se trabaja con la mejor herramienta de segmentación y sumado a la metodología RFM se logra una combinación que establece una mejor relación con el cliente para así direccionar de mejor manera las estrategias globales, mejorar la lealtad del cliente y encontrar oportunidades para venta cruzada.. El año 2013 fue publicado en la Facultad de Ciencia Económica de la Universidad de rumana de Oradea un estudio titulado “Segmentación de la cartera de pequeñas y medianas empresas en el Sistema Bancario” escrito por Namolosu Simona Mihaela [:7]. Este documento gira en torno a encontrar el mejor método para diseñar e implementar las óptimas estrategias de marketing, para ello, basado en evidencia empírica, nos detalla los métodos y características que se deben de considerar en la 11.

(19) segmentación, la cual finalmente son de gran valor para definir las óptimas estrategias de marketing que a la vez tiene como objetivo minimizar las perdidas e incrementar la rentabilidad de todo las cartera de pequeños y medianos empresarios. Namolosu (2013) resume el proceso en tres partes: El primero es comprender el modelo de servicio del sistema bancario para los pequeños y medianos empresarios, esto comprende el análisis y segmentación del portafolio que se centra inicialmente en diferenciar a los clientes con señales negativas y aquellos con baja o nula actividad, para que puedan ser excluidos. Luego de esto se plantea y ejecuta la segmentación en base a características de la compañía así como comportamiento financiero, el propósito será identificar comportamientos comunes, para establecer las estrategias en términos de rentabilidad, luego se realiza la caracterización de los productos ofrecidos a la empresa, previamente se muestra que la dependencia entre las características de la compañía y el servicio es alta, las satisfacción de las pequeñas empresas son más fáciles de identificar, anticipar y diseñar, mientras que de las medianas es recomendable tener en. cuenta. las. características. estándares. y. las. características. personalizadas, dentro de este punto también es importante el grado de satisfacción generado por medio del asesor financiero quien deberá de responder a las expectativas del cliente y más aún anticiparse a sus necesidades futuras ya que eso definirá la toma o no de crédito. El segundo punto mostrado es sobre la aplicación de la segmentación y el diseño de las estrategias de crédito, para esto inicialmente se caracteriza a los grupos de productos para su mejor entendimiento así como entender como es la gestión de riesgos la cual varia por producto y por tipo de empresa, otro punto a tener en cuenta es la medición de la rentabilidad por crédito o producto, por ultimo una vez definido todos los segmentos se definirán las estrategias tomando en cuenta el potencial de cada segmento, principalmente su capacidad de crear un posicionamiento especial.. 12.

(20) Como tercer punto se procede a la medición de resultados, esto a partir de los escenarios planteados a manera de piloto según las estrategias, el seguimiento se hace en un periodo determinado y mediante umbrales de éxito, dependiendo de la rentabilidad y éxito de las estrategias, se hizó el análisis y monitoreo de los segmentos, para así optimizar los resultados. Finalmente se puede decir que debido al modelo bancario presente en Rumania el cual es muy similar al interno, estas estrategias y métodos pueden ser reflejados sin problema hacia nuestro entorno financiero. El estudio publicado en la Universidad Esan lleva por título Segmentación psicográfica de la pequeña y microempresa realizado por Matute et al., Bohorquez et al., Carbajal Díaz et al., Espinoza et al., Jiménez et al. (2008) [:6]. Este estudio tenía como objetivo identificar los tipos de mype existentes en la ciudad de Lima Metropolitana, con el fin de definir los lineamientos que sirvan de base para el desarrollo de productos financieros y de crédito, de acuerdo a las necesidades del micro y pequeño empresario y según el segmento en que se encuentre. Entre los objetivos secundarios del estudio también se encuentra: Determinar las características del crédito ofrecido en la actualidad, identificar las principales fuentes de financiamiento, conocer las necesidades de financiamiento no cubiertas por las entidades financieras y los atributos del crédito que más valoran los micro empresarios. El trabajo realizado por Matute et al., Bohorquez et al., Carbajal Díaz et al., Espinoza et al., Jiménez et al. es resumido en los siguientes párrafos. El estudio se sustenta bajo dos teorías de segmentación. En primer lugar, el estudio realizado por Ichak Adizes el año 2001 sobre el ciclo de vida de las organizaciones, la cual indica que sin importar su tamaño, las empresas se enfrentan a diez etapas a lo largo de su ciclo de vida, estas son: Noviazgo, Infancia, Go-Go, Adolescencia, Plenitud, Estabilidad, Aristocracia, Burocracia temprana, Burocracia, Muerte. En segundo lugar, la investigación sobre estilos de vida (Euro-Socio-Styles) desarrollado por el grupo multinacional de investigación de mercados 13.

(21) Gesellschaft für Konsumforschung (grupo GfK) de Alemania, trata de sintetizar las diversas facetas que se presentan en la vida social y económica de las personas en base a encuestan realizadas a lo largo de Europa. Este estudio segmenta a las personas se acuerdo a sus estilos de vida, expectativas, valores y ambientes en los que se desenvuelven, agrupándolas. en. cuatro. dimensiones:. mirage,. permanence,. metamorphosis y reality; sin embargo una persona puede compartir los valores de diferentes dimensiones, identificándose ocho grandes grupos llamados estilos sociales. El levantamiento de información con miras a este estudio se realizó mediante un cuestionario el cual fue preparado considerando: tipología de empresa, perfil del empresario, requerimientos de servicio y requisitos para los productos financieros por parte del empresario, actitudes hacia la banca, relación con las entidades financieras, MSB (marketing de servicios bancarios), hábitos crediticios, estilos de vida y otros datos generales. El cuestionario final costa de 16 partes y 139 preguntas en total. La metodología de análisis comprende el uso de análisis factorial de la información recolectada en la encuesta, y luego el análisis de estos mediante la técnica de segmentación clúster jerárquico, utilizando el método aglomerativo. Finalmente del análisis clúster se logró identificar siete segmentos: los conservadores, los conformistas, los materiales, los maduros, los flemáticos, los estables y los progresistas. Esta denominación está basada en las características más resaltantes de la empresa y del empresario obtenidas a partir de las encuestas, dentro de ellas se puede mencionar: edad, grado de instrucción, situación financiera, rubro al que se dedica, tamaño de la empresa, etc. Hace más de tres años la entidad financiera solicito a una consultora realizar un estudio de sus clientes para enfocar sus estrategias a segmentos según el nivel de ventas, es decir, con esto se logró determinar 14.

(22) los rangos de ventas anuales de los clientes para así agruparlos y darles un tratamiento diferenciado al momento de la evaluación de los créditos. La segmentación arrojo tres grupos: Los emprendedores, los aspiraciones y los consolidados: El nivel de ventas para los emprendedores va desde 350 mil soles hasta 1 millón de soles, para los aspiraciones de 1 millón hasta 3 millones y los consolidados de 3 millones hasta 5 millones. Esta segmentación logro que se manejara las opciones de endeudamiento de los clientes con políticas de crédito diferenciadas, sin embargo, no genera valor para las estrategias más elaboradas donde se aspira llegar a comprender y prever las necesidades de nuestros clientes.. 2.2 Bases Teóricas. 2.2.1 Componentes Principales En el desarrollo del estudio se verá involucrado la necesidad de recurrir al análisis de componentes principales que nos ayudara a quedarnos con las mejores variables, guiados por la reducción de la dimensionalidad. De la mano de la notación y conceptos usada por Alan Julian (2008) [:1] se dará detalle al desarrollo resumido de la técnica. “En situaciones donde se ve involucrada alta dimensión de la data es donde consideramos la posibilidad de proyectar esta información en un subespacio. de. menor. dimensionalidad. sin. perder. información. importante”. “Es de esta manera que Hotelling en el año de 1933 propuesto el método lineal de proyección que hasta hoy conocemos como análisis de componentes principales (PCA)”.. 15.

(23) “PCA fue introducida como una técnica para derivar un conjunto de proyecciones lineales ortogonales de una única colección de variables correlacionadas,. , donde las proyecciones son ordenadas. de acuerdo a la disminución de la variabilidad”. “PCA no está estrictamente ligado a la reducción de la dimensional dad, también es usado como técnica de construcción de variables y además a la identificación de características variables importantes de la información”. A continuación se detalla la técnica según la notación usada por Alan Julian (2008). “Asumimos que el vector aleatorio de dimensión r.. Tiene media. y. matriz de covarianza. ). El análisis de. componentes principales busaca remplazar el conjunto de entrada (desordenadas y correlacionadas). variables de. , , por un conjunto de. proyecciones lineales (ordenadas y no correlacionadas), ), de las variables de entrada,. Donde se minimizara la perdida de información debido al remplazo. En el análisis de componentes principales, “información” es interpretada como el “total de variación” de las variables de entrada iniciales.. Del teorema de descomposición espectral, se puede escribir: ,. ,. 16.

(24) Donde la matriz diagonal autovalores,. , de. tiene como elementos de la diagonal a los. , y las columnas de. son los eigenvectores de. . Por lo tanto, la varianza total es la. .. El -esimo vector coeficiente,. es escogido con tal de. que: o Las primeras proyecciones lineales. de. en importancia a través de sus varianzas. son puntuadas. , las cuales son. ordenadas en orden decreciente de magnitud: . o. no esta correlacionado con ningún. .. Las proyecciones lineales son conocidas como las primeras. componentes. principales de ”. 2.2.2 K – medias. El algoritmo clúster que será escogido para el análisis es el de k-medias la cual es muy reconocida por su potencial por su extrema eficiencia para conjunto de datos muy grande. Debido a que se usó el software estadístico SPSS [:5] para el análisis, inicialmente se explicará cómo este seleccionó los puntos iniciales para luego continuar con el algoritmo de la técnica. “Se considera la siguiente notación para la elección de los centroides iniciales: Numero de clústeres requerido Media del -esimo clúster Vector de la -esima observación Distancia Euclidea entre los vectores 17.

(25) , mínima distancia entre centros Para seleccionar los centroides iniciales se realiza una simple pasada de los datos, los valores de los primeros casos que no sean valores perdidos son asignados como centros iniciales, para los casos restantes se procede como sigue: Si. >. . Si. y. >. >. y. , entonces. <. , entonces. remplaza a remplaza a. ; esto es quiere decir: si la distancia en entre la observación analizada (. )y. el centroide más cercano es más grande que la distancia entre los centroides más cercanos (. ), entonces. remplaza a. , el que este más cerca a. . Si. no remplaza un centroide una segunda prueba es realizada:. Sea. el centroide más cercano a. Sea. el segundo centroide más cercano a. Si. > Esto quiere decir, si. .. , entonces. . ;. esta más alejado del segundo centroide más. cercano que el centroide más cercano esta de cualquier otro centroide, remplaza al centroide más cercano. Al final de la pasada de todas las observaciones, los centroides iniciales de todos los clústeres son definidos”. Una vez que se cuenta con los centroides iniciales lo que se busca es ir reasignando observaciones a los clúster preformados hasta minimizar la suma de cuadrados del error (EES). El proceso culminara cuando ninguna reasignación adicional reduzca el valor de EES. Según Alan Julian (2008) [:1] el proceso puede ser resumido en los siguientes pasos: 1.- Observaciones 18.

(26) 2.- Hacer uno de los siguientes puntos: Realizar una asignación aleatoria de las observaciones dentro de los K clústeres y, para cada clúster, calcular su actual centroide,. Pre especificar los K centroides 3.- Calcular la Distancia Euclidea al Cuadrado (ESS) para cada uno de los observaciones hacia su actual centroide:. donde. es el k-ésimo centroide y. es el clúster conteniendo. .. 4.- Reasignar cada observación al centroide más cercano con la finalidad de que ESS es reducido en magnitud. Actualizar el centroide de cada clúster después de la reasignación. 5.- Repetir los pasos 3 y 4 hasta que no sea posible realizar una reasignación adicional. Si adicionalmente se considerá cierto número de iteraciones cierto nivel de convergencia. y con. , según el software SPSS el algoritmo parará. cuando el máximo número de iteraciones. es alcanzado o cuando el máximo. cambio de centroide de clúster en dos iteraciones sucesivas es más pequeña que veces la mínima distancia entre los centroides iniciales.. 2.3 Marco Conceptual. Dentro del Marco Teórico se ha mencionado algunos términos estadísticos además de otros asociados a la técnica, estos se definen a continuación.. 19.

(27) Clústerización o Segmentación: Consiste en la división de una base de datos en diversos grupos, diferenciados unos de otros, pero que al mismo tiempo cada grupo contenga unidades similares entre sí. Clúster o Segmento: También es conocido como conglomerado final, proviene del proceso de Clústerización y cada uno se caracteriza por contener unidades similares entre sí, el conjunto de Clústeres da como resultado la base de datos inicial. Centroide: Es un concepto geométrico, en la metodología de la Clústerización se usa para definir al centro multivariado de cada Clúster, es decir es un vector que contiene las medias por variable de cada Clúster. PCA: Son las siglas en ingres de Análisis de Componentes Principales, es una técnica para reducir la dimensionalidad de un conjunto da datos, para los fines del trabajo ha sido usada además para identificar a las principales variables. ESS: Es la distancia al cuadrado del error (alejamiento de la observación al centroide), esta es una medición de dispersión basada en la distancia euclidea para así determinar el nivel de agrupamiento que existe dentro de cada clúster. Distancia Euclidea: Es una distancia geométrica usada para calcular la distancia entre dos puntos, dentro de la metodología es usada para ver la cercanía de una observación hacia los centros de los clúster, y según esto incluir la observación al clúster más cercano. Adicional a estos conceptos es también necesario introducir los que provienen del ámbito de aplicación, parte de estos términos definen la segmentación interna que se ha venido usando dentro de la entidad así como la descripción de los productos que son parte del análisis. Cliente: Pequeño Empresario que cuenta con algún producto financiero: Capital de Trabajo, Línea Revolvente, Compra de Deuda, Activo Fijo, Leasing y Crédito Estacional.. 20.

(28) Pequeño Empresario: Persona Jurídica (con RUC) o Persona Natural con Negocio (con DNI) que presenta un nivel de ventas por encima de los 500 mil soles anules y que no supera los 5 millones. Segmento Aspiracional (S1/S2): Este segmento está conformado por los clientes con nivel de ventas entre 500 mil soles y los 3 millones de soles. Segmento Consolidado (S3/M1): Este segmento está conformado por los clientes con nivel de ventas entre los 3 millones de soles y los 5 millones de soles. Capital de Trabajo: Es un pagare a un plazo promedio de 18 meses, plazo fijo. Línea Revolvente: Es similar a un capital de trabajo, su valor agregado es que a medida que se va cancelando el préstamo el monto de la línea se va liberando y el crédito puede ser reutilizado. Crédito Estacional: Tiene las misma características de un capital de trabajo, con la diferencia de que este se maneja a plazos, de 3 a 6 meses. Activo Fijo: Usado para la adquisición de bienes muebles o inmuebles. Los plazos para este tipo de operaciones son en general mayores a 24 meses. Leasing: También conocido como arrendamiento financiero, usado para la adquisición de bienes muebles o inmuebles con la característica de que a pesar de que el bien es adquirido al inicio de la operación este no es propiedad del cliente hasta que el crédito no es cancelado y se haga efectivo un monto adicional, en caso de no ser abonado este monto el bien queda a propiedad de la entidad financiera. Compra de Deuda: Son operaciones que derivan de la transmisión de la deuda de otra entidad financiera, es similar a un capital de trabajo y generalmente cuenta con tasas bajas.. 21.

(29) CAPITULO III. 4.1 Diseño de la investigación. El presente trabajo de investigación es de tipo Aplicación, ya que se centró en encontrar grupos diferenciados de clientes partiendo del uso de la técnica clúster k-medias, es decir se aplicó la metodología de la técnica una vez hallado consenso en cuanto a las ventajas que posee para el tipo de información que se posee. El nivel del presente trabajo es, por los objetivos planteados, de tipo Descriptivo ya que a partir de los grupos diferenciados que se obtendrá con la aplicación de la técnica clúster k-medias se procederá a describir cada uno de ellos y así queden definidos para su manejo posterior. Por ultimo le presente trabajo tiene un diseño Observacional y Longitudinal, debido a que se ha analizado información histórica en un determinado periodo de tiempo, es decir, para llegar a los objetivos propuestos se ha observado el comportamiento de las distintas variables asociadas a las necesidades de financiamiento por medio de la técnica clúster k- medias.. 4.2 Construcción de la matriz de datos La fuente de información que da base al análisis son 2, la primera es la base transaccional de créditos que es alimentada por el sistema internos de 22.

(30) ingreso de solicitudes de crédito y la otra es el Registro Consolidado de Crédito (RCC) que es proporcionada por la SBS. Más adelante se verá detalladamente las variables extraídas desde ambas fuentes, por lo tanto se explicará los periodos y tratamiento que se dio a las observaciones para poder alcanzar los objetivos propuestos Se dio prioridad a la generalización de resultados, es decir, encontrar la forma conveniente de evitar encontrar grupos de observaciones con un comportamiento sesgado causado por condiciones temporales que podrían influenciar un comportamiento diferenciado a lo natural. Con esta finalidad cada observación se generó en función de un horizonte de un año y por ser un estudio comportamental se alarga el ancho temporal en 18 meses, de manera que pudieron haberse generado hasta un máximo de 7 observaciones por cliente, esto siempre y cuando cumplieron con las especificaciones de nuestro estudio mostrados en la delimitación. Gráfico 4.0.1 Construcción de la matriz de datos. En cuanto a la matriz de datos de las variables cualitativas para la caracterización, estas se extrajeron del último periodo de análisis por ser estas en su mayoría características de los negocios obtenidas al momento de llenar las solicitudes de crédito, las cuales eras perdurables en el periodo propuesto. La matriz final de datos consta de 40,668 observaciones con las siguientes variables.. 23.

(31) Tabla 4.0.1 Variables. VARIABLES COMPORTAMENTALES INICIO DEL PERIODO. DESCRIPCIÓN. NOMBRE DE VARIABLE. TIPO. Meses desde el último periodo. MESES_ULTIMO_DESEMB. Numérica. Número de productos. NRO_PRODUCTOS_INICIO. Numérica. Cantidad de créditos Capital de Trabajo. CAPITAL_SI_INICIO. Numérica. Cantidad de créditos Línea Revolvente. LINEA_SI_INICIO. Numérica. Cantidad de créditos Estacionales. ESTACIONAL_SI_INICIO. Numérica. Cantidad de créditos Leasing. LEASING_SI_INICIO. Numérica. Cantidad de créditos Activo Fijo. ACTIVO_SI_FIJO_INICIO. Numérica. Cantidad de créditos Compra de Deuda. COMPRA_SI_DEUDA_INICIO. Numérica. Monto total desembolsado. MONTO_TOTAL_INICIO. Numérica. Cuota total mensual. CUOTA_TOTAL_INICIO. Numérica. Saldo deudor total. SALDO_TOTAL_INICIO. Numérica. Máximo número de cuotas. NROCUOTAS_MAX_INICIO. Numérica. Número de cuotas del Capital de Trabajo. CAPITAL_NROCUOTAS_INICIO. Numérica. Número de cuotas del Línea Revolvente. LINEA_NROCUOTAS_INICIO. Numérica. Número de cuotas del Estacionales. ESTACIONAL_NROCUOTAS_INI CIO. Numérica. Número de cuotas del Leasing. LEASING_NROCUOTAS_INICIO. Numérica. Número de cuotas del Activo Fijo. ACTIVO_FIJO_NROCUOTAS_INI CIO. Numérica. 24.

(32) VARIABLES COMPORTAMENTALES FINAL DEL PERIODO VARIABLES COMPORTAMENTALE S CALCULADAS DEL PERIODO. Número de cuotas del Compra de Deuda. COMPRA_DEUDA_NROCUOTAS _INICIO. Numérica. Número de productos. NRO_PRODUCTOS_FIN. Numérica. Monto total desembolsado. MONTO_TOTAL_FINAL. Numérica. Cuota total mensual. CUOTA_TOTAL_FINAL. Numérica. Saldo deudor total. SALDO_TOTAL_FINAL. Numérica. Saldo deudor Capital de Trabajo. CAPITAL_SALDO_FINAL. Numérica. Saldo deudor Línea Revolvente. LINEA_SALDO_FINAL. Numérica. Saldo deudor Estacional. ESTACIONAL_SALDO_FINAL. Numérica. Saldo deudor Leasing. LEASING_SALDO_FINAL. Numérica. Saldo deudor Activo Fijo. ACTIVO_FIJO_SALDO_FINAL. Numérica. Saldo deudor Compra de Deuda. COMPRA_DEUDA_SALDO_FINA L. Numérica. Máximo número de cuotas. NROCUOTAS_MAX_FINAL. Numérica. Número de cuotas del Capital de Trabajo. CAPITAL_NROCUOTAS_FINAL. Numérica. Número de cuotas del Línea Revolvente. LINEA_NROCUOTAS_FINAL. Numérica. Número de cuotas del Estacionales. ESTACIONAL_NROCUOTAS_FIN AL. Numérica. Número de cuotas del Leasing. LEASING_NROCUOTAS_FINAL. Numérica. Número de cuotas del Activo Fijo. ACTIVO_FIJO_NROCUOTAS_FIN AL. Numérica. Número de cuotas del Compra de Deuda. COMPRA_DEUDA_NROCUOTAS _FINAL. Numérica. Número de Desembolsos. DESEMBOLSOS_PERIODO. Numérica. Número de productos manejados a lo largo del periodo. NRO_PRODUCTOS. Numérica. Número de desembolsos. CAPITAL_DESEMBOLSOS_PERI. Numérica 25.

(33) Capital de Trabajo. ODO. Número de desembolsos Línea Revolvente. LINEA_DESEMBOLSOS_PERIOD O. Numérica. Número de desembolsos Estacionales. ESTACIONAL_DESEMBOLSOS_P ERIODO. Numérica. Número de desembolsos Leasing. LEASING_DESEMBOLSOS_PERI ODO. Numérica. Número de desembolsos Activo Fijo. ACTIVO_FIJO_DESEMBOLSOS_P ERIODO. Numérica. Número de desembolsos Compra de Deuda. COMPRA_DEUDA_DESEMBOLS OS_PERIODO. Numérica. Saldo deudor total promedio. SALDO_TOTAL_PROMEDIO. Numérica. Saldo deudor promedio Capital de Trabajo. CAPITAL_SALDO_PROMEDIO. Numérica. Saldo deudor promedio Línea Revolvente. LINEA_SALDO_PROMEDIO. Numérica. Saldo deudor promedio Estacional. ESTACIONAL_SALDO_PROMED IO. Numérica. Saldo deudor promedio Leasing. LEASING_SALDO_PROMEDIO. Numérica. Saldo deudor promedio Activo Fijo. ACTIVO_FIJO_SALDO_PROMED IO. Numérica. Saldo deudor promedio Compra Deuda. COMPRA_DEUDA_SALDO_PRO MEDIO. Numérica. Máximo número de cuotas. NROCUOTAS_MAX_PERIODO. Numérica. Número de cuotas del Capital de Trabajo. CAPITAL_NROCUOTAS_PERIOD O. Numérica. Número de cuotas del Línea Revolvente. LINEA_NROCUOTAS_PERIODO. Numérica. Número de cuotas del Estacionales. ESTACIONAL_NROCUOTAS_PE RIODO. Numérica. Número de cuotas del Leasing. LEASING_NROCUOTAS_PERIOD O. Numérica. Número de cuotas del. ACTIVO_FIJO_NROCUOTAS_PE. Numérica 26.

(34) VARIBLES RCC VAARIBLES DEL NEGOCIO. Activo Fijo. RIODO. Número de cuotas del Compra de Deuda. COMPRA_DEUDA_NROCUOTAS _PERIODO. Numérica. Número de meses con algún producto activo. MESES_ACTIVO. Numérica. Número de meses con saldo mayor a 0. TOTAL_CON_SALDO. Numérica. Mínimo saldo deudor. MIN_TOTAL_SALDO. Numérica. Máximo saldo deudor. MAX_TOTAL_SALDO. Numérica. Número de Disposiones de Línea. NUMERO_DISPOSICIONES_LINE A. Numérica. Diferencia entre saldo final e inicial. SALDO_DIFER. Numérica. Última deuda del Sistema Financiero. MIMEPE_ULTIMO. Numérica. Ultima deuda de la entidad financiera. MIMEPE_IBK_ULTIMO. Numérica. Diferencia de la participación de deuda. DIFER_SOW. Numérica. Deuda Promedio del Sistema Financiero. MIMEPE_PROMEDIO. Numérica. Máxima Línea de Tarjeta de crédito del periodo. MAX_LINEA_TCCONSUMO. Numérica. Número de entidades con las que manejo deuda. MAX_NRO_ENT. Numérica. Edad del Titular o Representante Legal. EDAD. Numérica. Venta Anual evaluada. VENTA_ANUAL_EVALUADA. Numérica. Número de Empleados. NumEmpleados. Numérica. Número de Sucursales. NumSucursales. Numérica. Meses de antigüedad en la Entidad Financiera. MESES_ANTIGUEDAD_BPE. Numérica. Meses de experiencia en su giro de negocio. MESES_EXPERIENCIA_GIRO. Numérica 27.

(35) Meses de inicio del negocio. MESES_INICIO_NEGOCIO. Numérica. 4.3 Preparación para el análisis Antes de seguir con los siguientes puntos de esta sección es importante mencionar que para el presente estudio no se encontraron datos faltantes en ninguna variable por lo cual no fue necesario utilizar ninguna técnica de imputación, exclusión de variables u observaciones. 4.3.1 Detección de datos atípicos. La metodología que se utilizó para la detección de valores atípicos multivariados es k-medias que es recomendada y aplicada por Mandouh [:3] en el apartado Identificación de outliers usando Clusterización, dado que, a pesar de ser una tecnica exploratoria, la segmentación es muy sensible a la existencia de outliers, es así que se sacó ventaja para la detección de estos, tal como sugiere Montgomery [:2]. El proceso consiste en solicitar un gran número de clústeres (en este caso 50 clúster) y aquellos clúster con menos observaciones y con mayor distancia entre los demás clúster serán potenciales outlier multivariados. Los 50 clústeres fueron generados en el anexo I, para determinar que grupos son excluidos se ha decidido convenientemente que sean aquellos que cuentan con una frecuencia no mayor a 0.4 por ciento del total de datos, marcando así 36 clúster que en total concentran 1,121 observaciones, 2.7 por ciento del total de observaciones. 4.3.2 Selección de variables Con la finalidad de excluir aquellas variables correlacionadas se optó por utilizar el análisis de factores mediante la técnica multivariada 28.

(36) de componentes principales propuesta por Ester Gutiérrez y Luis Onieva [:5]. Ademas, el análisis de componentes principales es recomendado por Alan Izenman (2008) [:1] como herramienta para la construcción de variables y selección de variables principales. El procedimiento comprende primero identificar aquellos componentes que representan la mayor variabilidad de la data para luego de cada componente extraer la variable más representativa, esto en función del valor de su coeficiente en valor absoluto, la selección de realiza de entre los tres mayores, decidiendo en función de su interpretación futura. Con esta metodología práctica es posible lidiar con la correlación de variables y al mismo tiempo seleccionar aquellas donde se concentra la mayor cantidad de información. Gráfico 4.0.2 Gráfico de Sedimentación. 29.

(37) Tabla 4.0.2 Varianza Explicada. Total Variance Explained Rotation Sums of Squared Loadings Component Total. % of Variance Cumulative %. 1. 9.434. 12.413. 12.413. 2. 5.473. 7.202. 19.614. 3. 5.061. 6.659. 26.274. 4. 4.780. 6.290. 32.563. 5. 4.680. 6.158. 38.721. 6. 4.496. 5.915. 44.637. 7. 3.390. 4.461. 49.098. 8. 3.059. 4.025. 53.122. 9. 3.021. 3.975. 57.097. 10. 2.966. 3.903. 61.000. 11. 2.565. 3.375. 64.375. 12. 2.436. 3.205. 67.580. 13. 2.352. 3.095. 70.675. 14. 2.266. 2.981. 73.656. 15. 2.161. 2.843. 76.500. 16. 1.826. 2.402. 78.902. 17. 1.328. 1.748. 80.650. Visualizando el grafico de sedimentación se decide trabajar con 13 componen entes a pesar que se sugiere en un comienzo 17 componentes, la decisión se soporta en la visualización del gráfico y el criterio experto. Los 13 componentes constituyen, según el porcentaje de varianza acumulado, e 70.6 por ciento de la variabilidad de la data.. 30.

(38) En anexo 2 se puede observar la totalidad de los coeficientes hallados del análisis de componentes principales, y según esta metodología se opta por escoger las siguientes variables. Tabla 4.0.3 Variables Seleccionadas. COMPONEN TE. VARIABLE SELECCIONADA. N°. VARIABLES ADICIONALES. 1. SALDO_TOTAL_PROM EDIO. 1. CAPITAL_SI_INICIO. 2. ACTIVO_FIJO_SI_INICI O. 2. ESTACIONAL_DESEMB OLSOS_PERIODO. 3. CUOTA_TOTAL_FINAL. 3. NRO_PRODUCTOS_INIC IO. 4. LINEA_SI_INICIO. 5. CAPITAL_DESEMBOLS OS_PERIODO. 6. LEASING_SI_INICIO. 7. LINEA_DESEMBOLSOS _PERIODO. 8. COMPRA_DESEMBOLS OS_PERIODO. 9. ACTIVO_FIJO_DESEMB OLSOS_PERIODO. 10. COMPRA_DEUDA_SI_I NICIO. 11. MIMEPE_PROMEDIO. 12. ESTACIONAL_SI_INICI O. 13. LEASING_DESEMBOLS OS_PERIODO. Adicionalmente se ha agregado 3 variables que debido a las ya ingresadas se ha visto conveniente incluir y así también facilitar las futuras conclusiones. Se ha verificado de todos modos que estas no tengan algún rastro de correlación significativa. 31.

(39) 4.4 Análisis Explorativo de las variables seleccionadas. Como paso previo al análisis clúster se realizó una inspección descriptiva de las variables seleccionadas, de manera que se podrá comprender su comportamiento. Saldo deudor total promedio Tabla 4.0.4 Estadísticos Descriptivos de Saldo Deudor Total Promedio. Promedio. 75,200. Mediana. 54,733. Std. Dst.. 85,378. Varianza. 7,289,333,913. C.V.. 1.14. Asimetría. 4.23. Kurtosis. 26.288. Gráfico 3.0.3 Histograma de Saldo Deudor Total Promedio. 32.

(40) Los valores de esta variable son de una magnitud muy amplia por lo que se ve reflejado en su varianza, sin embargo también es muy dispersa tal y como se deduce de su Coeficiente de variación (>1).. Cuota total mensual al final del periodo Tabla 4.0.5 Estadísticos Descriptivos de Cuota Mensual al final del periodo. Promedio. 8,140. Mediana. 5,527. Std. Dst.. 12,806. Varianza. 163,988,392. C.V.. 1.57. Asimetría. 8.65. Kurtosis. 108.057. Gráfico 4.0.4 Histograma de Cuota Mensual al final del periodo. 33.

(41) El comportamiento de esta variable es bastante similar a la que se mostró anteriormente, valor alto de varianza y un coeficiente de variación aún más alto por lo cual se deduce que es más variable o heterogéneo.. Deuda Promedio del Sistema Financiero Tabla 4.0.6 Estadísticos Descriptivos de Deuda Promedio del SSFF. Promedio. 217,619. Mediana. 146,902. Std. Dst.. 226,828. Varianza. 51,450,894,583. C.V.. 1.04. Asimetría. 2.35. Kurtosis. 7.364. Gráfico 4.0.5 Histograma de Deuda Promedio del SSFF. 34.

(42) A diferencia de las anteriores variables esta es más homogénea, cuenta con un CV mas moderado pero que sin embargo no deja de ser en magnitud alto. Su coeficiente de asimetría confirma que su distribución se aleja de normal con una cola alargada hacia la derecha.. Número de productos al inicio del periodo. Tabla 4.0.7 Tabla de Frecuencias de Número de productos al inicio del periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 1. 35934. 88.4. 88.4. 88.4. 2. 4447. 10.9. 10.9. 99.3. 3. 277. .7. .7. 100.0. 4. 10. .0. .0. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.6 Histograma de Número de productos al inicio del periodo. 35.

(43) Cerca del 90 por ciento de los clientes, en su periodo de análisis, realizaron un único desembolso, seguido de lejos por un 10 por ciento de clientes que realizaron más de dos desembolsos.. Cantidad de créditos capital de trabajo al inicio del periodo Tabla 4.0.8 Tabla de Frecuencias de Cantidad de créditos capital de trabajo al inicio del periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 26734. 65.7. 65.7. 65.7. 1. 13934. 34.3. 34.3. 100.0. Total. 40668. 100.0. 100.0. Gráfico 4.0.7 Histograma de Cantidad de créditos capital de trabajo al inicio del periodo. Al inicio del periodo 34 por ciento de clientes contaban con 1 crédito Capital de Trabajo.. 36.

(44) Cantidad de créditos Línea Revolvente al inicio del periodo. Tabla 4.0.9 Tabla de Frecuencias de Cantidad de créditos línea revolvente al inicio del periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 21261. 52.3. 52.3. 52.3. 1. 19407. 47.7. 47.7. 100.0. Total. 40668. 100.0. 100.0. Gráfico 4.0.8 Histograma de Cantidad de créditos línea revolvente al inicio del periodo. Al inicio del periodo 48 por ciento de clientes contaban con 1 crédito Línea Revolvente.. 37.

(45) Cantidad de créditos Estacionales al inicio del periodo. Tabla 4.0.10 Tabla de Frecuencias de Cantidad de créditos estacionales al inicio del periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 39713. 97.7. 97.7. 97.7. 1. 955. 2.3. 2.3. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.9 Histograma de Cantidad de créditos estacionales al inicio del periodo. Al inicio del periodo 2 por ciento de clientes contaban con 1 crédito Estacional.. 38.

(46) Cantidad de créditos Leasing al inicio del periodo Tabla 4.0.11 Tabla de Frecuencias de Cantidad de créditos leasing al inicio del periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 37909. 93.2. 93.2. 93.2. 1. 2759. 6.8. 6.8. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.10 Histograma de Cantidad de créditos leasing al inicio del periodo. Al inicio del periodo 7 por ciento de clientes contaban con 1 crédito Leasing.. 39.

(47) Cantidad de créditos Activo Fijo al inicio del periodo Tabla 4.0.12 Tabla de Frecuencias de Cantidad de créditos leasing al inicio del periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 33402. 82.1. 82.1. 82.1. 1. 7266. 17.9. 17.9. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.11 Histograma de Cantidad de créditos Activo Fijo al inicio del periodo. Al inicio del periodo 18 por ciento de clientes contaban con 1 crédito Activo Fijo.. 40.

(48) Cantidad de créditos Compra Deuda al inicio del periodo Tabla 4.0.13 Tabla de Frecuencias de Cantidad de créditos Compra Deuda al inicio del periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 39290. 96.6. 96.6. 96.6. 1. 1378. 3.4. 3.4. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.12 Histograma de Cantidad de créditos Compra Deuda al inicio del periodo. Al inicio del periodo 3 por ciento de clientes contaban con 1 crédito Compra de Deuda.. 41.

(49) Número de desembolsos Capital de Trabajo en el periodo Tabla 4.0.14 Tabla de Frecuencias de Número de desembolsos Capital de Trabajo en el periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 30078. 74.0. 74.0. 74.0. 1. 9160. 22.5. 22.5. 96.5. 2. 1350. 3.3. 3.3. 99.8. 3. 79. .2. .2. 100.0. 4. 1. .0. .0. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.13 Histograma de Número de desembolsos Capital de Trabajo en el periodo. 42.

(50) Número de desembolsos Línea Revolvente en el periodo. Tabla 4.0.15 Tabla de Frecuencias de Número de desembolsos Línea Revolvente en el periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 33084. 81.4. 81.4. 81.4. 1. 6936. 17.1. 17.1. 98.4. 2. 617. 1.5. 1.5. 99.9. 3. 31. .1. .1. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.14 Histograma de Número de desembolsos Línea Revolvente en el periodo. 43.

(51) Numero de desembolsos Estacionales en el periodo Tabla 4.0.16 Tabla de Frecuencias de Numero de desembolsos Estacionales en el periodo. Frecuencia. Porcentaje. Porcentaje válido. Porcentaje acumulado. 0. 38332. 94.3. 94.3. 94.3. 1. 1246. 3.1. 3.1. 97.3. 2. 534. 1.3. 1.3. 98.6. 3. 338. .8. .8. 99.5. 4. 208. .5. .5. 100.0. 5. 10. .0. .0. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.15 Histograma de Número de desembolsos Estacionales en el periodo. 44.

(52) Numero de desembolsos Leasing en el periodo Tabla 4.0.17 Tabla de Frecuencias de Numero de desembolsos Leasing en el periodo. Frecuencia. Porcentaje. Porcentaje. Porcentaje. válido. acumulado. 0. 39911. 98.1. 98.1. 98.1. 1. 756. 1.9. 1.9. 100.0. 2. 1. .0. .0. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.16 Histograma de Número de desembolsos Leasing en el periodo. 45.

(53) Numero de desembolsos Activo Fijo en el periodo Tabla 4.0.18 Tabla de Frecuencias de Número de desembolsos Activo Fijo en el periodo. Frecuencia. Porcentaje. Porcentaje. Porcentaje. válido. acumulado. 0. 38965. 95.8. 95.8. 95.8. 1. 1633. 4.0. 4.0. 99.8. 2. 68. .2. .2. 100.0. 3. 2. .0. .0. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.17 Histograma de Número de desembolsos Activo Fijo en el periodo. 46.

(54) Numero de desembolsos Compra de Deuda en el periodo. Tabla 4.0.19 Tabla de Frecuencias de Número de desembolsos Compra de Deuda en el periodo. Frecuencia. Porcentaje. Porcentaje. Porcentaje. válido. acumulado. 0. 40152. 98.7. 98.7. 98.7. 1. 514. 1.3. 1.3. 100.0. 2. 2. .0. .0. 100.0. 40668. 100.0. 100.0. Total. Gráfico 4.0.18 Histograma de Número de desembolsos Compra de Deuda en el periodo. 4.5 Aplicación y evaluación de la técnica La técnica será evaluada con diferentes número de clúster y de manera conveniente se escogerá la de mejor resultado según el criterio experto, de antemano se validara que necesariamente converja el resultado de los centroides 47.

(55) y cuan cambiante serán los clúster según la elección que se vaya realizando, todo esto mediante el software SPSS. CASO 1: 9 clústeres Tabla 4.0.20 Resultados Primera Corrida – 9 clústeres. 48.

(56) CASO 2: 8 clústeres Tabla 4.0.21 Resultados Segunda Corrida – 10 clústeres. 49.

(57) CASO 3: 7 clústeres Tabla 4.0.22 Resultados Tercera Corrida – 7 clústeres. 50.

(58) CASO 4: 6 clústeres Tabla 4.0.23 Resultados Cuarta Corrida – 7 clústeres. 51.

(59) El análisis de los casos y el detalle de la elección que ayudara a tomar uno de ellos se verá en el siguiente capítulo, además de la caracterización de los segmentos finales.. 52.

(60) CAPITULO IV. 5.1 Selección del número de clústeres. Todos los casos fueron trabajados con un límite máximo de 200 iteraciones y con criterio de convergencia de 0, es decir, para cesar las iteraciones los centroides no deben de moverse con respecto a la iteración anterior. El primer caso convergió luego de 62 iteraciones, el segundo en 95 iteraciones, el tercero en 104 iteraciones mientras que el último en 49. El siguiente grafico ayuda de manera dinámica a visualizar como van agrupando los clústeres, empezando con el que cuenta más grupos, esto al final nos dará indicios de en qué proceso de agrupamiento podría haber una forzada formación de clústeres.. 53.

(61) Gráfico 5.0.1 Selección del número de clústeres. CASO 1. 1. 2. 3. 4. 5. 6. 7. 8. 9. 9 CLUSTERS 100%. CASO 2. 100%. 5. 98%. 8. 88%. 3. 95%. 1. 99%. 6. 100%. 2. 97%. 7. 4. 8 CLUSTERS 85%. CASO 3. 100%. 7. 90%. 2. 99%. 1. 100%. 6. 100%. 4. 97%. 5. 3. 7 CLUSTERS 87%. CASO 4. 62%. 4. 79%. 2. 100%. 1. 64%. 5. 100%. 3. 77%. 2. 3. 6 CLUSTERS. Si se analiza cómo se conforman los clúster del caso 2 en función de los clústeres del caso 1 se notó que hay una relación muy fuerte en el sentido de que estos nuevos clústeres están conformados en su mayoría por un clúster del caso anterior, por ejemplo el 100 por ciento de casos del clúster 3 del caso 1 (9 clústeres) conforman el clúster 8 del caso 2 (8 clústeres).. Lo mismo sucede en la comparación del caso 2 y caso 3. Sin embargo en la última comparación no sucede esto y se nota que se pierde la armonía con respecto a los clústeres que se habían formado hasta el caso 3 (7 clústeres), por ejemplo se tiene, solo el 62 por ciento de los casos que conformaban el clúster 3 del caso 3 (7 clústeres) llegan a ser incluidos dentro del clúster 2 del caso 4 (6 clústeres), el resto de observaciones van dirigidos al clúster 5.. 54.

(62) CASO 2. 5. 8. 3. 1. 6. 2. 7. 4. 8 CLUSTERS 85%. CASO 3. 100%. 7. 90%. 2. 99%. 1. 100%. 6. 100%. 4. 97%. 5. 3. 7 CLUSTERS 87%. CASO 4. 62%. 4. 79%. 2. 100%. 1. 64%. 5. 100%. 3. 77%. 2. 3. 6 CLUSTERS. Además se nota que no se llega a formar el clúster número 6 del caso 4, de hecho este es formado por subgrupos pequeños del caso 3. Adicionalmente, si se analiza cómo van evolucionando las cantidades de los segmentos de cada caso es notorio que la tendencia desde el caso1 hasta el caso 3 es que cada grupo va incrementando gradualmente su cantidad, sin embargo en el caso 4 ya no sucede asi, al contrario, se genera un grupo con muy pocas observaciones (cerca del 0 por ciento) y se crea un clúster con más del 50 por ciento de observaciones. Finalmente bajo el análisis realizado y con la condición de conservar la armonía que existe en la formación o separación de clústeres se seleccionó aquel que sin perder este comportamiento cuenta con el menor número de clúster, por lo tanto se escogerá el caso 3, K=7.. 5.2 Validación y Clasificación de nuevos casos. Para corroborar el potencial de esta metodología estadística y debida a que se ha trabajado con la totalidad de la información haremos una corrida adicional de la técnica con el número de clústers ya definido. Para ello validaremos los resultados encontrados escogiendo una muestra aleatoria que representa el 80 por ciento del total de información, el resultado será confirmatorio solo si encontramos similitud en los centroides y si las frecuencias de los grupos también lo son. Una vez que sea exitosa la validación clasificaremos el 20 por ciento restante mediante la cercanía de estos al centroide estimado en la validación, para esto se asumirá que los grupos hallados con el total de la información son los que debemos tomar como reales y así mediremos el poder de la clasificación. Los resultados obtenidos al hacer la corrida con el 80 por ciento de información son mostrados en la tabla 5.1: 55.

Referencias

Documento similar

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

Este acercamiento entre Roma y la Gran Bretaña lo atribuía Azara al Padre Ricci, general de los jesuítas (1758-73), quien, siempre ateniéndonos al juicio del agente, había

En este sentido, puede defenderse que, si la Administración está habilitada normativamente para actuar en una determinada materia mediante actuaciones formales, ejerciendo

En la parte central de la línea, entre los planes de gobierno o dirección política, en el extremo izquierdo, y los planes reguladores del uso del suelo (urbanísticos y