Aplicación de machine learning al modelado de funcionamiento de concesionarios de automóviles

Texto completo

(1)UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES. ESPECIALIDAD EN ORGANIZACIÓN INDUSTRIAL. TRABAJO DE FIN DE GRADO:. APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMÓVILES. Javier de Eusebio Hernández. Tutor Principal: José Manuel Mira McWilliams Tutor Externo: Raúl Rubio Madrid, 2019.

(2) II.

(3) “La santidad cristiana no es impecabilidad, sino lucha por no ceder, por volverse a levantar siempre después de cada cesión. No depende tanto de la fuerza de voluntad del hombre, sino más bien del esfuerzo por no obstaculizar jamás la acción de la gracia del alma y ser por el contrario sus "colaboradores" humildes; pues bien, éste es el VERDADERO ESTUDIO, el TRABAJO MÁS IMPORTANTE.” Juan Pablo II, a los estudiantes, 29 marzo 1983. III.

(4) IV.

(5) AGRADECIMIENTOS. En primer lugar, agradecer a José Manuel Mira, Pepe, porque, a pesar de no disponer de mucho tiempo, me acogió en el momento de desesperación en busca de un tutor y un proyecto adecuado. Gracias por su entrega, sus consejos, sus explicaciones, sus ideas y por despertar en mí un gran interés en esta rama de la estadística. De la misma forma, reconocer el trabajo de Raúl Rubio por su valiosa ayuda y por poner su conocimiento donde el nuestro no llegaba. Por supuesto, recordar a mi familia, mi mayor apoyo, mi consuelo incondicional, y sobre todo el motivo de todos mis empeños. Agradecimiento especial a mi madrina Antonia Segura, por ser un pilar esencial en mi formación académica, por su tiempo, por su cariño y su infinito conocimiento (sin ella seguiría cursando Química 1).. Y, por último, gracias a Dios, por regalarme esta oportunidad, por cada instante de trabajo, esfuerzo y sufrimiento, y por poner a mi lado gente tan maravillosa..

(6) II.

(7) RESUMEN EJECUTIVO En las últimas décadas, el desarrollo tecnológico y la necesidad de mejorar la productividad en el entorno empresarial han impulsado a las organizaciones a investigar y acumular grandes volúmenes de datos de todo tipo. A raíz de esta tendencia, se han podido identificar nuevos problemas e incluso dar solución a otros sin resolver. Lo que ha provocado la formación de un negocio entorno al mundo del “dato”. Esto es lo que se conoce actualmente como Big Data. Una vez almacenados todos estos datos, se busca extraer y analizar toda la información posible de ellos (tendencias, relaciones, variabilidad…) a través de las herramientas que proporciona la rama de la estadística centrada en esta función, el Machine Learning. La empresa de automóviles PREMIUM, con la cual se desarrolla este proyecto y que prefiere no ser mencionada, ha hecho de la captación y análisis de datos una realidad en su día a día. Un ejemplo de este uso es la evaluación de su red de 59 concesionarios en toda España, la cual se realiza según 38 variables de diferentes campos (facturaciones, cuotas de mercado, satisfacción de cliente o número de vehículos adquiridos) y departamentos (servicios, repuestos, vehículos nuevos o vehículos usados). En este proyecto, como objetivo final, se pretende dar a conocer las relaciones existentes entre dichas 38 variables mediante los datos adquiridos durante el período de actividad de 2017. Con la ayuda de los resultados obtenidos por aplicación de las técnicas, se busca confirmar o desmentir creencias de vínculos entre variables ya conocidos por la marca y especialmente descubrir relaciones que a priori se desconocen. Para alcanzar este objetivo, este trabajo realiza un estudio acerca de las herramientas de Machine Learning no supervisado. Dicha investigación se centra en los diferentes métodos de clustering para su posterior aplicación sobre la base de datos del caso de la empresa en cuestión. De esta forma, se muestra una utilidad poco habitual del clustering, que tradicionalmente se aplica sobre las observaciones y no sobre las variables. Además, para desarrollar esta función se ha utilizado el software R-Studio, herramienta dedicada a la computación estadística, la cual ha permitido representar e interpretar los resultados con gran fiabilidad mediante los dendrogramas (árboles de agrupaciones). De la aplicación de tres métodos diferentes, se han obtenido unos resultados de los cuales se han podido extraer varios puntos en común. Dichas similitudes sumadas a la información adicional de cada técnica han dibujado una solución robusta para el caso práctico (con la ayuda de la experiencia previa del profesional de la marca, el cual es codirector del trabajo). Esta solución no solo engloba varios clusters muy homogéneos, sino que también tiene en cuenta otras relaciones que, aunque sean más débiles, siguen siendo apreciables y relevantes para un análisis completo. Estos clusters robustos reflejan información acerca de los concesionarios en cuanto a: 1) 2) 3) 4) 5). Dimensión Situación financiera Cuota de mercado total Beneficio total Beneficio directo del departamento de Servicios. III.

(8) RESUMEN EJECUTIVO. De forma que se alcanza una reducción final de la dimensión del problema de 38 a 27 variables. La aplicación de la metodología cluster sobre este caso práctico, no solo ha permitido sacar una conclusión para la marca, sino también extrapolar cierta información adaptable a cualquier tipo de clustering. Principalmente, se destaca la necesidad de utilizar varios métodos para conformar una solución robusta, y el preferible uso de la correlación como medida de similitud en clustering de variables. De esta forma se consigue un conocimiento profundo sobre cómo son las relaciones entre clusters.. IV.

(9) ÍNDICE GENERAL AGRADECIMIENTOS ................................................................................................. I RESUMEN EJECUTIVO ........................................................................................... III ÍNDICE DE TABLAS ................................................................................................ VI ÍNDICE DE FIGURAS .............................................................................................. VII 1.. 2.. INTRODUCCIÓN ................................................................................................. 1 1.1.. Objetivos ........................................................................................................ 2. 1.2.. Organización del Trabajo ................................................................................ 3. METODOLOGÍA .................................................................................................. 5 2.1.. 3.. Análisis Cluster............................................................................................... 6. 2.1.1.. Análisis Cluster Jerárquico ...................................................................... 7. 2.1.2.. Análisis Clúster No Jerárquico ............................................................... 11. 2.1.3.. Ventajas y desventajas ........................................................................... 12. 2.1.4.. Clustering de Variables .......................................................................... 13. RESULTADOS.................................................................................................... 15 3.1.. Caso de aplicación: Marca de automóviles PREMIUM ................................. 15. 3.1.1.. Situación inicial del problema ................................................................ 17. 3.1.2.. Aplicación del Método del Centroide ..................................................... 23. 3.1.3.. Aplicación del Método por Agrupación por Promedio (distancias) ......... 26. 3.1.4.. Aplicación del Método por Agrupación por Promedio (correlaciones) ... 29. 3.1.5.. Aplicación de método no jerárquico (K-Means) ..................................... 31. 4.. CONCLUSIONES ............................................................................................... 35. 5.. LÍNEAS FUTURAS DE INVESTIGACIÓN ....................................................... 39. 6.. BIBLIOGRAFÍA ................................................................................................. 41. 7.. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO .......................................... 43. 8.. 7.1.. Estructura de Descomposición de Proyecto ................................................... 43. 7.2.. Planificación temporal .................................................................................. 44. 7.3.. Presupuesto................................................................................................... 45. ANEXOS ............................................................................................................. 49 8.1.. Inversiones de agrupación ............................................................................. 49. 8.2.. Código Método de Agrupación por Promedio (Distancia euclídea) ............... 50. 8.3.. Código Método de Agrupación por Promedio (Correlaciones) ...................... 71. 8.4.. Código Método del Centroide (Distancia euclídea) ....................................... 96. V.

(10) ÍNDICE DE TABLAS Tabla 2.1: Ventajas y desventajas entre tipos de análisis de cluster.............................. 12 Tabla 3.1: Correlación entre variables en la situación inicial. ...................................... 18 Tabla 3.2: Resultado de la aplicación del K-Means ..................................................... 33 Tabla 7.1: Cuadro de costes unitarios .......................................................................... 45 Tabla 7.2: Amortización del ordenador ....................................................................... 45 Tabla 7.3: Descomposición de costes directos ............................................................. 45 Tabla 7.4: Recursos totales empleados ........................................................................ 47 Tabla 7.5: Costes directos por capítulos ...................................................................... 47 Tabla 7.6: Coste total del proyecto .............................................................................. 47. VI.

(11) ÍNDICE DE FIGURAS Figura 1.1: Objetivos buscados por empresas que invierten en Machine Learning ......... 1 Figura 2.1: Ejemplo de Clustering con correlación como medida de similitud y corte en c=0.91. Por tanto, la estructura formada es A, BC, D, E, FG. ...................................... 10 Figura 3.1: Comparativa de EBITDA, BAI y BAI ( o/oooooo) 2016-2017 ........................ 19 Figura 3.2: Representación gráfica de la matriz de distancias inicial ............................ 21 Figura 3.3: Dendrograma con corte resultado del Método del Centroide ...................... 23 Figura 3.4: Comparativa Margen Bruto y Gasto Directo del Dept. Vehículos Nuevos 2016-2017................................................................................................................... 25 Figura 3.5: Dendrograma con corte resultado del Método de Agrupación por Promedio (distancias). ................................................................................................................. 26 Figura 3.6: Comparativa de cuotas 2016-2017............................................................. 27 Figura 3.7: Dendrograma con corte resultado del Método de Agrupación por Promedio (correlaciones) ............................................................................................................ 29 Figura 3.8: Comparativa Solvencia y Liquidez 2016-2017 .......................................... 30 Figura 4.1: Solución óptima de la aplicación del análisis Cluster al caso práctico. ....... 37 Figura 7.1: Estructura de descomposición del proyecto (EDP) .................................... 43 Figura 7.2: Diagrama de Gantt del proyecto ................................................................ 44 Figura 8.1: Ejemplo de inversión de agrupaciones ....................................................... 49. VII.

(12) VIII.

(13) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. 1. INTRODUCCIÓN El Machine Learning no es una cuestión que se haya puesto de moda en los últimos años, sino que ya es una realidad en el entorno empresarial. Esto se debe al gran volumen de datos que se maneja diariamente (Big Data) y los buenos resultados que su uso aporta. Como consecuencia, de forma genérica, se pueden conseguir grandes avances como la mejora progresiva de los modelos predictivos, la ayuda a la toma de decisiones sin intervención humana o la reducción de la dimensión de problemas (sobre lo que se hará hincapié en este proyecto con la aplicación del clustering de variables). En el ámbito de las organizaciones, como muestra el informe publicado por MIT Technology Review con la colaboración de Google Cloud (MIT & Google Cloud, 2017), las empresas invierten en este tipo de tecnologías con varios objetivos muy claros.. Figura 1.1: Objetivos buscados por empresas que invierten en Machine Learning. Sorprende que el motivo principal, por el que se desarrolla este tipo de tecnología de inteligencia artificial, en el 50% las empresas encuestadas, sea la búsqueda y análisis de datos recogidos, incluso por encima de objetivos tan evidentes como la reducción de costes o la mejora de la eficiencia de procesos. Dicho análisis puede llegar a repercutir en la estrategia de una empresa o departamento, debido al gran valor que tiene su información, ya que otorga una visión global de la situación e identifica las debilidades y fortalezas de la empresa o departamento en cuestión. Finalmente, esto puede acabar concediendo a la organización una ventaja competitiva con respecto a las demás del sector, situándoles en una posición privilegiada. Además de todos los beneficios (tanto económicos como no) de esta disciplina científica, otro factor para tener en cuenta es la versatilidad de aplicación en cualquiera de los ámbitos de la empresa, desde recursos humanos hasta la cadena de producción o área financiera. A pesar de esto, toda implantación de una nueva tecnología conlleva un rechazo debido al desconocimiento y al recelo. Una de las principales resistencias a este cambio, son los propios líderes, los cuales desconocen el funcionamiento de la tecnología y no confían en la automatización de la toma de decisiones, Además, a esto se añade la ignorancia en cuanto a los beneficios que implica su desarrollo y la falta de profesionales. Javier de Eusebio Hernández. 1.

(14) 1. INTRODUCCIÓN. de esta especialidad, debido a que es una disciplina que sigue creciendo pero que no se ha establecido en el entorno empresarial. Aun así, cada día son más las empresas que contratan especialistas en la materia y ven en el Machine Learning una oportunidad de crecimiento. Esto se refleja en muchas noticias de actualidad que informan de que cerca 87% de las Grandes Empresas ya han invertido en esta tecnología o piensan hacerlo en los próximos años (Ramírez, 2018). Por todo ello se justifican las enormes inversiones realizadas por las empresas (principalmente Grandes), lo que se traduce en una tendencia de crecimiento en auge del Machine Learning, sin pronóstico de verse frenado. 1.1. Objetivos En cuanto a los objetivos de este proyecto, se podría hacer una distinción entre objetivos de aprendizaje y técnicos. 1. Objetivos de aprendizaje. Uno de los fines principales de este trabajo de fin de grado es el conocimiento y aprendizaje, por parte del alumno, de técnicas de Machine Learning a través de su aplicación a los datos recogidos en concesionarios de automóviles, en este caso de una marca de automóviles PREMIUM. Además, este aprendizaje conlleva de forma paralela la formación en el lenguaje de programación de R (R- Studio) con su consiguiente aplicación, y el desarrollo de conocimientos centrados en la gestión y evaluación de concesionarios de la industria automovilística. 2. Objetivos técnicos. Estos objetivos tienen un enfoque sobre el caso de aplicación en concreto, los resultados esperados del proyecto y la generalización del trabajo a cualquier otro problema. Este tipo de fines se puede resumir en uno genérico y otro particular: 2.1.Objetivo Técnico Particular. Descubrir qué variables, utilizadas en la clasificación y evaluación de los 59 concesionarios de la marca, comparten más información o son redundantes y, además, cómo estas pueden ser agrupadas. Para ello, el estudio se centra en un tipo en concreto de técnica de Machine Learninig, el Clustering. De esta forma, se conseguirá reducir de manera considerable la dimensión del problema y, sobre todo, conocer de forma clara las relaciones existentes entre las variables. Gracias a este tipo de técnicas, aparte de reafirmar relaciones ya conocidas, se pretende principalmente detectar afinidad entre variables o grupos de ellas que eran desconocidas e inesperadas y que puede resultar de gran interés en relación con el ámbito organizativo 2.2.Objetivo Técnico Genérico. Demostrar que la técnica de clustering, aparte de ser utilizada en problemas de observaciones, también puede ser aplicable de igual manera problemas con variables de cualquier ámbito.. 2. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(15) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. 1.2.. Organización del Trabajo. Este proyecto se estructura en cinco capítulos principales: 1) Introducción. Dentro de este capítulo se presentan los objetivos del proyecto y se pone en contexto de la situación actual del Machine Learning en el ámbito empresarial 2) Metodología. Este apartado refleja los diferentes tipos de análisis dentro del aprendizaje no supervisado del Machine Learning, cendrándose en la metodología Clustering. 3) Resultados. Se resume el caso de la marca de automóviles PREMIUM sobre el que se aplican diferentes métodos y técnicas de clustering. Dicho análisis proporciona una serie de resultados sobre los cuales se realizan las explicaciones pertinentes. 4) Conclusiones. Este capítulo recoge las conclusiones obtenidas a raíz de los resultados obtenidos teniendo en cuenta los objetivos marcados de inicio. 5) Anexos. Este capítulo a pesar de ser adicional refleja la parte del proyecto a la que más tiempo se le ha dedicado, la programación, y la cual ha llevado al alumno a un aprendizaje más profundo de la metodología comentada. Por último, aparecen otros apartados como un Resumen ejecutivo del trabajo, las Líneas futuras de investigación para dar lugar a una continuación de este., Planificación temporal y Presupuesto.. Javier de Eusebio Hernández. 3.

(16) 1. INTRODUCCIÓN. 4. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(17) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. 2. METODOLOGÍA Como ya se ha mencionado anteriormente, la metodología de este trabajo de fin de grado se centrará en técnicas de Machine Learning, en concreto en el Aprendizaje No Supervisado. “El Machine Learning es un método de análisis de datos que tiene como finalidad la creación de un modelo que sea capaz, por sí mismo, de aprender con la llegada datos nuevos, identificar relaciones nuevas y tomar decisiones sin necesidad de ayuda humana, a través de distintos tipos de algoritmos.” (SAS Institute Inc., 2019) Dentro de esta rama de la estadística, los algoritmos se clasifican principalmente en dos tipos de aprendizajes: . Aprendizaje Supervisado. Los algoritmos poseen una experiencia previa o histórico de datos a partir de la cual el modelo se nutre y aprende a asignar las etiquetas de salida correspondientes a los datos de entrada. Es decir, el propio modelo es capaz de realizar predicciones de valores de salida o clasificaciones según el input que reciba (De los Santos, 2017). Estos tipos de algoritmos se utilizan por ejemplo en el ámbito sanitario para predicción de epidemias (Regresión Lineal Simple o Redes Neuronales) o en empresarial para la segmentación del mercado (Análisis Discriminante).. . Aprendizaje No Supervisado. Se caracteriza por carecer de experiencia previa para analizar los datos. Por tanto, el modelo por sí mismo no puede asignar una etiqueta de salida al dato de entrada y su funcionalidad se limita a buscar relaciones “ocultas” o patrones entre un gran volumen de datos de entrada al modelo (Román, 2012). Estas técnicas son aplicadas principalmente en problemas donde se busque: o La formación de agrupaciones de observaciones/variables. o La reducción de la dimensionalidad de la base de datos, ya que una observación/variable puede representar con gran precisión el comportamiento de un grupo que comparte mismas características. Para ello, dentro de este tipo de aprendizaje, los algoritmos de aplicación más utilizados son: o Análisis de Componentes Principales (ACP o PCA) o Análisis factorial o Análisis cluster (Clustering) Uno de los inconvenientes que presentan estos algoritmos, al no tener predefinido un objetivo, como por ejemplo en el caso del clustering, es el hecho de que se pueden dar relaciones o agrupaciones forzadas que sean poco prácticas, es decir carezcan de utilidad por no tener sentido alguno.. A partir de este punto, los estudios previos de este trabajo se centran en la técnica de aprendizaje no supervisado de Análisis Cluster. Esta técnica aplicada a variables, como se verá más adelante en el caso práctico, es poco frecuente, esto se debe a que este método se utiliza principalmente para relacionar observaciones. Por tanto, este trabajo aportará respuestas diferentes a las de otros métodos para un mismo problema. Javier de Eusebio Hernández. 5.

(18) 2. METODOLOGÍA. 2.1. Análisis Cluster Cluster, es un término anglosajón que se puede definir como “asociación o agrupación de elementos, ya sean, por ejemplo, personas, compañías de teléfonos o medicamentos, que poseen algo en común que los identifica como grupo” (Sharma, 1996, What is cluster analysis?) El Clustering es una técnica de Machine Learning de tipo aprendizaje no supervisado centrada en la combinación de observaciones en clusters/grupos. Estos clusters se caracterizan por agrupar observaciones que poseen características similares o “similitudes” que pueden o no, notarse a primera vista. Las observaciones nuevas que se adjudican a una agrupación “heredan” las propiedades de dicho grupo. Estas “similitudes” dependerán del tipo de análisis que se esté realizando y del objetivo final del estudio. Esto es lo que se conoce como Similarity Measures o medidas de similitud (Sharma, 1996, Similarity measures). Estas medidas son fundamentales a la hora de decidir cuál será la siguiente agrupación del análisis. En el caso de este trabajo, las medidas de similitud utilizadas son el cuadrado de la distancia euclídea y la correlación, dependiendo de la técnica empleada. 𝑝 Distancia Euclídea → 𝐷𝑖𝑗 2 = ∑𝑘=1(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ). 2. (2.1). 𝑝. Correlación muestral → 𝑟𝑖𝑗 =. ∑𝑘=1(𝑥𝑖𝑘 −𝑥̅𝑖 )(𝑥𝑗𝑘 −𝑥̅𝑗) 𝑝. 𝑝. √∑𝑘=1(𝑥𝑖𝑘 −𝑥̅𝑖 )2√∑𝑘=1(𝑥𝑗𝑘 −𝑥̅𝑗)2. = cos 𝛼𝑖𝑗. (2.2). siendo 𝐷𝑖𝑗 2 el cuadrado de la distancia euclídea entre las observaciones i y j, y 𝑟𝑖𝑗 la correlación muestral entre las observaciones i y j ( ∀𝑖, 𝑗 ∈ [1, 𝑛] donde n = nº de observaciones o clusters), y p el número de variables en nuestra matriz de datos. 𝑥𝑖𝑘 y 𝑥𝑗𝑘 son los valores de la variable k para las observaciones i y j, y 𝑥̅ 𝑖 y 𝑥̅𝑗 son las medias de dichas observaciones. La correlación también equivale al coseno del ángulo 𝛼𝑖𝑗 que forman los vectores de las observaciones i y j. Una vez decidido el tipo de medida de similitud y calculados dichos valores, se forma la matriz cuadrada de similitud de dimensión 𝑛 𝑥 𝑛, que irá reduciéndose a medida que se avance en el análisis y se vayan agrupando las observaciones (se detallará en el apartado 2.1.1. Análisis Cluster Jerárquico). Dentro de las medidas de similitud cabe mencionar ciertas aclaraciones que son fundamentales a la hora del crecimiento del cluster (Universidad de Valencia, 2019): -. -. 6. Cuanto menor sea 𝐷𝑖𝑗 2 , habrá más cercanía entre i y j en el espacio de p dimensiones, lo que se traduce en observaciones con características similares y mayor tendencia a su agrupación. Si 𝑟𝑖𝑗 ≅ 1 , existirá una mayor relación directamente proporcional entre i y j y gran tendencia a su agrupación. Si 𝑟𝑖𝑗 ≅ −1 , existirá una mayor relación inversamente proporcional entre i y j y gran tendencia a su agrupación. Si 𝑟𝑖𝑗 ≅ 0 , menor será la relación lineal entre i y j y, por tanto, menor tendencia a su agrupación.. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(19) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. Una de las desventajas que tiene el uso de la distancia euclídea como medida de similitud es introducir el efecto de la magnitud en el análisis lo que puede dar lugar a distorsiones. Por lo que viene a ser necesaria una estandarización previa de los datos. Por otro lado, esto se convierte en una ventaja en el caso de trabajar con correlaciones ya que se desprecia este efecto de magnitud. En cuanto al proceso habitual de análisis cluster (Sharma, 1996, Objective of cluster analysis), éste se basa en cinco pasos: 1. Elección de la medida de similitud. En nuestro caso distancia euclídea o correlación. 2. Decidir que con qué técnica de clustering se va a utilizar en el análisis (jerárquica o no jerárquica). 3. Determinar qué tipo de método se requiere según la técnica elegida anteriormente. Cada técnica tiene sus propios métodos. 4. Se tomará una decisión con respecto al número de clusters. Dependiendo de la técnica elegida, se selecciona el número de grupos a priori o se iterará hasta conseguir la estructura que más convenga. 5. Se interpreta y se analiza la solución obtenida. A continuación, se explicarán las diferentes técnicas y métodos del clustering, profundizando en aquellas que han sido claves para el desarrollo del TFG.. 2.1.1. Análisis Cluster Jerárquico Los métodos jerárquicos no necesitan fijar un número de clusters previamente, sino que, de iteración en iteración, las observaciones se van añadiendo a los grupos hasta llegar a formar un único cluster. Estas agrupaciones irán apareciendo según indique la medida de similitud que se esté empleando en el método. Obviamente, tener un único cluster con todas las observaciones carece de mucho sentido por el hecho de causar una elevada variabilidad interna. Por ello se hace necesaria la presencia de un factor externo para decidir qué estructura de clusters, generada por un corte en el árbol resultado, es la óptima para el objetivo del estudio. En el caso de este trabajo, al utilizarse datos de evaluación de concesionarios de una gran marca de automóvil PREMIUM, ese factor es el tutor externo (departamento de desarrollo de red como responsable de zona de dicha empresa), persona que convive con esa información y puede aportar una visión empresarial al análisis. Dentro de los métodos jerárquicos se pueden destacar cinco, que se diferencian unos de otros en la manera en la que se van sumando observaciones a los cluster y se va modificando la matriz de similitud (distancias o correlaciones). A continuación, se desarrollan los métodos y se profundiza en los utilizados en el proyecto (Sharma, 1996, Hierarchical clustering):  Método del Centroide / Centroid Method En este método, a la hora de agruparse dos clusters (ya sea unitario o de grupo), el valor de sus datos de entrada se sustituye por la media ponderada de dichos datos, siendo éste el centroide del grupo.. Javier de Eusebio Hernández. 7.

(20) 2. METODOLOGÍA. 𝐶𝑚𝑘 =. 𝑁𝑖 𝑥𝑖𝑘 +𝑁𝑗 𝑥𝑗𝑘. (2.3). 𝑁𝑖 + 𝑁𝑗. siendo m la agrupación de i y j, por tanto 𝐶𝑚𝑘 el centroide del cluster m (formado por i y j) en la variable k. 𝑥𝑖𝑘 y 𝑥𝑗𝑘 son los valores de la variable k y 𝑁𝑖 y 𝑁𝑗 el número de observaciones que forman los clusters i y j. ∀𝑖, 𝑗 ∈ [1, 𝑛] donde n = nº de observaciones. Por tanto, en la matriz de datos de entrada se suprimen las dos filas y las dos columnas de las observaciones o clusters i y j que han sido agrupadas y aparece una nueva fila y columna del cluster m con los valores de 𝐶𝑚𝑘 , en vez de las dos observaciones. A continuación, se debe modificar la matriz de similitud (en nuestro ejercicio usamos este método utilizando el cuadrado de las distancias euclídeas como medida de similitud), al igual que con la matriz de datos de entrada se sustituyen las filas y columnas antiguas por la del nuevo cluster (esto se repite en todos los métodos). Esta modificación en las distancias quedaría de la siguiente manera: 𝑝. 𝐷𝑚𝑗 2 = ∑𝐾=1(𝐶𝑘 − 𝑥𝑗𝑘 ). 2. (2.4). En la que 𝐷𝑚𝑗 es la distancia euclídea entre el cluster m y la observación j, siendo ∀𝑗 ∈ [1, 𝑛 − 1] donde n = nº de observaciones (se resta uno porque ya se ha formado un grupo). 𝐶𝑘 el valor del cluster en la variable k (es decir el 𝐶𝑚𝑘 comentado anteriormente) y 𝑥𝑗𝑘 el valor de la variable k en la observación j. Una vez actualizada la matriz de similitud por la formación del cluster, dicha matriz reduce su tamaño a [𝑛 − 1 𝑥 𝑛 − 1], se buscaría cuál es la mínima distancia euclídea y entre qué observaciones se da la dicha. Esto daría lugar a la siguiente iteración con el crecimiento de un cluster o la formación de uno nuevo. Este proceso se vería repetido hasta la formación de un único cluster con todas las observaciones. Este tipo de método tiene como general su aplicación sobre la rama de estudio de genomas o genómica, pero resulta interesante su aplicación en otros campos para conocer su adaptación a otros campos (como se mostrará en el caso de aplicación). Aunque esta técnica presenta un inconveniente, ya que, pueden aparecer inversiones indeseadas en el árbol de agrupaciones que dificulten la interpretación de los resultados (Martínez, 2018).  Método del vecino más lejano o Enlace completo / Furthest-neighbor or Complete-linkage method Este método a diferencia del anterior no modifica la matriz de datos de entrada, sino que trabaja directamente sobre la matriz de similitud. Tanto este método como los dos siguientes son sencillos para aplicar. Como se hace en todo método, lo primero es decidir qué observaciones o clusters se van a agrupar según la mínima distancia euclídea o la mayor correlación en valor absoluto. Superado esto, se modifica la matriz de similitud. Para ello, se comparan todos los valores de los dos clusters de la matriz de similitud [𝑛 𝑥 𝑛], por ejemplo, distancias euclídeas al cuadrado, y el mayor valor de los dos se elige como la distancia euclídea del nuevo cluster m sobre la observación o cluster k que corresponda: 𝐷𝑚𝑘 2 = 𝑚𝑎𝑥(𝐷𝑖𝑘 2 , 𝐷𝑗𝑘 2 ). 8. (2.5). Escuela Técnica Superior de Ingenieros Industriales (UPM).

(21) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. siendo m la agrupación de i y j, ∀𝑘 ∈ [1, 𝑛] si {. 𝑘 = 𝑖 → 𝐷𝑚𝑘 = 0 , siendo 𝑛 el n.º de 𝑘 = 𝑗 → 𝐷𝑚𝑘 = 0. clusters en la matriz de similitud. Este método presenta poca robustez ante datos atípicos, por tanto, no se recomienda su uso a no ser que el objetivo del análisis sea detectar valores outliers. Debido a esto, para nuestro caso de aplicación se ha preferido evitar su uso.  Método del vecino más cercano o Enlace simple / Nearest-neighbor or Singlelinkage method El método del Enlace Simple es el opuesto al método anterior. Aunque el proceso sea completamente igual, a la hora de seleccionar la distancia del nuevo cluster m con cada una de las observaciones k, se elige la menor en vez de la mayor: 𝐷𝑚𝑘 2 = 𝑚𝑖𝑛(𝐷𝑖𝑘 2 , 𝐷𝑗𝑘 2 ) siendo m la agrupación de i y j, ∀𝑘 ∈ [1, 𝑛] si {. (2.6). 𝑘 = 𝑖 → 𝐷𝑚𝑘 = 0 , siendo 𝑛 el nº de 𝑘 = 𝑗 → 𝐷𝑚𝑘 = 0. clusters en la matriz de similitud. Al igual que en el método del vecino más lejano, éste también es poco robusto ante valores atípicos y de la misma forma se desestima su aplicación en el trabajo.  Método de agrupación por promedio / Average-linkage method Este método es una combinación de los dos anteriores y, por ello, de las tres técnicas anteriores, es el más robusto ante variaciones anormales. Ésta ha sido la razón por la que se ha seleccionado este procedimiento como uno de los métodos para aplicar sobre nuestra base de datos. El proceso es el mismo que en los dos casos previos, salvo que cuando se va a calcular la medida de similitud del nuevo cluster m con cada una de las n observaciones, se realiza una media ponderada. En el uso de este método en el trabajo, se han empleado correlaciones y distancias euclídeas al cuadrado para realizar comparaciones. 𝐷𝑚𝑘 2 =. 𝑁𝑖 𝐷𝑖𝑘 2 +𝑁𝑗 𝐷𝑗𝑘 2. 𝑐𝑚𝑘 =. 𝑁𝑖 + 𝑁𝑗 𝑁𝑖 𝑐𝑖𝑘 +𝑁𝑗 𝑐𝑗𝑘 𝑁𝑖 + 𝑁𝑗. (2.7) (2.8). 𝑘 = 𝑖 → 𝐷𝑚𝑘 = 0 Siendo m la agrupación de i y j, ∀𝑘 ∈ [1, 𝑛] si { ; 𝑁𝑖 y 𝑁𝑗 el nº de 𝑘 = 𝑗 → 𝐷𝑚𝑘 = 0 observaciones que incluyen los clusters i y j respectivamente; 𝐷𝑚𝑘 y 𝑐𝑚𝑘 la distancia euclídea y la correlación, respectivamente, del clúster m con el resto de elementos de la matriz de similitud.  Método de Ward / Ward´s method Este método también es conocido como método de varianza mínima (EcuRed, 2019), ya que las agrupaciones se hacen siguiendo como norma que la información que se pierde al formarse un clúster sea la mínima posible. Esta pérdida de información se. Javier de Eusebio Hernández. 9.

(22) 2. METODOLOGÍA. mide como la suma de las distancias al cuadrado entre cada observación y el centroide del clúster en el que están incluidas, esto es lo que se conoce como “Suma de Cuadrados Error (ESS)”. Es obvio que un cluster que contiene una sola observación no pierde información. El proceso es sencillo pero laborioso sino se dispone de programación para resolver el problema. Esto se debe a que hay que ir poco a poco estudiando todas las casuísticas que se pueden dar y ver cuál es la que menor pérdida de información genera. Por tanto, se comienza viendo todos los casos de formación de un cluster con dos observaciones, resultando únicamente aquel cluster con ESS mínimo. Así, paso a paso, se irían formando todos los grupos.. Finalmente, cabe mencionar cómo se representan todas estas agrupaciones de una forma gráfica y a la vez muy útil para la comprensión del proceso. La técnica más utilizada es el dendrograma, que sirve como representación gráfica en forma de árbol de todas las agrupaciones que se dan durante el análisis. Este árbol tiene dos dimensiones, en el eje de abscisas se muestran todas las observaciones (ordenadas de una forma específica para que no haya superposiciones) y en el eje de ordenadas la medida de similitud. Así se pueden apreciar de mejor forma que observaciones comparten características similares y cuales difieren del resto. Además, a estos árboles se les puede cortar por donde se desee, lo que generará una estructura de clusters diferente. Aunque, se debe tener muy en cuenta la dispersión de cada agrupación. Por lo general, se irán dando cortes hasta encontrar la estructura con más sentido para el objetivo del estudio.. Figura 2.1: Ejemplo de Clustering con correlación como medida de similitud y corte en c=0.91. Por tanto, la estructura formada es A, BC, D, E, FG.. Puede darse el caso de que haya datos atípicos en la base de datos, lo que genera un dendrograma muy irregular, achatado en la parte inferior y muy alargado. Por ello, se recomienda eliminar el eje de ordenadas y representar solamente el orden de agrupaciones que se van formando. De lo contrario, con la observación directa del árbol solo se podrán apreciar los casos más excepcionales. Por ejemplo, el caso que se muestra en la figura siguiente:. 10. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(23) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. Figura 2.2: Dendrograma resultado de la aplicación del método del centroide a una base de datos con valores atípicos.. 2.1.2. Análisis Clúster No Jerárquico Los métodos pertenecientes a este tipo de técnicas se caracterizan por necesitar un número de clusters antes de iniciar dicho análisis (Alonso, 2018, pp.6-24). Esto puede suponer una desventaja si no se tiene un conocimiento pleno de los datos empleados o si no se ha realizado un análisis previo para conocer el número de grupos óptimo. Por tanto, al inicio del análisis se seleccionan k centroides o puntos semilla de un conglomerado, donde k es el número de clusters que se desean al final del análisis. Como ya se ha mencionado, esto puede ser un contratiempo, sobre todo si se desconoce información de los datos de entrada. Existen varias formas de atajar este problema como, por ejemplo: -. Elegir k observaciones de los datos de entrada como puntos semilla de forma aleatoria. Elegir las primeras k observaciones de los datos de entrada como puntos semilla. Seleccionar centroides que estén a una distancia alejada entre ellas. Pedir al proveedor de los datos que proporcione k puntos semilla.. Una vez que ya se han seleccionado los centroides, se asignan las observaciones más cercanas a dicho punto para formar cada cluster. A continuación, siguiendo una regla definida al inicio, se recolocan las observaciones en los clusters que correspondan en función de dicha regla. Esto es una ventaja que tienen estos métodos que, a diferencia de los jerárquicos, las observaciones pueden ir saliendo de los clusters ya formados para ir a parar a otros clusters. Algunas de estas reglas pueden ser:. Javier de Eusebio Hernández. 11.

(24) 2. METODOLOGÍA. -. -. Modificar los centroides de los clusters una vez que ya se han reasignado todas las observaciones a cada cluster. Si la variación de los centroides con respecto al inicio es muy significativa (se puede usar un criterio de convergencia) se continúan reasignado observaciones y se vuelven a ajustar todos los centroides. Si el cambio en los centroides es pequeño con respecto al criterio elegido se para el proceso de recolocación de observaciones en los clusters. Modificar los centroides de los clusters cada vez que se añada una observación cercana al grupo y, por consiguiente, también se reajustan los centroides de los clusters de los que salgan dichas observaciones. Al igual que en la regla anterior, el proceso de recolocación se para cuando el cambio en los centroides sea menor que el criterio de convergencia elegido.. Un ejemplo de criterio de convergencia puede ser la “Suma de Cuadrados Error (ESS)” que se comentaba en el método de Ward. Esta medida representaba la perdida de información al añadir una observación a un cluster y se calculaba como la suma de las distancias al cuadrado entre cada observación y el centroide del grupo en el que están incluidas. Por tanto, una observación se añadirá a un cluster cuando el cambio de pasar una observación de una agrupación a otra suponga la mayor disminución del ESS con respecto al cambio con cualquier otro cluster. Uno de los métodos no jerárquicos de Análisis Cluster más conocidos es el K-Means (Universidad de Granada, 2019).. 2.1.3. Ventajas y desventajas Tabla 2.1: Ventajas y desventajas entre tipos de análisis de cluster.. Ventajas Cluster no jerárquico. -. -. Cluster jerárquico. -. Inconvenientes. Sencillo y rápido Libertad para recolocar observaciones. Procesamiento de elevado volumen de datos.. -. Representación gráfica de las iteraciones en un dendrograma. No fija un número de clusters a priori. Procesamiento de elevado volumen de datos.. -. -. -. Muy sensible ante observaciones anómalas. Requiere establecer el nº de clusters al inicio. Sensible a la elección de las particiones iniciales. No se pueden recolocar elementos que ya han sido asignados a un grupo. Sensible a datos extremos dependiendo del método y de la medida de similitud. Interpretaciones complejas.. Estos dos tipos de técnicas no son incompatibles, sino todo lo contrario. Realmente, utilizar un método jerárquico y uno no jerárquico de forma secuencial puede ser de gran utilidad y ayudar a la posterior interpretación. Cuando no se dispone de mucha información de inicio acerca de los datos, puede resultar tedioso calcular unos puntos semilla con métodos no jerárquicos. Por esta razón, al inicio es más eficaz utilizar métodos jerárquicos que nos acerquen al máximo al número de clusters más beneficioso para nuestro estudio. Una vez decidido el número de conglomerados, utilizando un. 12. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(25) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. método no jerárquico, como el K-Menas, se puede llegar completar la solución del análisis (Alonso, 2018, pp.65-67).. 2.1.4. Clustering de Variables Como ya se mencionó al inicio, la intención de este trabajo es conocer cuáles son las relaciones que hay entre 38 variables utilizadas para la valoración de 59 concesionarios de automóviles de toda España. Para conseguir esto, se va a aplicar el clustering de variables, algo que no suele ser muy habitual, ya que para conocer las similitudes entre variables se suelen utilizar otros métodos que dan respuestas diferentes pero que no excluyen el uso de otras técnicas. Además, el análisis clúster comúnmente se usa para estudiar las relaciones entre las observaciones, como en nuestro caso las que esconden los concesionarios, y no entre variables, porque tanto la programación como la interpretación de la solución es más sencilla. El objetivo principal de este tipo de análisis es reducir la dimensión de problemas con gran cantidad de variables. Para conseguir esto, el análisis pretende descubrir redundancias entre variables del mismo cluster y, por tanto, eliminar alguna de ellas, y detectar variables que estando agrupadas manifiestan información diferente. Toda la teoría y metodología comentada hasta hora se centraba en observaciones por ser lo más común, pero su aplicación a las variables es exactamente igual salvo por añadir varios pasos al inicio. Estos pasos sirven para adaptar el problema del clustering de variables a uno habitual de análisis cluster. Para ello, una vez que se tienen todos los datos de entrada agrupados de forma matricial como observaciones en filas y variables en columnas (forma común): 1. Se estandarizan los datos por las variables (columnas) para homogeneizar los valores de cada una de ellas entre todos los concesionarios. Este paso podría ser común a un problema de clustering de observaciones, de esta forma se evitan los efectos provocados por los outliers. 2. Se transpone la matriz de datos previamente estandarizados. 3. Se estandariza una segunda vez por las columnas, esta vez ocupadas por las observaciones (para un clustering de variables, las observaciones son las que actúan como “variables”). Si se hubiera ahorrado el paso 1, al haber variables tanto porcentuales como unitarias de magnitudes totalmente distintas, se incluirían en el análisis efectos de magnitud que deformarían nuestro dendrograma (véase Figura 2.2). Por tanto, estos pasos son imprescindibles para la correcta realización de este tipo de análisis sobre variables.. Javier de Eusebio Hernández. 13.

(26) 2. METODOLOGÍA. 14. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(27) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. 3. RESULTADOS 3.1. Caso de aplicación: Marca de automóviles PREMIUM Como ya se ha mencionado con anterioridad, la base de datos, proporcionada por la empresa que colabora con el proyecto, proviene de la información recogida durante el periodo anual de 2017 (Rubio, 2018). Dicha base de datos está constituida por 59 concesionarios de toda España (filas) y 38 variables utilizadas para su evaluación (columnas). A continuación, se profundiza y se definen cada una de las variables, para así poder dar una descripción adecuada a las relaciones que se forman en el posterior análisis. 1. Unidades Retail VN → Número de unidades de vehículo nuevo adquiridas por el concesionario, con objetivo de venta. 2. Cumplimentación Objetivo Ventas → Porcentaje cumplido del objetivo de unidades retail de vehículo nuevo, marcado a principio de año. 3. Sgm+ Share TOTAL → Cuota de matriculaciones del concesionario de la marca en el segmento de mercado PREMIUM, en su área de influencia. 4. Sgm+ Share SIN RAC → Cuota de matriculaciones del concesionario de la marca en el segmento de mercado PREMIUM, en su área de influencia. Pero se elimina el efecto de los rentacares (Avis, Hertz…). 5. Sgm+ Share PARTICULAR → Cuota en el segmento de marcas PREMIUM en su área de influencia y en el canal particular. 6. NV Turnover → Facturación (€) del departamento de vehículos nuevos. 7. NV Gross Margin(%) → Margen bruto del departamento de vehículos nuevos. 8. NV Tot.Direct Exp.(%) → Porcentaje total de gastos directos del departamento de vehículos nuevos. 9. UV Turnover → Facturación (€) del departamento de vehículos usados. 10. UV Gross Margin (%) → Margen bruto del departamento de vehículos usados. 11. UV Tot.Direct Exp. (%) → Porcentaje total de gastos directos del departamento de vehículos usados. 12. Uds.UV → Número de unidades de vehículo usado adquiridas por el concesionario, con objetivo de venta. 13. %UV/NV → Porcentaje de venta de vehículos usados respecto a vehículos nuevos. 14. Existencias → Stock (€) de NV y UV. De acuerdo con su valor en el balance. 15. Meses vta(1) → Meses para la venta del stock. Es el total de valor de stock entre la facturación media en un mes. 16. SPARE&P. Turnover → Facturación (€) del departamento de piezas de repuesto. 17. SPARE&P Gross Margin (%) → Margen bruto del departamento de piezas de repuesto del concesionario. 18. SPARE&P. Tot.Direct Exp. (%) → Porcentaje total de gastos directos del departamento de piezas de repuesto del concesionario. 19. SERVICE Turnover → Facturación del departamento de servicio de un concesionario (€). 20. SERVICE Turnover Gross Margin (%) → Margen bruto del departamento de servicio del concesionario. 21. SERVICE Tot.Direct Exp. (%) → Porcentaje total de gastos directos del departamento de servicio del concesionario.. Javier de Eusebio Hernández. 15.

(28) 3. RESULTADOS. 22. Cumplimentación Objetivo Posventa → Porcentaje cumplido del objetivo de ventas de recambios, marcado a principio de año. 23. Facturación por orden → Facturación media (€) por cada orden de trabajo que se abre en el taller para una reparación. 24. Fidelidad → (%) del total de parque asignado a un concesionario que al menos ha vuelto una vez al mismo concesionario en los últimos dos años. 25. TOT BUS. AREAS Turnover → Facturación total del concesionario (€). 26. TOT BUS. AREAS Turnover Gross Margin (%) → Margen bruto total del concesionario. 27. TOT BUS. AREAS Tot.Direct Exp. (%) → Porcentaje total de gastos directos sobre la facturación total. 28. TOT BUS. AR. Tot.Indirect Exp. (%) → Porcentaje total de gastos indirectos totales del concesionario. 29. BAI → Beneficio (€) antes de impuestos. 30. BAI (%) → Porcentaje de beneficios antes de impuestos. 31. FAS → Factor de absorción de servicio (%). Es aquella parte del total de los gastos del concesionario que se absorbe con el margen bruto de servicio y recambios. 32. SOLVENCIA → Porcentaje de fondos propios de la sociedad sobre el total de balance. 33. LIQUIDITY → Relación (%) entre el activo y el pasivo circulantes, para ver si se puede hacer frente a las deudas a corto plazo. 34. AMORTIZACIONES → Pérdida de valor de los activos del concesionario (€). 35. EBITDA → Earnings before Interest, Taxes, Depreciation and Amortization (€). 36. Satisfacción de ventas → Índice de 1 a 10 resultado de encuestas a clientes de venta. 37. Satisfacción de Posventa → Índice de 1 a 10 resultado de encuestas a clientes de posventa, en taller. 38. Reclamaciones Posventa → Número de reclamaciones en porcentaje que se le imputa del objetivo anual. Para realizar el análisis, se ha utilizado la herramienta estadística R-Studio. En su librería se pueden encontrar diferentes paquetes con funciones específicas para el análisis cluster jerárquico, como es el caso de la función hclust() (Hidalgo, 2017). En caso de este proyecto, se ha preferido realizar un código aparte y utilizar dichas funciones para comparar que los resultados de la programación propia del alumno coincidían con los que se obtendría con el uso de las funciones predeterminadas de R. De esta forma, se pretende que el alumno comprenda perfectamente el funcionamiento y la metodología de este tipo de análisis. Como el objetivo de este trabajo no era la programación, se ha realizado un código muy simple y sencillo para facilitar su comprensión. A continuación, a modo resumen, se explica cómo se ha llevado a cabo la programación de los métodos para conseguir sus respectivos dendrogramas: 1. Importación a R-Studio de la matriz de datos (concesionarios en filas, variables en columnas, dimensión 59x38). 2. Estandarizaciones de los valores de la matriz. 3. Inicialización y creación de la matriz de similitud entre las variables (distancias o correlaciones) con dimensión 38x38.. 16. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(29) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. 4. Si es posible se utiliza alguna función de clustering jerárquico de R-Studio para poder ir analizando cada iteración (hclust() nos permite seleccionar un método e introducir la matriz de distancia o correlaciones). Estas funciones nos generan un dendrograma sobre el cual podemos generar cortes y observar la estructura formada (función cutree()) 5. Agrupación del par de variables/clusters según la medida de similitud y la metodología explicada con anterioridad: - Distancias: se agrupan aquellos elementos con distancia más próxima a 0. - Correlación: se agrupan aquellos elementos cuya correlación en valor absoluto es más próxima a 1. 6. Comparación de la agrupación formada con este método con la que se obtiene con la librería de R-Studio. 7. Repetición de los puntos 5 y 6 durante las 37 iteraciones hasta formar un único cluster con todas las variables. Como resultado de la ejecución de este código se obtienen todos los conglomerados de variables que se van formando para tres métodos diferentes de cluster jerárquico (agrupación por promedio con distancias euclídeas y con correlaciones, y método del centroide con distancias euclídeas) y uno no jerárquico, K-Means. De esta forma se obtienen cada uno de los árboles (dendrogramas) a partir de los cuales se interpretan los resultados.. 3.1.1. Situación inicial del problema Antes de comenzar con el análisis, resulta conveniente comentar la situación inicial del sistema. Para ello, el estudio se podría valer de la correlación, para así conocer qué relaciones y de que tipo (directa o inversa) son más intensas, o de la matriz de distancias, para tener una visión más global del problema. Es importante conocer esta información, debido a que, varios clusters que surgirán en cada uno de los métodos se pueden apreciar desde el inicio. De hecho, en cuanto a las correlaciones, el primer cluster que se forma en cada uno de los métodos es el que une al par de variables más correlacionado. Esto demuestra una gran robustez del modelo ante medidas de similitud diferentes. Como muestra la Tabla 3.1 dicho grupo lo forman las variables de unidades de vehículo nuevo adquiridas por el concesionario (V1) y la facturación total de este (V25). A pesar de que esto sea razonablemente lógico y demostrable (acerca del 80% de la facturación total de un concesionario se obtiene de la venta de vehículos) sorprende que el número de vehículos nuevos esté ligeramente más correlacionado con la facturación total (0.977) que con la propia facturación de su departamento (0.965). Esto solo puede tener dos causas, el ruido estadístico o la falta de datos en la base de estudio, por lo que, al añadir información de varios periodos podría resolverse. Pero, a nivel práctico, estas dos correlaciones son tan parecidas que apenas se puede afirmar estadísticamente que sean diferentes y, por tanto, se las puede tratar como idénticas.. Javier de Eusebio Hernández. 17.

(30) 3. RESULTADOS Tabla 3.1: Correlación entre variables en la situación inicial. Variable A 1.. 1. Unidades Retail VN. 2.. 25. TOT BUS. AREAS Turnover. 3.. 9. UV Turnover. 4.. 12. Uds.UV. 5.. 6. NV Turnover. 6.. 3. Sgm+ Share TOTAL. 7.. 4. Sgm+ Share SIN RAC. 8.. 16. SPARE&P. Turnover. 9.. 19. SERVICE Turnover. 10.. 14. Existencias. 11.. 29. BAI. 12.. 35. EBITDA. 13.. 32. SOLVENCIA. 14.. 33. LIQUIDITY. 15.. 26. TOT BUS. AREAS Turnover Gross Margin (%). 16.. 20. SERVICE Turnover Gross Margin (%). 17.. 21. SERVICE Tot.Direct Exp. (%). 18.. 11. UV Tot.Direct Exp. (%). 19.. 27. TOT BUS. AREAS Tot.Direct Exp. (%). 20.. 7. NV Gross Margin(%). 21.. 34. AMORTIZACIONES. 22.. 30. BAI (%). 23.. 8. NV Tot.Direct Exp.(%). 24.. 5. Sgm+ Share PARTICULAR. 25.. 28. TOT BUS. AR. Tot.Indirect Exp. (%). 26.. 23. Facturación por orden. 27.. 31. FAS. 28.. 15. Meses vta(1). 29.. 13. %UV/NV. 30.. 10. UV Gross Margin (%). 31.. 2. Cumplimentación Objetivo Ventas. 32.. 17. SPARE&P Gross Margin (%). 33.. 38. Reclamaciones Posventa. 34.. 18. SPARE&P. Tot.Direct Exp. (%). 35.. 24. Fidelidad. 36.. 22. Cumplimentación Objetivo Posventa. 37.. 36. Satisfacción de ventas. 38.. 37. Satisfacción de Posventa. Correlación 0,977 0,977 0,973 0,973 0,965 0,956 0,956 0,945 0,942 0,827 0,819 0,819 0,721 0,721 -0,690 0,627 0,627 0,540 0,540 0,534 0,521 -0,504 0,478 0,439 0,437 0,418 0,418 0,415 -0,409 0,388 -0,384 -0,356 -0,352 -0,303 -0,303 -0,278 -0,278 0,225. Variable B 25. TOT BUS. AREAS Turnover 1. Unidades Retail VN 12. Uds.UV 9. UV Turnover 1. Unidades Retail VN 4. Sgm+ Share SIN RAC 3. Sgm+ Share TOTAL 19. SERVICE Turnover 16. SPARE&P. Turnover 25. TOT BUS. AREAS Turnover 35. EBITDA 29. BAI 33. LIQUIDITY 32. SOLVENCIA 12. Uds.UV 21. SERVICE Tot.Direct Exp. (%) 20. SERVICE Turnover Gross Margin (%) 27. TOT BUS. AREAS Tot.Direct Exp. (%) 11. UV Tot.Direct Exp. (%) 26. TOT BUS. AREAS Turnover Gross Margin (%) 16. SPARE&P. Turnover 19. SERVICE Turnover 7. NV Gross Margin(%) 3. Sgm+ Share TOTAL 26. TOT BUS. AREAS Turnover Gross Margin (%) 31. FAS 23. Facturación por orden 31. FAS 5. Sgm+ Share PARTICULAR 30. BAI (%) 16. SPARE&P. Turnover 16. SPARE&P. Turnover 31. FAS 24. Fidelidad 18. SPARE&P. Tot.Direct Exp. (%) 27. TOT BUS. AREAS Tot.Direct Exp. (%) 35. EBITDA 32. SOLVENCIA. Por otro lado, la segunda correlación más fuerte (0.973), a diferencia de la anterior, sí que agrupa las unidades adquiridas de vehículos usados con la facturación de dicho departamento, algo coherente y totalmente esperado, ya que la facturación de vehículos nuevos se obtiene íntegramente del comercio con dichos vehículos. En cuanto a las cuotas de mercado, primero es necesario conocer que la TOTAL del concesionario está compuesta por varias subcuotas diferentes entre las que se encuentran: SIN RAC (sin rentacares) y PARTICULAR (ciertos clientes muy específicos). De modo que, viendo la situación inicial se puede observar que la cuota SIN RAC aporta una información de gran similitud a la de la cuota del mercado TOTAL, a 18. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(31) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. diferencia de lo que ocurre con la PARTICULAR. Esto ha sido constatado con el especialista de la marca. Otro punto para destacar es acerca del beneficio. La correlación fuerte entre EBITDA y BAI (0.819) es comprensible, debido a que, como ya se conoce, el beneficio antes de impuestos se cuantifica como: 𝐵𝐴𝐼 = 𝐸𝐵𝐼𝑇𝐷𝐴 − 𝐴𝑚𝑜𝑟𝑡𝑖𝑧𝑎𝑐𝑖ó𝑛 − 𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑒𝑠. (3.1). Por tanto, estas dos variables proporcionan una información semejante a pesar de las diferencias de cálculo. Sucede lo contrario con el beneficio antes de impuestos porcentual, BAI (%), porque como se puede ver, la variable con la que se encuentra más correlacionada es con la facturación de servicios (-0.504) y no con los beneficios (aunque por poco). Esto tiene una explicación, BAI (%) refleja el beneficio obtenido (BAI) por un concesionario respecto al total de su facturación, es decir, no manifiesta la misma información que un beneficio como tal. Por ejemplo, partiendo de la base de que la cantidad de facturación convertida a beneficio es muy reducida (debido a la incursión en grandes gastos), en esta marca de automóviles PREMIUM, se dan casos de concesionarios pequeños que poseen mayores BAI(%) que otros de magnitud mayor, debido a que facturan y gastan menos. A pesar de esto, como se verá en la representación gráfica de la matriz de distancias, las tres variables se encuentran muy próximas.. Figura 3.1: Comparativa de EBITDA, BAI y BAI (o/oooooo) 2016-2017. Un cluster que será común en todos los métodos y que se puede apreciar desde el inicio, es el formado por las variables de solvencia y liquidez. Estudiando esta relación con el experto en cuestión, se destaca que aquellos concesionarios que se muestran más solventes ante sus deudas poseen una situación de liquidez positiva. Por último, hay que mencionar que las variables, cuya correlación máxima es muy reducida y por tanto muy independientes, son las más subjetivas y difíciles de cuantificar, (aquellas que representan la satisfacción y fidelidad de los clientes o la realización de los. Javier de Eusebio Hernández. 19.

(32) 3. RESULTADOS. objetivos del concesionario). Esto provoca que las agrupaciones que surjan con dichas variables carezcan de mucho valor. Otra forma de valorar la situación inicial es con la representación gráfica de la matriz de distancias (también se podría obtener con la matriz de correlaciones). Esto permite, aparte de ver relaciones entre pares de variables, apreciar grupos más numerosos y gráficamente muy intensos, es decir, muy correlacionados.. 20. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(33) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. Figura 3.2: Representación gráfica de la matriz de distancias inicial. Javier de Eusebio Hernández. 21.

(34) 3. RESULTADOS. Analizando la figura, lo primero que se destaca (ignorando los puntos de la diagonal de la matriz cuadrada) es una proximidad alta entre un grupo de nueve variables (SERVICE Turnover, SPARE&P Turnover, TOT Bus. AREAS Turnover, Unidades Retail VN, NV Turnover, Existencias, UV Turnover, Uds.UV, AMORTIZACIONES) Cuando se profundice en los resultados de cada técnica, se verá que esto se traduce en un cluster común a los tres métodos. Además se puede observar una fuerte cercanía entre dicho grupo y las variables de beneficios (salvo el BAI(%)). También se estudia el punto de vista opuesto, es decir, qué variables están más lejanas a todas y por tanto son más independientes. Principalmente se aprecia que Reclamaciones posventa o Cumplimentación objetivo posventa (variables poco correlacionadas con las demás) están muy alejadas del resto. Como se puede observar, muchas de las correspondencias entre pares de variables comentadas en cuanto a su correlación, se repiten en esta representación gráfica. Esto vuelve a indicar la solidez y firmeza del modelo de estudio.. Antes de entrar en detalle en los resultados, es necesario recordar el factor clave para el análisis, la variabilidad interna. Mientras, los clusters se vayan formando o creciendo, irá aumentando la variabilidad de dicho cluster. Con este crecimiento, la dispersión de nuestra solución aumenta y el valor de esta se reduce. Dicha dispersión se cuantifica a través de la “Suma de Cuadrados” y representa la pérdida de información del cluster (véase 2.1.1 Análisis Cluster Jerárquico. Ward’s Method). Por ello hay que tener especial cuidado en qué posición realizar los cortes a los dendrogramas para no incurrir en asumir relaciones débiles como clusters rígidos. De tal manera que, es conveniente ser conservador al aplicar un corte para obtener una solución más robusta.. Una vez que ya se tiene una visión general de la situación de nuestro caso, se presentan los dendrogramas de cada uno de los tres métodos de clustering jerárquico y se describen los aspectos relevantes de cada uno de ellos.. 22. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(35) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. 3.1.2. Aplicación del Método del Centroide. Figura 3.3: Dendrograma con corte resultado del Método del Centroide. Javier de Eusebio Hernández. 23.

(36) 3. RESULTADOS. Los resultados de este método son poco esclarecedores de cara a un profundo análisis para la marca de automóviles, pero resultan de gran interés desde el punto de vista académico. Esto se debe a que reflejan conjeturas establecidas en la situación inicial, aportan un pequeño atisbo del camino a seguir para un resultado atractivo y, además, se evidencia el inconveniente que tiene este tipo de técnica de clustering (véase 2.1.1. Análisis Cluster Jerárquico. Método del Centroide). En el dendrograma mostrado en la Figura 3.3, se puede observar que se ha realizado un corte en torno a la distancia 𝑑 = 55 , el cual genera la estructura de conglomerados marcada por “cajas azules”. Este corte se ha situado en esa posición debido a que, a partir de ese punto, aparecen inversiones indeseadas que dificultan la interpretación. Además, los clusters formados por más de una variable poseen poca dispersión y una justificación lógica. En cambio, si se realizara un corte superior se forzaría a introducir variables que están alejadas, aumentando así la variabilidad total y reduciendo la coherencia de la solución. Analizando el número de asociaciones, se obtienen 4 de más de una variable y 19 unitarias, es decir, se ha reducido la dimensionalidad de nuestro sistema de 38 variables a 23. Pero ¿qué representan cada uno de estos clusters? Comenzando por el grupo más numeroso se puede notar como a lo largo de una distancia euclídea muy reducida se han agrupado varias variables. Todas ellas reflejan la magnitud o dimensión de un concesionario, ya que, representan facturaciones de distintos departamentos y unidades de vehículos adquiridos. A este grupo se incorporan las existencias y la amortización, las cuales suman información acerca de dicha dimensionalidad del concesionario y reafirman el razonamiento anterior. A continuación, se añaden dos variables de beneficios (BAI y EBITDA), lo cual se traduce en una relación entre la magnitud de un concesionario y su beneficio. La siguiente agrupación que se presenta, es aquella que vincula las cuotas de mercados TOTAL y SIN RAC, lo cual es esperado porque la única diferencia entre las dos cuotas es la eliminación del efecto de los rentacares, como ya se había mencionado al inicio. De hecho, la variabilidad en este cluster es muy reducida. De forma similar se agrupan la solvencia y la liquidez, dos conceptos financieros semejantes que reflejan la situación del concesionario. Otro cluster de interés, es el que comienza con la unión entre el margen bruto total y el coste directo total del concesionario. Esta relación se puede intuir, ya que, como bien se conoce, estos dos conceptos se relacionan entre sí a través del beneficio directo, aunque dependiendo del tipo de relación generará beneficio o pérdida: 𝐵𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜 𝐷𝑖𝑟𝑒𝑐𝑡𝑜 = 𝑀𝑎𝑟𝑔𝑒𝑛 𝐵𝑟𝑢𝑡𝑜 − 𝐺𝑎𝑠𝑡𝑜. (3.2). De la misma manera, a este grupo se añade el cluster formado por el margen bruto y el coste directo del departamento de nuevos, lo cual se puede interpretar como una relación entre el beneficio directo del departamento de vehículos nuevos con el beneficio total del concesionario. Esta relación no sorprende porque la primera agrupación del análisis y por tanto la más fuerte es la que une V1. Unidades retail VN y V25.TOT BUS. AREAS Turnover, es decir, el número unidades de vehículo nuevo con la facturación total del concesionario.. 24. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(37) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. Figura 3.4: Comparativa Margen Bruto y Gasto Directo del Dept. Vehículos Nuevos 2016-2017. El resto de clusters resultantes del corte sobre el dendrograma son unitarios, es decir formados por una única variable, y, por tanto, no dan lugar a entrar en detalle. Aunque este método no aporte una disminución de dimensionalidad grande, se ha optado comenzar por aquí porque se proporciona una idea o base general de cómo será la solución óptima, y porque introduce ideas comunes a las otras dos técnicas. Un tema que se puede destacar en este análisis y que puede resultar complejo de comprender son las inversiones. Este problema característico de este método, aunque poco probable, se puede introducir así: Teniendo tres poblaciones de observaciones/variables A, B y C con sus respectivos centroides ¿Cómo puede ser posible que se agrupen las dos poblaciones A y B por estar a menor distancia que C a estas, y que al realizar dicha unión la población C esté más cerca de lo que estaban A y B anteriormente? (véase Anexo 8.1. Inversiones de agrupación). En consecuencia, a este impedimento, se puede afirmar que este método resulta poco útil para aplicar sobre una base de datos reducida y tan variada, en la que aparecen variables de magnitudes y tipos tan diferentes. Por lo que resulta preferible y necesario aplicar otro procedimiento más fiable. Para concluir con este método, se resalta que el resultado de la programación interna con el resultado de la programación realizada por el alumno coincide al 100%.. Javier de Eusebio Hernández. 25.

(38) 3. RESULTADOS. 3.1.3. Aplicación del Método por Agrupación por Promedio (distancias). Figura 3.5: Dendrograma con corte resultado del Método de Agrupación por Promedio (distancias). 26. Escuela Técnica Superior de Ingenieros Industriales (UPM).

(39) APLICACIÓN DE MACHINE LEARNING AL MODELADO DE FUNCIONAMIENTO DE CONCESIONARIOS DE AUTOMVÓVILES. En relación con esta técnica con distancia euclídea como medida de similitud, resalta la aparición de nuevos grupos y el crecimiento de otros. Esto se debe a que se ha aplicado un corte 𝑑 = 80 superior al del método del centroide. Debido a lo cual, se obtiene una solución más dispersa pero que nos aporta mucha más información y además una reducción de dimensionalidad mayor, pero no definitiva. Como se puede apreciar a simple vista, el método del centroide, a pesar de sus inversiones, mostraba una situación que se repite a la perfección en este dendrograma, lo que otorga a las dos técnicas fiabilidad, sobre todo a distancias euclídeas medio-bajas. Si se centrara el estudio en dicha reducción de dimensionalidad, ya que el objetivo fuera reducir el número de variables del sistema, se consigue un paso de 38 a 19 “variables” (13 ya conocidas y 6 nuevas formadas por combinación de otras). Esto puede resultar interesante por ejemplo a la hora de simplificar la situación de un concesionario, o presentar informes. En la estructura generada a partir del corte aparecen clusters ya conocidos por el método anterior, como es el caso de la unión entre Solvencia y Liquidez de un concesionario, o prácticamente idénticos como es el caso, del cluster que agrupa variables de tamaño de concesionario (facturaciones, unidades de vehículos y existencias, y amortizaciones) con variables de beneficios (BAI, EBITDA, BAI (%), ésta última es nueva con respecto al resultado anterior). Por tanto, esto sigue confirmando la hipótesis de una relación apreciable entre la magnitud de un concesionario con los beneficios de este, aunque se sigue desconociendo el tipo de relación existente. Otro conglomerado que se repite es aquel que une las cuotas de mercado, al cual se ha incorporado la cuota de mercado PARTICULAR, pero con una intensidad bastante reducida comparada con la existente entre TOTAL y SIN RAC, lo que añade dispersión al grupo. Como ya se ha mencionado en la situación inicial, la cuota de PARTICULAR es una subdivisión de la cuota total, que refleja la parte del mercado de una clientela concreta. Dicha parte proporcional aporta directamente poca cuota comparado con la contribución del mercado sin rentacares.. Figura 3.6: Comparativa de cuotas 2016-2017. De igual forma, surge un cluster con el margen bruto y el gasto directo del departamento de servicios (V20 y V21), que como ya se conoce refleja el beneficio Javier de Eusebio Hernández. 27.