Escuela de Ingeniería Industrial y Estadística
Introducción Al
Análisis Exploratorio de Datos
3
Introducción al
Análisis Exploratorio de Datos
Por
Roberto Behar Gutiérrez
4
Titulo: Introducción al Análisis Exploratorio de Datos
© Roberto Behar Gutiérrez, 2008
Email:
[email protected]
[email protected]
Versión 2.0 , Cali, Colombia, 2009
5
Prologo
El Análisis Exploratorio de Datos, (AED) es un enfoque, una actitud frente a los datos, apoyado en un conjunto de herramientas gráficas y síntesis de los datos. El profesor John Tukey acuño este nombre, Exploratory Data Analysis en la década de los setenta, cuando publicó su famoso libro que lleva ese nombre, a través de la editorial Addison-Wesley.
Análisis Exploratorio en contraposición con el Análisis Confirmatorio. En este último, se supone que previo a la toma de los datos, están planteadas unas hipótesis que pretenden ser confrontadas con la observación de la naturaleza, a través de diseños de experimentos o de estudios observacionales meticulosamente planeados para obtener datos que permitan contrastar las hipótesis preestablecidas.
Las ideas de Tukey, en este enfoque, restan importancia a las hipótesis enunciadas a priori. Tukey dice: “ Hay que dejar que los datos hablen”, en este sentido el Análisis Exploratorio de Datos puede convertirse en una mina generadora de hipótesis plausibles.
El libro de Tukey mencionado anteriormente, surge en una época en la que la computación estaba desarrollándose, no habían grandes desarrollos de Software. Sin embargo hoy en día, todos los paquetes de software estadístico, incluyen sus ahora conocidos “diagramas de caja y alambres”, los diagramas de tallos y hojas, los diagramas de puntos, entre otros. La mayoría de las ideas planteadas por Tukey en su libro, están por ser difundidas y usadas.
Esta obra, se ha llamado “Introducción al Análisis Exploratorio de Datos”, pues trata solo unas pocas herramientas muy útiles, entre las cientos de ideas plantadas por Tukey.
Un par de discípulos de Tukey, Valleman y Hoaglin, escribieron en 1981 un libro que llamaron “The ABC's of EDA: Applications, Basics, and Computing of Exploratory”, muy seguramente con los mismos argumentos.
6
Mi colega y amigo Jorge Martínez Collantes, profesor de la Universidad Nacional de Colombia, uno de los primeros doctores en estadística en el país, también discípulo del profesor Tukey fue el primero en difundir las ideas sobre Análisis Exploratorio en Colombia.
En este libro, se desarrollan las ideas básicas del Análisis Exploratorio de Datos, a través de situaciones problema que pretenden poner en contexto las herramientas gráficas y algunos indicadores estadísticos.
Este material ha sido usado por varios cientos de estudiantes de pregrado y de posgrado. Se ha usado en el curso de Análisis de Datos de la Especialización en Estadística Aplicada y en el programa de Posgrado en Ingeniería Industrial.
Esta que he llamado versión 2.0, fue mejorada en su estilo, con respecto a la versión anterior, gracias al apoyo de Nancy Jelen Valencia, estudiante de la maestría de ingeniería Industrial quien revisó la versión 1.0.
Creo que todo producto es mejorable y en particular este libro. El proceso de mejora es dinámico y es justamente de la observación del proceso de enseñanza-aprendizaje, el escenario más idóneo para detectar posibles oportunidades de hacerlo mejor, por sugerencia de colegas y estudiantes que lo usen.
El autor
7
El ABC del Análisis
Exploratorio de
Datos.
Introducción.
En el capítulo anterior, se ha hecho énfasis en el aporte de la estadística en la búsqueda del conocimiento, proporcionando un marco y herramientas para detectar el mensaje, la información que los datos contienen, pero que se encuentra mezclada con un ruido, que se hace homólogo a una variación aleatoria.
La estadística y el pensamiento estadístico, intentan descubrir patrones de comportamiento en lo datos, en un ambiente de variabilidad e incertidumbre. En el capítulo 1, se presentó un modelo de pensamiento estadístico propuesto por Wild y Pfunnkuch (1999), que nos hace conscientes de la complejidad del proceso de pensamiento, de una jerarquía tan alta, que trasciende el clásico uso de fórmulas y algoritmos estadísticos. Queda muy claro, que al enfrentar una situación problema, es necesario recorrer un camino de reflexión, de comprensión del contexto, de valoración de la naturaleza del problema, de conocimiento de las consecuencias del mismo, de precisión en la definición operativa de conceptos y características, de sus procesos medición, de claridad en el objetivo que se propone. Todo esto, es necesario para el proceso de transnumeración, para buscar exprimir la información
8
contenida en los datos. En este sentido es muy útil, el recurso gráfico, la medición de algunos rasgos de los datos, que nos ayudan a establecer diferencias, a conformar grupos a sacar el diamante en bruto del fango. A esta fase se le conoce frecuentemente como análisis exploratorio de datos. Este nombre y muchas de las herramientas gráficas asociadas con él, son aportes del famoso estadístico John Tukey.
Se ilustran a continuación algunas de estas herramientas exploratorias, a través de algunos casos. No siempre se requiere aplicar todas estas herramientas. Al igual que el cirujano, o el mecánico, cada instrumento surge de una necesidad y un propósito. Es natural, que para un mismo propósito estén disponibles varios instrumentos y será el criterio particular de quien decide, usar el que considere más conveniente. En los casos que se presentan algunas veces se muestra el uso de dos o más instrumentos para lograr el mismo propósito, con la intención de ilustrar su uso.
Ejemplo. Caso de la fabricación de Chocolates
La fábrica de chocolate, tiene indicios que el peso de las barras que produce, presenta una variabilidad más alta que la deseada, no obstante que el peso nominal es de 30 gramos.
Se desea estudiar esta situación e identificar algunas acciones que permitan generar una mejora en cuanto a la heterogeneidad.
¿Qué tan grave es la situación. Dado que la variabilidad es inevitable, qué quiere decir una variabilidad más alta que la deseada? ¿Cuál es la deseada? ¿Cuál es el peso de las barras de chocolate que se producen?
La respuesta a esta última pregunta no es un solo número, porque existe variabilidad, porque se sabe que es inevitable que todas las barras de chocolate salgan con peso diferente.
9
Una muestra aleatoria de barras de chocolate es obtenida, los pesos registrados aparecen a continuación:
30,44 29,96 30,14 29,96 29,83 30,47 30,26 29,77 30,13 29,91 30,02 29,76 30,3 30,01 30,2 30,1 30,1 30,35 30,07 29,85 29,67 29,67 29,95 30,05 30,15 30,22 30,07 30,06 29,69 29,67
No obstante que son solo 30 datos, obtener alguna conclusión solo mirando los datos anteriores es difícil. Para tener una primera mirada de la situación podemos recurrir al más sencillo de los gráficos un diagrama de puntos. (dot plot).
Diagrama de puntos.
Figura 1. Diagrama de puntos para el peso de barras de chocolate en una muestra aleatoria de 30 unidades.
El diagrama de puntos consiste en ir colocando los valores de la muestra sobre un eje metrizado, de tal manera que si dos valores coinciden o están muy cercanos se coloca un punto arriba del otro. Es un gráfico muy sencillo, que permite ver de un solo golpe de vista todos los datos, su ubicación relativa, las zonas donde están más concentrados y si aparecen algunas posibles anomalías (puntos atípicos). Este gráfico es muy útil, sobre todo cuando la muestra no es demasiado grande. En tal caso, es una mejor herramienta gráfica, el histograma que presentaremos mas adelante.
10
Se detecta que los datos varían entre los valores extremos de 29.67 gramos (mínimo) y 30,47 gramos (máximo). A la diferencia se le denomina rango.
Rango = Máximo-Mínimo=30,47 gr - 29,67 gr = 0,8 gr
Podemos responder ahora la pregunta? ¿Existe demasiada variabilidad?
Sabemos que la diferencia entre la barra más pesada y la más liviana es de 0,8 gramos. ¿Es grande este valor? Para intentar responder, como clientes de los chocolates, hacemos conciencia que si en el mercado nos dieran una barra de chocolate de 29, 7 gramos, cuando en el empaque dice 30 gramos, muy seguramente no lo notaríamos, de la misma manera si la barra pesara 30,5 gramos, tampoco nos enteraríamos del exceso. La reflexión anterior, nos haría pensar, en calidad de consumidores, que la variabilidad revelada en la muestra no es exagerada.
Sin embargo, desde el punto de vista del fabricante otro podría ser el panorama, pues por un lado, para la industria de alimentos y los procesos de empacado, existe la legislación que toma en consideración la variabilidad, pero que define normas muy precisas para su control. En esta situación la pregunta podría convertirse en: ¿estamos cumpliendo con las normas legales?
Por otro lado, dependiendo de la capacidad de los procesos de la fábrica y de las políticas de la empresa frente a la competitividad, la propia empresa podría tener normas internas de calidad, mucho más exigentes que las normas legales. En este casos la pregunta sería: ¿estamos cumpliendo con las normas y políticas de la empresa?
En ambos casos, para emitir un juicio, requeriríamos de las especificaciones para el producto.
11
Imaginemos que la empresa por todas las consideraciones anteriores, ha definido el siguiente límite de especificación: una barra de chocolate se considera conforme si su peso se encuentra entre 29,7 gramos y 30,3 gramos.
¿Qué nos dice la muestra frente a estas especificaciones?
Calculemos pues, con este criterio, qué porcentaje de las barras de chocolate de la muestra no cumplen con las especificaciones.
La respuesta puede deducirse a partir del siguiente diagrama de puntos en el que se han marcado los límites de especificación para las barras de chocolate.
Figura 2. Valoración de la variabilidad al confrontar la muestra con los límites de especificación del producto.
Observemos que de las 30 barras de chocolate hay 5 que no cumplen con las especificaciones definidas por la fábrica, lo cual representa aproximadamente es un 17%, lo cual denota una situación delicada.
12
Esta exploración, nos ha permitido corroborar la sensatez de la presunción que ha dado origen a estas pesquisas.
Antes de seguir adelante, conviene plantear una reflexión, a la cual daremos curso en el último capítulo de este libro. ¿Si tomáramos de nuevo una muestra aleatoria de 30 barras, obtendríamos exactamente los mismos resultados?
El equipo humano que está abordando este problema se reúne con el propósito de especular sobre las posibles causas que pueden estar dando origen a este problema de variabilidad. Después de múltiples consideraciones, creen que:
• Una posible causa es la variabilidad de la viscosa colada de chocolate. Siendo los moldes de volumen constante, al variar la densidad la colada, se producen barras con diferente peso.
• La variabilidad de la densidad puede ser debida a una falta de control en la temperatura de cocción.
Para contrastar estas hipótesis se decide tomar nuevos datos, esta vez midiendo simultáneamente la temperatura de cocción y la densidad de la colada.
En una muestra aleatoria de 50 datos se obtiene lo siguiente valores:
Fabricación barras de chocolate
Temperatura Densidad Temperatura Densidad
102.1 1.55 104.5 1.49
106.7 1.45 103.3 1.54
97.3 1.62 107.7 1.46
100.6 1.59 94.7 1.70
13
Fabricación barras de chocolate
Temperatura Densidad Temperatura Densidad
101.1 1.56 97.8 1.64 94.7 1.72 97.3 1.66 104.1 1.52 99.7 1.60 98.7 1.63 100.6 1.59 104.4 1.51 98.0 1.63 98.9 1.63 108.7 1.43 102.3 1.56 108.3 1.43 91.1 1.79 96.2 1.67 100.3 1.57 100.8 1.60 105.3 1.51 100.2 1.59 99.6 1.65 98.6 1.64 100.0 1.59 97.8 1.63 104.1 1.51 104.5 1.50 102.6 1.56 100.2 1.57 100.6 1.59 97.2 1.65 92.1 1.74 100.6 1.59 94.9 1.69 101.6 1.58 96.1 1.67 103.4 1.56 107.7 1.42 104.2 1.55 102.3 1.55 102.3 1.53
Con base en estos datos, ¿hay evidencia de excesiva variabilidad en los valores de la densidad?
De nuevo requerimos referentes para emitir un juicio sobre la magnitud de la variabilidad de la densidad.
Para ello se procedió a la siguiente manera: conociendo el volumen de los moldes, se hizo la pregunta: ¿cuál debe ser la densidad de la colada para que una barra de chocolate tenga un peso igual al límite inferior de especificación, es decir 29,7 gramos? Análogamente para
14
límite superior 30,3 gramos? Al responder esta pregunta surgieron de manera natural los límites de especificación para la densidad:
• Limite inferior: 1.52 gramos/c.c • Límite Superior: 1.68 gramos/c.c • Valor nominal: 1.60 gramos/c.c
Esto significa que cuando la densidad es 1,60 gramos/CC, el peso de la barra de chocolate coincide con el Valor nominal 30 gramos.
Cuando la densidad alcanza el Valor 1,52 gramos/CC, el peso de la barra de chocolate coincide con el límite inferior 29,7 gramos y cuando la densidad es 1,68 gramos/CC el peso de la barra de chocolate queda en 30,3 gramos.
Con base en estos nuevos límites de especificación para la densidad juzguemos la nueva muestra de la 50 barra de chocolate.
Como puede apreciarse en el diagrama de puntos de la Figura 3, 11 de los 50 valores no cumplen con las especificaciones, lo cual representa el 22%, es decir casi una de cada 4 resultaron “no conformes”, lo cual es una evidencia que no contradice la hipótesis que se había planteado. El problema es grave y la variabilidad en la densidad es un factor importante.
Puede observarse sin embargo que el valor nominal 1,60 gramos/CC está ubicado en el centro de los datos, lo cual habla bien del centramiento del proceso. En otras palabras, se están produciendo barras de chocolate que en promedio tienen 30 gramos, pero la variabilidad supera lo deseable.
15
Este es una buena ilustración de lo peligroso que podría ser controlar un proceso y en general tomar decisiones solo con el promedio. La dupla centramiento y variabilidad debe ser siempre inseparable.
Figura 3. Confrontación de los valores de la muestra de 50 valores de la densidad contra sus límites de especificación
Queda pendiente una importante pesquisa, definida con la pregunta:
¿Está relacionada la variabilidad de la densidad con la variabilidad de la temperatura?
Para dar respuesta esta pregunta, construiremos el gráfico conocido como diagrama de dispersión o diagrama bivariante, que consiste en dibujar los puntos de las parejas: (temperatura y densidad), en un plano cartesiano en cuyo eje X, colocaremos la temperatura y en el eje Y. la densidad.
16
Diagrama Bivariante o Diagrama de Dispersión
Figura 4. Relación fuerte entre Densidad y Temperatura, evidenciada por un diagrama de dispersión.
En el gráfico de la Figura 4, se pone en evidencia una muy fuerte relación estadística entre la temperatura y la densidad. El diagrama de dispersión pone en evidencia que dicha relación es rectilínea y además inversa, es decir que la densidad decrece proporcionalmente con el aumento de la temperatura.
17
Se ha trazado sobre la nube de puntos una recta que marca la tendencia y que se conoce como Recta de Regresión. Como puede observarse no siempre para una misma temperatura se genera exactamente la misma densidad, aunque los valores, en este caso están bastante
cercanos. Por esa razón los valores de la densidad que se calculen con base en la recta, puede interpretarse como la densidad media que se produce para una temperatura específica, si se repitiera muchas veces la observación de la densidad a esa misma temperatura.
Así por ejemplo, vemos que cuando la temperatura es 100°C, la densidad está alrededor de 1,60 gr/CC, que es el valor ideal de la densidad, con la cual se producen barras de chocolate de 30 gramos.
Los valores críticos de la temperatura, como se señalan en el gráfico, corresponden a 96°C y a 104°C, con las cuales se logran las densidades críticas, de 1,52 gr/CC y de 1,68 gr/CC.
Conclusión
De este análisis exploratorio puede recomendarse controlar la temperatura del proceso de tal manera que se mantenga entre 96°C y 104°C, y preferiblemente muy cerca de 100°C.
Recta de Regresión
En el gráfico de la Figura 4, se hace explícita la ecuación de la recta de Regresión lineal, que pasa siempre por el centro de gravedad de los puntos y logra hacer mínima la suma de los cuadrados de las desviaciones verticales de los datos a la recta. Valiéndonos de dicha expresión, podríamos estimar la densidad media que se
18
obtendría para cualquier temperatura dentro del rango estudiado. Así por ejemplo para una temperatura T= 98°C, se obtendría una densidad media de:
Densidad media = 3,548 -0,01952 (98) = 1,63 gr/CC
Lo cual significa que si se controla la temperatura a 98 ° C, se espera que la media de la densidad de la colada se encuentre alrededor de 1,63 gr/CC.
Como puede apreciarse disponer de una recta de Regresión es bastante útil para hacer predicciones en el rango observado.
En el gráfico también se aprecia un valor asociado con algo llamado coeficiente de correlación lineal. Dicho valor es -0,98. ¿Cuál es su significado?
Coeficiente de Correlación Lineal.
Este coeficiente, es muy usado desde hace casi un siglo, su valor siempre se encuentra en el rango entre - 1 y 1. Su significado está asociado con el grado en que la nube de puntos se acomoda en un espacio geométrico rectilíneo. Así por ejemplo, el coeficiente de correlación lineal toma los valores extremos – 1 o +1, cuando la nube de puntos se deja atrapar en forma perfecta por una recta, es decir todos los puntos del diagrama de dispersión cae sobre la recta. A medida que la nube de puntos se hace más dispersa alrededor de alguna recta, este coeficiente se acerca al valor 0. Veamos algunos casos, para hacernos una idea más precisa. Cuando la nube de puntos se ajusta alrededor de una recta con pendiente positiva, el coeficiente de correlación lineal tendrá signo positivo, en caso contrario, tendrá signo negativo, como se ilustra en laFigura 5.
19
Cuando una nube de puntos es amorfa, como una bola o con una configuración alrededor de una recta horizontal, el correlación lineal muy seguramente estará próximo a cero.
Veamos algunas situaciones:
Figura 5. Diagramas de dispersión y sus coeficientes de correlación lineal.
¿Cómo se calcula el coeficiente de correlación lineal?
Se tienen n unidades de observación en la muestra aleatoria y cada una de ellas se miden dos características X e Y, como en el ejemplo la temperatura y la densidad.
20 Individuo i→ (X Yi, )i
(
)(
)
(
)
1 2 2 1 ( ) n i i i n i i i X X Y Y r X X Y Y = = − − = ⎛ ⎞⎛ ⎞ − − ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑
∑
∑
Hoy en día, hasta las calculadoras más baratas lo incluyen. Observe alguna tecla que tenga la letra r.
Comentarios.
Una pobre relación entre dos variables, puede darse por mucha razones como las siguientes: a) Cuando el rango de variación de una de ellas no es suficientemente amplio como para observar cambios en la otra. Por ejemplo edad y estatura. Si en la muestra el rango de edades está entre 11 y 12 años, se percibirá un diagrama de dispersión amorfo y por lo tanto un pobre coeficiente de correlación lineal. Sin embargo si la muestra considera un rango de edades entre 6 y 12 años, la forma del diagrama de dispersión será muy distinta y estamos haciendo referencia a las mismas variables.
b) Otra razón puede ser la no consideración de otras variables de interés en la explicación de la variación. En el mismo ejemplo anterior, de la edad y la estatura, si además de un rango amplio de edades, consideramos el género y hacemos diagramas de dispersión separados para hombres y mujeres, seguramente mejorará la asociación.
c) Otra razón puede ser que efectivamente las dos variables no está asociadas, como podría ser la estatura de un adulto y sus ingresos mensuales.
21 Ejemplo. El caso de Moto Pizza1.
Antecedentes.
Motopizza es un negocio de pizzas a domicilio que fue lanzado en octubre de 2001.
La estrategia de negocios se basaba en tener tiempos de entrega menor que sus competidores (25 minutos), si se excedía este plazo se hacía un descuento a favor del cliente de 25%. Sólo se atiende a clientes de una zona cercana en la cual se concentra la publicidad local.
La propuesta fue bien recibida por el público y la red se extendió rápidamente. A finales de 2003 ya contaba con 14 establecimientos en tres ciudades. Los establecimientos pertenecían a Motopizza siendo socios los encargados que pasaban por un proceso de formación.
Las instalaciones y los procesos eran comunes en los 14 establecimientos.
El negocio marchaba viento en popa hasta que finales de 2003 comenzaron a incrementarse en forma alarmante las quejas de los clientes por retraso en la entrega de los pedidos, con el consiguiente impacto sobre la economía del negocio, por su política de descuento por retraso.
1
Este caso está basado en un caso del mismo nombre que usan los colegas de la Universidad Politécnica de Cataluña, en los cursos de capacitación “Seis Sigma”.
22
La dirección decidió emprender un programa de búsqueda científica de las causas (seis sigma) involucrando los socios encargados. Uno de los primeros proyectos piloto tenía como objetivo reducir el porcentaje de entrega es con retraso.
La información cuantificada disponible era muy escasa, ya que el rápido crecimiento había desbordado los sistemas y no existía cultura de gestión con base en datos.
Tras una fuerte discusión en el comité de dirección se estimó que el porcentaje de entrega con retraso estaba entre un 10% y un 15% y que el nivel aceptable era máximo un 3%. Se cree que este nivel puede alcanzarse si los tiempos de entrega tienen magnitud de 20 ± 5 minutos.
Se estima que las pérdidas económicas al año, ascienden a Col$ 500 millones. El 80% de este dinero podría recuperarse si se mejora en los tiempos de entrega.
Con esta información de partida se puso en marcha un equipo de cinco encargados de establecimientos que se consideraban representativos liderados por un “Black Belt2” entrenado por la UPC.
A continuación se presenta un mapa del proceso llamado normalmente SIPOC por su iniciales en Inglés: Suppliers, Inputs, Process, Outputs, Customers. Que podría traducirse respectivamente como Proveedores, Entradas al Proceso, Proceso, Salidas del Proceso Y Clientes.
Veamos el SIPOC para el proceso de fabricación de Pizzas de Motopizza.
2
Un “Black Belt” es un funcionario con una muy fuerte capacitación en herramientas cuantitativas, especialmente en Estadística. Esta denominación es típica en los procesos de capacitación conocidos como “Seis Sigma”.
23
Mapa del proceso (SIPOC)
Figura 6. Mapa de Proceso SIPOC para Motopizza.
En ocasiones se comete un grave error y es suponer que ya se sabe lo que el cliente quiere. El Black Belt, que dirige el proyecto lo sabe muy bien. La voz del cliente es el insumo más importante. Por esta razón organiza dos “Focus Group” en dos ciudades diferentes. Las ideas se organizaron con base en un diagrama de afinidad llegando a un gran descubrimiento.
La voz del cliente.
Se descubrió que 30 minutos es un tiempo de entrega aceptable para el cliente siempre y cuando la pizza llegue caliente.
24
Dado que esta información resultó de “Focus Group” se programó para más adelante una encuesta estratificando por ciudad y por establecimiento, con los siguientes propósitos:
• Validar el descubrimiento del “Focus Group”
• Averiguar cuestiones relacionadas con los tipos de Pizza. • Explorar la posibilidad de ofrecer productos complementarios.
Determinación de las Características Críticas para el Cliente (CCC).
Las características críticas para el cliente deben ser expresadas de manera medible de tal forma que el impacto de algún programa o una estrategia pueda ser valorado. No se puede mejorar lo que no se puede medir.
25
La facturación anual conjunta de todos los establecimientos asciende a 13.000 millones y se estima que el 15% de las entregas se hacen con retraso, lo cual representa una perdida aproximada de 500 millones.
El local B2, del cual es encargado el hijo del dueño, tiene contabilizadas las perdidas por retrasos “sin trampas” y sus números alrededor de 3 millones mensuales, son bastante coherentes con las cifras estimadas. El procedimiento usados para la estimación global de las perdidas fue avalado por el director financiero de la empresa.
Una síntesis de la situación se resume en el siguiente cuadro, en el cual se expresa la problemática en forma sintética, se caracterizan las métricas claves, para las cuales se intenta definir su punto de partida y además se establecen las metas que se quieren lograr con el proyecto y la ganancia que se tendrá si estas metas se cumplen.
Descripción del Problema
Retrasos en las entregas originando importantes pérdidas económicas valoradas en Col$ 500 millones y otros perjuicios relacionadas con la pérdida de clientes
Objetivos Métrica Valor de partida Valor Objetivo
1. Retrasos % 10-15 3
2. Tiempo de entrega
Minutos ? 25-30
3. Temperatura °C ? 80°C
Resultados Económicos Esperados
Ahorros por aumento en la puntualidad de Col$ 500 millones.
Preguntas Claves a resolver.
• En realidad, ¿Cuánto se retrasan las pizzas?
• ¿A qué temperatura le están llegando las pizzas a los clientes? • ¿Ocurre lo mismo en todos los establecimientos?
26
• ¿Unos días de la semana son más críticos que otros? • ¿Hay más retrasos en algunas horas especiales del día? • ¿Se retrasan más los pedidos más caros?
• ¿Se retrasan más unos motoristas que otros?
Observe que las dos primeras preguntas hacen referencia a lo que hemos llamado variable de respuesta (Y) y están orientadas a definir de manera precisa nuestro punto de partida. ¿Cómo estamos ahora antes de emprender estrategia de mejoramiento?
La respuesta a estas dos preguntas es indispensable, pues si no conocemos el punto de partida, no podemos valorar el impacto de nuestras acciones o programas.
La restante preguntas están orientadas a detectar posibles causas, que nos permitan de manera racional priorizar nuestras acciones tendientes a neutralizar su efecto.
Tener explícitas y bien planteadas un conjunto de preguntas relacionadas con nuestro propósito, es muy importante, pues a partir de las preguntas, surgirán las características que es necesario observar o medir para responderlas. Nos obligan a reflexionar acerca de los procedimientos idóneos para obtener datos válidos y nos hace prever algunas opciones de análisis, a partir de las cuales daremos respuesta a las preguntas.
Surge de manera natural conocer el proceso que empieza con un evento desencadenante que es una llamada de un cliente y termina con la entrega del pedido. Conocer el proceso, nos permitirá detectar oportunidades de mejora.
27
Diagrama del proceso.
Figura 8. Diagrama de flujo del proceso en Motopizza.
El diagrama del flujo es una importante herramienta, que nos permitirá planear nuestra observación del proceso, identificación de actividades, detección de acciones redundantes y posiblemente otras que no produce ningún valor agregado.
En el diagrama se han planteado tres etapas: recepción de llamadas, fabricación de la pizza, distribución y entrega de la misma.
En la fase de distribución se observa que los clientes están clasificados por zona (A y B) y que se van agrupando los pedidos, para armar una ruta para hacer varias entregas.
28
Las mediciones disponibles eran escasas, incompletas y además muy poco fiables.
Para evitar problemas con la central, se disfrazaban muchas causas de retraso, razón por la cual la poca información disponible estaba distorsionada.
Sólo el local B2 dispone de algunos datos relacionados con el monto de dinero perdido por retrasos, pues por motivación propia, al percatarse de la gravedad de la situación, puso en marcha un estudio.
Durante un mes (Noviembre) el telefonista anotó la hora del pedido y los motoristas anotaron la hora de entrega. No estamos muy seguros de la fiabilidad del sistema de medida utilizado.
Validación del sistema de medida
Dado que todo el proyecto y la valoración de cualquier estrategia de mejora dependen de un registro válido de las variables de respuesta o características críticas para el cliente (CCC), tiempo de entrega y temperatura de la pizza, en este caso, no es de poca monta garantizar que las mediciones de esta variables sean válidas, carentes de sesgos.
Para lograr esto se convierte la hoja de pedido en una plantilla itinerante, y se construye una definición operativa del sistema de medida.
Se coloca un reloj digital visible para todos, se dota a todos los motoristas de relojes digitales sincronizados pide termómetros para situar en una ranura establecida en la caja de la pizza, para la medición de la temperatura.
Se explica a los implicados (telefonistas, cocineros, motoristas) la importancia de tomar buenos datos y los beneficios que se desprenden del proyecto.
29
Como procedimiento para la validación de los datos, se ofrece un descuento en la próxima orden que realicen, a los clientes que llamen para informar no hora de recepción del pedido y su opinión sobre sí estaba caliente o no.
Se confrontan los registros obtenidos con este procedimiento, con los datos registrados por los motoristas en la plantilla itinerante, revelando que el sistema de medida es bastante fiable.
Recolección de nuevos datos
Durante un mes se recogieron datos, con el nuevo sistema de medida validado, al cual se le realizaron algunas mejoras. Los datos fueron registrados para cinco de los 14 establecimientos, que se consideraron bastante representativos.
A continuación, se describen las características de los establecimientos observados.
Establecimiento Antigüedad Volumen Ubicación Tipo M1 2 años Mas de Col$ 1500 millones Madrid A
M6 4 meses Col$ 600-1500 millones Madrid C
B2 2 años Mas de Col$ 1500 millones Barcelona A B3 1,5 años Col$ 600-1500 millones Barcelona B V1 3 meses Menos de Col$ 600 millones Valencia A
Se consideró más conveniente, recoger datos de todos los pedidos en lugar de hacer Muestreo. Se continuó validando el sistema de medida durante el proceso de recolección.
Al registrar los datos en la hoja de pedido, se podía estratificar por: hora, tipo de pizza, zona de la ciudad, motorista.
30
Responder Preguntas (datos existentes).
Los datos recogidos, por el local B2, antes del estudio, nos permiten tener una primera respuesta sobre el impacto del día de la semana en el volumen de ventas.
¿Son todos los días iguales?
Figura 9. Serie de Tiempo para el número de entregas según día de la semana en el local B2 de Motopizza.
Del gráfico de serie de tiempo que muestra la Figura 9, se obtiene información muy importante. Se ve claro que hay gran diferencia entre los días laborables y los fines de semana. Se detecta un día atípico, pero se le encuentra explicación, ese día hubo un partido (clásico). Hace falta hacer un análisis especial para las horas del día.
31
Se dispone de 1354 observaciones del local B2, en este caso el diagrama de puntos no es práctico. En este caso conviene representar la distribución de los tiempos de entrega con un histograma.
Histograma para la distribución de los tiempos de entrega
Cuando se dispone de una variable continua como el Tiempo, en lugar de reportar los valores individuales de las observaciones como lo hicimos en el diagrama de puntos, pueden construirse intervalos, para ir contando cuantas observaciones “caen” en cada uno de ellos, el resultado de éste conteo, representa lo que se conoce como frecuencia absoluta para un intervalo dado.
Si se presenta como porcentaje del total de observaciones, nos referimos a la frecuencia relativa. Una manera de representar estos intervalos y sus frecuencias es a través del histograma que se construye colocando en el eje X, los intervalos definidos y construyendo sobre cada intervalo un rectángulo cuya área representa el porcentaje de datos que pertenecen a dicho intervalo. De esta manera el área de histograma es siempre ciento por ciento, que se distribuye en los distintos intervalos.
32
Figura 10. Representación de la distribución de los tiempos de entrega por medio de un histograma.
Si con base en el histograma de la Figura 10, quisiéramos conocer que porcentaje de de los tiempos de entrega resultaron mayores que 25 minutos, bastaría con calcular el área del histograma que queda después de 25, suponiendo que toda la área es un 100%.
33 En la siguiente figura se ilustra esta afirmación.
34
Como puede apreciarse, el área sombreada representa aproximadamente un 16% del área total, lo cual significa que el porcentaje de tiempo de entrega superiores a 25 minutos tres aproximadamente un 16%.
Este valor es preocupante, dada la política de hacer un descuento el cliente del 25% cuando se produce retraso en la entrega. En este caso Motopizza estaría dejando de recibir la cuarta parte de ese 16%, decir se está perdiendo el 4% de los ingresos.
Un hecho que se destaca en el histograma es que la barra más alta se produce alrededor de 24 minutos, justo antes del valor crítico (25 minutos). Éste es un comportamiento raro, cuando los errores de medición varían de manera aleatoria, sobre todo cuando se tiene un volumen grande de datos, como el nuestro caso. Comportamiento como éste, merece la búsqueda de explicaciones. Aquí por ejemplo, se descubrió que los motoristas que entregaron a tiempo el pedido, pero olvidaron anotar al momento de la entrega el tiempo el minutos, deciden colocar en casi todas las ocasiones de olvido, el registro “24 minutos”.
Es importante destacar que lo que da significado porcentual en un histograma es el área y no la lectura de los rectángulos.
Cuartiles Q1 ,Q2 ,Q3 de una distribución
Podemos aprovechar la idea de histograma para empezar a definir algunos indicadores muy útiles al momento de describir el comportamiento de la distribución de frecuencias de alguna variable, éste es el caso de los llamados cuartiles de una distribución.
Para encontrar los tres cuartiles Q1 ,Q2 ,Q3 de una muestra de datos, bastaría con ordenar los datos en forma no decreciente y descubrir tres números que dividan esa muestra ordenada y cuatro conjuntos de igual tamaño, de tal manera en cada uno de estos se encuentre el 25% de las observaciones.
35
Si ligamos ésta idea con la idea de histograma, lo que requerimos es encontrar tres valores de tiempo de entrega, que dividan el área del histograma en cuatro partes iguales, cómo se muestra en la Figura 12.
El gráfico de la Figura 12, enseña los cuartiles de la distribución de los tiempos de entrega. Ellos son Q1 =19 minutos,Q2 = 22 minutos ,Q3 = 24 minutos. ¿Cuál es su significado?
36
Estos cuartiles nos indican que el 25% de las entregas se realizan en 19 minutos o menos, que el 50% de las entregas se realizan en 22 minutos o menos y que el 25% de las entregas se realizan en tiempos que superan los 24 minutos. Esto nos proporciona una primera idea, bastante buena acerca el comportamiento de los tiempos de entrega.
Un gráfico muy usado que involucra los tres cuartiles junto con el mínimo y el máximo de los datos, se conoce como diagrama de caja y alambres (Box Plot) y lo explicaremos enseguida.
Diagrama de Caja y Alambres.
Antes hablamos del riesgo de tomar decisiones o hacer descripciones usando sólo los promedios. Una manera de salir al paso de esta tendencia que pretende resumir la complejidad de una muestra en un solo número, es asumir como costumbre, además de la media y de las medidas clásicas, reportar cinco indicadores que proporcionan complementariamente una muy buena idea de la distribución: los tres cuartiles y los valores extremos. Con estos cinco números, podemos construir el llamado diagrama de caja y alambres, que es una herramienta extraordinaria sobre todo al momento de comparar la distribución de una característica en varias subpoblaciones.
La Figura 13 nos enseña cómo construir un diagrama de caja y alambres.
Nuestro punto de partida, es el cálculo de los tres cuartiles, el nuestro caso estos son Q1=19 minutos,Q2 = 22 minutos ,Q3 = 24 minutos.
Observe que la caja está delimitada por los cuartiles extremos, es decir, Q1 y Q3. En el interior de la caja aparece una línea divisoria que corresponde al segundo cuartil Q2.
37
Figura 13. Construcción de un diagrama de caja y alambres a partir de los tres cuartiles.
Hasta este momento tenemos construida a la caja, pero ¿hasta dónde van los alambres?
Para responder esta pregunta y completar así la construcción de la caja, debemos marcar un par de cercos, que van a servir para definir cuáles datos deben considerarse atípicos o anómalos y cuales parecen provenir de la misma población (datos típicos).
38
En el gráfico se marca la longitud de la caja a la cual hemos llamado “RIC”, para abreviar la expresión “Rango Inter Cuartílico”, que no es otra cosa que la diferencia entre los cuartiles extremos.
RIC= Q3 - Q1 = 24-19 =5 minutos.
Los cercos se encuentran a una distancia de 1,5 veces el RIC, medida a partir de los cuartiles extremos. Veamos:
Cerco Inferior = Q1 -1,5*RIC = 19-1,5*5= 11,5 minutos.
Cerco Superior = Q3 +1,5*RIC = 24+1,5*5= 31,5 minutos.
Esto significa que todo dato menor que 11,5 minutos o mayor que 31,5 minutos se considerará atípico y se marcarán con asterisco (*). Los alambres van desde los extremos de la caja hasta los datos menor y mayor que quedan atrapados entre los cercos.
Más adelante, volveremos con los diagrama de caja para usarlos en la comparación de poblaciones.
Hasta ahora se ha trabajo con todos los datos sin hacer la diferenciación por el tipo de día de la semana. Surge ahora la pregunta:
¿Hay diferencia en la distribución de los tiempos de entrega de los días laborables frente a los fines de semana?
Esta pregunta puede ser respondida de varias maneras distintas. Alguien podría calcular para cada una de las dos subpoblaciones que se comparan, el tiempo promedio de entrega, y también algunas medidas que acompañen la media y que indiquen el grado de variabilidad, sin embargo, dichas medidas, aunque son muy importantes y los referiremos a ella más
39
tarde, no nos dan información sobre la condición crítica de interés, es decir, el porcentaje de entregas por encima de los 25 minutos. ¿ Es distinto este porcentaje de retrasos los días laborales y los días de fin de semana?
Esto podría responderse contando para cada conjunto de días, en forma directa, el número de veces que resultó por encima de 25 y convertirlo en porcentaje. Pero también lo podemos apreciar comparando las respectivas áreas en los dos histogramas como se muestra a continuación.
Observando la Figura 14 y considerando las variaciones aleatorias, podríamos decir, que tanto en días laborales como en días de fin de semana el porcentaje de retrasos está alrededor del 15%.
De la comparación se deduce que el promedio en bastante similar, sin embargo los fines de semana varían mucho más que lo que varían los días laborales.
De nuevo se observa que el rectángulo alrededor de 24 minutos es sistemáticamente más alto en ambos histogramas corroborando la explicación dada anteriormente
40
Figura 14. Comparaciones de la distribución de los tiempos de entrega según sea días laborables o fines de semana.
.Para que la comparación de histogramas sea realmente útil, es necesario asegurarse que los histogramas que se comparan tenga la misma escala horizontal, pues de lo contrario podríamos incurrir el error de apreciación, sobre todo en la dispersión como se muestra en la Figura 15 que pretende ilustrar la misma situación descrita en la Figura 14.
41
Figura 15. Percepción equivocada de la dispersión cuando no se unifica la escala horizontal.
42
Debemos recordar que hasta ahora hemos estado trabajando con datos existentes, producto de la iniciativa del encargado del local B2. Más adelante confrontaremos estos resultados con los obtenidos con los nuevos datos.
Para practicar la interpretación de los diagrama de caja, hagamos la comparación anterior pero usando éste tipo de diagramas.
Figura 16. Comparación de distribuciones usando diagrama de caja.
Observe la utilidad de los diagrama de caja al momento de comparar, muy fácilmente se detecta que no hay diferencias el centramiento, sin embargo, de un solo golpe de vista se aprecia que los días laborales hay menor variación.
43
Respondiendo preguntas (datos Nuevos).
Ahora que hemos tomado nuevos datos con el propósito específico de responder nuestras preguntas y que además hemos validado los sistemas de medida, estamos listos para realizar un análisis exploratorio.
¿Qué tan calientes llegan las pizzas a nuestros clientes?
n=610
observaciones Media= 82,3°C Desviación Estándar=5,0°C
44
32% de las entregas no cumplen con las especificaciones de temperatura, lo cual es bastante preocupante. Observe lo importante que disponer de esta medición inicial, pues será el punto de partida para valorar el impacto de nuestras acciones de mejora. Si no hubiera una medida fiable de nuestra situación actual, ¿cómo podríamos saber si nuestros esfuerzos funcionan?
Un par de valores que calcularemos siempre será la media y la desviación estándar, pues en la mayoría de los casos de medición, conociendo este par de valores, podemos calcular los porcentajes que necesitemos. Éste maravilloso privilegio, lo tenemos cuando nuestra variable puede modelarse razonablemente como una distribución normal.
En este caso sólo tuvo una media de 82,4 °C con una desviación estándar de 5°C. Calculados con una muestra de 610 observaciones.
Más adelante abordaremos más en detalle el significado y la utilidad de este par de indicadores, quizás los más importantes en estadística. Dedicaremos también un capítulo para sacar provecho de la distribución normal y sus propiedades.
¿Cuál es la distribución de los tiempos de entrega, a la luz de los nuevos datos? El panorama que muestra el histograma de la Figura 18, es bastante fiable, toda vez que se ha sido muy celoso en la validación del sistema de medida y además se dispuso de una muestra de cerca de 2000 datos, lo cual nos da la confianza acerca de la estabilidad en las cifras calculadas, en el sentido de que si repitiéramos el estudio en las mismas condiciones, se esperaría que las cifras variarán relativamente poco, llegando, con alta confianza, a las mismas conclusiones
45
Figura 18. Distribución de los tiempos de entrega con los nuevos datos.
.
La forma que presenta el histograma que se ajusta bastante bien a la llamada distribución normal, es compatible con la idea de ausencia de sesgos sistemáticos.
El porcentaje de retrasos, 12%, es un poco menor que el que habíamos estimado con los datos existentes. En ocasiones, la sola conciencia, de que se está midiendo con seriedad y se está controlando el estudio, empieza a producir resultados. Por supuesto es más creíble esta
46
estimación que la anterior, pues aquí no solo se dispone de un número mayor de datos, sino también de datos con mayor calidad.
¿En cuanto al tiempo de entrega todos los establecimientos tienen el mismo comportamiento?
Intentemos responder esta pregunta usando diagrama de cajas y alambres para hacer la comparación pertinente.
Figura 19. Diagramas de caja para la comparación de la Distribución del tiempo de entrega según localidad
Es la Figura 19 hemos agregado un hay referencias en 25 minutos, que define el punto crítico para el tiempo entrega. Se aprecia que la localidades M1, B2 y B3 tienen tendencia a
47
tardarse un poco más en la entrega que las demás localidades. Aunque a decir verdad sería muy conveniente disponer de herramientas para saber si hay evidencia de una verdadera diferencia, o si por el contrario, es razonable pensar que dichas diferencias pueden atribuirse al azar. En el último capítulo de este libro abordaremos esta problemática.
Sin embargo puedo adelantarles que al investigar más en detalle en busca de posibles explicaciones, se descubrió que los que más tardaban eran los más antiguos, pues habían ido ampliando poco a poco su radio de operación y tenían un porcentaje de clientes lejanos, mucho mayor que las localidades nuevas.
Dejemos registrados para estas localidades la correspondiente media y desviación estándar, que como ya dijimos serán valiosos indicadores para realizar la comparación después de haber implementado algunas estrategias para reducirlo.
Tiempos de Entrega según Localidades (Nuevos datos)
Localidad Media Desviación estándar Número de datos
M1 21,7 4,0 370 M6 19,0 3,9 370 B2 20,9 3,8 331 B3 21,1 3,8 370 V1 19,3 3,9 385 M1 21,7 4,0 370
¿Cómo se comportan los tiempos asociados con el proceso de fabricación de la Pizza?
El sentido que tiene el diagrama de proceso que elaboramos, es entre otro, detectar las actividades que se realizan en el proceso de fabricación.
48
En este caso, dichas actividades son de nuestro interés, en la medida en que nuestro propósito es la reducción del tiempo transcurrido desde que el cliente hace la llamada para colocar el pedido, hasta que recibe su orden.
Si atendemos al diagrama, existen básicamente tres componentes que consumen tiempo: la recepción del pedido, la fabricación de la pizza y la distribución. Para esta última hemos dedicado la mayor parte de nuestro esfuerzo, pues las otras tienen menos impacto, dada la proporción de sus magnitudes y de sus variabilidades, razón por la cual destacamos como problema prioritario el tiempo de distribución.
Esto no quiere decir que las etapas del proceso de fabricación y preparación de la distribución, no sean importantes. Por ejemplo sería de interés valorar la política que ha definido la empresa para realizar una ruta de distribución. Se espera a que hayan al menos tres pedidos que vayan para la misma zona, antes de asignar una ruta a un motorista. Midiendo estos tiempos, podría realizarse un proceso de simulación, de tal manera que podamos encontrar, por ejemplo, cuál es el número óptimo de pedidos de una zona, que deben quedar en espera, antes de despachar un motorista en una determinada ruta.
¿Qué tenemos hasta ahora?
Corresponde ahora, hacer un balance de lo que hemos logrado hasta ahora. Una síntesis de cómo hemos respondido las preguntas originales, con el propósito de orientar estrategias para mejorar en de las variables críticas del cliente, satisfaciendo los niveles establecidos como límites de especificación.
Hemos reportado siempre la media y la desviación estándar de las variables de interés, porque como ya dijimos, son dos de los indicadores más importantes al momento de reportar el comportamiento de una característica que varía. A ellas nos dedicaremos de
49
manera particular en breve, para conocer sobre todo, como ellas pueden ayudarnos en los procesos de descripciones y de comparación de poblaciones.
A continuación en la Figura 20 se presenta un cuadro con la síntesis de las respuestas a nuestras preguntas.
50 Sínt esis de las respuestas a las preguntas. Los hallazgos
Los hallazgos que tenemos hasta ahora son los siguientes:
Un problema crítico, que merece ser abordado con vistas a su mejoramiento es el tiempo de reparto
Parecen existir diferencias en las localidades en cuanto al tiempo de reparto. Las localidades M6 y V1, son las más rápidas.
De acuerdo con el estudio realizado al comparar la distribución de los tiempos de los motoristas puede concluirse que hay evidencia suficiente para pensar que hay diferencias importantes entre ellos.
Los tiempos de entrega varían según sea día laboral o fin de semana.
Un estudio el margen, mostró que no había evidencias de que la hora del día por el tamaño del pedido fueran causantes de retrasos.
A los clientes les parece razonable un tiempo de entrega de 30 minutos siempre que la pizza llegue caliente. (Esto podría cambiar el límite de especificación)
El Diagrama del Proceso de Fabricación
Punto de partida
Tiempo de entrega Temperatura en la entrega
Porcentaje de Retrasos= 12% Media = 20,4 minutos
Desviación Estándar = 4,0 minutos
% No conformes= 32%. Media= 82,3°C
Desviación Estándar=5,0°C
51
Generación de hipótesis sobre posibles factores (causas) que pueden afectar las características críticas.
Entramos ahora en una importante etapa, que podríamos llamar etapa de análisis, en la cual nos interesa sobre todo detectar posibles asociaciones de algunos factores, preferiblemente sobre los que actuar, con las variables de respuesta de interés: tiempo entrega y temperatura.
El grupo de estudio se ha reunido usando la metodología de “Brain Storming” (Lluvia de ideas), ha planteado por un lado una hipótesis para explicar la distribución de la temperatura de la pizza al momento de la entrega:
La temperatura de la pizza está bastante relacionada con el tiempo de reparto Con respecto al tiempo de reparto, las reflexiones del equipo pueden plasmarse en el siguiente diagrama de causa y efecto.
El diagrama de causa-efecto, que se muestra en la Figura 21 tendrá tantas ramas cómo se requiera, en este caso las posibles causas se agruparon en: fallas humanas, fallas mecánicas, métodos o procedimientos, y las relacionadas con el medio ambiente
52
Diagrama de Causa y Efecto.
Figura 21. Diagrama de causa – efecto para el retraso en los tiempos de entrega
53
Si el problema fuese muy complejo, cada una de esas causas que aparecen en cada rama, podrían convertirse en ramas. Así por ejemplo, en la rama de “maquinaria”, el ítem de “no arranca”, podría descomponerse en “falta de mantenimiento”, “equipo obsoleto”.
Recordemos que en la indagación a los clientes, se descubrió que aceptarían de buen agrado un tiempo entrega de 30 minutos, siempre y cuando la pizza llegue caliente. Este solo hecho, es decir, modificar el límite de especificación para el tiempo entrega, ya cambia la situación. Si el descuento del 25% para los predios con retardo, se mantuviera pero cambiando el límite a 30 minutos, el porcentaje de retrasos bajaría inmediatamente a un valor sorprendente bajo, menos del 1%, lo cual, nos pondría dentro de la meta del proyecto.
Este panorama, hace que nuestros esfuerzos se centren en mejorar la situación actual con respecto a la Temperatura, pues en la actualidad no se cumple con la especificación en el 32% de las entregas y si la hipótesis de relación de Tiempo y Temperatura fuere cierta, lo que significa es que poner el límite en 30 minutos en el tiempo de entrega, eventualmente podría agravar el problema de la temperatura.
Urge contrastar la hipótesis:
Hipótesis: La temperatura de la pizza está bastante relacionada con el tiempo de reparto
Con los datos disponibles intentemos contrastar esta hipótesis. Para ello una herramienta muy útil es el diagrama de dispersión o diagrama bivariante, además del coeficiente de correlación lineal.
54
Figura 22. Relación entre el tiempo de entrega y la temperatura
El diagrama de dispersión de la Figura 22, no contradice la hipótesis. El gráfico muestra asociación estadística entre el tiempo entrega y la temperatura de la pizza. El coeficiente de de correlación lineal, toma un valor de 0,81, que calculado con base en 100 datos, en bastante fiable. Este valor nos estaría indicando que aproximadamente el 66% (0,812) de la variabilidad la temperatura, es explicada por la variabilidad en los tiempos de entrega.
Con la línea punteada en el gráfico, se muestra que cuando el tiempo entrega está alrededor de 22 minutos, la temperatura de la pizza es en promedio 80°C.
En esta etapa de análisis, puede usarse una batería de herramientas estadísticas más potentes, como el análisis de regresión lineal, que se sale del alcance de este capítulo. Sin
55
embargo a manera de información, puede ser conveniente saber que para poder usar el modelo lineal hallado y que se muestra la figura, es necesario validar algunos supuestos. Para ello corrientemente se usan herramientas gráficas, como las que aparecen en la Figura 23.
Figura 23. Diagnostico gráfico para el ajuste de un modelo de regresión lineal.
Con los indicadores asociados al modelo de regresión ajustado, podemos afirmar por ejemplo en nuestro caso que en las ocasiones en las cuales el tiempo de entrega es de 22 minutos, la temperatura promedia de entrega es de 81°C aproximadamente. Además, podemos afirmar que en esa misma situación el 95% de las veces la temperatura de la pizza estará entre 75°C y 87°C.
Análogamente en las entregas que tardan 20 minutos, el 95% de las veces la temperatura de la pizza se haya entre 77°C y 89°C.
56
Esta información es realmente útil, pues permite no solo trabajar con las medias sino con intervalos de confianza para los parámetros o de predicción para las variables.
Una primera conclusión
Lo que resulta de este análisis es que si queremos que la pizza llegue caliente (al menos 80°C), debe reducirse el tiempo de entrega o mejorar el proceso de la conservación de la temperatura o una combinación de ambos
Otras Hipótesis
A partir del diagrama causa efecto de la Figura 21, se plantearon la siguiente hipótesis:
Hipótesis: existe diferencia en la distribución de los tiempos de entrega según motoristas.
Para contrastar esta hipótesis, se construyeron diagrama de caja, para el tiempo entrega asociado con cada uno de los motoristas, poniéndose en evidencia la existencia de tal diferencia.
Por otro lado se analizaron los registros, la parte de “Observaciones” y se detectó que los errores en la dirección y en la localización del piso, representan el cuatro por ciento de los retrasos.
Un descubrimiento interesante lo constituye el hecho de que la diferencias entre motoristas, se debe principalmente a la diferencias en el conocimiento de la zona.
57
Al describir en detalle el diagrama del proceso, surge la necesidad de valorar la política de cola antes del despacho, pues en la actualidad, se espera que haya tres pedidos para la misma zona, o que transcurran tres minutos, lo que ocurra primero.
Estrategias para Mejorar.
Alguna de las opciones de mejora del proceso planteadas por los miembros del equipo son las siguientes:
1. Definir mecanismos para la verificación de la dirección y del piso
2. Capacitar a los motoristas.
3. Aumentar el número de motoristas.
4. No recibir pedidos de la zona B, que es la más lejana.
5. Diseñar métodos para la conservación de la Temperatura. (Aislar cajas en la moto y hacer uso de bolsas plásticas).
Pruebas Piloto y evaluación de riesgos
Una vez se han generado estrategias de mejora, existen mecanismos para valorar su impacto y para medir los riesgos de su implementación, una opción muy recomendable son las llamadas pruebas piloto.
Antes de invertir grandes cantidades de dinero, llevando la práctica alguna de las alternativas, conviene probarlas a pequeña escala. Esto permite entre otras cosas, descubrir algunas posibles limitaciones en su aplicación, así como también valorar su impacto en relación con su costo, posiblemente a través de un análisis de costo beneficio. Se detectan
58
con ensayo piloto, algunos efectos secundarios no deseables, que podrían ser difíciles de detectar a priori.
De esta manera se realizaron pruebas piloto para las siguientes propuestas de mejoramiento:
Diseño de un nuevo Proceso para disminuir errores en la dirección.
Este nuevo proceso se ensayó en las localidades B2 y M1 y se tomaron como control para la comparación las localidades B3 y M6 que usaban el sistema tradicional.
Se pasó de 1,7% de direcciones erradas a tan sólo 0,5%, resultando ésta diferencia estadísticamente significativa, al aplicar las pruebas estadísticas correspondientes para decidir si esta diferencia puede producirse por azar o si por el contrario es una diferencia estructural.
Redefinición de las zonas a atender.
Las zonas a servir se redefinieron, estudiando la distancia y los tiempos de entrega a partir de los registros observados. Esto implicará, entre otras cosas, no atender algunos clientes que antes se atendía. Para ello se realizará un estudio de costo beneficio.
Conservación de la temperatura
Se probaron distintos tipos de “bolsa térmica caliente” , con criterios técnicos y de costos se seleccionó una para ser probada en un ensayo piloto. Cada vez que había pedido para una misma zona, se hacía una rifa de manera totalmente aleatoria para decidir a cual pone bolsa y a cual no, esto para evitar sesgos por posible variables no controladas y evitar se convirtieran en factores de confusión.
59 Los resultados se presentan a continuación:
Figura 24. Valoración del impacto de la “bolsa térmica caliente”.
La Figura 24 pone en evidencia de manera contundente, el impacto de la bolsa en el control de la temperatura, pues pasamos de una situación en la cual el 35,5% de las entregas no cumplían con la especificación, a tan sólo un, 3,7%.
Estos resultados correspondientes a la media y a la desviación estándar, son bastante estables, toda vez que han sido calculados con una muestra suficientemente grande, como
60
para garantizar que la diferencias observadas no se presentan de chiripa. Las herramientas sobre este tema, las trataremos en el último capítulo.
Implantación de las mejoras.
Una vez se han realizado los ensayos piloto, se han validado las opciones de mejoramiento que realmente funcionan, y se ha medido su impacto económico a través de análisis de costo beneficio, están listas para ser implantadas en la organización.
Para ello, se estableció un calendario de actividades, con responsables específicos y con los recursos requeridos para implantarlas.
Se realizó una muy fuerte capacitación sobre nuevo el proceso a los encargados de los 14 establecimientos y se compraron bolsas térmicas para todos los motoristas.
Se hizo una intensa formación a los motoristas en el manejo de mapas, directorios y “callejeros”, con entrenamiento en la calle y con su correspondiente evaluación para garantizar la efectividad de su capacitación.
Se estableció un espacio de reunión de los motoristas, para intercambiar experiencias e información sobre rutas.
Establecimiento de controles
Cuando se implementará un nuevo sistema, es muy importante garantizar la nueva inercia, que impida que el sistema vuelva a su estado anterior, es necesario, que todos en la organización se familiaricen con los nuevos estándares y especificaciones, con los nuevos procedimientos, con los nuevos instrumentos de registro de datos. Hay que evitar que las mejoras sean transitorias, es necesario consolidar el nuevo sistema.
61
Todo esto debe hacerse de manera organizada definiendo un sistema de monitoreo y control.
Corresponde ahora la práctica, ya no ha escala piloto, si no con la empresa funcionando, validar las cifras, los indicadores, y los beneficios esperados.
Elementos esenciales del sistema de control podrían ser entre otros los siguientes: • Estandarización. Documentación de los nuevos procesos.
• Control de los procesos a los nuevos niveles. Dado que pueden haberse cambiado las especificaciones, es necesario monitorear los procesos para asegurarse que se cumple. Esto puede hacerse a través de los llamados gráficos de control.
• Documentación del proyecto. Es la historia del proyecto, que incluyen dificultades y sus soluciones, que plantea de forma explícita las métricas utilizadas, sus definiciones, los instrumentos de medición, sus especificaciones, cálculos de rentabilidad financiera, supuestos, preguntas pendientes de resolver.
Control al nuevo nivel
Se puso en marcha en forma paulatina un sistema de seguimiento de tiempo y temperatura en la misma tarjeta de pedido.
Se estableció el cuadro de mando que se muestran en la ¡Error! No se encuentra el origen de la referencia., en el cual se presenta de una manera precisa, la forma como deben ser controladas cada una de las variables críticas, incluyendo responsables, frecuencia de control, método evaluación, tolerancias y propósito.
62
X´s Objetivo Tolerancias Método de Evaluación Frecuenci a Responsa ble de la medida Formación Conocimiento de la ciudad >70% en el examen Examen nueva incorporación Todos los motoristas Supervisor Zona Utilizar la Zona asignada según carga de trabajo
Cero Zona/Carga Cada
entrega Supervisor Respuestas Y Tiempo de Entrega Satisfacción del cliente >99,7% Encuesta de
satisfacción Anual Central 30 minutos Min 99% Número de
descuentos Todas Supervisor
Temperatura 80°C >76°C Ficha Todas Supervisor
63
Valoración de Resultados No financieros
Tiempo de Entrega de los Pedidos
Aunque la media no ha cambiado mucho, la
variabilidad se ha reducido notablemente, haciendo que el límite de especificación ahora se cumpla
holgadamente. Esta reducción de los tiempos grandes traerán mejoras también en la temperatura
Temperatura de la Pizza
Se ha mejorado no solo en la media, que ahora es mayor, sino también en la dispersión que ahora es menor, a tal punto que el 100% de los pedidos llegan con temperatura superior a los 78°C.
64
Calculo de los cuartiles para datos crudos.
Ilustraremos el proceso de cálculo de los cuartiles con un ejemplo.
Ejemplo.
Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre cierta clase de empleados de la población objetivo de un estudio.
25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.
Paso #1; Ordenar los datos de menor a mayor
:
Observe que cuando los números indican “posición”, los colocamos entre paréntesis.
Los cuartiles los descubrimos calculando la posición que ocupan; es conveniente empezar por el segundo cuartil
Segundo cuartil Q2. (Mediana)
Para calcular la posición que ocupa el segundo cuartil, promediamos las posiciones extremas: (14)+(1)/2 = (7.5). Como no existe la posición 7.5, porque un dato queda en la
65
posición 7ª o en la 8ª, entonces interpretaremos que queda en el medio de los datos que están de 7º y 8º , para evitar esta riña, hacemos el promedio de los dos datos que ocupan esas posiciones: 2 (33 34) 33, 5 años 2 Q = + =
Primer Cuartil3, Q1. El primer cuartil se obtiene considerando solo los datos que quedan antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de encontrar la posición de la mitad de la mitad.
La posición que ocupara el primer cuartil será la mediana de este primer grupo de datos: que es el que ocupe la posición
3
Note que si el número de datos es impar, el segundo cuartil Q2, no se´ra necesariamente un dato de la
muestra. En este caso, para calcular la ubicación del primer cuartil Q1, se toman en cuenta los datos que
quedaron antes del segundo cuartil, excluyendo el dato que resultó ser el segundo cuartil Q2. Análogamente
66 (7) (1) (4) 2 + =
La Cuarta posición la ocupa el dato 29. Este es el primer cuartil.
Es decir que el primer cuartil, Q1es el dato que ocupa la 4º posición, o sea que Q1 = 29
Años
Si aplicamos este mismo procedimiento a los datos mayores que la mediana, se obtiene el tercer cuartil
El tercer cuartil Q3.
La posición que ocupará el tercer cuartil será la mediana de este segundo grupo de datos: Es decir, será el valor que ocupe la posición:
(8) (14) (11) 2
+ =
La posición once (11) la ocupa el dato 42. Este es el tercer cuartil.
67
Para la construcción de un diagrama de caja y alambres, se requiere de algunos cálculos adicionales, basados en los cuartiles ya encontrados:
Rango Intercuartílico. (RIC)
RIC = Q3-Q1 = 42-29= 13 Años
Edad mínima = 23 Años
Edad máxima = 54 Años
Cerco interno inferior = Q1- 1.5(RIC) = 29-1.5(13) = 9.5
Cerco interno superior = Q3 + 1.5(RIC) = 42 + 1.5(13)= 61.5
Construya usted el diagrama de caja para este caso4
Otro ejemplo (Síntesis)
Se tiene una muestra aleatoria sobre cierta característica de la Población y se quiere hacer una descripción de la misma, usando los cuartiles y construyendo un diagrama de caja y alambres.
Para ello, se ordena la muestra de menor a mayor, como se muestra enseguida.
4
Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre siempre, por esta razón los puntos interiores más cercanos al cerco son el mínimo y el máximo de los datos, que definen la longitud de los “alambres” que van pegados a la caja.
68
Se empieza calculando el segundo cuartil y después los otros dos, siguiendo los pasos que se explican abajo.
Figura 26. Ilustración de los pasos para el cálculo de los cuartiles
En resumen puede decirse que los diagramas de cajas y alambres son útiles, entre otros para los siguientes propósitos: