Capacidad de Procesos según ISO 9000 Ing o. Angel Francisco Arvelo

(1)

(2)

EVALUACION DE LA CAPACIDAD DE CALIDAD

DE UN PROCESO INDUSTRIAL

METODOS ESTADISTICOS SUGERIDOS POR LA NORMA ISO 9000

ANGEL FRANCISCO ARVELO L. Ingeniero Industrial

Master en Estadística Matemática

CARACAS, MARZO de 1997

(3)

ANGEL FRANCISCO ARVELO LUJAN

Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas.

Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente

Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987

Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004

Sus datos personales son :

Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico: [email protected] Teléfono: 58 416 6357636

Estudios realizados:

Ingeniero Industrial. UCAB Caracas 1968

Máster en Estadística Matemática CIENES , Universidad de Chile 1972

Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982

Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente

El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998.

En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”.

Una mayor información pueden ser obtenidos en la siguiente página web:

(4)

PROLOGO

La actual crisis económica por la que atraviesa nuestro país , con la consecuente pérdida en la capacidad de compra de los consumidores, ha traído como consecuencia que muchas empresas industriales vean en la exportación una salida para su desarrollo.

Sin embargo, a la hora de tratar de penetrar los mercados internacionales, nuestras empresas se han encontrado con la dificultad de que allí, las normas de calidad son mucho más exigentes, y de obligatorio cumplimiento.

Así por ejemplo, el cumplimiento de las cláusulas establecidas en la Norma ISO- 9000 y sus anexos, ya es un requisito mundialmente exigido para cualquier empresa industrial o de servicios, que pretenda competir en los mercados de los países desarrollados.

Con el objeto de garantizarle a los consumidores y usuarios, que las empresas productoras y de servicios tienen un sistema de aseguramiento de la calidad, y que dicho sistema es permanente en el tiempo, ha aparecido la figura de las llamadas "Auditorías de Calidad" , en donde un agente externo a la empresa certifica ante terceros , la existencia de este sistema de aseguramiento de la calidad, y que la empresa responderá ante el consumidor frente a cualquier problema derivado de la producción de alguna pieza defectuosa , o de alguna falla en la prestación del servicio.

Aunque las cláusulas previstas en la norma ISO - 9000 , son de un carácter bastante general, y están enfocadas exclusivamente hacia el sistema y no hacia el producto, algunas de ellas hacen mención a la necesidad de que la empresa cuente con la existencia de métodos estadísticos para el control de calidad, y sugiere la implantación de técnicas de muestreo para detectar a tiempo la aparición de cualquier tipo de fallas .

La aplicación de métodos de muestreo en la industria venezolana, ya era conocida aún antes de la aparición de la Norma ISO-9000, y así desde hace ya muchos años , COVENIN adoptó los planes de muestreo por atributos , conocidos como "Tablas Militares 105-D" , como normas venezolanas.

Sin embargo, además de los planes de muestreo, otra evaluación muy importante en las auditorías de calidad, son los llamados estudios de capacidad o de habilidad de procesos, los cuales requieren de una metodología estadística.

(5)

Así por ejemplo, la Norma Venezolana Covenin 9004-90, en donde se dan los lineamientos para la "Gestión de Calidad", establece textualmente en su Título Nº 10 "Calidad en Producción" , Sección 10.2 " Capacidad del Proceso", lo siguiente: « A los procesos de producción se les debe verificar su capacidad para producir de acuerdo con las especificaciones establecidas para el producto. Deben ser identificadas las operaciones asociadas con las características del producto o proceso, que puedan tener efectos significativos sobre la calidad del producto. Se debe establecer un control apropiado para asegurar la permanencia de estas características dentro de las especificaciones y que se hayan realizado los cambios y modificaciones apropiadas.

La verificación de los procesos de producción debe incluir la revisión de los procedimientos relativos a material, equipo , sistemas de computación , procedimientos y el personal involucrado .»

El concepto de capacidad de procesos se refiere fundamentalmente a la disposición que tiene el proceso para cumplir con las especificaciones que le son impuestas por las normas, y así por ejemplo , si el proceso presenta un alto grado de variabilidad y las especificaciones son muy estrechas, entonces generará un alto porcentaje de piezas defectuosas , es decir fuera de especificación .

Si por el contrario, el proceso es muy preciso, y fabrica piezas con poco margen de variabilidad, entonces con calibraciones adecuadas, se podrá lograr que la totalidad de las piezas caigan dentro de las especificaciones exigidas, y el proceso se denominará capaz. Un proceso "capaz" es entonces, aquel que puede cumplir a cabalidad con los requisitos de calidad impuestos por las especificaciones.

El concepto de capacidad de procesos no es nuevo en los textos de "Control Estadístico de Calidad " , pero si es una novedad dentro del medio industrial venezolano. De hecho , antes de la aparición de la Norma ISO-9000 , solo era puesto en práctica por un limitado número de industrias , tales como las petroleras , la industria automotriz , y algunas transnacionales.

El objetivo del presente trabajo, es presentar de una manera clara y precisa, la metodología estadística necesaria para estimar la capacidad de cualquier proceso industrial que deba someterse a ciertas especificaciones externas, y puede ser de utilidad tanto para la empresa a fin de autoevaluarse, como para el auditor externo .

La metodología que aquí se presenta no es propia, de hecho aparece dispersa en buena parte de los textos de "Control Estadístico de Calidad". Considero que mi

(6)

principal contribución es organizarla, y presentarla de una manera didáctica, a fin de que pueda ser fácilmente utilizada por las personas relacionadas con el tema. Dado que la metodología aquí descrita requiere conocimientos básicos de Estadística, Probabilidades e Inferencia Estadística, es conveniente que las personas responsables de aplicarla , repasen los conceptos fundamentales de tales asignaturas, puesto que algunos de ellos como el cálculo de ciertos estadísticos muestrales de deformación y de curtosís, o el manejo de tablas normales , y pruebas de hipótesis, se suponen ya conocidos.

He tratado de desarrollar la metodología conciliando dos aspectos: el práctico y el académico.

El aspecto práctico es sumamente importante puesto que este trabajo está dirigido a personas del medio industrial, a quienes les interesa principalmente el aspecto metodológico, con el fin de evaluar su proceso.

El aspecto académico es también para mí sumamente importante, ya que dada mi condición de Profesor Universitario , actividad a la que he dedicado gran parte de mi vida profesional por más de 26 años , no me sentiría satisfecho si me limitara a dar un "recetario" de fórmulas y procedimientos, sin justificación teórica alguna. Para conciliar estos dos aspectos decidí dividir el trabajo en cinco capítulos; los cuatro primeros se refieren exclusivamente a aspectos de carácter práctico que constituyen la esencia de la metodología, y en el quinto capítulo se da el fundamento teórico de la misma.

En lo personal, considero que el Capitulo V es junto con la síntesis de la metodología , el gran aporte de este trabajo , ya que en los textos de Control de Calidad no aparece la justificación de muchos procedimientos , como la deducción de los coeficientes para construir los gráficos de control , o los coeficientes para estimar la desviación típica del proceso a partir del rango medio, etc., y cuyas demostraciones han sido desarrolladas por mí , con la ayuda de técnicas de Estadística Matemática .

Sinceramente espero que el presente trabajo sea una contribución para el desarrollo del sector industrial venezolano, de utilidad para las personas relacionadas con el Control Estadístico de Calidad, y para aquellos estudiantes y profesionales interesados en conocer el porque de las cosas.

(7)

CAPITULO I : DISTRIBUCION NORMAL Y CAPACIDAD

DE PROCESOS INDUSTRIALES

.

La curva normal es la más importante de las distribuciones estadísticas, y representa un modelo teórico de comportamiento para una variable aleatoria continua “X”, cuya función de densidad de probabilidad viene dada por la ecuación: f x( ) 1 e 2 -(x- ) 2 2 2 _{; - < x <} - < μ < > 0

En la expresión anterior , "µ" y " " representan los parámetros de la distribución , que reciben el nombre de media y desviación típica respectivamente ,y definen en realidad una familia, pues al tomar diferentes valores obtendremos una nueva curva .

Los parámetros de la curva tienen una influencia determinante en su geometría, y así , el parámetro "µ" representa el eje de simetría o valor central de la distribución, mientras que el parámetro " " , por ser una medida de la variabilidad en los valores de "X" con respecto a la media "µ" , incide en su ancho ; de manera que a un menor valor de " " ,la curva se hace más estrecha al estar los valores de la variable más concentrados alrededor del valor de "µ" , y a un mayor valor de " " obtendremos una curva más ancha, con una mayor dispersión de los valores de la variable con relación a la media.

Uno de los principales objetivos del Control Estadístico de Calidad es conocer los parámetros con que el proceso está produciendo las piezas , pues mediante su conocimiento se podrá determinar si se está en capacidad de cumplir con las especificaciones que le son exigidas al producto, y obviamente en la medida en que la desviación típica del proceso se reduzca, se obtendrá un proceso más estable y un producto más homogéneo.

VARIABILIDAD DE LOS PROCESOS INDUSTRIALES

La Teoría de Control Estadístico de Calidad establece que en todo proceso industrial existen dos tipos de causas de variabilidad, que se conocen como comunes y asignables.

Las causas comunes constituyen la suma de los efectos de un conjunto total de causas aleatorias no controlables, que producen una variación en la calidad del producto manufacturado, y que son semejantes al conjunto de fuerzas que dan lugar a que una moneda caiga de uno u otro lado cuando es lanzada al aire. Con respecto a estas causas comunes, es poco lo que se puede hacer para reducirlas, debido a que son inherentes al proceso, a la precisión de las

(8)

máquinas, etc. La desviación típica " " de la curva, es justamente el reflejo de la variabilidad debida a estas causas aleatorias.

Las causas asignables por el contrario, son debidas a la presencia de algunos factores que perturban el proceso, y que por sí solos son capaces de explicar en gran medida la variabilidad en la calidad del producto. Entre estas causas podrían ser citadas como ejemplo, diferencias entre las máquinas, diferencias entre los operarios, diferencias entre los materiales, etc.

El Control Estadístico de Procesos supone que si se estudia un grupo de datos y se encuentra que se ajustan a una Distribución Normal, entonces no existen causas asignables, y se dice que el proceso está bajo control estadístico debido a que es posible pronosticar con un alto grado de certeza su variabilidad .

Por el contrario, cuando los datos obtenidos del proceso no se ajustan a la Normal, se dice que están actuando una o más causas asignables, y que el proceso está fuera de control.

De lo anterior se deduce entonces que el punto de partida o axioma de la Teoría de Control Estadístico de Procesos es que cuando no actúan causas asignables, el proceso se comporta según una Distribución Normal, y que la variabilidad observada es simplemente aleatoria.

PROPIEDADES DESCRIPTIVAS DE LA DISTRIBUCION NORMAL

Cuando se tiene un conjunto de datos provenientes de un proceso industrial, es importante reconocer si su comportamiento es o no normal, a fin de poder identificar causas comunes y causas asignables.

A continuación se enuncian una serie de propiedades que tiene la curva normal, y se señalan algunos procedimientos prácticos que permiten verificar si desde un punto de vista descriptivo es razonable suponer la normalidad del proceso. En el capítulo siguiente se trataran en detalle las pruebas de ajuste, que son las que en definitiva permitirán aceptar o rechazar la hipótesis de normalidad.

1º) La curva normal tiene una forma acampanada y es simétrica respecto de su media.

Para verificar la forma acampanada de los datos basta con construir el histograma de frecuencias para los datos agrupados, y comprobar que la clase modal se ubica en el zona central de la gráfica y que a medida que nos alejamos de ella, en cualquiera de las dos direcciones la frecuencia disminuye.

Para verificar la simetría respecto de la media, es necesario calcular las diferentes medidas de deformación las cuales deben dar cero.

Las principales medidas de deformación son:

Coeficiente momento de sesgo. Coeficiente percentílico de sesgo.

(9)

2º) En la Distribución Normal, la media, la mediana y la moda coinciden.

Para verificar esta propiedad, basta con calcularle a la muestra agrupada, estos tres estadísticos muestrales, y comprobar que el resultado de estos cálculos dan cifras muy cercanas.

3º) En el intervalo ( µ ± ) deben caer el 68,27% de los datos muestrales , en el intervalo ( µ ± 2 ) deben caer el 95,45% de los datos muestrales , y en el intervalo ( µ ± 3 ) deben caer el 99,73% de los datos muestrales .

El valor estimado del parámetro "µ" es la media de la muestra , y el de " " la desviación típica muestral , y para verificar que la muestra satisface estos porcentajes, es necesario calcular el puesto percentil correspondiente a cada extremo del intervalo ,a fin de hallar el porcentaje de observaciones que se encuentran por debajo de cada extremo, y finalmente restar dichos porcentajes. 4º) La Distribución Normal es una curva mesocúrtica, para la cual el coeficiente momento de curtosis vale 3 , y el coeficiente percentílico de curtosis vale

0,263.*1

En el capitulo V , sobre Fundamentos Teóricos de la metodología ,se encuentra la demostración de estas propiedades.

Ejemplo Práctico: Supongamos que al tomar una muestra de 250 botellas de refresco y analizar sus contenidos, se agruparon las observaciones en intervalos de 5 cc de amplitud , dando lugar a la siguiente distribución de frecuencias:

11

Para una mayor explicación sobre estos conceptos estadísticos básicos, y su metodología de cálculo, el lector puede consultar algunos textos de “Estadística” tales como : “Estadística” de Murray R. Spiegel, o Estadística para las Ciencias Administrativas de Lincoln L. Chao , ambos de la Editorial Mac. Graw Hill .

(10)

Contenido ( cc ) Frecuencia 190 - 195 9 195 - 200 29 200 - 205 47 205 - 210 72 210 - 215 51 215 - 220 30 220 - 225 12

Para hacer un tratamiento descriptivo de estos datos procedemos como sigue: 1º) En primer lugar se dibuja un Histograma de frecuencias:

2º) A continuación , se estiman los parámetros de la distribución:

ˆ

_{= Media Muestral = X =} L*i i=1 i= k f f i i i i k 1 2 =Varianza Muestral = S2= i k * 2 i i i 1 i k i i 1

(L

X)

f

1

= i k * 2 2 i i i 1 i k i i 1

(L )

f

X

f

n

1

(11)

En donde:

Li* = Marca de Clase del intervalo "i" fi = Frecuencia del intervalo "i" . k= Número de intervalos . n=

i k i i 1

f

= Número total de datos

Es conveniente organizar los cálculos en la siguiente tabla:

Intervalo Li* fi Li* fi (Li*)2.fi 190 - 195 192.50 9 1732.50 333506.25 195 - 200 197.50 29 5727.50 1131181.25 200 - 205 202.50 47 9517.50 1927293.75 205 - 210 207.50 72 14940.00 3100050.00 210 - 215 212.50 51 10837.50 2302968.75 215 - 220 217.50 30 6525.00 1419187.50 220 - 225 222.50 12 2670.00 594075.00 Totales 250 51950.00 10808262.5 Sustituyendo obtenemos:

ˆ

= X = 51950 00 250 . , = 207,80 2= S2= 2 (10.808.262,50) (250)(207,80) 249 = 52,21  = S = 7,23

Aclaratoria: Uno de los problemas importantes que se estudia en “Inferencia Estadística” es el de estimación, que trata sobre la metodología a seguir para inferir el valor desconocido de un parámetro poblacional a partir del estadístico muestral.

Usualmente los parámetros poblaciones se designan con letras griegas, mientras que sus correspondientes estimadores con letras latinas.

Así por ejemplo “μ” representa a la media poblacional, mientras que X a la media muestral que es su estimador.

Cuando esta nomenclatura se aplica sobre la varianza, se obtiene que la varianza poblacional

designada por 2 ,viene dada por : 2

2 1 (x ) N i i i N

; mientras que la muestral :

S x X n i i i n 2 2 1 ( )

. Sin embargo, en Inferencia Estadística se demuestra que un mejor

estimador2 de 2 es: Sc i i i n x X n 2 2 1 1 ( )

, y recibe el nombre de “cuasi varianza muestral” .

2

(12)

Como la diferencia en la estimación, entre uno y otro es realmente muy pequeña especialmente para muestras grandes y además S_c2 es mejor estimador por ser insesgado2, muchos autores definen de una vez a S_c2 como “varianza muestral” y omiten definir al otro. Tal es el caso del control estadístico de calidad en donde ha hecho ya costumbre definir a la varianza muestral

como i n 2 i 2 i 1 (x X) S n 1

3º) Como siguiente paso se verifica que la mediana y la moda coinciden con la media.

La mediana se calcula mediante como un caso particular de percentiles.

La fórmula general para calcular un percentil es : P L

n p F f c p i i i 1 1 100 Pp= Percentil "p"

Li-1 = Límite inferior del intervalo donde se encuentra Pp

Fi-1 = Frecuencia acumulada hasta el intervalo anterior . fi = Frecuencia del intervalo donde se encuentra Pp. c = Amplitud de los intervalos de clase .

n= Tamaño de muestra = fi

i i k

1

Para identificar el intervalo donde cae la mediana, construimos la tabla acumulada de frecuencias: Contenido ( cc ) fi Fi 190 - 195 9 9 195 - 200 29 38 200 - 205 47 85 205 - 210 72 157 210 - 215 51 208 215 - 220 30 238 220 - 225 12 250

Aquí vemos que la mediana cae en el cuarto intervalo , pues en el intervalo donde la frecuencia acumulada sobrepasa el valor 125 , que representa la mitad de los datos.

Haciendo p=50 , se halla la mediana, y resulta ser:

Mediana = P50 = 205

250 50

100 85

72 5 = 207,78

El cálculo de la moda se hace por la expresión siguiente: Moda = Li c

1

(13)

Li = Límite inferior de la clase modal .

1= Diferencia de frecuencias a la izquierda de la clase modal .

2= Diferencia de frecuencias a la derecha de la clase modal .

c = Amplitud de los intervalos de clase .

Para este caso, la clase modal es la cuarta, y se tiene:

Moda 205 25

25 21 5 = 207,72

Los tres estadísticos muestrales calculados moda, mediana y media resultaron ser entonces 207,72 , 207,78 y 207,80 respectivamente , lo que refleja un comportamiento muy cercano al modelo normal .

4º) Para verificar que se cumplen los porcentajes teóricos dados por la curva normal , se procede a definir los intervalos ( µ ± ) , ( µ ± 2 ) y ( µ ± 3 ) , en base a las estimaciones obtenidas .

Intervalo ( µ ± ) = 207,80 ± 7,23 = [200,57 ; 215,03] Intervalo ( µ ± 2 ) = 207,80 ± 2 (7,23 ) = [193,34 ; 222,26] Intervalo ( µ ± 3 ) = 207,80 ± 3 (7,23) = [186,11 ; 229,49]

Para calcular el porcentaje de observaciones muestrales que caen en cada uno de estos intervalos, se aplica la fórmula del Puesto Percentil "p" , que da el

porcentaje de observaciones menores o iguales que un límite Pp.

p n F P L c f i p i i 100 1 1

p = Porcentaje de observaciones menores iguales o menores que Pp.

Li-1= Límite inferior del intervalo donde se encuentra Pp.

Fi-1 = Frecuencia acumulada hasta el intervalo anterior.

fi = Frecuencia del intervalo donde se encuentra Pp.

c = Amplitud de los intervalos de clase . n= Tamaño de muestra.

De la tabla de frecuencias acumuladas, ya encontrada anteriormente, se tiene:

Para Pp= 215,03 : p1 100 250 208 215 03 215 5 30 , = 83,27 % Para Pp= 200,57 : p2 = 100 250 38 200 57 200 5 47 , = 17,34 %

En consecuencia, el porcentaje de observaciones que corresponde al intervalo [200,57 ; 215,03] es: 87,27% - 17,34 % = 65,93 % .

Para el segundo intervalo:

Para Pp= 222,26 : p1 = 100 250 238 222 26 220 5 12 , = 97,37 %

(14)

Para Pp= 193,34 : p2 = 100 250 0 193 34 190 5 9 , = 2,40 %

Porcentaje en el segundo intervalo = 97,37 - 2,40 = 94,97%

Para el tercer intervalo el 100% de las observaciones muestrales caen en él. Los resultados obtenidos están bastante próximos a los teóricos, lo que se interpreta como un nuevo síntoma de normalidad para la población de donde proviene esta muestra .

5º) Para verificar ahora la simetría de los datos, se precisa encontrar las diferentes medidas de deformación.

La primera de ellas es el coeficiente momento de sesgo "a3", que se calcula por

la expresión: a m

S

3 3 3 .

m3 = Tercer momento muestral respecto de la media =

(L X) f f i * i 1 i k 3 i i i 1 i k

El cálculo de “m3” se hace elaborando la siguiente tabla , teniendo en cuenta que

X = 207,80 . Contenido Li* fi Li*- X (Li*- X )3.fi 190 - 195 192.50 9 -15.3 -32234.193 195 - 200 197.50 29 -10.3 -31689.083 200 - 205 202.50 47 -5.3 -6997.219 205 - 210 207.50 72 -0.3 -1.944 210 - 215 212.50 51 4.7 5294.973 215 - 220 217.50 30 9.7 27380.190 220 - 225 222.50 12 14.7 38118.276 Total 250 -129 Por tanto: m3 = 129 250 = -0.52 , y a3 = 0 52 23 3 . (7. ) = - 0.001

Una segunda medida de deformación es el coeficiente percentílico de sesgo, que se determina por la expresión:

Coeficiente de sesgo percentilico = P P P

P P 90 50 10 90 10 2 P90 = Percentil 90 P50= Percentil 50 = Mediana P10 = Percentil 10

(15)

Para el caso en cuestión, la Mediana ya se calculó y resulto ser 207,78 ; falta calcular el Percentil 10 y el 90 , por la fórmula general para el cálculo de percentiles, obteniéndose: P10 = 195 25 9 29 5 = 197,76 P90 = 215 225 208 30 5 = 217,83

Coeficiente de sesgo percentílico = 217 83 2 207 78 197 76

217 83 197 76

, , ,

, , = 0,0015

Una tercera medida de deformación es el coeficiente cuartílico de sesgo, que se determina por la expresión:

Coeficiente de sesgo cuartílico = Q Q Q

Q Q

3 2 1

3 1

2

Q3 = P75 = Tercer Cuartil = Percentil 75 = 210

187 50 157

51 5

.

= 212.99

Q2 = P50 = Segundo Cuartil = Percentil 50 = Mediana = 207.78

Q1 = P25 = Primer Cuartil = Percentil 25 = 200

62 5 38

47 5

.

= 202.61

Coeficiente de sesgo cuartílico = 212 99 2 207 78 202 61

212 99 202 61

. . .

. . = 0.004

Las tres medidas de deformación dan un resultado casi nulo, lo que se interpreta como una simetría casi perfecta de los datos, lo que revela otra coincidencia con la Distribución Normal.

6º) Un último paso para verificar la normalidad de los datos, desde un punto de vista descriptivo es calcular las medidas de apuntamiento, como lo son el coeficiente momento de curtosis , y el el coeficiente percentílico de curtosis, las cuales tienen para la Distribución Normal , un valor teórico de 3 y de 0,263 respectivamente. ( Véase la demostración en el Capítulo de Fundamentos Teóricos) .

El coeficiente momento de curtosis “a4” se calcula por la expresión: a4 =

m S

4 4

Donde: m4 = Cuarto momento muestral respecto de la media =

(L X) f f i * 4 i i 1 i k i i 1 i k

El cálculo de m4 se hace a través de la siguiente tabla , teniendo en cuenta que X

(16)

Contenido Li* fi _Li*-X _(Li*-X )4 f_i 190 - 195 192.50 9 -15.3 493183.153 195 - 200 197.50 29 -10.3 326397.555 200 - 205 202.50 47 -5.3 37085.2607 205 - 210 207.50 72 -0.3 0.5832 210 - 215 212.50 51 4.7 24886.3731 215 - 220 217.50 30 9.7 265587.843 220 - 225 222.50 12 14.7 560338.657 250 1707479.43 En consecuencia : m4 = 1707 479 43 250 . . , =6.829,92

y el coeficiente momento de curtosis: a4 =

6 829 92

23 4

. ,

(7. ) = 2.50

La expresión para calcular el coeficiente percentílico de curtosis " " es:

Coeficiente Percentílico de Curtosis = =

1

2 3 1

90 10

(Q Q ) P P

Anteriormente ya habían sido calculados los cuartiles, y los percentiles 10 y 90 ,

obteniendo : Q3 = 212.99 ; Q1 = 202.61 ; P10= 197.76 ; P90 = 217.83 Reemplazando: = 1 2 212 99 202 61 217 83 197 76 ( . . ) . . =0.2586

De los resultados obtenidos concluimos que la curva obtenida es ligeramente menos puntiaguda que la normal (Curva Planticúrtica) , puesto que ambos coeficientes resultaron ligeramente menores a los teóricos dados por la curva normal .

Es muy frecuente que en el análisis descriptivo de los datos, se encuentren situaciones como esta, en donde los resultados muestrales se alejan ligeramente

(17)

de los teóricos dados por la Curva Normal , y de allí la importancia de las Pruebas de Ajuste a la Normalidad , que se analizan en el capítulo siguiente, a fin de evaluar si tales diferencias son o no significativas.

CONCEPTO DE CAPACIDAD DE UN PROCESO INDUSTRIAL

El hecho de que un proceso industrial se encuentre bajo control estadístico no significa que va a producir artículos de calidad, lo que significa es simplemente que sobre su variabilidad están actuando solamente causas comunes , y es perfectamente posible que a pesar de hallarse bajo control, este margen de variabilidad sea tan amplio que le impida cumplir con las especificaciones exigidas por el consumidor .

Para poder controlar la calidad deben existir unas especificaciones, que son los límites entre los cuales debe caer una determinada característica cuantitativa para que se considere que el producto satisface los requisitos de calidad; así por ejemplo, cuando se exige que un eje debe tener un diámetro de (100.00 ± 0.25) mm , esto significa que su diámetro debe caer en el intervalo (99.75 ; 100.25) mm para que cumpla con este requisito de calidad. Estos límites del intervalo definen lo que se denominan las especificaciones, y sus extremos, reciben el nombre de "límite inferior de especificación" y "límite superior de especificación" , que

en lo sucesivo se designaran por "Li " y "LS " respectivamente .

La diferencia entre esos límites se define como la tolerancia: T = LS -Li

Resulta obvio que cuanto mayor sea la tolerancia de un producto, más fácil le resultará al proceso cumplir con las exigencias de calidad, puesto que el producto permite una mayor variabilidad; pero por el contrario, cuanto más pequeña sea la tolerancia, es más difícil cumplir puesto que el margen de variabilidad es más estrecho, y por tanto más exigente.

Hemos visto, que cuando un proceso está bajo control estadístico, los productos que fabrica se comportan según un modelo normal, y que entre los límites "µ-3 " y "µ+3 " , debe caer entonces el 99.73% de la producción. De allí entonces, que resulte conveniente que un proceso trate de ubicarse entre estos límites, a fin de garantizar que la casi totalidad de la producción va a cumplir con la especificación.

Por otra parte, hay que tener en cuenta que los parámetros "µ" y " " del proceso constituyen una característica propia del mismo . Su media "µ" generalmente puede ser fijada a voluntad, según ciertos ajustes y calibraciones que se le hagan

(18)

a las máquinas, pero su desviación típica " " es mucho más difícil de modificar, puesto que depende de las causas comunes que lo afectan, tales como precisión de las máquinas, destreza de los operarios, etc.

Cuando la media "µ" del proceso coincide con el punto medio de las especificaciones, se dice que el proceso está centrado.

Centrar un proceso no es garantía de que la producción va a cumplir con las especificaciones, pues si los límites de especificación resultan más estrechos que los límites de variación ±3 , entonces un cierto porcentaje de la producción va a resultar defectuosa, tal como se muestra en la figura:

Cuando un proceso está centrado, el porcentaje de piezas defectuosas se reparte por igual a ambos lados de la curva .

Cuando la media de un proceso no coincide con la media de la especificación, se dice que está descentrado o que la media está corrida, y en ese caso el porcentaje de piezas por encima del límite superior (defectuosas por exceso) es diferente de las que resultan por debajo del límite inferior (defectuosas por defecto) .

(19)

Por lo general, en el Control de Calidad, se trata de mantener al proceso centrado, porque bajo esta situación, el porcentaje de piezas fuera de especificación es lo mínimo posible (demostración en el capítulo de "Fundamentos Teóricos" ).

Hay situaciones especiales en que deliberadamente se provoca un corrimiento de la media y el proceso se descentra, debido a que por un extremo es posible corregir las piezas defectuosas, y por el otro extremo las piezas resultan inservibles. Cuando se presentan situaciones de esta naturaleza, la determinación del punto en que hay que colocar la media del proceso, depende del costo de la corrección, del costo de perder la pieza inservible, y de la utilidad que se obtenga por una pieza dentro de la especificación. ( Ver Cap.V)

Se dice que un proceso es capaz, cuando los límites de la especificación

resultan más amplios que sus límites ± 3 , pues en este caso, de estar centrado el proceso, podremos garantizar que prácticamente el 100% de las piezas producidas cumple con la especificación exigida.

PROCESO CAPAZ CENTRADO

La capacidad del proceso es entonces la disposición que tiene para adaptarse a las especificaciones, y es por consiguiente una cualidad que debe exigírsele a todo proceso industrial, si se quiere garantizar la fabricación de piezas que cumplan los requisitos de calidad establecidos en las normas.

Para medir la capacidad del proceso es necesario comparar la amplitud de su intervalo natural de variación, que como se sabe es desde µ-3 hasta µ+3 , lo

(20)

que da una amplitud de 6 , con la amplitud del intervalo de especificación LS-Li

que es "T" tolerancia de la especificación, y de allí que la medida utilizada para

expresar la capacidad es el denominado "Coeficiente de Capacidad" , CP

definido por: Cp Ls Li T

6 6

Cuando CP 1, el proceso es capaz siempre que esté centrado, mientras que

cuando CP < 1, el proceso es incapaz aunque esté centrado, pues los límites de la

especificación resultan demasiados estrechos en comparación con los límites de variabilidad natural del proceso, por efecto de las causas comunes.

El hecho de que un proceso sea capaz no significa sin embargo, que no deba ser controlado, pues si aparecen circunstancias externas que provoquen un corrimiento de la media y lo descentran, van a aparecer entonces un cierto porcentaje de defectuosas, en caso de que la distancia de la nueva media a uno de los límites de especificación sea inferior a 3 , tal como se muestra en la figura:

Para detectar a tiempo estos corrimientos en la media, es por lo que los "Gráficos de Control" constituyen una herramienta muy útil en el Control de Procesos . En conclusión, los estudios de capacidad denominados también de habilidad, tienen como objetivo el determinar si el proceso puede someterse a las especificaciones que le son impuestas, o si por el contrario, dichas especificaciones resultan demasiado estrictas para el proceso, y por consiguiente deben ser ampliadas o debe recurrirse a otro proceso que sea más preciso.

(21)

En numerosas oportunidades interesa determinar la probabilidad de que una pieza al azar cumpla con determinadas dimensiones, o el valor en que debe fijarse la media de un proceso, para tener una determinada probabilidad de que una pieza cumpla con una especificación. Para hacer tales cálculos, es indispensable el uso de las tablas normales.

La tabla normal permite calcular la probabilidad de que una observación sea igual o menor que una determinada abscisa "x" (Función de distribución), para unos parámetros "µ" y " " dados. Dicha probabilidad viene dada por el área bajo la curva, a la izquierda de la abscisa "x" , tal como se muestra en la figura:

Para entrar en la tabla normal, es necesario en primer lugar, tipificar previamente

la abscisa "x" , mediante la transformación: Z = X -

La abscisa tipificada "z" representa la distancia entre la abscisa "x" y la media "µ" , expresada en función de la desviación típica " " . Así por ejemplo, una abscisa tipificada z=2, representa que la abscisa "x" se halla a dos desviaciones típicas de la media "µ".

El signo de "Z" , indica la posición de la abscisa 'x" con respecto a la media "µ" , y así cuando "Z" es negativo la abscisa "x" es menor que la media "µ" ; mientras que cuando "Z" es positiva , la abscisa "x" es mayor que la media "µ".

Las tablas que se encuentran en el anexo, y utilizan la siguiente nomenclatura: (z) = Area que en la Normal tipificada hay desde "z" a la izquierda .

(-z) = Area que en la Normal tipificada hay desde "-z" a la izquierda . D(z) = Area que en la Normal tipificada hay entre "-z" y "+z" .

z = Abscisa que en la normal tipificada deja a la derecha un área .

La tabla 1 se utiliza cuando se tiene una abscisa tipificada "z" , y se quiere calcular el área a la izquierda . Si "z" es positivo se lee en la columna (z), si "z"

(22)

es negativo en la columna (-z) ,y en caso de que se trate de un intervalo central simétrico, el área entre "-z y + z" se lee en la columna D(z) .

Si se quiere el área a la derecha de una abscisa tipificada "z" , será necesario restar de 1, el área a la izquierda leída en la tabla 1 .

La tabla 2 se utiliza en el caso inverso, cuando se quiere determinar la abscisa tipificada que deja a la izquierda un determinado porcentaje de área, en cuyo caso se lee en la columna z ( ), y si lo que se tiene es un área central comprendida en un intervalo simétrico, el extremo positivo de dicho intervalo se lee en la columna z(D) .

Ejemplo 1 : Supongamos que un proceso fabrica piezas cuya longitud sigue una Distribución Normal con media 72.50 mm y desviación típica de 0.20 mm.

Calcular las siguientes probabilidades:

a) Que una pieza mida menos de 72.80 mm . b) Que una pieza mida menos de 72.10 mm . c) Que una pieza mida más de 72.60 mm

d) Que una pieza caiga en el intervalo (72.15 ; 72.75) mm . e) Que una pieza caiga en el intervalo (72.50 ± 0.35) mm . Solución :

Designando como “X” la longitud de una pieza, se tiene : X N ( 72.50 ; 0.202

) P ( X 72.80 ) = P ( Z < 72 80 72 50 0 20 . . . ) = P ( Z < 1.50) = (1.50) = 0.9322 P ( X 72.10 ) = P ( Z < 7210 72 50 0 20 . . . ) = P ( Z < -2) = (-2) = 0.0228 P ( X > 72.60 ) = P ( Z > 72 60 72 50 0 20 . . . ) = P ( Z > 0.50) =1- (0.50) = 1 - 0.6915 = 0.3085 P( 72.15 < X < 72.75) = P(7215 72 50 0 20 . . . < Z < 72 75 72 50 0 20 . . . ) = P ( -1.75 < Z < 1.25) = ( 1.25) - (-1.75) = 0.8944 - 0.0401 = 0.8543 P ( 72.15 < X < 72.85) = P (7215 72 50 0 20 . . . < Z < 72 85 72 50 0 20 . . . ) =

P ( -1.75 < Z < 1.75 ) = D ( 1.75 ) = 0.9199 ( Por ser un intervalo simétrico)

Nótese que en todos estos casos, las lecturas fueron hechas en la tabla 3.a , puesto que se daban abscisa para encontrar una probabilidad , la cual se mide por el área bajo la curva .

Ejemplo 2 : Suponiendo que la duración de unas baterías sigue una Distribución Normal con media 100 horas , y desviación típica de 12 horas .

(23)

a) Dar un plazo de garantía sobre la duración mínima de una batería, de forma que dicha garantía se cumpla con probabilidad 0.99 .

b) Dar un intervalo simétrico donde caiga la caiga la duración de una batería , con probabilidad 0.90 .

Solución :

En este ejemplo, tenemos que: X = Duración de una batería N(100 ; 122) .

a) La garantía se cumple cuando la duración de la batería es igual o mayor que el plazo de garantía, de forma que si designamos por "t" al plazo de garantía, lo que se quiere es : P ( X t ) = 0.99 , o gráficamente :

P ( X t ) = 0.99

P ( Z t 100

12 ) = 0.99

En la tabla 2 , se encuentra que para 99% de área a la derecha , es decir 1% de área a la izquierda , la abscisa tipificada correspondiente leyendo en la tabla

z( ) es : -2.326 t 100

12 = -2.326 t = 100 - 2.326 ( 12 ) = 72.09

y por consiguiente, el plazo de garantía para 99% de probabilidad de cumplimiento, debe ser de 72.09 horas .

b) Encontrar un intervalo simétrico donde caiga la duración de una batería con probabilidad 0.90, significa determinar un intervalo donde si elige una batería al azar , la probabilidad de que su duración caiga en dicho intervalo debe ser de 0.90 , y la probabilidad complementaria de no caer 0.10 , debe repartirse por igual para cada cola , es decir 0.05 por la izquierda y 0.05 por la derecha.

Por simetría, tenemos entonces que dicho intervalo debe estar centrado en la media 100 , y la incógnita es su amplitud " " , tal como se muestra en la figura:

Para determinar " ", se procede como sigue:

P( 100 - X 100 + ) = 0.90

P ( -

(24)

En la tabla 2, se encuentra que para 90% de área central , la abscisa

correspondiente es 1.645 ( Columna z(D) ) , y por consiguiente: 1.645

12 y de allí se deduce que : = 1.645 12 = 19.74

El intervalo central simétrico de 90% de probabilidad, para la duración de una batería, es entonces: 100.00 ± 19.74 = [ 80.26 ; 100.74 ] horas .

EJERCICIOS PROPUESTOS

1º) Un estudio demostró que los tiempos de vida de cierta marca de baterías para automóviles, se distribuyen normalmente con media 548 días , y desviación típica de 185 días . Si el fabricante debe garantizar sus baterías por 180 días , ¿ qué porcentaje de las baterías deberá ser cambiado ? .

Solución: 2.33 %

2º) Se ha comprobado que el peso de los estudiantes universitarios, sigue una Distribución Normal con media 68,5 Kgs., y desviación típica de 10 Kgs . ¿Cual es la probabilidad de encontrar un estudiante, cuyo peso esté:

a) entre 48 y 71 Kgs . b) superior a 91 Kgs .

Solución : a) 0.5785 b) 0.0122

3º) El espesor de las láminas metálicas producidas por una cierta máquina sigue una Distribución Normal, con media 10 mm., y desviación típica de 0,02mm . Establezca una especificación para el espesor de estas láminas, de forma que: a) El 95 % de las láminas cumplan con la especificación.

b) El 99% de las láminas cumplan con la especificación.

Solución: a) (10.0000 ± 0.0392) mm b) (10.00000 ± 0.05152) mm

4º) Las especificaciones para una cierta pieza mecánica son (20.00 ± 0.50) cms., y la máquina que se dispone para producirlas tiene una desviación típica de 0.30 cms.

Las piezas que resulten por encima del límite superior pueden ser reprocesadas y corregidas, pero las que resulten por debajo del límite inferior son consideradas como desperdicio.

a) ¿Cual debe ser la media del proceso, si se quiere a lo más un 1% de desperdicios ? .

b) Para esa media del proceso. ¿Cuál será el porcentaje de piezas reprocesadas? .

Solución: a) µ = 20.1978 b) 15.62

5º) Si se quiere que un proceso produzca dentro de las especificaciones (10.00 ± 0.15 ) cms, con a lo más 2% de piezas defectuosas . ¿En qué valor debe

(25)

mantenerse controlada a la desviación típica, cuando el proceso está centrado ? .

Solución: 0.0645

6º) Hay que producir unas piezas cuyo diámetro debe caer dentro de la especificación (190 ± 15) mms ; pero sin embargo , la máquina que se dispone para fabricarlas, las saca según un diámetro aleatorio que sigue una Distribución Normal con media 200 mm, y desviación típica de 10 mms .

¿Cual es la probabilidad de producir una pieza defectuosa ? . Solución : 0.3147 .

7º) Una máquina cortadora puede ser calibrada para cortar alambres que tengan una media determinada . Suponiendo que la longitud de los alambres obtenidos sigue una Distribución Normal con media el valor calibrado, y desviación típica de 0,2 cms. ; determine el valor en que debe calibrarse la media , si se quiere que solamente el 5% de los alambres, tengan una longitud mayor de 10,40 cms . Solución : µ = 10.071 cms .

(26)

CAPITULO II :

PRUEBAS DE AJUSTE A LA NORMAL

Hemos visto en el capítulo anterior como la Distribución Normal es el punto de partida para evaluar la capacidad del proceso , pues la Teoría de Control Estadístico supone como axioma que bajo condiciones estables, es decir cuando solo actúan causas comunes o aleatorias , el comportamiento del proceso debe ajustarse a ella .

El análisis descriptivo analizado también en el capítulo anterior , sirve de gran orientación para validar la hipótesis de normalidad del proceso, pues cuando se cumplen todas las exigencias allí señaladas , tales como histograma acampanado, simetría , igualdad entre la moda la mediana y la media , coeficiente momento de curtosis igual a 3 , etc., tendremos una evidencia muy significativa acerca de la validez de la hipótesis normal.

No podemos sin embargo olvidar, que el comportamiento de las muestras es aleatorio, y no necesariamente son un reflejo exacto de la población de donde provienen, y que por lo tanto, es perfectamente posible, que siendo el proceso normal, la muestra presente ligeras desviaciones con relación al modelo teórico. De lo anteriormente expuesto , se deduce entonces que una pregunta muy lógica que cualquier investigador puede hacerse con relación a su proceso es: ¿ hasta qué punto pueden tolerarse diferencias entre la muestra y el modelo normal teórico , y seguir aceptando la hipótesis de normalidad ? . La respuesta a esta pregunta la dan precisamente las llamadas " Pruebas de Ajuste " .

En este capítulo analizaremos tres pruebas de ajuste , las cuales son unas pruebas muy rigurosas, y que proporcionan una respuesta definitiva a la pregunta anterior.

Otro método de ajuste que analizaremos en este capítulo es el uso del papel probabilístico , que es de una sencillez extraordinaria , pero con la desventaja de los métodos descriptivos, que no permite establecer hasta qué punto son tolerables las diferencias entre los resultados muestrales y el modelo normal teórico.

Al final del capítulo se incluyen también otras pruebas estadísticas, cuyo objetivo no es probar el ajuste, pero que son de gran utilidad en el control de procesos pues sirven para controlar alguno de sus parámetros, y en consecuencia sirven para detectar a tiempo algún desajuste, como por ejemplo un corrimiento de su media , o un incremento en su desviación típica.

(27)

PRUEBA CHI-CUADRADO DE BONDAD DEL AJUSTE

Esta es una prueba de carácter completamente general, que se utiliza no solamente para verificar el ajuste a la normalidad , sino también para el ajuste a cualquier otra Distribución teórica de probabilidad .

Aplicada al caso que nos ocupa que es el de normalidad, dicha prueba sirve para

contrastar la Hipótesis Nula H0 : El proceso se ajusta a una normal , contra la

Hipótesis Alternativa H1: El proceso no se ajusta a una normal.

Es decir, si designamos por "X" a la variable en estudio, la prueba chi-cuadrado de bondad, es una prueba de hipótesis en donde:

H0: "X" se ajusta a una normal

H1: "X" no se ajusta a una normal

Para decidir si aceptamos o rechazamos la Hipótesis nula H0, dispondremos

como información una muestra de valores de la variable "X" , la cual deberá estar presentada como una tabla agrupada de frecuencias, en donde los diferentes valores observados de la variable "X" , aparecen clasificados en intervalos, con sus respectivas frecuencias .

Dicha tabla debe ser construida tomando muestras al azar del proceso, y aunque no existe una regla fija acerca de cuantas observaciones tomar, es recomendable que tenga por lo menos 100 observaciones, clasificadas en por lo menos 6 intervalos.

Una vez construida esta tabla, los pasos a seguir son:

Paso 1 : Estimar los parámetros "µ" y " 2 " , de la distribución mediante la media

"X" , y la varianza muestral "S2 ", que como bien sabemos se calculan por:

 _{= Media Muestral = X}₌ X n i i i n 1 2 =Varianza Muestral = S2= i k * 2 i i i 1 i k i i 1

(L

X)

f

1

= i k * 2 2 i i i 1 i k i i 1

(L )

f

X

f

n

1

(28)

En donde:

Li* = Marca de Clase del intervalo "i" fi = Frecuencia del intervalo "i" . k = Número de intervalos. n=

i k i i 1

f

= Número total de datos

Paso 2 : Con los parámetros estimados , calcular las probabilidades de cada uno de los intervalos, mediante la tabla normal .

pi = P ( Li-1 X < Li) = P (

Li 1

Z < Li ) = (Li

) - (Li 1 )

En este paso , es importante tener en cuenta el detalle de que los intervalos extremos deben ser definidos como "< L1" el primero , y como " LK“ el último,

puesto que de lo contrario la suma de las probabilidades de los “k” intervalos no será igual a "1" , debido a que como es sabido el dominio teórico de la curva normal es desde “- ” hasta “+ “.

Paso 3 : Calcular las frecuencias esperadas de cada intervalo , multiplicando el tamaño total de muestra por su probabilidad teórica .

ei = n . pi ; siendo n = fi i i k

1

Estas frecuencias esperadas representan el número de observaciones que deberían caer en cada uno de los intervalos, en caso de ser cierta la hipótesis de normalidad , y por lo tanto deberían ser muy parecidas a las observadas en la realidad , para poder aceptar la hipótesis de normalidad del proceso.

Paso 4 : Comparar las frecuencias observadas con las esperadas , mediante el

cálculo del estadístico chi - cuadrado, definido por: 2 ( f - e )i i

2 i=1

i=k

ei

El valor de " 2" , mide la diferencia entre las frecuencias observadas y las

esperadas; cuanto más grande sea su valor , mayor es la diferencia entre la realidad observada y el modelo teórico normal , mientras que cuanto más pequeño sea su valor, mejor es el ajuste del modelo teórico normal a la realidad observada en la muestra.

En este paso, hay que cuidar el detalle de que todas las frecuencias esperadas deben ser iguales o mayores que "5" .En caso de que este requisito no se cumpla,

(29)

es necesario fundir ese intervalo con cualquiera de sus vecinos, hasta alcanzar una frecuencia esperada de 5 ó más.

La justificación de este requisito es porque la prueba "chi-cuadrado", está basada en la aproximación normal a la binomial, y para que esta aproximación sea satisfactoria se exige: npi 5 .

Paso 5: Una vez calculado el valor de " 2", el último paso es ir a las tablas de la

distribución chi-cuadrado, con un nivel de nivel de significación " " previamente

seleccionado ( usualmente 5%) , con (k -3) grados de libertad *3 , y leer la abscisa

" 2" que deja a la derecha un área " " .

Si: 2 2 Aceptar H0 , es decir es aceptable el ajuste a la Normal .

Si: 2 > 2 Rechazar H0 , es decir, no es aceptable el ajuste a la Normal .

La zona de rechazo es exclusivamente del lado derecho, pues solamente valores

grandes de " 2" reflejan diferencias significativas entre la muestra y la

distribución normal teórica.

Ejemplo: Retomemos la muestra del capitulo anterior relativa al contenido de refresco en unas botellas

Contenido ( cc ) Frecuencia 190 - 195 9 195 - 200 29 200 - 205 47 205 - 210 72 3

En general , el número de grados de libertad es: k-1-r ; siendo “r” el número de parámetros estimados , que en el caso de la Distribución Normal es r=2.

(30)

210 - 215 51 215 - 220 30 220 - 225 12

Con el análisis descriptivo hecho anteriormente, la muestra presentó síntomas evidentes de normalidad, a excepción de los coeficientes de curtosis que no arrojaron los valores que corresponden para una normal.

Para salir de dudas , y verificar si estas diferencias son o no significativas , apliquemos la prueba chi-cuadrado de bondad del ajuste, mediante la prueba de hipótesis :

Ho: "X" ( Contenido de la botella) se ajusta a una normal H1: "X" ( Contenido de la botella) no se ajusta a una normal

Paso 1: Estimar los parámetros de la distribución .

Esta estimación ya fue hecha en el capítulo anterior con los siguientes resultados:

 = X = 207,80

2_{= S}2_{= 52,21}

 = S = 7, 23

Paso 2 : Calcular las probabilidades de cada uno de los intervalos .

Para garantizar que la suma de todas las probabilidades de 1 , el primer intervalo lo tomamos como " < 195 " , y el último como " 220 " , y con la ayuda de la tablas normales , tenemos : P( X < 195) = P ( Z < 195 - 207.80 7 23. ) = ( -1.77 ) = 0.0384 P( 195 X < 200) = P (195 - 207.80 7 23. Z < 200 - 207.80 7 23. ) = P (-1.77 Z < -1.08)

(31)

= ( -1.08) - ( -1.77 ) = 0.1401 - 0.0384 = 0.1017 P( 200 X < 205) = P (200 - 207.80 7 23. Z < 205 - 207.80 7 23. ) = P (-1.08 Z < -0.39) = ( -0.39) - ( -1.08 ) = 0.3483 - 0.1401 = 0.2082 P( 205 X < 210) = P (205 - 207.80 7 23. Z < 210 - 207.80 7 23. ) = P (-0.39 Z < 0.30) = (0.30) - (-0.39) = 0.6179 - 0.3483 = 0.2696 P( 210 X < 215) = P (210 - 207.80 7 23. Z < 215 - 207.80 7 23. ) = P (0.30 Z < 1.00) = (1.00) - (0.30) = 0.8413 - 0.6179 = 0.2234 P( 215 X < 220) = P (215 - 207.80 7 23. Z < 220 - 207.80 7 23. ) = P (1.00 Z < 1.69) = (1.69) - (1.00) = 0.9545 - 0.8413 = 0.1132 P( X 220) = P ( Z 220 - 207.80 7 23. ) = P(Z 1.69) = 1 - (1.69) = 1 - 0.9545 = 0.0455

Paso 3: Calcular las frecuencias esperadas .

Una vez calculada la probabilidad de cada uno de los intervalos , procedemos a calcular su frecuencia esperada , multiplicando su probabilidad por el tamaño de

(32)

Los cálculos se presentan en la siguiente tabla: Contenido ( cc ) fi pi e i < 195 9 0.0384 9.60 195 - 200 29 0.1017 25.43 200 - 205 47 0.2082 52.05 205 - 210 72 0.2696 67.40 210 - 215 51 0.2234 55.85 215 - 220 30 0.1132 28.30 220 12 0.0455 11.38

En este caso ,todas las frecuencias esperadas resultaron ser mayores que 5 , y por tanto no hay necesidad de fundir intervalos .

Paso 4: Comparar las frecuencias observadas con las esperadas , mediante el

cálculo del estadístico "chi-cuadrado" : 2 ( f - e )i i

2 i=1

i=k

ei

Si la hipótesis H0 fuese cierta, las frecuencias observadas deberían ser muy

parecidas a las esperadas, y esta diferencia es lo que cuantifica el valor de " 2" .

Para nuestro caso :

2 = ( . 9 - 9.60)2 9 60 + ( . 29 - 25.43)2 25 43 + ( . 47 - 52.05)2 52 05 + ...+ ( . 12 - 11.38)2 1138 = 1.90

Paso 5 : Ir a la tabla de la Distribución Chi- Cuadrado, con un nivel de significación seleccionado , y los grados de libertad calculados.

En nuestro caso, seleccionaremos un nivel de significación del 5% , y para calcular los grados de libertad tenemos:

(33)

grados de libertad = k - 3 = 4

En la tabla encontramos: _{0 05}2_. _;₄= 9.49 > 1.90 Aceptar H0

No existe en consecuencia, una evidencia significativa para rechazar la hipótesis de normalidad, lo que se interpreta como un ajuste satisfactorio a la Distribución Normal .

Ejercicio Propuesto: El peso en gramos, de una muestra de cajas de fósforos fue el siguiente: Peso Frecuencia 2.7- 3.1 19 3.1- 3.5 67 3.5- 3.9 141 3.9- 4.3 157 4.3-,4.7 94 4.7- 5.1 22

Verificar a un nivel de significación del 5%,si los datos se ajustan a una Distribución Normal.

Solución: 2= 1.1774 < _{0 05}2_. _;₃ = 7.81 Se acepta el ajuste a la normal.

PRUEBA DE KOLMOGOROV - SMIRNOV

Esta prueba al igual que la anterior, es una prueba de ajuste, que se utiliza exclusivamente para distribuciones continuas, y en donde la hipótesis a probar es que una determinada muestra proviene de una población con una función de distribución dada.

Esta prueba no requiere que los datos estén agrupados en intervalos, pues es aplicable aún para muestras con datos puntuales, pero su principal limitación es que la distribución a la cual se quiere probar el ajuste, debe estar plenamente definida, es decir que no puede tener parámetros a estimar.

(34)

Para el caso de ajuste a la normalidad, esta limitante hace que la prueba solo pueda aplicarse para parámetros especificados, que en el caso de control de procesos suelen ser:

µ = Punto medio de la especificación (Proceso centrado) = Ls - LI

6 (Posición límite de un proceso capaz).

En consecuencia, esta prueba puede rechazar un proceso ajustado a la normal, en caso de que alguno de los parámetros sea diferente a los especificados; lo que significa que si el proceso está bajo control estadístico, pero no está centrado, o tiene una desviación típica diferente de la especificada, la prueba concluirá en un rechazo del ajuste propuesto.

De allí, que esta prueba resulte particularmente útil, cuando un proceso tiene una desviación típica conocida, y deba ser sometido a algunas calibraciones, para colocar su media en un cierto valor especificado, y se quiera verificar que estas calibraciones fueron correctamente realizadas.

Las hipótesis a contrastar en la prueba de Kolmogorov-Smirnov son:

H0: La función de distribución de "X" es F(x)

H1: La función de distribución de "X" no es F(x)

El procedimiento de la prueba consiste en comparar la Función de Distribución Teórica F(x) , con la distribución acumulada de frecuencias relativas de la muestra H(x), ya que si el ajuste es satisfactorio ambas deberían ser muy parecidas ; puesto que la primera representa la probabilidad teórica de encontrar una observación igual o menor que un cierto "x" , mientras que la segunda representa el porcentaje de observaciones muestrales que resultaron ser iguales o menores que ese mismo x" .

Los pasos a seguir son los siguientes:

Paso 1: Si los datos muestrales están en forma puntual se ordenan de menor a mayor, y se calcula el porcentaje de observaciones iguales o menores que cada uno de ellos; y si están en forma agrupada se construye la tabla acumulada de frecuencias relativas.

(35)

Paso 2 : Se calcula la probabilidad teórica de que una observación sea igual o menor que cada valor muestral para el caso de datos puntuales, o de cada extremo superior de intervalo para el caso de datos agrupados.

Para el caso de ajuste a la normal , este cálculo se hace con la ayuda de las tablas normales:

F(x) = P ( X x ) = P ( Z x - ) = (x - )

Paso 3 : Se calcula la máxima desviación en valor absoluto , entre la distribución acumulada de frecuencias relativas para la muestra , y la función de distribución teórica .

Dn = max | F(x) - H(x) | .

Evidentemente, cuanto más pequeño sea el estadístico Dn, mayor será la coincidencia entre la distribución teórica y los resultados muestrales, mientras que cuanto mayor sea su valor, mayor será la diferencia entre la muestra y los valores teóricos, y por tanto inaceptable el ajuste, por lo que la prueba es unilateral por la derecha .

Paso 4 : El valor crítico del estadístico Dn , se encuentra en la tabla incluida en el apéndice, la cual suministra el valor Dn , de forma que si:

Dn Dn Aceptar H0.

Dn > Dn Rechazar H0.

El valor crítico " Dn " depende del nivel de significación " " de la prueba , y del tamaño de muestra "n" .

Ejemplo con datos puntuales: Supongamos que para que un proceso opere correctamente, debe ajustarse a una Distribución Normal con media 26.000 mm , y desviación típica 2.000 mm , y que una muestra aleatoria de 20 observaciones dio el siguiente resultado:

25.088 26.615 25.468 27.453 23.285 25.996 26.516 28.240 25.980 30.432 26.560 25.844 26.964 23.382 25.282 24.432 23.593 24.644 26.849 26.801

(36)

¿ Se puede afirmar, a un nivel de significación del 5% , que esta muestra proviene de una población normal con los parámetros especificados ? .

Solución: Las hipótesis a contrastar son:

H0: El proceso se ajusta a una Distribución Normal con µ=26 y = 2

H1 : El proceso no se ajusta a una Distribución Normal con µ=26 y = 2

Paso 1: Comenzamos por ordenar los datos de menor a mayor 23.285 23.382 23.593 24.432 24.644 25.088 25.282 25.468 25.844 25.980 25.996 26.516 26.560 26.615 26.801 26.849 26.964 27.453 28.240 30.432

Luego se calcula H (x) , frecuencia relativa acumulada para cada uno de los veinte valores , es decir , la proporción de observaciones iguales o menores que él.

Así por ejemplo : H (23.285) = 1

20 = 0,05

H (23.382) = 2

20 = 0,10 , y así sucesivamente.

Paso 2 : Se calcula con la tabla normal, la probabilidad de que una observación igual o menor que cada uno de estos 20 valores, lo que da la función de distribución teórica . F (23.285) = P ( X 23.285 ) = P ( Z 23 285 26 000 2 . . ) = (-1.36) =0.0869 F (23.382) = P ( X 23.382 ) = P ( Z 23 382 26 000 2 . . ) = (-1.31) =0.0951 y así sucesivamente con los demás valores.

(37)

Paso 3 : Se calcula para cada dato, la diferencia en valor absoluto, entre la función distribución teórica y la frecuencia relativa acumulada muestral.

D = | F(xi) - H(xi) | .

El resultado de los cálculos se muestra en la tabla a continuación: xi F ( xi) H(xi) D = | F(xi) - H(xi) | 23.285 0.0869 0.05 0.0369 23.382 0.0951 0.10 0.0049 23.593 0.1151 0.15 0.0349 24.432 0.2177 0.20 0.0177 24.644 0.2483 0.25 0.0017 25.088 0.3228 0.30 0.0228 25.282 0.3594 0.35 0.0094 25.468 0.3936 0.40 0.0064 25.844 0.4681 0.45 0.0181 25.980 0.4960 0.50 0.0040 25.996 0.4992 0.55 0.0508 26.516 0.6024 0.60 0.0024 26.560 0.6103 0.65 0.0397 26.615 0.6217 0.70 0.0783 26.801 0.6554 0.75 0.0946 26.849 0.6628 0.80 0.1372 26.964 0.6844 0.85 0.1656 (Máximo) 27.453 0.7673 0.90 0.1327 28.240 0.8686 0.95 0.0814 30.432 0.9868 1.00 0.0132

(38)

En la tabla se encuentra que: Dn = max | F(x) - H(x) | = 0.1656

Paso 4: Ir a la tabla correspondiente a los valores críticos para la prueba de Kolmogorov- Sminov , en donde se lee que para un tamaño de muestra de 20, y un nivel de significación del 5%, Dn = 0.29 .

Como en nuestro caso: Dn = 0.1656 < Dn = 0.29; la conclusión es aceptar la

hipótesis H0, de que la muestra proviene de una población normal con media

26.000 y desviación típica 2.000.

Ejemplo con datos agrupados : La prueba de Kolmogorov - Smirnov también puede ser utilizada en forma aproximada, en caso de que la muestra este agrupada en intervalos tal como se muestra en el siguiente ejemplo:

Supongamos que el peso en gramos de una píldora, debe ajustarse a una Distribución Normal con media 4 gramos, y desviación típica de 0,5.

Una muestra aleatoria de 500 píldoras arrojó:

Peso 2,7-3,1 3,1-3,5 3,5-3,9 3,9-4,3 4,3-4,7 4,7-5,1 Frecuencia 19 67 141 157 94 22

Probar al 5% de significación, si la muestra proviene de una población normal con los parámetros especificados.

Solución: Las hipótesis a contrastar son:

H0 : El peso se ajusta a una Distribución Normal con µ=4 y = 0.5

H1: El peso no se ajusta a una Distribución Normal con µ=4 y = 0.5

Los pasos a seguir son los mismos , con la única diferencia de que la función teórica en lugar de calcularla para cada valor muestral como se hizo anteriormente, se calcula para los límites superiores de cada intervalo; así por ejemplo: F (3,1) = P ( X 3,1 ) = P ( Z 3 1 4 0 5 . . ) = (-1.80) = 0.0359 F (3,5) = P ( X 3,5 ) = P ( Z 3 5 4 0 5 . . ) = (-1.00) = 0.1587

(39)

El resultado de los cálculos se muestra en la tabla a continuación: xi F ( xi) H(xi) D = | F(xi) - H(xi) | 3.1 0.0359 0.0380 0.0021 3.5 0.1587 0.1720 0.0133 3.9 0.4207 0.4540 0.0333 4.3 0.7257 0.7680 0.0423 Máximo 4.7 0.9192 0.9560 0.0368 5.1 0.9861 1.0000 0.0139 En la tabla se ve que: Dn = max | F(x) - H(x) | = 0.0423

El valor crítico para un tamaño de muestra de 500, y un nivel de significación del

5%, es por la fórmula de aproximación: Dn

136 500

.

= 0.0608

Como Dn = 0.0423 < Dn = 0.0608 ; la conclusión es aceptar la hipótesis H0,

de que la muestra proviene de una población normal con media 4 y desviación típica 0.5 .

Ejercicios propuestos

1º) Dadas las siguientes diez observaciones de un proceso: 31.0 , 31.4 , 33.3 , 33.4 , 33.5 , 33.7 , 34.4 , 34.9 , 36.2 y 37.0 . Probar a un nivel de significación del 5% , que el proceso se ajusta a una Distribución Normal con media 32.0 y varianza 3.24 .

Solución: Dn = 0.56 > Dn = 0.41 Rechazar el ajuste .

2º) La duración en minutos de una muestra de pilas , fue la siguiente: 0-20 20-40 40-60 60-80 80-100 100-120 120-140 140-160 160-180 5 13 13 14 17 12 15 7 4

Probar a un nivel de significación del 5% , que la duración de estas pilas se ajusta a una Distribución Normal con media 80 minutos y desviación típica de 40 minutos .

(40)

PRUEBA DE GEARY

Las dos pruebas anteriores , la prueba chi-cuadrado de bondad del ajuste , y la de Kolmogorov-Smirnov son pruebas generales que pueden ser utilizadas para verificar no solamente el ajuste a la normal , sino también para cualquier otra distribución teórica , con la única limitación para la segunda ,de que debe ser continua y de parámetros especificados .

Esta nueva prueba , la de Geary , es exclusiva para probar el ajuste a la Distribución Normal , y por ser exclusiva para ella , es más potente , es decir, con menor probabilidad de error tipo II .

La prueba se fundamenta en el uso de dos estimadores diferentes para el parámetro " " de la Normal .

En efecto, un problema que se analiza con profundidad en los textos de Estadística Matemática, es el relativo al de la estimación de los parámetros de una distribución teórica . ( Ver Capítulo V)

Para el caso de la Distribución Normal, en la estimación de "µ" no hay lugar a

dudas, pues la media muestral " X " es el mejor estimador posible por ser

insesgado y de mínima varianza; pero sin embargo, para la estimación de " 2 ", la

situación no es tan clara, pues existen varios estimadores los cuales tienen ciertas propiedades deseables, pero carecen de otras.

Algunos estimadores para el parámetro " " son:

1º) El obtenido por el método por el método de máxima - verosimilitud, y también

por el método de momentos: 1

(X - X)i 2 i=1

i=n

n

2º) La raíz cuadrada del estimador insesgado para " 2" : 2

1

(X - X)i 2

i=1 i= n

n