Análisis de la Varianza

Texto completo

(1)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 1

Análisis de la Varianza

Tema 3

Ignacio Cascos Depto. Estadística, Universidad Carlos III 2

Descripción breve del tema

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros

4. Propiedades de los estimadores

5. Descomposición de la variabilidad

6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

7. Diagnosis

Objetivos

† Reconocer la importancia del diseño y análisis estadístico de experimentos en ingeniería

† Presentar un procedimiento para comparar el efecto de los distintos niveles de un factor

† Construir y estimar un modelo para contrastar las hipótesis de interés

† Cuantificar el efecto de un factor en un experimento

Descripción breve del tema

1. Introducción al diseño de experimentos 2. El modelo

3. Estimación de los parámetros

4. Propiedades de los estimadores

5. Descomposición de la variabilidad

6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

(2)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 5

Introducción al diseño de experimentos

† Un ingenierodebe ser capaz de resolver problemas reales aplicando el método científico.

† Para la resolución de muchos de estos problemas no existe una teoría sólida, para otros queremos

contrastarla

„ efecto de las técnicas de mezclado del hormigón „ duración de materiales de construcción en distintos

ambientes

† Disponemos de la EXPERIMENTACIÓN

Ignacio Cascos Depto. Estadística, Universidad Carlos III 6

Introducción al diseño de experimentos

† Unexperimentoes una prueba o serie de pruebas en las que se modifican deliberadamente las

condiciones de un proceso o sistema con el objetivo de observar el efecto de esas modificaciones en el resultado.

† En un experimento intervienen varios factores, el

objetivo es determinar la influencia de estos factores

en el resultado final de un proceso, para explicar la relación causa-efecto.

Introducción al diseño de experimentos

† Hay factores:

„ controlados: su valor lo especifica el investigador

„ no controlados: debidos al entorno y al azar

† Debemos minimizar el efecto de los factores no controlados.

Introducción al diseño de experimentos

† Ejemplo: Un ingeniero está interesado en determinar qué factores influyen en el número de conexiones defectuosas en una placa de circuitos impresos

„ controlados: temperatura soldadura y temperatura placa „ no controlados: operador, tipo de componentes, grosor

placa

† Objetivo: Determinar qué factores afectan el número de defectos y en qué dirección

† Consecuencias: Ajustar la máquina que realiza las conexiones

(3)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 9

Introducción al diseño de experimentos

Ejemplo: manufactura papel

† Un fabricante de bolsas de papel quiere mejorar la resistencia a la tensión de las bolsas.

† El ingeniero de producción piensa que hay una relación causa-efecto entre la cantidad de

celulosa utilizada en la fabricación del papel y la resistencia.

† Experimento en el que se fabrica papel con distintos % de celulosa y se mide la resistencia.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 10

Introducción al diseño de experimentos

Ejemplo: manufactura papel

20 18 23 22 25 19 20 18 16 17 19 18 14 15 15 19 18 13 17 12 10 10 9 11 15 8 7 5 6 5 4 3 2 1 Observaciones Concentración de celulosa %

Introducción al diseño de experimentos

Ejemplo: manufactura papel

Descripción breve del tema

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros

4. Propiedades de los estimadores

5. Descomposición de la variabilidad

6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

(4)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 13

El modelo (ANOVA)

† Tenemos nelementos que se diferencian en un factor.

† En cada elemento observamos una

característica que varía aleatoriamente de un elemento a otro.

† Se desea establecer si hay o no relación entre el valor medio de la característica estudiada y el factor.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 14

El modelo (ANOVA)

Tenemos:

† una variable de interés y(resistencia de las bolsas)

† un factor que influye en los valores de yque llamamos F(% de celulosa)

† cierto número de niveles del factor F, que denotamos por I(4 porcentajes distintos)

† un número de observaciones para cada nivel del factor, ni(6 observaciones para cada nivel)

† El número totalde observaciones es n=n1+n2+…+nI

El modelo (ANOVA)

Si para i=1,…,Iy j=1,…,ni:

† yij es la j-ésima observación del i-ésimo grupo

† µi es la media del i-ésimo grupo

† uij es la perturbación que mide la variabilidad debida al error experimental

ij i

ij

u

y

=

µ

+

El modelo (ANOVA)

La perturbación uijmide la desviación en la observación j

del grupo irespecto de la media del grupo. Se debe a causas no asignables (factores no controlados). Es una

variable aleatoria.

† El promedio de las perturbaciones es cero, E[uij]=0

† Misma variabilidad en todos los grupos, Var[uij]=σ2 † Distribución perturbaciones es normal, uij~N(0, σ2) † Perturbaciones independientes.

(5)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 17

El modelo (ANOVA)

Alternativamente, podemos reformular el modelo y escribirlo como:

para i=1,…,Iy j=1,…,ni . Donde

† µ es la media de todas las observaciones

† αi es el efecto diferencial del i-ésimo grupo (αi = µ i−µ)

ij i

ij

u

y

=

µ

+

α

+

Ignacio Cascos Depto. Estadística, Universidad Carlos III 18

Descripción breve del tema

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros 4. Propiedades de los estimadores

5. Descomposición de la variabilidad

6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

7. Diagnosis

Estimación de los parámetros

En el modelo

Para i=1,…,Iy j=1,…,ni con yij~N(0, σ2)

Los parámetros desconocidos son:

† El verdadero valor de la media de cada grupo

µ1, µ2,…, µI † La varianza de la perturbación σ2. ij i ij

u

y

=

µ

+

Estimación de los parámetros

Media de las observaciones en el i-ésimo grupo 1 . ˆ i n ij j i i i y y n µ =

= = 1. y 2. y y3. 4. y

(6)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 21

Estimación de los parámetros

Como de costumbre, las perturbaciones las estimamos mediante los residuos (miden la variabilidad no explicada).

.

ij ij i

e

=

y

y

Ignacio Cascos Depto. Estadística, Universidad Carlos III 22

Estimación de los parámetros

1. y 2. y y3. 4. y 46 y 46 46 4. e = yy

Estimación de los parámetros

† La varianza muestral de los residuos es un estimador de σ2

† Desgraciadamente se trata de un estimador

sesgado. n e I i n j ij i

∑∑

= = = 1 1 2 2 ˆ σ

Estimación de los parámetros

† Utilizamos la varianza residual como estimador de σ2

† El término que aparece en el cociente son los

grados de libertad. † Tenemos I n e S I i n j ij R i − =

∑∑

=1 =1 2 2 ˆ 2 2 2 ~ ˆ ) ( I n R S I n − −

χ

σ

(7)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 25

Descripción breve del tema

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros

4. Propiedades de los estimadores 5. Descomposición de la variabilidad

6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 26

Props. de los estimadores (medias)

† Esperanza: (centradoo insesgado) † Varianza: 2 ~ ( , ) 1, 1, ij i ij ij i i y u y N j n i I µ µ σ = + = K = K i i i n y Var Var 2 ] [ ] ˆ [µ = =σ i i i E y E[µˆ ]= [ ]=µ

Props. de los estimadores (medias)

† Además, como es combinación lineal de variables independientes y normales, sigue distribución normal.

† Como σ es desconocido, tenemos el intervalo de confianza i R I n i n S t ˆ ˆ ,α/2 µ ± i µˆ

(8)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 29

Descripción breve del tema

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros

4. Propiedades de los estimadores

5. Descomposición de la variabilidad 6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 30

Descomposición de la variabilidad

† El Análisis de la Varianza compara la

variabilidad entre las medias de los grupos de los distintos niveles del factor con la variabilidad experimental.

† A mayor diferencia entre las medias de los grupos mayor variabilidad entre ellos

0 1 2

1

:

: al menos un par de medias tiene

I i j H H µ µ µ µ µ = = = ≠ L

Descomposición de la variabilidad

† Si las medias son muy diferentes, la variabilidad entre las medias será mayor que la variabilidad dentro de los grupos

1. y 2. y . i y . I y

Descomposición de la variabilidad

∑∑

∑∑

∑∑

∑∑

= = = = = = = = − − + − + − = − I i n j i i ij I i n j i I i n j i ij I i n j ij i i i i y y y y y y y y y y 1 1 1 1 2 1 1 2 1 1 2 ) )( ( 2 ) ( ) ( ) ( ) ( ) (y y y y y yij − = iji + i − ) )( ( 2 ) ( ) ( ) (yijy 2 = yijyi 2+ yiy 2 + yijyi yiy VE VNE VT ) ( ) ( ) ( 1 2 1 1 2 1 1 2 + = − + − = −

∑∑

∑∑

= = = = = I i i i I i n j i ij I i n j ij y y y n y y y i i

(9)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 33

Descomposición de la variabilidad

† La Variabilidad Explicada (VE) mide la variabilidad entre los distintos grupos. Si es pequeña, es porque las medias son similares.

† La Variabilidad No Explicada (VNE) o residual, mide la variabilidad dentro de los grupos y es debida al error experimental.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 34

Descomposición de la variabilidad

† En general † Además, si µ1=…=µI † En consecuencia, bajo H0 2 2 ~ VNE I n− χ σ 2 1 2 ~ VE − I χ σ I n I F I n / I / − − − − , 1 ~ ) ( VNE ) 1 ( VE

Ignacio Cascos Depto. Estadística, Universidad Carlos III 35

Desc. variabilidad. Tabla ANOVA

n−1 Total nI Residual VNE I−1 Entre grupos VE Test F Varianza Grados de libertad Suma de cuadrados Fuentes de variación 2 . .. 1 ( ) I i i i n y y = − ∑ 2 . 1 1 ( ) i n I ij i i j y y = = − ∑∑ 2 .. 1 1 ( ) i n I ij i j y y = = − ∑∑ 2 . .. 2 1 ( ) ˆ 1 I i i i e n y y S I = − = − ∑ 2 .. 1 1 2 ( ) ˆ 1 i n I ij i j y y y S n = = − = − ∑∑ 2 2 ˆ ˆ e R S S I n y y S I i n j i ij R i − − =∑∑=1 =1 2 . 2 ) ( ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 36

Descomposición de la variabilidad

† Contraste de la F:

† Si H0no es cierta, la varianza entre grupos será mayor que la residual

0 1 2

1 :

: al menos un par de medias tiene

I i j H H µ µ µ µ µ = = = ≠ L Aceptación Rechazo 2 2 ˆ ˆ e R S S α 1−α Aceptación 1−α

(10)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 37

Descomposición de la variabilidad

Ejemplo: manufactura de papel

2 2 ˆ ˆ e R S S

Ignacio Cascos Depto. Estadística, Universidad Carlos III 38

Descomposición de la variabilidad

Ejemplo: manufactura de papel

0.05 α < = (3,20) F 0.05(3,20) 3.098 F = Región de rechazo

Descripción breve del tema

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros

4. Propiedades de los estimadores

5. Descomposición de la variabilidad

6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

7. Diagnosis

Estimación de la diferencia de medias

† Si llegamos a la conclusión de que, al menos, un par de medias son distintas. Deseamos saber cuáles son distintas y cuáles iguales.

† Solución: Comparar las medias 2 a 2 (Estadística I).

(11)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 41

Contrastes particulares

† Contraste para la igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales

„ Hipótesis nula. H0: µ1 = µ2 „ Hipótesis alternativa. H1: µ1 ≠ µ2 † Rechazo H0cuando „ Hipótesis alternativa. H1: µ1 < µ2 † Rechazo H0cuando „ Hipótesis alternativa. H1: µ1 > µ2 † Rechazo H0cuando α , 2 2 1 2 1 2 1 1 1 ˆ + <− + − − n n T t n n s y y α , 2 2 1 2 1 2 1 1 1 ˆ + > + − − n n T t n n s y y 2 / , 2 2 1 2 1 2 1 1 1 ˆ + > + − α − n n T t n n s y y 2 ˆ ) 1 ( ˆ ) 1 ( ˆ 2 1 2 2 2 2 1 1 2 − + − + − = n n s n s n sT

Ignacio Cascos Depto. Estadística, Universidad Carlos III 42

Intervalos de Confianza particulares

† Intervalo de Confianza para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales.

con un nivel de confianza 1−α ,

donde P(X > tn,α) = α si X~tn ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + + − + − − ∈ − + + 2 1 2 / , 2 2 1 2 1 2 / , 2 2 1 2 1 1 1 ˆ , 1 1 ˆ 2 1 2 1 n n s t y y n n s t y y n n α T n n α T µ µ

Estimación de la diferencia de medias

H0: µ1 = µ2 H1: µ1 ≠ µ2 Si rechazamos H0. En la gráfica c =tn1+n22,α/2 -4 -2 0 2 4 -0 .1 0 .0 0 .1 0. 2 0 .3 0. 4 0 .5

Distribución del estimador

-c c 1 −α α α/2 /2 densidad de una tn 1+n2−2 2 / , 2 2 1 2 1 2 1 1 1 ˆ + > + − α − = n n T t n n s y y t Acepto 0 1 2 1 1 2 : : H H µ µ µ µ = ≠ t=3.48 0 1 3 1 1 3 : : H H µ µ µ µ = ≠ t=5.12 0 1 4 1 1 4 : : H H µ µ µ µ = ≠ t=7.07 0 2 3 1 2 3 : : H H µ µ µ µ = ≠ t=0.98 0 2 4 1 2 4 : : H H µ µ µ µ = ≠ 0 3 4 1 3 4 : : H H µ µ µ µ = ≠ 3.49 t= 3.06 t= 2 1 1 2 2 2 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 1 1 2 3 3 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 1 1 2 3 3 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 2 2 2 3 3 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 2 2 2 4 4 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 3 3 2 4 4 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ (0.025,10) 2.22 t = No hay diferencia en la Resistencia al utilizar el 10 ó 15 % de celulosa

Diferencia de medias

Ejemplo: manufactura de papel

(12)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 45 0 1 2 1 1 2 : : H H µ µ µ µ = ≠ 0 1 3 1 1 3 : : H H µ µ µ µ = ≠ 0 1 4 1 1 4 : : H H µ µ µ µ = ≠ 0 2 3 1 2 3 : : H H µ µ µ µ = ≠ 0 2 4 1 2 4 : : H H µ µ µ µ = ≠ 0 3 4 1 3 4 : : H H µ µ µ µ = ≠ 2 1 1 2 2 2 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 1 1 2 3 3 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 1 1 2 3 3 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 2 2 2 3 3 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 2 2 2 4 4 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ 2 3 3 2 4 4 ~ ( , ) ~ ( , ) j j y N y N µ σ µ σ ˆ2 R S

Si todas las varianzas son iguales, podemos utilizar la información de todas las muestras para estimar la varianza

Diferencia de medias

Ejemplo: manufactura de papel

Ignacio Cascos Depto. Estadística, Universidad Carlos III 46

Estimación de la diferencia de medias

Método Fisher o LSD

† Deseamos hacer varios contrastes del tipo

y, según las hipótesis del modelo, la varianzaes la

misma en todos los niveles del factor. Utilizamos, así, todos los datos para estimarla

0 1 2 1 1 2 : : H H µ µ µ µ = ≠ I n S n I n e S i I i i I i n j ij R i − − = − =

∑∑

= =

= 2 1 1 1 2 2 ˆ ) 1 ( ˆ

Estimación de la diferencia de medias

Método Fisher o LSD

† La distribución del estadístico es ahora:

† Si hay muchos grupos (niveles del factor), el nivel

crítico cambia (porque nI mucho mayor que

n1+n2−2). Con el método de Fisherdetectamos

diferencias más pequeñas.

„ Explicación: varianza de una t.

I n R t n n S y y − + − ~ 1 1 ˆ 2 1 2 1 0 1 2 1 1 2 : : H H µ µ µ µ = ≠ t= 3.48,tLSD =3.84 0 1 3 1 1 3 : : H H µ µ µ µ = ≠ t=5.12,tLSD = 4.75 0 1 4 1 1 4 : : H H µ µ µ µ = ≠ t= 7.07,tLSD =7.57 0 2 3 1 2 3 : : H H µ µ µ µ = ≠ t= 0.98,tLSD =0.903 0 2 4 1 2 4 : : H H µ µ µ µ = ≠ 0 3 4 1 3 4 : : H H µ µ µ µ = ≠ 3.49, LSD 3.73 t= t = 3.06, LSD 2.82 t= t = ( 0.025 ,16 ) 2.086 t = No hay diferencia en la Resistencia al utilizar el 10 ó 15 % de celulosa

Diferencia de medias

Ejemplo: manufactura de papel

(13)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 49

Estos son los únicos I.C. que se solapan

Distancia mínima entre grupos para considerarlos diferentes

Diferencia de medias

Ejemplo: manufactura de papel

Ignacio Cascos Depto. Estadística, Universidad Carlos III 50

Estimación de la diferencia de medias

Contrastes múltiples

† En un contraste de hipótesis, estamos siempre

inclinados a aceptar la hipótesis nula. La rechazamos sólo si hay una evidencia muy fuerte en su contra.

Pr(Rechazar H0|H0cierta) = α

† Si utilizamos el método de Fisher para

comparar cada pareja de medias, realizamos I(I−1)/2 contrastes.

Estimación de la diferencia de medias

Contrastes múltiples

† Al realizar m contrastes independientes cada uno con nivel de significación α= 0.05, la probabilidad de rechazar alguna hipótesis nula cierta es:

Pr(Rechazar algún H0|H0) = 1−Pr(Aceptar todos H0|H0)

=1− (1− 0.05)m = 10.95m > 0.05

Estimación de la diferencia de medias

Contrastes múltiples. Método de Bonferroni

Pr(Rechazar algún H0|H0)≤

Σ

Pr(Rechazar un H0|H0)=mα

Fijado un nivel de significación globalαT, garantizamos dicho nivel de significación global si realizamos cada contraste con un nivel de significación α=αT/m

Los intervalos de confianza serán ahora más anchos y se solaparán con mayor facilidad.

(14)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 53

Contrastes múltiples. Método de Bonferroni

Ejemplo: manufactura de papel

0 1 2 1 1 2 : : H H µ µ µ µ = ≠ tL S D = 3 .8 4 0 1 3 1 1 3 : : H H µ µ µ µ = ≠ tL S D = 4 .7 5 0 1 4 1 1 4 : : H H µ µ µ µ = ≠ tL S D = 7 .5 7 0 2 3 1 2 3 : : H H µ µ µ µ = ≠ tL S D = 0 .9 0 3 0 2 4 1 2 4 : : H H µ µ µ µ = ≠ 0 3 4 1 3 4 : : H H µ µ µ µ = ≠ 3 .7 3 L S D t = 2 .8 2 L S D t = ( 0 .0 2 5 ,1 6 ) ( 0 .0 0 4 1 6 ,1 6 ) 2 .0 8 6 0 .0 2 5 / 6 0 .0 0 4 1 6 3 .0 0 8 t t α = = = =

No hay diferencia en la Resistencia al utilizar el 10 ó 15 % de celulosa. Tampoco hay diferencia al utilizar el 15 ó 20% de celulosa.

t(0.00416, 20)= 2.927

t(0.025,20)= 2.086

Ignacio Cascos Depto. Estadística, Universidad Carlos III 54

Descripción breve del tema

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros

4. Propiedades de los estimadores

5. Descomposición de la variabilidad

6. Estimación de la diferencia de medias

„ Método de Fisher o LSD, contrastes múltiples

7. Diagnosis

Diagnosis

† Para comprobar las hipótesis del modelo, calculamos los residuos (estimaciones de la perturbación)

.

ij ij i

e = yy

Diagnosis

† Comprobar hipótesis de normalidad:

„ Gráficamente:

† Histograma de residuos

† Gráfico probabilístico normal

„ Métodos inferenciales:

(15)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 57

Diagnosis

† Comprobar hipótesis de varianza constante:

„ Gráficamente:

† Gráfico de residuos frente a niveles del factor

† Gráfico de residuos frente a valores ajustados

„ Métodos inferenciales:

† Contraste de igualdad de varianzas (sensibles a la normalidad)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 58

Diagnosis

† Comprobar hipótesis de independencia:

„ Gráficos de residuos frente a tiempo.

Si los datos son independientes, en el gráfico no aparecerá ninguna tendencia.

Si hay tendencias, es posible que el experimento no haya sido aleatorizado y las diferencias entre los niveles sean debidas al efecto del tiempo.

Diagnosis

Ejemplo: manufactura de papel

Figure

Actualización...

Referencias

Actualización...

Related subjects :