• No se han encontrado resultados

T6 ANOVA

N/A
N/A
Protected

Academic year: 2020

Share "T6 ANOVA"

Copied!
15
0
0

Texto completo

(1)

TEMA 6. ANÁLISIS DE LA VARIANZA (ANOVA)

• Los métodos del Análisis de la Varianza (ANOVA) se encuadran dentro

de los modelos explicativos o de dependencia del Análisis Multivariante.

• Los elementos de un problema ANOVA son los siguientes:

1. Variable dependiente cuantitativa: Es la variable objeto de estudio y debe ser observable cuantitativamente.

2. Variable o variables explicativas (factores): Son variables cualitativas (no-numéricas) y se deberán considerar diferentes niveles de actuación.

• Los métodos del Análisis de la Varianza (ANOVA) consisten en

estudiar la influencia de una o más variables (denominadas factores) sobre la variable objeto del estudio (variable dependiente). En

particular, consiste en establecer si las variaciones observadas en los resultados obtenidos por la variable dependiente han sido

(2)

Clasificación de los Modelos de ANOVA:

1. Según el número de factores:

- Clasificación Simple: con un único factor.

- Clasificación Doble: con dos factores.

- Clasificación Múltiple: con más de dos factores.

2. Según el origen de los niveles de los factores:

- Efectos Fijos: con un número determinado y único de niveles.

- Efectos Aleatorios: bajo una selección aleatoria de los niveles.

3. Según el diseño de la muestra:

- Completamente aleatorizado.

(3)

Ejemplo:

Variable dependiente: Rendimiento académico de los estudiantes de A.D.E. en universidades públicas de Madrid, medido a través de sus calificaciones medias.

Factores:

- Centro, con cuatro niveles = UCM, UAM, UC3 y URJC. - Grupo, con dos niveles = Mañana y Tarde.

- Nota de Selectividad: intervalo de 5 a 10. Los niveles se pueden definir o bien agrupando en APROBADO, NOTABLE y SOBRESALIENTE o

haciendo una selección al azar de varias calificaciones.

Nosotros vamos a estudiar los modelos de clasificación Simple (con un

(4)

Modelo: Clasificación simple, efectos fijos y completamente aleatorizado

- Sea una variable objeto del estudio ξ (variable dependiente) con un

factor que tiene i, i = 1, ... ,k niveles de actuación; i  N(i ; ), i = 1, ...,k

- Para cada nivel se obtiene una m.a.s. de tamaño “n”, j= 1, … , n

• Los resultados muestrales se ordenan de acuerdo a la Tabla ANOVA:

NIVELES

(i = 1, ... , k) muestras ( j = 1, … , n)

1 x11 x12 … x1j … x1n … … … … … …

i xi1 xi2 … xij … xin … … … … … …

k xk1 xk2 … xkj … xkn

- xij: valor observado en el lugar “j” de la muestra obtenida para el nivel de actuación “i”

(5)

Modelo ANOVA:

- Cada uno de los niveles del factor se supone i  N(i ; ), i = 1, ... , k

- Por m.a.s: xij  N(i ; ), i = 1, ... , k; j = 1, … , n

- Restando la media en la expresión anterior, obtenemos:

εij=xij-i  N(0; ), independientes para todo i = 1, ... , k; j = 1, … , n

- εij es la desviación o discrepancia existente dentro de los niveles (1)

- Definiendo como la media de las medias de los niveles

(desconocida al ser i desconocida), obtenemos i=i-µ que será la desviación de cada nivel con respecto a la media µ general

- ies la desviación o discrepancia existente entre niveles (2)

i

μ μ

k

• El Modelo ANOVA analiza ambas desviaciones o discrepancias (1) y (2) a través de:

i i

i ij i ij i ij

i

μ μ α μ x μ ε μ α ε μ

k α 0

  

 

    

 

(6)

Contrate de Hipótesis en un modelo ANOVA:

HO :1 = 2 = ... = k =  ó i = 0  i = 1, … ,k

- Bajo HO los distintos niveles con los que se presenta el factor no influyen en la variación de los valores de la variable dependiente porque bajo HO:

1. εij=xij-i= xij-→ la discrepancia existente dentro de los niveles (1) sólo depende del azar muestral

2. αi=i-µ=0→ la desviación o discrepancia existente entre niveles (2) es cero

H1 :  i / i  

(7)

Resolución del contraste de Hipótesis

1. Como i y  son desconocidas las estimamos, teniendo en cuenta la información muestral de la tabla ANOVA, a través de las medias

muestrales:

n

ij j 1 i i

x ˆ

1) μ =x 1,..., n i k

  

k n ij k i

i 1 j 1 i 1

x x ˆ

2) μ x

N k

 



 



2. Con esta estimaciones podemos analizar la variabilidad muestral

- Para una determinada observación xij:

ij ij i i

x

x



x

x

x

x



- La expresión anterior representa la Variación (discrepancia) Total (variación observada en la variable dependiente) = Variación dentro de los niveles +

(8)

• Elevando al cuadrado (evitar problemas de signo) y sumando ordenadamente:

2

2

2

1 1 1 1 1

k n k n k

ij ij i i

i j i j i

x

x



x

x

n

x

x



    





• La expresión anterior representa la SCT (suma de cuadrados totales; variación observada en la variable dependiente) =

(9)

• Finalmente, desarrollando los cuadrados, la expresión anterior

SCT=SCD+SCE, nos queda:

2 2

1 1

k n

ij

i j

SCT

x

nk x



 



k n k

2 2

ij i

i 1 j 1 i 1

x

n

x

SCD

  



2 2

1

k

i i

SCE n

x

nk x



(10)

3. Estadístico del contraste, medida de discrepancia o indicador de desviaciones

/ (

1)

/ (

)

d

SCE k

I

SCD N k

• Si la hipótesis nula fuera cierta este estadístico se distribuirá según una “F” de Snedecor con (k-1; N-k) grados de libertad:

I

d

~F

k-1;N-k

(bajo el supuesto de H

O

)

• Por tanto, la Región Crítica será:

- Si Id  C  Se rechazará la hipótesis nula, aceptándose que el factor ha influido, por medio de sus distintos niveles de actuación, en la

variación de la variable dependiente.

4. Determinación de la constante C

• Siendo  el nivel de significación

(11)

Resumen

• Para resolver un caso de ANOVA:

1. Se tienen que identificar la variable dependiente y el factor o factores considerados

2. Se tiene que definir el modelo con los supuestos básicos y plantear las hipótesis a contrastar

3. Se construye la tabla ANOVA con las observaciones muestrales

4. A partir de los datos de la tabla ANOVA se calculan los valores de SCD y SCE, a través de las expresiones:

k n k

2 2

ij i

i 1 j 1 i 1

x

n

x

SCD

  



2 2

1

k

i i

SCE n

x

nk x



(12)

EJEMPLO (Ejercicio 63 del cuadernillo):

Un grupo de 18 enfermos hepáticos se distribuye al azar en tres grupos, recibiendo cada uno un tratamiento distinto. Observando el tiempo (en semanas) que tardaron en desaparecer los síntomas (que se refleja en el cuatro), queremos saber si a un nivel de significación del 5 % existen o no diferencias significativas entre dichos tratamientos.

Tratamientos Resultados

1 12 15 18 10 14 15

2 14 19 13 15 18 17

3 20 20 16 18 20 14

- Variable dependiente: Tiempo, en semanas, para la curación = xij (observación j-ésima del tratamiento i-ésimo), ejemplo: x13=18 (en la 3ª muestra, lo enfermos se recuperaron en 18 semanas con el tratamiento 1)

- Factor: Tratamientos ( niveles i = 1, 2 y 3 )

- Muestras (m.a.s) ( j = 1, … , 6 ) N = 18=nk=6*3

- Modelo:

2

;

~

0;

e independientes

ij i ij i ij ij

(13)

Hipótesis:

HO :1 = 2 = ... = k =  ó i = 0  i = 1, … ,k

(no existe diferencia entre los resultados de los tres tratamientos)

H1 :  i / i   (al menos un tratamiento se diferencia del resto)

Tabla ANOVA (cálculo de SCD y SCE):

Trata-mientos:

niveles Resultados (m.a.s)( n = 6)

(1) (2) (3) (4) (5) (6)

1 12 15 18 10 14 15 14=(12+…+15)/6 196 1214=(12)^2+…+(15)^2

2 14 19 13 15 18 17 16 256 1564

3 20 20 16 18 20 14 18 324 1976

(k = 3)  xij = 288 (nº total observaciones)

N = n*k=18

n ij j 1 i x x n   

k i i 1 x x 16 k       2

x  256

2 i x k 2 i i 1

x 776

 

n 2 ij j 1 x 

2 ij

x 4754

(14)

k n k

2 2

ij i

i 1 j 1 i 1

x

n

x

4754 6 776 98

SCD

  



 

2 2

1

6 776 6 3 256 48

k

i i

SCE n

x

nk x



 

  

Trata-mientos:

niveles Resultados (m.a.s)( n = 6)

(1) (2) (3) (4) (5) (6)

1 12 15 18 10 14 15 14=(12+…+15)/6 196 1214=(12)^2+…+(15)^2

2 14 19 13 15 18 17 16 256 1564

3 20 20 16 18 20 14 18 324 1976

(k = 3)  xij = 288 (nº total observaciones)

N = n*k=18

n ij j 1 i x x n   

k i i 1 x x 16 k       2

x  256

2 i x k 2 i i 1

x 776

 

n 2 ij j 1 x 

2 ij

x 4754

(15)

• Estadístico del contraste, medida de discrepancia o indicador de desviaciones

/ (

1)

48 / (3 1)

24

3.673

/ (

)

98 / (18 3)

6.53

d

SCE k

I

SCD N k

I

d

~F

k-1;N-k

~F

2,15

(bajo el supuesto de H

O

)

• Región Crítica será: Si Id  C  Se rechazará la hipótesis nula • Determinación de la constante C

Siendo =0.05 el nivel de significación

 = P[Rechazar HO / HO cierta] = P[Id  C / HO cierta ] = P[ F2,15  C ] C=3.68→

• Regla de decisión: como Id =3.673<C=3.68, se acepta la HO de que

entre los efectos resultantes de los tratamientos, medidos por el

Referencias

Documento similar

Una variable es una característica observable que se desea estudiar en una muestra de individuos, pudiendo tomar diferentes valores.. VARIABLE SUBTIPO

Indicar en cada caso dominio e imagen de cada función. En el caso de una gráfica los ceros o raíces de una función son las abscisas de los puntos en los cuales su grafica

Con estos modelos, se intenta explicar el valor actual de una variable dependiente (Y t ) en función de los valores pasados Y t .j de la variable dependiente, en función de

1) La existencia de la aleatoriedad de las muestras. 2) La relación entre la variable independiente y la variable dependiente, concentración y señal analítica, respectivamente,

If certification of devices under the MDR has not been finalised before expiry of the Directive’s certificate, and where the device does not present an unacceptable risk to health

Estos indicadores, junto con los factores sociodemográficos, se incorporaron a un modelo de regresión ordinal, utilizando como variable dependiente la información

Para efectos de este documento se presentan resultados sobre el grado de correlación entre las variables independientes y la variable dependiente, mediante la aplicación

Por otro lado, si existe entre las variables una influencia bidireccional, lo que implica que una variable económica afecta a otra(s) y a su vez es afectada por éstas,