Modelos Lineales Generalizados
Resumen
El procedimiento Modelos Lineales Generalizados esta diseñado para construir un modelo estadístico que describa el impacto de uno o más factores X en una o más variables dependientes
Y, los factores pueden ser:
1. Cuantitativos o categóricos 2. Cruzados o anidados 3. Fijos o aleatorios
Los errores asumen que siguen una distribución normal. Pueden proporcionarse ponderaciones si se desea una solución por mínimos cuadrados ponderados. La salida incluye una gran variedad de tablas y gráficos, incluyendo gráficos de superficie de respuestas, gráficos de residuos, y MANOVA si más de una variable dependiente es introducida
Muchos diferentes tipos de estudios experimentales pueden ser analizados utilizando este procedimiento. Esto incluye casos de modelos especiales como los que pueden ser estimados por
Regresión Múltiple, ANOVA con un solo factor, ANOVA Multifactor, y procedimientos de Componentes de Varianza. Adicionalmente, este puede analizar modelos mixtos que no pueden
ser manejados por cualquiera de los procedimientos anteriores
Ejemplo StatFolio: glm.sgp
Datos del Ejemplo:
Los datos del ejemplo que serán analizados contienen mediciones repetidas y provienen de Milliken y Johnson (1996). En este estudio, 2 drogas experimentales y una de control fueron administradas a 8 sujetos cada una (para un total de 24 sujetos). Los latidos del corazón de los sujetos fueron medidos en 4 diferentes tiempos después administrar la droga. Los datos están contenidos en el archivo heartrate.sf3, una porción de estos se muestra abajo:
Subject (Sujeto) Drug (Droga) Time (Tiempo) Herat Rate (Ritmo Cardiaco) 1 AX23 T1 72 1 AX23 T2 86 1 AX23 T3 81 1 AX23 T4 77 2 BWW9 T1 85 2 BWW9 T2 86 2 BWW9 T3 83 2 BWW9 T4 80 3 CONTROL T1 69 3 CONTROL T2 73 3 CONTROL T3 72 3 CONTROL T4 74
Puesto que a cada uno de los sujetos se les dio una droga diferente, el Sujeto se dice que esta “mezclado” dentro de la Droga. Este es un experimento con “mediciones repetidas” puesto que las mediciones fueron tomadas para cada sujeto en tiempos múltiples.
Entrada de Datos
La primera de dos cajas de dialogo requieren los nombres de las columnas que contienen las variables dependientes Y y las variables independientes X:
• Y: Una o mas columnas numéricas que contienen las n observaciones para las variables dependientes Y. Si más de una columna es introducida, modelos por separado serán ajustados para cada una. Adicionalmente, un MANOVA puede ser requerido.
• Factores Categóricos: Columnas numéricas o no numéricas que contienen n niveles de cualquier factor no cuantitativo X.
• Factores Cuantitativos: Columnas numéricas que contienen n valores de cualquier factor cuantitativo X.
• Ponderaciones: Columna numérica opcional que contiene las n ponderaciones wi que serán aplicadas a los cuadrados de los residuos cuando se realiza un ajuste de mínimos cuadrados ponderados. En casos donde la varianza de Y se sabe que varia, las ponderaciones serán inversamente proporcional a estas varianzas. Si no se especifica nada en este campo, todos
• Selección: Selección de un subconjunto de los datos.
En la muestra del estudio, hay una respuesta y tres factores categóricos.
La segunda caja de dialogo es utilizada para especificar el modelo que será ajustado a los datos:
• Factores: A cada uno de los factores categóricos y cuantitativos se les asigna una letra entre A y Z.
• Efectos: Los efectos que serán incluidos en el modelo son especificados usando las letras asignadas a los factores. Los efectos son introducidos como sigue:
1. Efectos Principales para Factores Cruzados – Introduzca una sola letra tal como A. 2. Interacciones entre Factores Cruzados – Introduzca un termino tal como A*C para
incluir la interacción entre los factores A y C o A*B*C para especificar una interacción de tres factores.
3. Efectos de Factores Anidados- Introduzca un termino tal como B(A) si el factor B esta anidado dentro del factor A o C(B A) si el factor C esta anidado dentro de combinaciones de los factores A y B.
4. Efectos de Primer Orden de Factores Cuantitativos- Introduzca una sola letra tal como A.
5. Efectos de Segundo Orden de Factores Cuantitativos- Introduzca un termino tal como A*A para los efectos cuadráticos de A o A*B para un producto cruzado.
• Factores Aleatorios: Los Factores Categóricos pueden ser Fijos o Aleatorios. Un factor es
niveles son seleccionados por un proceso no aleatorio o si sus niveles consisten de todos los posibles niveles para este factor.
Los efectos especificados en la caja de dialogo anterior son:
A: El efecto principal de Drug. Drug es un factor fijo, puesto que los efectos de las
drogas especificadas y probadas deben ser estimados.
B(A): Los efectos del Subject, esta anidados dentro de Drug. Subject esta anidado dentro
de Drug, ya que a diferentes sujetos les fueron dadas cada droga. Subject es también un factor aleatorio, ya que los 24 sujetos seleccionados son una muestra aleatoria de la población de interés, la cual consiste de todos aquellos que pueden tomar estas drogas en el futuro.
C: Los efectos principales de Time. Time es un factor fijo, ya que los efectos en tiempos
especificados son estimados.
A*C: Las interacciones entre Drug y Time. Este termino permitirá al efecto Time ser
diferente para los 3 niveles de Drug.
Resumen del Análisis
El Resumen del Análisis muestra información sobre el modelo ajustado. La sección superior de la salida se muestra a continuación:
Modelos Lineales Generales
Número de variables dependientes: 1 Número de factores categóricos: 3 A=Drug
B=Subject C=Time
Número de factores cuantitativos: 0
Análisis de Varianza para Heart Rate
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 4487.94 32 140.248 18.83 0.0000
Residuo 469.219 63 7.44792
Total (Corr.) 4957.16 95
Suma de Cuadrados Tipo III
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Drug 1333.0 2 666.5 5.99 0.0088 Subject(Drug) 2337.91 21 111.329 14.95 0.0000 Time 289.615 3 96.5382 12.96 0.0000 Drug*Time 527.417 6 87.9028 11.80 0.0000 Residuo 469.219 63 7.44792 Total (corregido) 4957.16 95
Incluida en la salida están:
• Análisis de Varianza: Una descomposición de la suma de cuadrados para la variable dependiente Y en suma de cuadrados del modelo y una suma de cuadrados del error o residuos. La prueba F prueba la significancia estadística del modelo ajustado. Los valores P
un factor en el modelo esta significativamente relacionado con la variable dependiente. En el ejemplo actual, el modelo es altamente significativo.
• Sumas de Cuadrados Tipo III: Una descomposición de la suma de cuadrados del modelo en componentes para cada factor. Basado en la configuración especificada en la caja de dialogo Opciones del Análisis, ambas sumas de cuadrados Tipo III o Tipo I son mostradas. Las sumas de cuadrados Tipo III prueban la significancia marginal de cada factor, asumiendo que esta fue la ultima en ser introducida al modelo. Las sumas de cuadrados de Tipo I prueban la significancia de los efectos en el orden que ellos fueron agregados al modelo. Los valores P pequeños indican efectos significativos. En este ejemplo, todos los 4 efectos son altamente significativos.
La segunda sección del análisis es importante si el experimento contiene algunos efectos aleatorios.
Cuadrados Medios Esperados (CME)
Fuente CME Drug (5)+4.0(2)+Q1 Subject(Drug) (5)+4.0(2) Time (5)+Q2 Drug*Time (5)+Q3 Residuo (5) Denominadores de Prueba-F
Fuente Gl Cuadrado Medio Denominador
Drug 21.00 111.329 (2) Subject(Drug) 63.00 7.44792 (5) Time 63.00 7.44792 (5) Drug*Time 63.00 7.44792 (5) Componentes de Varianza Fuente Estimado Subject(Drug) 25.9702 Residuo 7.44792 Esto incluye:
• Cuadrados Medios Esperados: El cuadrado medio esperado para cada factor es determinado usando el método de síntesis de Hartley (1967). Los cuadrados medios en la tabla Sumas de Cuadrados son etiquetados de superior a inferior como (1) para Drug, (2) para Subject dentro de Drug, y así hasta (5) para los Residuos. Un término tal como Q1 indica una cantidad única para el factor en el cual aparece. Los cuadrados medios esperados son importante en la construcción de pruebas F para los modelos que contienen factores aleatorios.
• Denominadores Prueba F: El cuadrado medio usado como el denominador de la prueba F para cada factor, junto con sus grados de libertad y como este fue determinado. Por ejemplo, la prueba F para Drug usa el cuadrado medio (2) en su denominador, el cual es igual a usar
Subject (Drug) como el término del error.
• Componentes de Varianza: Para los modelos con factores aleatorios, estima el componente de varianza σj de cada efecto aleatorio. Los componentes son derivados igualando los
momentos. Los componentes de varianza miden la variabilidad en la respuesta inducida por la variación en los efectos aleatorios. Por ejemplo, la varianza de los latidos del corazón entre personas que se les da la misma droga en el mismo tiempo es estimada alrededor de 26.0. La sección final de la tabla muestra estadísticas calculadas del modelo ajustado:
R-Cuadrada = 90.5345 porcentaje
R-Cuadrada(ajustada por g.l.) = 85.7267 porcentaje Error Estándar del Est. = 2.72909
Error medio absoluto = 1.78841
Estadístico Durbin-Watson = 2.23373 (P=0.1049) Análisis de Residuos Estimación Validación n 96 MSE 7.44792 MAE 1.78841 MAPE 2.38762 ME 3.70074E-16 MPE -0.0906573 La salida despliega:
• Estadísticas: Resumen de las estadísticas para el modelo ajustado, incluyendo:
R-cuadrada – La R-Cuadrada representa el porcentaje de la variabilidad en Y que es
explicado por el modelo de regresión ajustado, el rango va de 0% a 100%. Es calculado por:
% 1 100 2 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − = total error SS SS R (1)
Para los datos del ejemplo, la regresión acumulo alrededor del 90.5% de la variabilidad en los latidos del corazón. El restante 9.5% es atribuido a las desviaciones del modelo, las cuales pueden ser debidas a otros factores, para medir el error, o para una falla del modelo actual para ajustar los datos adecuadamente.
R-Cuadrada Ajustada – El estadístico R cuadrado, es ajustado por el número de coeficientes
en el modelo % 1 1 100 2 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − − = total error adj SS SS p n n R (2)
donde p es el numero de coeficientes estimados del modelo. Este valor es frecuentemente usado para comparar modelos con diferente número de coeficientes.
Error Estándar de Est. – La desviación estándar estimada de los residuos (la desviación
estándar alrededor del modelo)
CME
=
Media del Error Absoluto – El valor absoluto promedio de los residuos. MAE e n i i n =
∑
= | | 1 (4)Este valor indica el error en promedio en la predicción de la respuesta usando el modelo ajustado.
Estadístico Durbin-Watson – Una medición de la correlación serial entre los residuos:
DW e e e i i i n i i n = − + = − =
∑
∑
( 1 ) 1 1 2 2 1 (5)Si los residuos varían aleatoriamente, este valor debería ser cercano a 2. Un valor P pequeño indica que un patrón no aleatorio existe en los residuos. Para datos registrados en el tiempo, un valor P pequeño indicaría que alguna tendencia en el tiempo no ha sido tomada en cuenta. En el ejemplo actual, el valor P es más grande que 0.05, por lo cual no hay correlación significante a un nivel de confianza del 95%.
• Análisis de Residuos: Si un subconjunto de filas en la hoja de datos han sido excluidos del análisis usando el campo Selección en la caja de dialogo de entrada de datos, el modelo ajustado es utilizado para realizar predicciones de los valores Y para estas filas. Esta tabla muestra las estadísticas de los errores de predicción, definidas por
i i
i y y
e = −ˆ (6)
Está incluido el cuadrado medio del error:
1 1 2 − =
∑
= n e CME n i i (7)la media del error absoluto:
n e MAE n i i
∑
= = 1 (8)% / | | 100 1 n y e MAPE i n i i
∑
= = (9)La media del error:
n e ME n i i
∑
= = 1 (10)y el porcentaje de la media del error:
% / 100 1 n y e MPE i n i i
∑
= = (11)Estas estadísticas de validación pueden ser comparadas con las estadísticas del modelo ajustado para determinar que bueno es el modelo para predecir observaciones fuera de los datos utilizados para estimarlo.
• Sumas de Cuadrados: Las sumas de cuadrados a desplegar. Sumas de cuadrados Tipo I miden la contribución de cada variable al modelo cuando se agregan en el orden indicado. Sumas de cuadrados Tipo III miden la contribución marginal de cada efecto, asumiendo que este fue agregado al final.
• Desplegar: Si más de una variable dependiente ha sido especificada, la variable a utilizar cuando se crean gráficos y tablas que despliegan solo una variable.
• Constante en el Modelo: Si esta opción no es desactivada, el termino constante β0 será
omitido del modelo. Lo cual permitirá que la regresión pase a través del origen .
• Incluir MANOVA: Si más de una variable dependiente ha sido especificada, activar esta caja causara un análisis de varianza multivariado incluyéndose en Resumen del Análisis. Para más información, ver el ejemplo después en este documento.
• Transformación Box-Cox: Si se selecciona, una transformación Box-Cox será aplicada a las variable(s) dependientes. Las transformaciones Box-Cox son una forma de tratar con situaciones en las cuales las desviaciones del modelo de regresión no tienen una varianza constante. Puedes especificar los parámetros Box-Cox o pedir que el programa automáticamente encuentre el óptimo potencial. Para detalles, ver la documentación de
Transformaciones Box-Cox.
• Términos Factor y Error: El denominador puede ser usado para cada factor cuando se crea una prueba F. La opción Automático produce que el programa seleccione el denominador automáticamente. Puedes sustituir las selecciones del programa haciendo clic en un factor y haciendo posteriormente clic en el término del error deseado. Los términos de error actuales son desplegados en el campo Selecciones.
Coeficientes del Modelo El modelo lineal es de la forma
Y = β0 + β1X1 + β2X2 +… + βp-1Xp-1 + εi (12)
donde Y es la variable dependiente, X’s tienen información acerca de cada uno de los efectos en el modelo, y los ε’s son asumidos independientes y normales con media 0. El panel Coeficientes
del Modelo despliega los coeficientes estimados, sus errores estándar, limites de confianza
Límites de confianza del 95.0% para los coeficientes estimados (Heart Rate)
Error
Parámetro Estimado Estándar Límite Inferior Límite Superior V.I.F.
CONSTANT 76.4063 0.278536 75.8496 76.9629 Drug -0.125 0.39391 -0.912167 0.662167 1.33333 Drug 4.625 0.39391 3.83783 5.41217 1.33333 Subject(Drug) 2.71875 1.27641 0.168036 5.26946 1.75 Subject(Drug) 2.46875 1.27641 -0.0819642 5.01946 1.75 Subject(Drug) 0.09375 1.27641 -2.45696 2.64446 1.75 Subject(Drug) 6.21875 1.27641 3.66804 8.76946 1.75 Subject(Drug) 1.96875 1.27641 -0.581964 4.51946 1.75 Subject(Drug) -4.90625 1.27641 -7.45696 -2.35554 1.75 Subject(Drug) 0.96875 1.27641 -1.58196 3.51946 1.75 Subject(Drug) -7.53125 1.27641 -10.082 -4.98054 1.75 Subject(Drug) 15.3438 1.27641 12.793 17.8945 1.75 Subject(Drug) 0.46875 1.27641 -2.08196 3.01946 1.75 Subject(Drug) 1.71875 1.27641 -0.831964 4.26946 1.75 Subject(Drug) 5.59375 1.27641 3.04304 8.14446 1.75 Subject(Drug) -4.28125 1.27641 -6.83196 -1.73054 1.75 Subject(Drug) -0.28125 1.27641 -2.83196 2.26946 1.75 Subject(Drug) -1.15625 1.27641 -3.70696 1.39446 1.75 Subject(Drug) 3.21875 1.27641 0.668036 5.76946 1.75 Subject(Drug) 1.46875 1.27641 -1.08196 4.01946 1.75 Subject(Drug) -8.65625 1.27641 -11.207 -6.10554 1.75 Subject(Drug) -5.53125 1.27641 -8.08196 -2.98054 1.75 Subject(Drug) -0.28125 1.27641 -2.83196 2.26946 1.75 Subject(Drug) -1.65625 1.27641 -4.20696 0.894464 1.75 Time -1.40625 0.482439 -2.37033 -0.442171 1.5 Time 2.55208 0.482439 1.588 3.51616 1.5 Time 0.635417 0.482439 -0.328663 1.5995 1.5 Drug*Time -4.375 0.682272 -5.73841 -3.01159 2.0 Drug*Time 1.66667 0.682272 0.303253 3.03008 2.0 Drug*Time 4.08333 0.682272 2.71992 5.44675 2.0 Drug*Time 2.125 0.682272 0.761586 3.48841 2.0 Drug*Time 0.416667 0.682272 -0.946747 1.78008 2.0 Drug*Time -3.04167 0.682272 -4.40508 -1.67825 2.0
El modelo puede ser un poco complicado particularmente cuando contiene factores categóricos. Este incluye un término para cada grado de libertad asociado con los efectos. Excepto para casos simples, no se espera que el usuario calcule los valores usando el modelo, ya que el panel
Reportes construye predicciones para cualquier combinación de factores.
• Parámetro: Los coeficientes estimados del modelo. Las columnas de X son definidas como sigue:
1. Constante: X contiene una columna de 1’s.
2. Efecto principal de un factor cuantitativo: X contiene los valores de la variable independiente.
3. Efecto principal de un factor categórico: Para un factor con k niveles, X contiene k-1 variables indicadoras. La primer variable es igual a 1 cuando el factor esta en su primer nivel, -1 cuando el factor esta en su ultimo nivel, y 0 en otro casos. La segunda variable es igual a 1 cuando el factor esta en su segundo nivel, -1 -1 cuando el factor esta en su ultimo nivel, y 0 en otros casos. Etc.
4. Interacciones entre factores: X contiene el producto de las columnas creadas por estos factores.
Por ejemplo, la ecuación para el primer sujeto que le fue dado la primera droga en el primer tiempo en la tabla anterior es:
Time = 76.4063 – 0.125(1) + 2.71875(1) – 1.40625(1) - 4.375(1) = 73.2188
La ecuación para el primer sujeto que le fue dada la última droga en el primer tiempo en la tabla anterior es:
Time = 76.4063 – 0.125(-1) + 4.625(-1) + 0.09375(1) – 1.40625(1) - 4.375(-1)
+ 2.125(-1) = 72.8438
• Errores Estándar: Los errores estándar estimados para cada uno de los coeficientes del modelo.
• Limites de Confianza: Los limites de confianza de dos lados o un lado para los coeficientes del modelo.
• V.I.F.: Inflación de varianza de los factores. La inflación de varianza de los factores mide la varianza de los coeficientes comparada con como seria si las variables independientes fueran no correlacionados. Los valores mas grandes que 10.0 usualmente indican multicolinealidad seria entre las variables predictoras, lo cual produce estimadores imprecisos de los coeficientes del modelo.
Opciones del Panel
• Tipo de Intervalo: Seleccione limites de confianza de dos lados o de un lado. • Nivel de de Confianza: Porcentaje usado para los límites de confianza.
• Mostrar Correlaciones: Si se selecciona, una tabla de correlaciones estimadas entre los coeficientes del modelo será desplegada. Esta tabla puede ser de ayuda en determinar que tan bien los efectos de diferentes variables independientes han sido separados entre ellos.
Gráfico de Dispersión
El Gráfico de Dispersión grafica las observaciones contra alguno de los factores seleccionado.
AX23 BWW9 CONTROL
Drug
Diagrama de Dispersión para Heart Rate
61 66 71 76 81 86 91 H ear t R at e
Esto es frecuentemente de ayuda para ajustar los puntos en la dirección horizontal presionando el botón Ajustar en la barra de herramientas del análisis, como en la grafica anterior. Ajustar compensa cada punto una cantidad aleatoria para prevenir que los puntos caigan unos encima de otros.
Opciones del Panel
Tabla de Medias
La Tabla de Medias despliega las medias por mínimos cuadrados para cada nivel de los factores y para pares de niveles incluyendo cualquier interacción de dos factores. Las medias por mínimos cuadrados representan el valor medio predicho de Y en un nivel especificado del factor categórico X cuando todas las variables cuantitativas son fijas igual a sus medias observadas y todas las variables indicadoras para los factores categóricos son fijados iguales a 0. Cada media es mostrada junto con su estimación del error estándar y un intervalo de confianza:
Tabla de Medias de Mínimos Cuadrados para Heart Rate con intervalos de confianza del 95.0 %
Error Límite Límite
Nivel Conteo Media Estándar Inferior Superior
GRAND MEAN 96 76.4063 0.278536 75.8496 76.9629 Drug
AX23 32 76.2813 1.86522 72.4023 80.1602 BWW9 32 81.0313 1.86522 77.1523 84.9102 CONTROL 32 71.9063 1.86522 68.0273 75.7852 Subject dentro Drug
1 AX23 4 79.0 1.36454 76.2732 81.7268 2 BWW9 4 83.5 1.36454 80.7732 86.2268 3 CONTROL 4 72.0 1.36454 69.2732 74.7268 4 AX23 4 82.5 1.36454 79.7732 85.2268 5 BWW9 4 83.0 1.36454 80.2732 85.7268 6 CONTROL 4 67.0 1.36454 64.2732 69.7268 7 AX23 4 77.25 1.36454 74.5232 79.9768 8 BWW9 4 73.5 1.36454 70.7732 76.2268 9 CONTROL 4 87.25 1.36454 84.5232 89.9768 10 AX23 4 76.75 1.36454 74.0232 79.4768 11 BWW9 4 82.75 1.36454 80.0232 85.4768 12 CONTROL 4 77.5 1.36454 74.7732 80.2268 13 AX23 4 72.0 1.36454 69.2732 74.7268 14 BWW9 4 80.75 1.36454 78.0232 83.4768 15 CONTROL 4 70.75 1.36454 68.0232 73.4768 16 AX23 4 79.5 1.36454 76.7732 82.2268 17 BWW9 4 82.5 1.36454 79.7732 85.2268 18 CONTROL 4 63.25 1.36454 60.5232 65.9768 19 AX23 4 70.75 1.36454 68.0232 73.4768 20 BWW9 4 80.75 1.36454 78.0232 83.4768 21 CONTROL 4 70.25 1.36454 67.5232 72.9768 22 AX23 4 72.5 1.36454 69.7732 75.2268 23 BWW9 4 81.5 1.36454 78.7732 84.2268 24 CONTROL 4 67.25 1.36454 64.5232 69.9768 Time T1 24 75.0 0.557073 73.8868 76.1132 T2 24 78.9583 0.557073 77.8451 80.0716 T3 24 77.0417 0.557073 75.9284 78.1549 T4 24 74.625 0.557073 73.5118 75.7382 Drug por Time
AX23 T1 8 70.5 0.964878 68.5718 72.4282 AX23 T2 8 80.5 0.964878 78.5718 82.4282 AX23 T3 8 81.0 0.964878 79.0718 82.9282 AX23 T4 8 73.125 0.964878 71.1968 75.0532 BWW9 T1 8 81.75 0.964878 79.8218 83.6782 BWW9 T2 8 84.0 0.964878 82.0718 85.9282 BWW9 T3 8 78.625 0.964878 76.6968 80.5532 BWW9 T4 8 79.75 0.964878 77.8218 81.6782 CONTROL T1 8 72.75 0.964878 70.8218 74.6782 CONTROL T2 8 72.375 0.964878 70.4468 74.3032 CONTROL T3 8 71.5 0.964878 69.5718 73.4282 CONTROL T4 8 71.0 0.964878 69.0718 72.9282
Por ejemplo, la media de los latidos del corazón de los sujetos a los que se les dio la droga AX23 en el tiempo T1 es estimada entre 68.6 y 72.4, con una confianza del 95%.
Opciones del Panel
• Nivel de Confianza: El nivel de confianza asociado con cada intervalo.
Gráfico de Medias
Las medias por nivel para un factor seleccionado pueden ser graficadas usando el Gráfico de
Medias.
AX23 BWW9 CONTROL
Medias y 95.0 Porciento Intervalos HSD de Tukey
Drug 68 71 74 77 80 83 86 He a rt Ra te
Si el factor graficado sobre el eje horizontal es categórico, entonces la grafica mostrara las medias por mínimos cuadrados con sus intervalos de incertidumbre. Los tipos de intervalos despegados dependen de la configuración en Opciones del Panel. Si el factor sobre el eje horizontal es cuantitativo, la gráfica mostrara el modelo ajustado con todos los otros factores cuantitativos fijados igual a sus medias observadas y todos los factores categóricos fijados igual a 0.
Si todos los tamaños de muestras proporcionados son iguales (o parecidos), el analista puede determinar cuales medias por nivel de un factor categórico son significativamente diferentes usando procedimientos como LSD, Tukey, Scheffe, o Bonferroni simplemente viendo si un par de intervalos se traslapan en la dirección vertical o no. Un par de intervalos que no se traslapan indican una diferencia significativa entre las medias al nivel de confianza seleccionado. En este caso, note que el intervalo para la droga BWW9 no se traslapa con el intervalo de CONTROL, indicando una diferencia significativa entre las medias de esos dos niveles. El intervalo para
AX23 y CONTROL se traslapan, sin embargo, no pueden ser declarados significativamente diferentes.
Opciones del Panel
• Intervalos: El método usado para construir intervalos. • Factor: El factor que será graficado.
• Nivel de Confianza: El nivel de confianza asociado con cada intervalo. Los tipoo de intervalos que pueden ser seleccionados son:
Intervalos de Confianza – Despliega intervalos de confianza para las medias por nivel
usando las estimaciones del error estándar.
Intervalos LSD – Diseñado para comparar cualquier par de medias con el nivel de
confianza establecido.
Intervalos de Tukey HSD - Diseñado para comparar todos los pares de medias. El nivel
de confianza establecido aplica a la familia entera de comparación en pares.
Intervalos de Scheffe - Diseñado para comparar todos los contrastes. Generalmente no es
relevante aquí.
Intervalos de Bonferroni - Diseñado para comparar un número seleccionado de
contrastes. Los intervalos de Tukey son generalmente más estrechos.
Cada uno de los intervalos es formado agregando un múltiplo del error estándar de la media por mínimos cuadrados a la media estimada. El múltiplo depende del método usado, como se
describe en la documentación ANOVA de un factor. Los grados de libertad son aquellos asociados con el estimador del error estándar y dependen de la estructura del experimento.
Gráfico de Interacción
Cuando una o mas interacciones significanttivas existen entre los factores categóricos, los factores involucrados deberán ser examinados juntos usando el Gráfico de Interacción.
Gráfica de Interacciones Time 70 73 76 79 82 85 He a rt Ra te T1 T2 T3 T4 Drug AX23 BWW9 CONTROL
El Gráfico de Interacción despliega las medias por mínimos cuadrados en todas las combinaciones de los dos factores. Si los factores no interactúan, las líneas en la gráfica deberían ser aproximadamente paralelas. Si ellas no lo son, entonces el efecto de un factor depende del nivel del otro, lo cual es la definición de interacción.
Note que los latidos del corazón para el grupo CONTROL cambian muy poco en el tiempo, mientras que los otros muestran cambios significantes en ambas drogas. Adicionalmente, la droga BWW9 parece tener un efecto más rápido y prolongado que la droga AX23.
Opciones del Panel
• Intervalo: El tipo de intervalo que será dibujado alrededor de cada media. La interacción es tratada como un factor con número de niveles igual al número total de puntos graficados. • Interacción: Interacción a graficar.
• Nivel de Confianza: El nivel de confianza asociado con cada intervalo.
• Graficar sobre Ejes: El factor usado para definir los puntos a lo largo del eje horizontal. Las líneas serán dibujadas en cada nivel del otro factor.
Pruebas de Rango Múltiples
Para factores que muestran valores P significativos en la tabla del ANOVA y que no interactúan con otros factores, un análisis posterior puede ser realizado seleccionando las Pruebas de Rango
Múltiples.
Comparaciones Múltiples para Heart Rate por Drug
Método: 95.0 porciento LSD
Drug Conteo Media MC Sigma MC Grupos Homogéneos
CONTROL 32 71.9063 1.86522 X
AX23 32 76.2813 1.86522 XX
BWW9 32 81.0313 1.86522 X
Contraste Sig. Diferencia Límites +/-
AX23 - BWW9 -4.75 5.48564
AX23 - CONTROL 4.375 5.48564
BWW9 - CONTROL * 9.125 5.48564
La tabla despliega cada una de las medias por mínimos cuadrados en orden creciente por su magnitud. Esta muestra:
• Conteo – El número de observaciones en el nivel especificado del factor.
• Media LS – La media estimada por mínimos cuadrados. En el caso de diseños balanceados, la media por mínimos cuadrados es equivalente al promedio de todas las observaciones en el nivel del factor indicado. En diseños desbalanceados, la media por mínimos cuadrados es el valor predicho de la variable dependiente cuando el factor especificado es fijado a un nivel particular mientras todos los otros son fijados igual a su media por nivel. Las medias por mínimos cuadrados se ajustan para cualquier desbalanceo en los datos haciendo predicciones en un nivel común de todos los factores. • Sigma LS - El error estándar estimado de la media por mínimos cuadrados
• Grupos Homogéneos – Una ilustración grafica de cuales medias son significativamente diferentes de otras, basada en los contrastes desplegados en la segunda mitad de la tabla. Cada columna X’s indica un grupo de medias dentro de las cuales no hay diferencia significativa. En el ejemplo, hay 2 columnas, cada una conteniendo un par de X’s. Esto indica que la droga AX23 no es significativamente diferente del CONTROL o de la droga BWW9. Aunque, ya que CONTROL y BWW9 no están dentro del mismo grupo, sus medias son significativamente diferentes.
La segunda mitad de la tabla despliega comparaciones de pares de medias por nivel. • Diferencia – La diferencia entre las dos medias por mínimos cuadrados.
• Limites – Un intervalo que estima la diferencia, usando el procedimiento de comparación múltiple actualmente seleccionado.
• Sig. – Un asterisco es colocado a cualquier diferencia que es significativamente diferente de 0 en el nivel de significancia seleccionado actualmente, i.e., cualquier intervalo que no contiene al 0.
• Tipo: Tipo de contraste que será creado. • Factor: Factor que será analizado.
• Método: Método usado para hacer comparaciones múltiples.
• Nivel de Control: Si Tipo es fijado en Contra Control, el número de nivel contra todos los otros niveles serán comparados.
• Nivel de Confianza: El nivel de confianza usado por el procedimiento de comparación múltiple.
Los métodos disponibles son:
LSD – Forma un intervalo de confianza para cada par de medias en el nivel de confianza
seleccionado usando una distribución t Student. Este procedimiento es debido a Fisher y es llamado el procedimiento (Mínima Diferencia Significativa- Least Significant Difference), ya que la magnitud de los limites indica la mas pequeña diferencia entre cualquier par de medias que pueden representar un diferencia significativa. Esta debería solamente se usa cuando la prueba F en la tabla ANOVA indica diferencias significativas entre las medias por nivel. La probabilidad de cometer un error de Tipo I α aplica a cada par de madias por separado. Si se hace más de una comparación, la probabilidad total de hallar al menos una par de medias significativamente diferentes cuando ellas no lo son puede considerarse más grande que α.
Tukey HSD – Amplia los intervalos para permitir múltiples comparaciones entre todos los
pares de medias usando una T de Tukey. Tukey llamo su procedimiento Diferencia
Significativa Honesta (Honestly Significant Difference) ya que este controla la
amplitud-experimental de la razón del error en α. Si todas las medias son iguales, la probabilidad de declarar que cualquiera de los pares es significativamente diferente en el experimento completo es igual a α. El procedimiento de Tukey es más conservador que el de LSD de Fisher, puesto que este hace más difícil declarar cualquier par de medias diferentes.
Scheffe – Diseñado para permitir la estimación de todos los posibles contrastes entre las
medias muestrales (no solo la comparación de pares).
Bonferroni - Diseñado para permitir la estimación de cualquier número preseleccionado de
contrastes. Esto limites son usualmente mas anchos que los limites de Tukey cuando todas las comparaciones a pares son realizadas.
t Multivariada – Diseñado para conjuntos de combinaciones linealmente independientes de
las medias.
Student-Newman-Keuls – A diferencia de los métodos previos, este método no crea
intervalos para las diferencias de pares. En lugar de esto, ordena las medias en orden creciente y empieza a separarlas en grupos de acuerdo a los valores de la distribución de rango Estandarizado. Eventualmente, las medias son separadas en grupos homogéneos dentro de los cuales no hay diferencias significantes.
Duncan - Similar al procedimiento Student-Newman-Keuls, excepto que este usa un valor
critico diferente de la distribución de rango Estandarizado cuando se definen los grupos homogéneos. Una discusión detallada del procedimiento Duncan y Student-Newman-Keuls es dado por Milliken y Johnson (1992).
Dunnett – Diseñado para comparaciones de pares cuando un nivel es un grupo control.
Ejemplo – Contrastes Especificados por el Usuario
Los contrastes especificados por el usuario pueden ser probados fijando Tipo en
Usuario-Especificado. Cuando OK es presionado, una hoja de datos pequeña será desplegada en la cual se
definen los contrastes. Cada renglón de la hoja de datos especifica los coeficientes en el contraste
c1μ1 + c2μ2 +… + ckμk (13)
donde los coeficientes cj deben sumar 1. Por ejemplo, la hoja de datos siguiente define un contraste de la forma
0.5μ1 + 0.5μ2 – μ3 (14)
es el contraste de la respuesta promedio de las dos drogas experimentales con respecto a la de control.
La salida resultante despliega cada media por mínimos cuadrados y la estimación de un intervalo para los contrastes:
Comparaciones Múltiples para Heart Rate por Drug
Método: 95.0 porciento LSD
Drug Conteo Media MC
AX23 32 76.2813
BWW9 32 81.0313
CONTROL 32 71.9063
Contraste Sig. Estimado Límites +/-
0.5 0.5 -1.0 * 6.75 4.75071 * denota un estimado estadísticamente significativo.
Si LSD es seleccionado, los limites +/- corresponden a intervalos de confianza al 95% para los contrastes deseados.
Gráficos de Superficie y Contornos
Si el modelo implica al menos dos factores cuantitativos, un gráfico de superficie y contorno puede ser creado. Por ejemplo, usando el conjunto de datos 93cars.sf6, la siguiente grafica despliega un modelo para MPG Highway en función del Length y Width de los automóviles en este archivo.
Superficie de Respuesta Estimada
140 160 180 200 220 Length 6063 66 6972 7578 Width 14 24 34 44 54 MP G H ighw a y
El modelo ajustado incluye los efectos principales de ambos factores junto con su interacción. Las líneas han sido trazadas en cada punto perpendicularmente al modelo estimado.
Opciones del Panel
• Tipo: Tipo de grafico de respuesta a ser creado. El modelo ajustado puede ser graficado como una Grafico de Superficie 3-D, un Grafico de Contorno 2-D, en cada esquina de un cuadrado, o en cada esquina de un cubo (teniendo al menos 3 factores cuantitativos).
• Contornos De, Hasta, y Por: Definen la región del contorno cuando se agregan contornos a la grafica. Los contornos pueden ser dibujados como Líneas Sólidas, Regiones Pintadas de colores sólidos, usando un rango Continuo de colores, o usando Continuo como malla.
• Resolución: El número de localizaciones de X y Y entre las cuales la función es evaluada cuando se construye el grafico. Una resolución más grande produce una suavizamiento del grafico. Puedes configurar los defectos de la resolución usando la selección Preferencias en el menú Edición.
• Divisiones Horizontales y Verticales de la Superficie: El numero de intervalos entre las líneas de la malla a lo largo de los ejes X y Y.
• Contorno Abajo: Dibuja un contorno en la base del cubo cuando se crea un gráfico de superficie.
• Mostrar Puntos: Grafica cada observación y agrega líneas verticales a la superficie. • Tipo: El tipo de superficie que será dibujada:
o Sólido: Una superficie definida por líneas de malla con un color sólido entre las líneas.
o Contorneado: Una superficie con regiones coloreadas mostrando el valor de la función.
• Factores: Presione este botón para determinar los limites de los factores sobre el grafico y los valores se fijan otros factores. La siguiente caja de dialogo será desplegada:
• Bajo y Alto: Limites gráficos para los factores seleccionados.
Ejemplo: Gráfico de Superficie con Contornos Abajo tipo Continuo
Superficie de Respuesta Estimada
140 160 180 200 220 Length 6063 6669 7275 78 Width 14 24 34 44 54 M P G H ighw a y MPG Highway 15.0 20.0 25.0 30.0 35.0 40.0 45.0
Ejemplo: Gráfico Cuadrado
Gráfico Cuadrado para MPG Highway
Length Wi d th 141.0 219.0 60.0 78.0 43.8968 30.57 25.6046 14.7226
Los valores desplegados en cada esquina del cuadrado son los valores predichos Yˆ.
Reportes
El panel Reportes despliega del modelo ajustado por mínimos cuadrados. Por defecto, la tabla incluye una línea para cada fila en la hoja de datos que tiene información completa de las variables X y valores perdidos para la variable Y. Esto permite agregar filas en la parte inferior de la hoja de datos correspondientes a niveles en los cuales se desea hacer predicciones sin afectar el modelo ajustado.
Por ejemplo, suponga que se desea desplegar los valores estimados para cada una de las dos drogas experimentales en los 4 periodos de tiempo. Filas adicionales deberán agregarse en la parte inferior de la hoja de datos como sigue:
Row (Fila) Subject (Sujeto) Drug (Droga) Time (Tiempo) Heart Rate (Ritmo Cardiaco) 97 0 AX23 T1 98 0 AX23 T2 99 0 AX23 T3 100 0 AX23 T4 101 0 BWW9 T1 102 0 BWW9 T2 103 0 BWW9 T3 104 0 BWW9 T4
Subject es fijado en 0 para todas las variables indicadoras para ese factor serán fijadas en 0,
efectivamente son promedios cruzados de todos los sujetos. La tabla resultante se muestra abajo: Resultados de la Regresión para Heart Rate
Ajustado Error Estnd. Inferior 95.0% NC Superior 95.0% NC Inferior 95.0% NC Superior 95.0% NC
Fila Valor para Pronóstico para Pronóstico para Pronóstico para Media para Media
97 70.5 2.89463 64.7155 76.2845 68.5718 72.4282 98 80.5 2.89463 74.7155 86.2845 78.5718 82.4282 99 81.0 2.89463 75.2155 86.7845 79.0718 82.9282 100 73.125 2.89463 67.3405 78.9095 71.1968 75.0532 101 81.75 2.89463 75.9655 87.5345 79.8218 83.6782 102 84.0 2.89463 78.2155 89.7845 82.0718 85.9282 103 78.625 2.89463 72.8405 84.4095 76.6968 80.5532 104 79.75 2.89463 73.9655 85.5345 77.8218 81.6782 La tabla muestra:
• Fila – El número de fila en la hoja de datos.
• Valor Ajustado – El valor predicho de la variable dependiente Y usando el modelo
ajustado.
ˆ
• Errores Estándar para Pronóstico – El error estándar estimado para predecir una nueva observación.
• Limites de Confianza para Pronóstico – Límites de predicción para nuevas observaciones al nivel de confianza seleccionado.
• Limites de Confianza para Media - Límites de confianza para el valor medio de Y al nivel de confianza seleccionado.
Por ejemplo, un sujeto adicional a quien se le dio droga BWW9 parece tener un latido de corazón al tiempo T1 entre 76.0 y 87.5 (renglón #101). El intervalo de confianza del 95% para la media de los latidos del corazón de muchos sujetos con esta droga en este tiempo esta entre 79.8 y 83.7.
Opciones del Panel
Se puede incluir:
• Y Observada – Los valores observados de la variable dependiente. • Y Predicha – Los valores predichos del modelo ajustado.
• Residuos – Los residuos ordinarios (observada menos predicha). • Residuos Estandarizados – Los residuos Estandarizados.
• Errores Estándar para Pronósticos – Los errores estándar para nuevas observaciones en valores de las variables independientes correspondientes a cada fila de la hoja de datos. • Limites de Confianza para Pronósticos Individuales – Intervalos de confianza para nuevas
observaciones.
• Limites de Confianza para Pronósticos de Medias – Intervalos de confianza para el valor medio de Y en valores de las variables independientes correspondientes a cada fila de la hoja de datos.
Observado contra Predicho
El grafico Observado contra Predicho muestra los valores observados de Y en el eje vertical y los valores predichos de Yˆen el eje horizontal.
Gráfica de Heart Rate
61 66 71 76 81 86 91 predicho 61 66 71 76 81 86 91 ob s er v ado
Si el modelo se ajusta bien, los puntos deberían estar aleatoriamente dispersos alrededor de la línea diagonal. Cualquier cambio de la variabilidad del valor bajo de Y al valor alto de Y podría indicar la necesidad de transformar la variable dependiente antes de estimar el modelo a los datos Gráficos de Residuos
Como con todos los modelos estadísticos, es una buena practica para examinar los residuos. En una regresión, los residuos son definidos por
(15)
i i
i y y
e = −ˆ
Ej., los residuos son la diferencia entre los valores observados y el modelo estimado.
El procedimiento Modelos Lineales Generales grafica varios tipos de gráficas de residuos, dependiendo de las Opciones del Panel.
Dispersión contra Valores Predichos
Esta grafica ayuda en la visualización de cualquier posible dependencia de las varianzas de residuos sobre la media, lo cual puede necesitar un ajuste de mínimos cuadrados ponderados
61 66 71 76 81 86 91
predicho Heart Rate Gráfica de Residuos -3.4 -1.4 0.6 2.6 4.6 R e s idu o E s tud enti z ad o
La grafica anterior muestra una buena varianza constante, aunque un posible valor atípico es evidente.
Grafico de Probabilidad Normal
Este grafico se utiliza para determinar si las desviaciones alrededor de la línea siguen o no una distribución normal, esta asunción es usado para formar los intervalos de predicción.
Gráfica de Probabilidad Normal para Heart Rate -2.6 -1.6 -0.6 0.4 1.4 2.4 3.4 Residuo Estudentizado 0.1 1 5 20 50 80 95 99 99.9 po rc e nta je
Si las desviaciones siguen una distribución normal, estas deberían caer alrededor de la línea recta. En el grafico anterior, los puntos caen muy bien alrededor de la línea.
Auto-correlaciones de Residuos
Esta gráfica calcula la auto-correlación entre los residuos como una función del número de filas entre ellos sobre la hoja de datos.
Autocorrelaciones Residuales para Heart Rate
0 2 4 6 8 10 12 retraso -1 -0.6 -0.2 0.2 0.6 1 au toc or rel ac ión
Esto es solamente relevante si los datos fueron recolectados secuencialmente. Cualquier barra que se extienda más allá de los límites de probabilidad indica una dependencia significativa entre los residuos separados por un indicador de “retraso”, lo cual violaría el supuesto de independencia hecho cuando se ajusto el modelo de regresión.
Opciones del Panel
• Graficar: El tipo de residuos a graficar:
1. Residuos – los residuos por estimación de mínimos cuadrados.
2. Residuos Estandarizados – La diferencia entre los valores observados yi y los valores
predichos cuando el modelo es ajustado usando todas las observaciones excepto la i-ésima, dividida por el error estándar de la estimación. Estos residuos algunas veces son llamados residuos eliminados externamente, puesto que ellos miden que tan lejos esta cada valor del modelo ajustado cuando el modelo es estimado usando todos los datos excepto el punto que es considerado. Esto es importante, ya que un valor atípico muy grande puede afectar el modelo tanto que no parecería estar inusualmente lejos de la línea.
i
yˆ
• Tipo: Tipo de graficas a ser creadas. Un Diagrama de Dispersión es utilizado para una prueba de curvatura. Un Gráfico de Probabilidad Normal es usado para determinar si los residuos del modelo vienen de una distribución normal. Una Función de Auto-correlación es aplicada para probar la dependencia entre residuos consecutivos.
• Graficar Contra: Para un Diagrama de Dispersión, la variable a graficar en el eje horizontal.
• Numero de Retrasos: Para una Función de Auto-correlación, el máximo numero de retrasos. Para conjuntos de datos pequeños, el número de retrasos graficados debe ser menor que este valor.
• Nivel de Confianza: Para una Función de Auto-correlación, el nivel usado para crear los límites de probabilidad.
Residuos Inusuales
Una vez que el modelo ha sido ajustado, es usual estudiar los residuos para determinar si algún valor atípico existente debería ser removido de los datos. El panel Residuos Inusuales lista todas las observaciones que han sido residuos Estandarizados mayor o igual a 2.0 en valor absoluto.
Residuos Atípicos para Heart Rate
Y Residuo
Fila Y Predicha Estudentizado Residuo
22 62.0 67.4687 -5.46875 -2.58
24 73.0 66.0938 6.90625 3.37
40 69.0 73.5938 -4.59375 -2.14
48 72.0 76.5938 -4.59375 -2.14
53 86.0 81.4688 4.53125 2.10
Los residuos estandarizados más grandes que 3 en valor absoluto corresponden a puntos con más de 3 desviaciones estándar del modelo ajustado, lo cual es un evento extremadamente raro para una distribución normal. La fila #24 esta a mas de 3.3 desviaciones estándar del modelo ajustado, lo cual es un evento extremadamente raro para una distribución normal.
Nota: Los puntos pueden ser removidos del ajuste mientras se examina el Gráfica de Dispersión haciendo clic en un punto y presionando el botón Excluir/Incluir en la barra de herramientas del análisis. Los puntos excluidos son marcados con una X.
Puntos Influyentes
En el ajuste de un modelo de regresión, todas las observaciones no tienen una influencia igual en la estimación de los parámetros sobre el modelo estimado. Los puntos localizados en valores extremos de X tienen mayor influencia que aquellos localizados cerca del centro de la región experimental. El panel Puntos Influyentes muestra cualquier observación que tenga una influencia alta sobre el modelo estimado:
Puntos Influyentes para Heart Rate
Distancia de Distancia
Fila Leverage Mahalanobis DFITS de Cook
9 0.34375 48.2486 -1.27936 0.0479806 14 0.34375 48.2486 -1.23576 0.0449106 22 0.34375 48.2486 -1.86911 0.0971251 24 0.34375 48.2486 2.43976 0.154896 33 0.34375 48.2486 -1.3672 0.0544249 40 0.34375 48.2486 -1.54576 0.0685315 48 0.34375 48.2486 -1.54576 0.0685315 53 0.34375 48.2486 1.52322 0.0666794 81 0.34375 48.2486 1.30124 0.0495536
Leverage promedio de un solo punto = 0.34375
Los puntos son colocados sobre esta lista por alguna de las siguientes razones:
• Ponderación– Mide que tan distante es una observación con respecto a la media de todas las
n observaciones en el espacio de las variables independientes. Cuanto más alto sea la
ponderación, mas grande será el impacto de los puntos sobre los valores predichos Los puntos son colocados en la lista si su ponderación es mayor que 3 veces un punto promedio.
. ˆy
• Distancia de Mahalanobis – Mide que la distancia de un punto al centro de la colección de puntos en el espacio multivariado de las variables independientes. Puesto que esta distancia esta relacionada con la ponderación, este no es usado para seleccionar puntos para la tabla. • DFITS – Mide la diferencia entre los valores predichos cuando el modelo es ajustado con
o sin el punto i-ésimo. Los puntos son colocados en la lista si el valor absoluto de DFITS excede de
i
yˆ n
p /
2 , donde p es el número de coeficientes sobre el modelo ajustado.
• Distancia de Cook – Una medición total de la influencia sobre la i-ésima observación de los coeficientes estimados. Los puntos son colocados en esta lista si su valor esta mas allá del percentil 50th de una distribución F con p y n – p grados de libertad.
Debido al perfecto balance en este diseño, todos los valores ponderados son iguales. Aunque, 9 puntos están en la lista debido al gran valor de DFITS, incluyendo todos los puntos previamente identificados como residuos grandes.
MANOVA
Cuando mas de una variable dependiente es especificada en la caja de dialogo de entrada de datos, un análisis de varianza multivariado puede ser incluido si se requiere, usando Opciones del
Análisis. Por ejemplo, considere los datos de un experimento reportado por Johnson y Wichern
(2002) realizado para determinar las condiciones optimas para una película plástica de extracción. Tres variables respuesta, Tear resistance, Gloss, y Opacity fueron medidas en diferentes niveles de dos factores, Rate of Extrusion y Amount of additive. Los datos están contenidos en el archivo film.sf6:
Rate of extrusion (Índice de Extrusión) Amount of additive Cantidad de Aditivo Tear resistance (Resistencia de rasguños) Gloss (Lustre) Opacity (Opacidad) -10 1 6.5 9.5 4.4 -10 1 6.2 9.9 6.4 -10 1 5.8 9.6 3 -10 1 6.5 9.6 4.1 -10 1 6.5 9.2 0.8 -10 1.5 6.9 9.1 5.7 -10 1.5 7.2 10 2 -10 1.5 6.9 9.9 3.9 -10 1.5 6.1 9.5 1.9 -10 1.5 6.3 9.4 5.7 10 1 6.7 9.1 2.8 10 1 6.6 9.3 4.1 10 1 7.2 8.3 3.8 10 1 7.1 8.4 1.6 10 1 6.8 8.5 3.4 10 1.5 7.1 9.2 8.4 10 1.5 7.0 8.8 5.2 10 1.5 7.2 9.7 6.9 10 1.5 7.5 10.1 2.7 10 1.5 7.6 9.2 1.9
La caja de dialogo de entrada específica los nombres de las tres variables respuesta y dos factores:
Puesto que los factores tienen solo 2 niveles, pueden ser introducidos como factores categóricos o cuantitativos.
El modelo especificado incluye efectos principales y una interacción de 2 factores:
Para variables dependientes múltiples, el Resumen del Análisis incluye análisis separados para cada respuesta. Si se requiere en la caja de dialogo Opciones del Análisis, un MANOVA también puede desarrollarse. La salida adicional del análisis es mostrada abajo:
MANOVA para A
Lambda de Wilks = 0.381858 F = 7.55427 Valor-P = 0.00303404 Traza de Pillai = 0.618142 F = 7.55427 Valor-P = 0.00303404
Traza de Hotelling-Lawley = 1.61877 F = 7.55427 Valor-P = 0.00303404 Mayor raíz de Roy = 1.61877 s = 1 m = 0.5 n = 6.0
Matriz de Hipótesis H
Tear resistance Gloss Opacity
Tear resistance 1.7405 -1.5045 0.8555
Gloss -1.5045 1.3005 -0.7395
Opacity 0.8555 -0.7395 0.4205
Matriz de Error E
Tear resistance Gloss Opacity
Tear resistance 1.764 0.02 -3.07
Gloss 0.02 2.628 -0.552
Opacity -3.07 -0.552 64.924
MANOVA para B
Lambda de Wilks = 0.523035 F = 4.25562 Valor-P = 0.0247453 Traza de Pillai = 0.476965 F = 4.25562 Valor-P = 0.0247453
Traza de Hotelling-Lawley = 0.911918 F = 4.25562 Valor-P = 0.0247453 Mayor raíz de Roy = 0.911918 s = 1 m = 0.5 n = 6.0
Matriz de Hipótesis H
Tear resistance Gloss Opacity
Tear resistance 0.7605 0.6825 1.9305
Gloss 0.6825 0.6125 1.7325
Opacity 1.9305 1.7325 4.9005
Matriz de Error E
Tear resistance Gloss Opacity
Tear resistance 1.764 0.02 -3.07
Gloss 0.02 2.628 -0.552
Opacity -3.07 -0.552 64.924
MANOVA para A*B
Lambda de Wilks = 0.777106 F = 1.33852 Valor-P = 0.301782 Traza de Pillai = 0.222894 F = 1.33852 Valor-P = 0.301782
Traza de Hotelling-Lawley = 0.286826 F = 1.33852 Valor-P = 0.301782 Mayor raíz de Roy = 0.286826 s = 1 m = 0.5 n = 6.0
Matriz de Hipótesis H
Tear resistance Gloss Opacity
Tear resistance 0.0005 0.0165 0.0445
Gloss 0.0165 0.5445 1.4685
Opacity 0.0445 1.4685 3.9605
Matriz de Error E
Tear resistance Gloss Opacity
Tear resistance 1.764 0.02 -3.07
Gloss 0.02 2.628 -0.552
Opacity -3.07 -0.552 64.924
Para cada efecto, la tabla muestra cuatro estadísticas diseñadas para probar si hay o no efectos significativos importantes debidos a este factor. Las estadísticas están basadas en las matrices de sumas de cuadrados y productos cruzados atribuidas a los efectos hipotéticos (H) y a los residuos (E). Las estadísticas desplegadas son:
H E E + = Λ* (16)
• Pillai Trace: Un estadístico calculada por
(
)
[
+ E −1]
H H
tr (17)
• Hotelling-Lawley Trace: Un estadístico calculada por
[
−1]
HE
tr (18)
• Roy’s Greatest Root: Un estadístico calculada por
1 1 1 η
η
+ (19)
donde η1 es el eigenvalor mas grande de HE-1.
La línea de salida para el estadístico de Roy también muestra los valores de s, m, y n, tres valores usados para calcular la prueba F para los otros estadísticos. Es digno notar que las pruebas son exactas si s = 1 o 2 y aproximadas en otro caso.
Los tres primeros estadísticos son mostradas junto con el resultado de la prueba F. Los valores P pequeños (menores que 0.05 si esta operando en un nivel del 95% de confianza) indican efectos significativos. En el ejemplo, los efectos principales de ambos factores son estadísticamente significativos al nivel del 95% de confianza, pero la interacción no lo es.
Guardar Resultados
Los siguientes resultados pueden ser guardados en una hoja de datos:
1. Valores Predichos – El valor predicho de Y correspondientes a los n valores de X.
2. Errores Estándar de las Predicciones – Los errores estándar correspondientes a los n valores predichos.
3. Límites Inferiores de Predicciones – Los límites inferiores de predicción para cada valor predicho.
4. Límites Superiores de Predicciones – Los límites superiores de predicción para cada valor predicho.
5. Errores Estándar de Medias - Los errores estándar para el valor medio de Y en cada n valores de X.
6. Límites Inferiores para las Medias Pronosticada – Los limites de confianza inferiores para el valor medio de Y en cada n valores de X.
7. Límites Superiores para las Media Pronosticada – Los límites de confianza superiores para el valor medio de Y en cada n valores de X.
8. Residuos – Los n residuos.
9. Residuos Estudentizados – Los n residuos Estandarizados.
10. Levearges – Los valores ponderados correspondientes a los n valores de X
11. Estadísticas DFITS – El valor del estadístico DFITS correspondientes con n valores de X. 12. Distancias de Mahalanobis – Las distancias de Mahalanobis correspondientes con n
valores de X.
13. Distancias de Cook – Distancia de Cook correspondiente con n valores de X. 14. Coeficientes – Los coeficientes estimados del modelo.
Cálculos Modelo de Regresión 1 1 2 2 1 1 0 + + +...+ − − = X X p Xp Y β β β β (20)
Suma de Cuadrados del Error
No ponderados:
(
)
(21) 2 1 0 1 2 2 1 1 ˆ ... ˆ ˆ ˆ∑
= − − − − − − − = n i p p i i x x x y SCE β β β β Ponderados:(
)
(22) 2 1 1 1 2 2 1 0 ˆ ˆ ... ˆ ˆ∑
= − − − − − − − = n i p p i i i y x x x w SCE β β β βEstimadores de los Coeficientes
(
X′WX) (
X′WY = −1 ˆ β)
(23){ }
(
1 2 ˆ = ′ − WX X CME s β)
(24) p n SCE CME − = (25)donde es un vector columna que contiene los coeficientes de regresión estimados, X es una matriz(n, p) que contiene unos (1) en la primera columna (si el modelo contiene un termino constante) y las configuraciones de las variables predictoras en las demás columnas, Y es un vector columna con los valores de la variable dependiente, y W es una matriz (n, n) diagonal que contiene las ponderaciones w
βˆ
i en la diagonal para una regresión ponderada o 1’s en la diagonal si las ponderaciones no son especificadas. Un algoritmo sweep modificado es usado para resolver las ecuaciones después de centrar y reescalar las variables independientes.
Análisis de Varianza
Con término constante:
Fuente Suma de Cuadrados GL Cuadrado medio Razón F Modelo
∑
∑
= = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − ′ ′ = n i i n i i i w y w WY X b SCR 1 2 1 p-1 CMR= SCRp−1 F =CMECMR Residual SCE=Y′WY−b′X′WY n-p n p SCE CME − = Total (corr.)(
)
2 1∑
= − = n i i i y y w SCTO n-1Sin término constante:
Fuente Suma de Cuadrados GL Cuadrado medio Razón F
Modelo SCR=b′X′WY p p SCR CMR= CME CMR F = Residual WY X b WY Y SCE= ′ − ′ ′ n-p n p SCE CME − = Total (corr.) SCTO YWY ′ = n R-Cuadrada % 100 2 ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = SCE SCR SCR R (26) R-Cuadrada Ajustada % 1 1 100 2 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − − = SCE SCR SCE p n n Radj (27)
Error Estándar de Est. CME = σˆ (28) Residuos 1 1 1 1 ... ˆ ˆ ˆ − − − − − − = i o p p i y x x e β β β (29)
Media del Error Absoluto
∑
∑
= = = n i i n i i i w e w MAE 1 1 (30) Estadístico Durbin-Watson(
)
∑
∑
= = − − = n i i n i i i e e e D 1 2 2 2 1 (31) Si n > 500, entonces n D D / 4 2 * = − (32)es comparada contra una distribución normal estándar. Para 100 < n ≤ 500, D/4 es comparada con una distribución beta con parámetros
2 1 − = =β n α (33)
Para tamaños de muestras más pequeños, D/4 es comparada a una distribución beta con parámetros los cuales se basan en la traza de ciertas matrices relacionadas con la matriz X, como se describe por Durbin y Watson (1951) en la sección 4 de su articulo clásico.
Ponderación
(
)
{
i i}
i i diag X XWX X w h = ′ ′ −1 (34) n p h = (35) Residuos Estandarizados(
i)
i i i i h CME w e d − = 1 (36) Distancia de Mahalanobis 1 ) 2 ( 1 / 1 − − ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ − − =∑
= n n n h w w h MD i n i i i i i (37) DFITS ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − = i i i i i h h w d DFITS 1 (38) Distancia de Cook’s(
)
⎥⎥⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − = 2 2 1 i i i i h h pCME e CD (39)Error Estándar para Pronóstico
{
}
= ⎜⎝⎛ + ′(
′)
− ⎟⎠⎞ h h new h CME X XWX X Y s ( ) 1 1 (40)Limites de Confianza para Pronóstico
{
( ) , 2 / ˆ new h p n h t sY Y ± α −}
(41))
Limites de Confianza para Media