• No se han encontrado resultados

Analisis y Diseño

N/A
N/A
Protected

Academic year: 2021

Share "Analisis y Diseño"

Copied!
449
0
0

Texto completo

(1)

UNIVERSIDAD NACIONAL DEL ALTIPLANO - PUNO

Facultad de Ciencias Agrarias

Facultad de Ingeniería Estadística e Informática

ANÁLISIS Y DISEÑO DE

EXPERIMENTOS

PREPARADO POR:

VLADIMIRO IBAÑEZ QUISPE, Dr.

Puno, Abril del 2009

R . C . α2 α2 1− α R . R . / H o : A c e p t a r H o : R . R . / H o :

(2)

VLADIMIRO IBAÑEZ QUISPE

Ingeniero Estadístico, UNA - Puno - Perú.

M.Sc. en Informática

Dr. en Administración

Profesor Principal - Facultad de Ingeniería Estadística e

Informática.

Derechos Reservados:

Ninguna parte de este guía puede ser reproducida sin

la autorización del autor. viq_ibanez@hotmail.com

© 2009, Editorial Universitaria.

Primera Edición: 2009

Impreso en Puno - Perú.

Ciudad Universitaria. Apartado 291. Fax (054) 352992.

Puno - Perú

Diagramación y Composición:

Vladimiro Ibañez Quispe

(3)

PRESENTACIÓN

La presente publicación «Análisis y Diseño de Experimentos» está dirigido a los estudiantes de pre-grado y post-grado, muy especialmente a estudiantes de la Escuela Profesional de Ingeniería Agroindustrial y áreas afines que necesitan de las herramientas estadísticas para poder aplicarlo en el proceso de la investigación científica, y sea una ayuda para generar conocimientos en la ingeniería. En los procesos industriales se trabaja bastante con factores cuantitativos, lo que obliga a desarrollar metodologías orientadas y adecuadas para resolver los problemas de la investigación, tales como el análisis de regresión, los diseños experimentales básicos, experimentos factoriales (dos factores cuantitativos), superficie de respuesta (diseño central compuesto, diseño de Placket-Burman, EVOP, etc.).

Estas metodologías necesitan ensayar en un proceso en el cual interviene los diferentes factores en estudio, lo que a veces se convierte muy complejo resolver en forma manual, y necesariamente se recurre a los software estadísticos adecuados para realizar los análisis respectivos. Actualmente existen varios software estadísticos con diferentes bondades, por lo que el investigador, se debe adaptar paulatinamente para el procesamiento de la información entre ellos podemos mencionar: Statistica, Statgraphics, Minitab, Stata, SPSS, SAS, etc., lo importante es que nos permite manipular la información recopilada (crudo) y posteriormente ésta información se convierte en conocimiento. Espero que esta publicación les permita orientar en el uso de las metodologías estadísticas para el proceso de la investigación, despertar a la mente y motivar en la conducción de la investigación acorde a nuestro medio. El autor estará plenamente agradecido y se sentirá mejor para publicar otros textos, si los interesados observan cualquier error, redacción, fórmulas, etc. y las sugerencias se reciben en viq_ibañez@hotmail.com

El autor Abril, 2009

(4)
(5)

ÍNDICE

Pág. CAPÍTULO 1: ANÁLISIS DE REGRESIÓN

1.1. Regresión Lineal Simple (RLS)... 02

Propiedades del modelo... 03

Diagrama de dispersión... 03

Estimación de la ecuación de regresión... 04

Interpretación del coeficiente de regresión β$1 ... 07

Prueba de hipótesis para (

β

1)... 10

Intervalo confidencial (IC) para (

β

1)... 11

Intervalo de confianza para la predicción... 11

i) Intervalo de confianza para la respuesta media E Y( h)... 11

ii) Intervalo de Confianza para la predicción o futura

Y

h New( )... 12

1.2. Correlación... 28

Coeficiente de correlación de Pearson ... 28

Prueba de hipótesis para la correlación (

ρ

)... 29

Intervalo confidencial (IC) para (

ρ

)... 30

Coeficiente de Determinación R2, R2 ajustado ... 30

Análisis gráfico de residuos ... 31

Ejercicios ... 36

1.3. Regresión Lineal Múltiple (RLM)... 40

Estimación de los parámetros del modelo... 41

Estimación de los parámetros (β β0, 1,L,βk)(Forma matricial)... 42

Consecuencias de la Estimación... 46

Prueba de Hipótesis en Regresión Lineal Múltiple... 46

Pruebas sobre coeficientes individuales del modelo... 48

Intervalos de Confianza y predicción en Regresión Lineal Múltiple... 49

a) Intervalo Confidencial (IC) para βj... 49

(6)

Pág.

c) ICpara la predicción de nuevas observaciones

Y

h new( )... 52

Correlaciones Parciales ... 61

Prueba de hipótesis parciales... 61

Ejercicios ... 80

1.4. Regresión Curvilineal o no lineales... 83

A) Caso exponencial: Y = abX... 83

B) Función potencial o curva geométrica: Y = aXb... 87

C) Caso parabólico (Función de Segundo Grado)... 91

CAPÍTULO 2: ASPECTOS GENERALES DEL DISEÑO 2.1. ¿Qué es un experimento?... 95

2.2. Objetivos de un experimento... 96

2.3. Unidad experimental (UE)... 96

2.4. ¿Qué es un tratamiento? ... 96

2.5. Error experimental (EE)... 96

2.6. Principios básicos del diseño experimental... 97

CAPÍTULO 3: DISEÑO COMPLETAMENTE AL AZAR (DCA, DIA) 3.1. Diseño completamente al azar (balanceado o equilibrado)... 103

Características ... 103

Arreglo de campo ... 104

Modelo estadístico lineal ... 104

Esquema del diseño ... 105

Ventajas ... 105

Desventajas ... 105

Descomposición de la suma de cuadrados total ... 106

Análisis de Varianza (ANOVA) ... 107

3.2. Diseño Completamente al azar (desbalanceado)... 115

Metodología de la forma matricial... 122

Intervalo Confidencial (IC)

µ

i

µ

j•... 124

Ejercicios... 129

3.3. Diseño completo al azar con igual numero de subunidades por unidad experimental... 131

Características ... 131

(7)

Pág.

Muestreo aleatorio... 132

Análisis estadísticos... 132

Análisis de varianza... 133

Ejercicio... 137

3.4. Diseño Completamente al azar con submuestreo (desbalanceado).. 137

Forma matricial ... 143

CAPÍTULO 4: DISEÑO BLOQUE COMPLETO AL AZAR (DBCA) 4.1. Diseño bloque completo al azar ... 151

Características ... 151

Ventajas ... 153

Desventajas ... 154

Esquema del diseño bloque compelto al azar... 155

Modelo lineal aditivo ... 155

Análisis de Varianza (ANOVA) ... 157

4.2. Diseño bloque completo al azar con submuestreo... 164

4.3. Análisis funcional de la varianza ... 170

4.4. Curva de respuesta ... 180

4.5. Ajuste de la función de respuesta ... 185

Ejercicios ... 192

CAPÍTULO 5: PRUEBAS DE COMPARACIÓN MÚLTIPLE DE MEDIAS 5.1. Prueba t de Student ... 194

5.2. Diferencia Límite Significativa (DLS)... 199

5.3. Prueba de Comparaciones múltiples de Duncan... 202

5.4. Prueba de comparación múltiple Tukey... 209

5.5. Prueba de comparación de Dunnett... 213

5.6. Prueba de comparación múltipl de Studente-Newman-Keuls (SNK). 216 5.7. Prueba de Scheffe... 219

5.8. Transformación de datos ... 220

CAPÍTULO 6: DISEÑO CUADRADO LATINO (DCL) 6.1. Características del diseño... 224

Ventajas ... 225

Desventajas ... 225

Modelo estadístico lineal... 225

Hipótesis... 226

(8)

Pág.

Análisis de Varianza (ANOVA)... 228

Ejercicios ... 236

6.2. Diseño Cuadrado Grecolatino (DCGL) ... 238

CAPÍTULO 7: EXPERIMENTOS FACTORIALES Introducción... 245

Objetivos... 246

Ventajas... 246

Desventajas... 246

Elección de los factores... 247

Tipos de factores... 247

Clasificación de los factores... 248

7.1. Experimento factorial de la serie 2n... 238

7.1.1. Experimento factorial bajo el DCA... 252

Método 1: Ajuste de la función de respuesta... 265

Método 2: Ajuste de la función de respuesta... 267

7.1.2. Experimento factorial bajo del DBCA... 269

Ejercicios ... 274

7.2. Experimento factorial de la serie 3n... 276

7.2.1. Experimento factorial bajo el DCA... 277

7.2.2. Experimento factorial bajo el DBCA... 287

7.2.3. Experimentos con factores cuantitativos (dos factores) ... 298

Ejercicios ... 306

CAPÍTULO 8: MÉTODOS Y DISEÑO DE SUPERFICIE DE RESPUESTA Diseño para ajustar modelos de segundo orden ... 310

Diseño Compuesto Central (DCC) ... 311

Diseños rotatorios para mejorar superficie de respuesta... 315

Determinación de

α

en el Diseño Central Compuesto (CCD)... 316

Estimación del modelo para diseño rotables y compuestos... 320

Análisis de varianza para diseños rotables y compuestos... 326

Soluciones óptimas ... 333

Aplicaciones con software estadístico ... 336

Ejercicios ... 351

CAPÍTULO 9: DISEÑO Y ANÁLISIS DE PARCELAS DIVIDIDAS 9.1. Diseño de parcela dividida (Split plot design) ... 355

(9)

Pág.

Ventajas y desventajas ... 356

Aleatorización ... 357

Arreglo de campo ... 357

9.1.1. Diseño de parcela dividida bajo el DCA... 358

Ajuste para comparación de medias... 361

9.1.2. Diseño de parcela dividida bajo el DBCA... 363

9.2. Diseño de parcela subdivididas (Split split plot design) ... 380

9.3. Diseño de parcelas en franja ... 387

Ejercicios ... 395

CAPÍTULO 10: ANÁLISIS DE COVARIANZA (ANCOVA) Usos del análisis de covarianza ... 397

Suposiciones del análisis de covarianza ... 398

Modelos estadísticos para el análisis de covarianza ... 399

ANCOVA bajo el diseño completo al azar ... 400

ANCOVA en un arreglo factorial ... 415

Análisis de Covarianza Múltiple... 421

Ejercicios ... 426

Bibliografía consultada ... 429

(10)

1

ANÁLISIS DE REGRESIÓN

El término regresión viene del Latín regresio: que significa regreso, vuelta, retro-ceso y fue usado por primera vez como concepto estadístico en 1877 por Sir Francis Galtón, quién efectuó un estudio demostrando que la altura de los hijos de padres altos tendía a retroceder o «regresar», hacia la talla media de la población; regresión fue el nombre que le dió al proceso general de predecir una variable (la talla de los niños) a partir e otra (la talla de los padres). Más tarde, los estadísticos acunaron la expresión regresión múltiple para describir el proceso en virtud del cual se emplean algunas variables para predecir otra.

Los métodos de regresión, se utiliza para analizar datos que provienen de experi-mentos que no fueron diseñados, este es el caso del estudio de fenómenos no contro-lados o de registros históricos. Los métodos de regresion se usan para determinar la «mejor» relación funcional entre las variables, mientras que los métodos de correla-ción se utilizan para medir el grado de asociacorrela-ción de las distintas variables. En pocas palabras, regresión es la cantidad de cambio de una variable asociado a un cambio único de otra variable.

El principal objetivo del análisis de la regresión es realizar predicciones. La re-gresión permite determinar si existe relación entre las variables en estudio (X e Y), para lo cual se utiliza el comportamiento de una variable (X = independiente), para predecir el comportamiento de otra variable (Y = dependiente). Las dos característi-cas son medibles.

(11)

Usos de la Regresión:

- Para hacer predicciones futuras de Y, teniendo como base la X.

- Para ver si la variable (Y) depende de otra (X), estimando por consiguiente la medida de dicha relación o asociación.

- Para determinar la forma de la curva de la regresión.

- Para conocer el error real implicado en un experimento, después que haya sido descontado el efecto de una variable relacionada.

- Sirve de base para el análisis estadístico.

Como se manifestó el objeto principal de la regresión es realizar predicciones como:

- Predecir el tiempo meteorológico basado en los datos del pasado. - Predecir la performance de un toro basado en sus antepasados. - Predecir la producción de lana/año, basado en los años anteriores. - Predecir la calidad genética de una vaca, basado en sus antepasados. - Predecir la producción de semen en carneros basado en el tamaño testicular. - etc..

1.1. REGRESIÓN LINEAL SIMPLE (RLS).

Consideremos una variable dependiente Y con una sola variable independiente X. Representemos una muestra aleatoria de tamaño “n” de (X,Y) por el conjunto de pares de datos: {(xi,yi)/i = 1,2,...,n}. La relación entre variables es aquel que se con-sidera únicamente dos variables, a estas designamos por «Y» y «X», donde «Y» es la variable dependiente ó variable de respuesta y «X» la variable independiente ó predictor. El modelo de regresión lineal consiste en especificar la forma de la rela-ción lineal, es decir:

Y

i

=

β

0

+

β

1

X

i

+

ε

i

,

i = 1,2,..., n

Donde:

Yi = Variable dependiente.

Xi = Variable independiente.

β

0 = Parámetro desconocido que indica la ordenada donde la línea de

regresión lo intersecta.

β

1 = Parámetro desconocido que indica la pendiente de la línea de mejor

ajuste, llamada también coeficiente de regresión poblacional.

(12)

Propiedades del modelo:

a) Toda perturbación aleatoria tiene de media cero, es decir:

Ε

( )

ε

i

=

0

, i = 1,2,...,n.

b) Todas las perturbaciones aleatorias tienen la misma varianza (homoscedasticidad).

V( )εii2 i = 1,2,...,n.

c) Las perturbaciones son independientes entre sí:

cov( ,ε εi j)=0, i≠ j . Yi Xi X1 X2 X3 X4 E(Y) =β β0+ 1Xi Yi UVWεi UVWεj Yj

S u p o s i c i o n e s e n r e g r e s i ó n

Diagrama de dispersión.

Una vez recopilada la serie de «n» observaciones bidimensionales, cada par de valores (X,Y) en el plano cartesiano o rectángular está representado por un punto, y habra tantos puntos como parejas de observaciones que tenga. Esta representación da origen a una nube de puntos que se denomina diagrama de dispersión ó esparci-miento; este diagrama puede tener diferentes formas. Esta es la forma más usual para detectar si la función es lineal, exponencial, potencial, cuadrática, cúbica, etc. al cual el experimentador ajustará su información recopilada, de tal forma que describa ade-cuadamente la relación entre las variables en estudio.

(13)

Eje Y Eje X Eje Y Eje X Eje Y Eje X Eje Y Eje X

Lineal positiva Lineal negativa No Lineal Ninguna relación

Estimación de la ecuación de regresión.

En el análisis de regresión lineal simple, se busca una línea de tal forma que la sumatoria de los errores de todas las observaciones con respecto a la línea sea

míni-ma, para lograr la estimación de los parámetros desconocidos (

β

0 y

β

1), se utiliza

el método de «Mínimos Cuadrados». Este método consiste en encontrar los valores

β

0 y

β

1 de la ecuación de regresión muestral, de manera que la suma de los

cuadra-dos de tocuadra-dos los residuos

ε

i (suma de cuadrados del error: SCE) alrededor de la

línea de regresión sea mínima. Para estimar los parámetros se partirá del modelo original, que está expresada en la siguiente ecuación:

Y

i

=

β

0

+

β

1

X

i

+

ε

i

,

i = 1,2,..., n

ε

i

= Y

i

β

0

β

1

X

i εi β βXi 2 0 1 2 = Y

b

i− −

g

elevando al cuadrado. εi β β i n i i n X 2 1 0 1 2 1 = =

=

b

Yi− −

g

aplicando sumatoria.

Para encontrar las Ecuaciones Normales se usan las derivadas parciales con

respecto a los parámetros desconocidos

β

0 y

β

1, entonces tenemos:

a) y b) i 2 i=1 n 0 i 2 i=1 n 1 ∂ ε ∂β ∂ ε ∂β

=0 =0

(14)

De a) ∂ β β ∂ β Yi− −

L

NM

=

O

QP

= 0 1 2 1 0 0 Xi i n

b

g

, entonces se tiene que:

2 0 1 1 1 Yi− − − = 0 =

β βXi i n

b

g

( ) , haciendo operaciones elementales se tiene la

pri-mera ecuación normal, pero por la propiedad de la sumatoria de una constantes es:

$

$

β

0

β

0 1

=

=

n

i n

n

X

i

Y

i

i n i i n

$

$

)

β

0

β

1 1 1

+

=

= =

L

De b) ∂ β β ∂ β Yi− −

L

NM

= 0 1

O

QP

= 2 1 1 0 Xi i n

b

g

, 2 0 1 1 Yi− − − = 0 =

β βXi Xi i n

b

g

( ) , igual que la

primera ecuación, se encuentra, la segunda ecuación normal.

$

$

)

β

0

β

1 1 2 1 1

X

i

X

X Y

ii

i n i i i i n i n

+

=

= = =

L

En resumen de a) y b) se tiene las Ecuaciones Normales:

n

X

i

Y

i n i i n

$

$

β

0

β

1 1 1

+

=

= =

$ $ β0 β 1 1 2 1 1 Xi X X Y i n i i i i n i n + = = = =

El objetivo de estas ecuaciones normales es despejar los parámetros

β

0 y

β

1, esto se consigue de la siguiente forma:

De a)

n

X

i

Y

i n i i n

$

$

β

0

β

1 1 1

+

=

= =

, despejando n Yi X i n i i n $ $ β0 β 1 1 1 = − = =

y

dividiendo entre «n» a ambos miembros tenemos: β$0 β$

1 1 1 =

= −

= Y n X n i i n i i n

(15)

$

$

β

0

= −

Y

β

1

X

Reemplazando

β

$

β

$

0

= −

Y

1

X

en la segunda Ecuación Normal se tiene:

Y X Xi X X Y i n i i i i n i n − + = = = =

$ $ β1 β 1 1 2 1 1

e

j

, y haciendo

ope-raciones elementales de álgebra, se llega a encontrar β$1en dos formas siguientes

para facilitar el cálculo.

$

β

1 1 1 2 1 1

=

= = = =

X Y

Y

X

X

X

X

i i i i n i n i i i n i n , ó $ β1 1 1 1 2 1 2 1 = − −

F

HG

I

KJ

= = = = =

X Y X Y n X X n i i i i i n i n i n i i i n i n , ó

$

β

1 1 2 1 1 2 2 1

=

=

= = = =

X

X Y

Y

X

X

X Y

nXY

X

nX

i i i n i i n i i i n i i n

c

hc

h

c

h

Otra forma de encontrar β$1es usando la Regla de Cramer.

n X Y X X X Y n Y X X Y n X X X n X Y n X i i n i i n i i n i i i i n i n i i n i i n i i i n i i n i i n i i n i i i n i i n $ $ $ $ $ β β β β β 0 1 1 1 0 1 1 2 1 1 1 1 1 1 1 2 1 1 2 1 + = + =

U

V||

W||

⇒ = = − − = = = = = = = = = = = = =

1

(16)

$ β1 1 1 1 2 1 2 1 = − −

F

HG

I

KJ

= = = = =

X Y X Y n X X n i i i i i n i n i n i i i n i n

Algunas veces, se expresa en términos de desviaciones β$1, utilizando letras

minúsculas para diferenciar de las observaciones que se denotan con letras mayúscu-las, entonces en términos de desviaciones se expresa:

$

( , )

( )

β

1 1 2 1 2

=

=

=

=

=

x y

x

Cov X Y

V X

S

S

i i i n i i n XY X

La recta de regresión estimada es:

Y

$

$

$

X

i

=

β β

0

+

1 i

Donde

$Y

ies el estimador para la media de la observación Yi, la cual

corres-ponde al valor Xi de la variable de predicción.

$

(

$ ) $

$

$

$ (

)

Y

i

=

Y

β

1

X

+

β

1

X

i

= +

Y

β

1

X

i

β

1

X

= +

Y

β

1

X

i

X

$

$ (

)

Y

i

− =

Y

β

1

X

i

X

Esta es otra forma expresar la recta de regresión. Observar que la recta de

regresión contiene al punto (

x y

,

) cuyos componentes son las medias X y de Y,

respectivamente.

Interpretación del coeficiente de regresión β$1

El valor constante β$0de la ecuación de regresión muestral, es la ordenada

con el origen. El valor de la pendiente β$1es el cambio en

$Y

icuando Xi cambia una unidad de medición.

(17)

Si β$1>0, entonces, la tendencia lineal es creciente, es decir, a mayores valo-res de X corvalo-responden mayovalo-res valovalo-res de Y. También, a menovalo-res valovalo-res de X co-rresponden menores valores de Y.

Si β$1<0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores valores de Y. También, a menores valores de X corresponden mayores valores de Y.

Si β$1=0, entonces, Y$i= β$0, luego, Y permanece estacionario para cualquier valor de X. Es decir, no hay regresión. Esta misma interpretación es válida para la

pendiente β$1 en la ecuación de regresión poblacional.

Gráficamente se puede representar de la siguiente maner

Yi Xi X1 X2 X3 X E(Y) =$ β β$ $0+ 1Xi $ β0RST X X4 X5

UVW

ε1 UVW 2 ε

UVW

4 ε UVWε5

UVW

ε6 Y

UVW

ε7 UVWε8

U

V|

W|

ε9 Y ε10RST

U

V|

W|

ε11 X Y,

c h

( X , Y )

U

V|

W|

εi εi= −Yi Y$i

U

V|

W|

β$1 1 1 24 43 θ

U

V

|||

W

||

|

Y

$

i

U

V

||

||

W

||

||

Y

i

U

V

|||

W

||

|

Y $ $ Yi− = βY 1Xi tg( )θ=β$1=β$ 1 1 Y1 Y2

Esta gráfica es una representación que permite visualizar mejor la interpreta-ción de los parámetros estimados, la variable dependiente (Y) y la variable indepen-diente (X), los errores o perturbación, los valores de los errores se deben compensar con los puntos que están encima de la recta de regresión y los puntos que están debajo de la recta de regresión, el promedio de la variable (X) con el promedio de la variable (Y) coinciden en un punto por donde pasa la línea de regresión estimada.

(18)

Fórmulas de trabajo:.

X

i i n =

1 =

Y

i i n =

1 =

XY

i i n i =

1 =

X

=

Y

= Xi n i n =

F

HG

1

I

KJ

2 = Yi n i n =

F

HG

1

I

KJ

2 = Xi Y n i n i i n = =

F

HG

1

I

KJ

F

HG

1

I

KJ

=

X

i i n 2 1 =

=

Y

i i n 2 1 =

= x y X Y X Y n i i n i i i n i i i n i i n = = = =

=

∑ ∑

F

HG

I

KJ

F

HG

I

KJ

1 1 1 1 = x X X n i i n i i n i i n 2 1 2 1 1 2 = = =

=

F

HG

I

KJ

= y Y Y n i i n i i n i i n 2 1 2 1 1 2 = = =

=

F

HG

I

KJ

=

TABLA DE ANALISIS DE VARIANZA PARA REGRESION LINEAL SIMPLE (en términos de observaciones y desviaciones).

F. De V. G.L. Suma de Cuadrados (S.C.) C.M. Fobs.

Regresión 1 Error n - 2 Total n - 1 $ $ β1 β 1 1 1 1 1 X Y X Y n x y i i i n i i n i i n i i i n = = = =

∑ ∑

F

HG

I

KJ

F

HG

I

KJ

L

N

MM

MM

O

Q

PP

PP

= Y Y n XY X Y n y x y i i n i i n i i i n i i n i i n i i n i i i n 2 1 1 2 1 1 1 1 2 1 1 1 = = = = = = = ∑ − ∑ ∑ ∑ ∑ ∑ ∑

F

HG

I

KJ

L

N

MM

MM

M

O

Q

PP

PP

P

− −

F

HG

I

KJ

F

HG

I

KJ

L

N

MM

MM

O

Q

PP

PP

= − $ $ β β Y Y n y i i n i i n i i n 2 1 1 2 2 1 = = = ∑ − ∑ ∑

F

HG

I

KJ

= SCR 1 SCE n−2 CMR CME

(19)

Prueba de Hipótesis para (

β

1

).

1. Hipótesis Estadística:

H :

= 0

H :

0

0 1 a 1

β

β ≠

2. Elegir el nivel de significación:

α

, (

α

=0.01,

α

= 0.05,

α

= 0.10). 3. Estadígrafo de Contraste, elegida para este caso, la prueba t-Student y cuya

función pivotal. t = 1 1 1 $ . ( $ ) ~ ( ) β β β − − s e tn 2

4. Establecer la Región de decisión, determinando la región crítica de la prueba.

0

α

2

t

α2,(n2)

α

2

1 -

α

V a l o r crítico V a l o r crítico t R R / H o : R A / H a : R R / H o : β1

t

α2,(n2)

RA H

o

:

- t

α2,(n2)

≤ ≤

t

c

t

α 2,(n-2)

RR

H

o

:

t < -t

c α2,(n-2)

ó t

c

> t

α2,(n-2)

5. Valor experimental. Se obtiene reemplazando valores en la función pivotal.

t = c 1 1 1 $ . ( $ ) β β β − s e , s e s X X n i i n i i n . .($ )β1 2 2 1 1 2 = −−

F

HG

I

KJ

= =

(20)

6. Si tc pertenece a RA H :0 , aceptamos H0: y rechazamos la Ha: Si tc pertenece a RR H :0, rechazamos H0: y aceptamos Ha:

7. Conclusión. Realizar la interpretación en base al paso 4) y concluir de acuerdo al tenor del problema.

Intervalo Confidencial (IC) para (

β

1

).

Pr $

β

1 α,( 2)

. .( $ )

β

1

β β

1

$

1 α,( 2)

. .( $ )

β

1

α

2 2

1

t

n

s e

≤ ≤ +

t

n

s e

= −

β

1

β

1 α 2

β

1 2

$

±

t

,(n )

s e

. .( $ )

Intervalos de Confianza (IC) para la predicción.

Una vez que se ha encontrado que existe regresión lineal simple poblacional ó que la línea de regresión muestral es válida para realizar predicciones; entonces podemos realizar las predicciones.

i) Intervalo de confianza para la respuesta media E Y( h).

Sea

µ

Y Xhel valor de la media cuando

X

=

X

h ó

X

=

X

0 y sea

$Y

h el valor

de

Y

$

h

=

β

$

0

+

β

$

1

X

, cuando

X

=

X

h entonces

Y

$

h

=

β

$

0

+

β

$

1

X

h.

E Y

h

E

X

h

X

h Y X h

( $ )

=

( $

β

0

+

β

$

1

)

=

β

$

0

+

β

$

1

=

µ

S Y MSE n X X X nX h h i 2 2 2 2 1 ( $ )= + ()

L

NMM

O

QPP

, la distribución muestral es:

t

Y

Y

s Y

t

c h h h n

=

$

( $ )

~

( 2); S Y MSE n X X X nX h h i ( $ )= + ()

L

NMM

1

O

QPP

2 2 2

(21)

Luego el intervalo confidencial del (1-

α

)x100% para la respuesta media E Y( h), se obtiene de la siguiente forma:

Pr $

Y

h

t

α2,n−2

S Y

( $ )

h

E Y

(

h

)

≤ +

Y

$

h

t

α2,n−2

S Y

( $ )

h

= −

1

α

ii) Intervalo de Confianza para la predicción o futura

Y

h New( ).

Para obtener un intervalo confidencial de un sólo valor

Y

h New( ) de la variable

Y

h

=

β

0

+

β

1

X

h, se considera a la diferencia

y

$

h New( )

y

h New( ) como un valor de la variable aleatoria $Yh New( )Yh New( ). Primeramente se debe calcular: Y$h=β$0+β$1Xh

S Y MSE n X X X nX S n X X X nX h New h i h i 2 2 2 2 2 2 2 2 1 1 1 1 ( $( ))= + + () ( )

L

NMM

O

QPP

=

L

NMM

+ +

−−

O

QPP

, la

distribución muestral es:

t

Y

Y

S Y

t

c h New h New h New n

=

$

( $

)

~

( ) ( ) ( ) ( 2); S Y S n X X X nX h New h i ( $( ))= + + ( ) − −

L

NMM

O

QPP

2 2 2 2 1 1

Luego el intervalo confidencial del (1-

α

)x100% para una sola respuesta o futura

Y

h New( ), se obtiene de la siguiente forma:

Pr $

Y

h

t

α2,n−2

S Y

( $

h New( )

)

Y

h New( )

≤ +

Y

$

h

t

α2,n−2

S Y

( $

h New( )

)

= −

1

α

EJEMPLO:

En la tabla siguiente se presenta los resultados promedio de la evaluación senso-rial de la naranja Valencia «control» a través del tiempo de almacenamiento, para este caso se establece el límite de aceptabilidad del producto, considerando un puntaje de 3.5 en la escala de: 6 (Excelente), 5 (Muy buena), 4 (buena), 3 (regular), 2 (mala) y 1 (inaceptable). Se presentan datos para el análisis sensorial de la naranja Washington Navel «Hipobárico» en s apariencia general externa.

(22)

Tiempo (días) 0 13 25 35 50 61 68 86 93 AGE (Puntaje) 5.50 4.25 4.00 3.75 3.40 2.25 1.75 1.25 1.00 AGE: Apariencia General Externa.

a) Trace el diagrama de dispersión, b) Obtener la ecuación normal, c) Calcule la ecuación de regresión de Y sobre X, d) Grafique en el diagrama de dispersión la

ecuación ajustada, e) Realice el ANVA, f) Pruebe la hipótesis para

β

1

0

, g)

En-cuentre los intervalos confidenciales e intreprete en cada uno de las preguntas. SOLUCIÓN: X Y X Y X Y X Y i = i = i i= i = i = =

=

431 27 15 913 25 28909

10 47 89 3 017 2 2 , . , . , , . ; . a) Diagrama de dispersión. 0.00 1.00 2.00 3.00 4.00 5.00 6.00 0 20 40 60 80 100 Tiempo (días)

Apariencia general (puntaje

)

b) Obtener la ecuación normal.

9 431 27 15 431 28909 913 25 0 1 0 1 $ $ . $ $ . β β β β + = + =

(23)

c) Encuentre la ecuación de regresión. $ . ( )( . ) ( ) . β1 1 9 1 9 1 9 2 1 9 2 1 9 2 913 25 431 27 15 9 28909 431 9 0 046793 = − −

F

HG

I

KJ

= − − = − = = = = =

X Y X Y n X X n i i i i i i i i i i i

$

$

.

.

.

β

0

β

1 27 15 9 431 9

0 046793872

5 257958559

= −

Y

X

=

b g

=

Entonces, el modelo de regresión estimado es:

Y

$

i

=

β β

$

0

+

$

1

X

i, reemplazando se tiene:

$

.

.

Y

i

=

5 25796 0 04679

X

i

De acuerdo a la ecuación estimada, se puede interpretar que por cada un día de incremento en el tiempo, deberá esperarse una reducción en la apariencia general externa en puntaje de 0.04679.

d) Obtener la gráfica de la ecuación de regresión ajustada.

0.00 1.00 2.00 3.00 4.00 5.00 6.00 0 20 40 60 80 100 Tiempo (días)

Apariencia gral (puntaje

(24)

e) Procedimiento para efectuar el análisis de varianza (ANOVA). Grados de libertad (G.L.) GLreg. = p - 1 = 2 - 1 = 1 GLerror = n - 2 = 9 - 2 = 7 GLtotal = n - 1 = 9 - 1 = 8 Sumas de Cuadrados (S.C. = S.S). SSR X Y X Y n X X n m i i i i i i = − − = − −

∑ ∑

d id i

d i

b g

2 2 2 2 2 913 25 28909 431 9 . (431)(27.15) 9 = 18.10610911 SST Y Y n m i i i n i n = − = = − = = = =

2 1 9 2 1 9 2 100 6225 27 15 14 18 72 ( ) . ( . ) . SSE=SSTmSSRm=18 72 18 10610911.. =0 613890894.

Tabla de Análisis de Varianza.

F. de V. G.L. S.S. M.S. Fc. Signif Debido a Regresión 1 18.106109 18.10611 206.46 ** Error residual 7 0.613891 0.08770

Total 8 18.720000 2.34000000

En el ANOVA precedente, podemos afirmar que existe diferencia estadística

altamente significativa (P

0.01), esto implica que la variable independiente X

(tiempo) influye sobre la variable dependiente Y (apariencia general), es decir las dos variables en estudio son dependientes, esto afirma que el modelo es bueno y para

ratificar ésta aseveración se calcula el coeficiente de determinación (R2).

R SSRm SSTm 2 18 72 = x100 =18.10610911x100 = 96.72% . ~ . . R MSE MSTm ajust 2 1 2 34 = − x100 = 1-0.087698699x100 = 96.25%

(25)

El coeficiente de determinación ajustado

R

~

ajust2 .es alto por lo que existe una bondad de ajuste bueno, es decir el modelo es confiable para realizar las predicciones hacia el futuro, recomendar que el modelo se puede usar en diferentes lugares para este tipo de evaluación sensorial de la naranja, tal como afirma Gutierrez, H. y De la Vara, R. (2004), para fines de predicción se recomienda el coeficiente de determinación ajustado al menos de 0.7 para que el modelo sea aceptable y confiable.

Es importante indicar, si el modelo ajustado es confiable o no, para esto se realiza la validación del modelo ajustado y existen varias formas: i) la primera es realizar el ANOVA en la cual debe ser significativo F(Regresión), ii) Se prueba a través de la prueba de hipótesis, y iii) se calcula el intervalo confidencial (IC).

f) Prueba de hipótesis para (

β

1). 1. Hipótesis Estadística: H : = 0 H : 0 0 1 a 1 β β ≠

2. Elegir el nivel de significación:

α

= 0.05

3. Estadígrafo de Contraste, elegida para este caso, la prueba t-Student y cuya función pivotal. t = 1 1 1 $ . ( $ ) ~ ( ) β β β − − s e t n 2

4. Establecer la Región de aceptación y rechazo. Se determina la región crítica de la prueba.

RA Ho: - 2.365≤ ≤tc 2.365 RR Ho: t < -2.365 t > 2.365c ó c

5. Valor experimental. Se obtiene reemplazando valores en la función pivotal.

t =

c 1 1 1

$

. ( $ )

.

.

.

β

β

β

= −

− = −

s e

0 046793872

0

0 003256664

14 36865

, s2 =CME =MSE =0 087698699. 0 α 2 α 2 1 - α Valor crítico Valor crítico t RR/Ho: RA/Ha: RR/Ho: β1 t0 025 7. ,=2 365. -2.365

(26)

V s Xi Xi n ( $ ) . . . β1 2 2 2 0 087698699 8268 888889 0 000010605 = −

= =

d i

s e

. ( $ )

β

1

=

0 003256664

.

6. Estadística de decisión: Si tc =14.37 > t0.025,7 =2.365, entonces cae en la región de rechazo, y se rechaza H0: y se acepta la Ha:

7. Conclusión. Se puede interpretar que

β

1 es diferente de cero, es decir el modelo tiene pendiente positiva.

g) Intervalo Confidencial (IC) para (

β

1).

Pr $β1 α,( 2) . .( $ )β1 β β1 $1 α,( 2) . .( $ )β1 α 2 2 1 −t n s e ≤ ≤ +t n s e = − Pr−0 046793872.( .2 365 0 003256664)( . )≤β1≤ −0 046793872. +( .2 365 0 00325666)( . Pr −0 054495883. ≤β1≤ −0 03909186. =0 95.

Se puede interpretar; de 100 muestras que se toma en el 95% el parámetro estimado

$

β1estará comprendido entre el intervalo (-0.05449, -0.03909) y tan sólo el 5%

de las muestras estará fuera del intervalo o no contendrá en el intervalo.

h) Estime la respuesta media E Y( h).

Con el ejemplo anterior, encuentre el intervalo confidencial para la respuesta

media, cuando X = 35 ó

X

h= 35, entonces:

i) Y$35 =β$0+β$1Xh=5 257958559 0 046793872 35.. ( )=3 61978769. . ii) S Y MSE n X X Xi nX 2 35 35 2 2 2 2 1 0 087698699 1 9 35 47 89 8268 888889 0 011506486 ( $ ) ( ) . ( . ) . . = + − −

L

NMM

O

QPP

=

L

NM

+ −

O

QP

=

S Y( $ )35 =0 10726829.

(27)

iii) Encuentre el Intervalo confidencial del 95% para la respuesta media E Y( h),

cuando

X

h

=

35

.

Pr $

Y

h

t

α2,n−2

S Y

( $ )

h

E Y

(

35

)

≤ +

Y

$

h

t

α2,n−2

S Y

( $ )

h

= −

1

α

Pr .3 61978769−( .2 365 0 10726829)( . )E Y( 35)≤3 61978769. +( .2 365 0 10726829)( .

Pr .3 366098≤E Y( 35)≤3 877477. =0 95.

i) Intervalo Confidencial para observaciones futuras o individuales

Y

h New( ).

Se desea calcular el intervalo confidencial del 95% cuandoXh=100.

i) Y$35=β$0+β$1Xh=5 257958559 0 046793872 100.. ( )=0 57818597. ii) S Y MSE n X X X nX h New h i 2 2 2 2 2 1 1 0 087698699 1 1 9 100 47 89 8268888889 ( $ ) ( ) . ( . ) . ( ) = + + − −

L

NMM

O

QPP

=

L

NM

+ + −

O

QP

= 0.12624271 S Y( $h New( ))=0 355306502.

iii) El intervalo confidencial para la predicción futura

Y

h New( ) es:

Pr $Yhtα2,n2S Y( $h New( ))Yh New( )≤ +Y$h tα2,n2S Y( $h New( )) = −1

α

Pr .0 57818597−( .2 365 0 355306502)( . )Y100(New)≤0 57818597. +( .2 365 0 355306502)( .

(28)

PROGRAMA EN SAS.

DATA AGROI;

OPTIONS NODATE NOCENTER NONUMBER; INPUT X Y; DATALINES; 0 5.50 13 4.25 25 4.00 35 3.75 50 3.40 61 2.25 68 1.75 86 1.25 93 1.00 ;

PROC PRINT; RUN; PROC REG;

MODEL Y = X/XPX I COVB CLB CLI CLM P; RUN;

/* CALCULA EL COEFICIENTE DE CORRELACIÓN */ PROC CORR;

VAR X Y; RUN;

(29)

SALIDA DEL SAS.

The REG Procedure Model: MODEL1

Model Crossproducts X’X X’Y Y’Y

Variable Intercept X Y Intercept 9 431 27.15 X 431 28909 913.25 Y 27.15 913.25 100.6225 X’X Inverse, Parameter Estimates, and SSE

Variable Intercept X Y Intercept 0.3884574039 -0.005791454 5.257573233 X -0.005791454 0.0001209352 -0.046793873 Y 5.257573233 -0.046793873 0.6138908895 Analysis of Variance Sum of Mean

Source DF Squares Square F Value Pr > F Model 1 18.10611 18.10611 206.46 <.0001 Error 7 0.61389 0.08770

Corrected Total 8 18.72000

Root MSE 0.29614 R-Square 0.9672 Dependent Mean 3.01667 Adj R-Sq 0.9625 Coeff Var 9.81678

Parameter Estimates Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits Intercept 1 5.25757 0.18457 28.49 <.0001 4.82113 5.69402 X 1 -0.04679 0.00326 -14.37 <.0001 -0.05449 -0.03909 Covariance of Estimates Variable Intercept X Intercept 0.0340672087 -0.000507903 X -0.000507903 0.0000106059 Output Statistics Dep Var Predicted Std Error

Obs Y Value Mean Predict 95% CL Mean 95% CL Predict Residual 1 5.5000 5.2576 0.1846 4.8211 5.6940 4.4324 6.0827 0.2424 2 4.2500 4.6493 0.1505 4.2933 5.0052 3.8637 5.4348 -0.3993 3 4.0000 4.0877 0.1237 3.7952 4.3802 3.3288 4.8466 -0.0877 4 3.7500 3.6198 0.1073 3.3661 3.8734 2.8750 4.3646 0.1302 5 3.4000 2.9179 0.0990 2.6839 3.1519 2.1796 3.6562 0.4821 6 2.2500 2.4031 0.1076 2.1488 2.6575 1.6581 3.1482 -0.1531 7 1.7500 2.0756 0.1185 1.7955 2.3557 1.3214 2.8298 -0.3256 8 1.2500 1.2333 0.1586 0.8583 1.6083 0.4390 2.0276 0.0167 9 1.0000 0.9057 0.1770 0.4872 1.3243 0.0899 1.7215 0.0943 Sum of Residuals 0

Sum of Squared Residuals 0.61389 Predicted Residual SS (PRESS) 0.97864 The CORR Procedure

Pearson Correlation Coefficients, N = 9 Prob > |r| under H0: Rho=0 X Y X 1.00000 -0.98347 <.0001 Y -0.98347 1.00000 <.0001

(30)

EJEMPLO:

En la tabla siguiente se presenta información sobre el número de horas de estudio (X) para preparar un examen de matemáticas, y la calificación obtenida en dicho examen (Y).

Nro. 1 2 3 4 5 6 7 8 9 10 11 12 13 14

X 1.0 2.0 2.0 3.0 3.0 3.5 4.0 4.0 4.5 4.5 5.0 5.5 5.5 6.0

Y 4 5 6 6 8 7 8 6 7 8 9 8 9 10

a) Trace el diagrama de dispersión, b) Obtener la ecuación normal, c) Calcule la ecuación de regresión de Y sobre X, d) Grafique en el diagrama de dispersión la

ecuación estimada, e) Realice el ANVA, f) Pruebe la hipótesis para

β

1

0

, g)

En-cuentre los intervalos confidenciales, h) Estime la respuesta media E(Yh), cuando X = 7 horas de estudio y el intervalo confidencial, i) Realice la predicción de una observación Y

h(new), para X = 8 hrs, y el encuentre el intervalo confidencial.

SOLUCIÓN: Xi =

Yi =

X Yi i=

Xi = Yi =

535 101 414 5 2 233 25

2 765 . , , . , . , a) Diagrama de dispersión. DIAGRAMA DE DISPERSIÓN 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 Horas de estudio (X)

Calificación obtenida (Y)

b) Obtener la ecuación normal.

14 53 5 101 53 5 233 25 414 5 0 1 0 1 $ . $ . $ . $ . β β β β + = + =

(31)

c) Calcule la ecuación de regresión. $ . . . . . . . β1 1 13 2 2 1 13 53 5 14 101 14 53 5 14 2 414 5 14 233 25 14 28 53571429 28 80357143 0 990700558 = − − = − − = = = =

X Y nX Y X nX i i i i i

b gb g

b g

$ $ . . .

β

0

β

1 101 14 53 5 14 0 990700558 3 428394296 = −Y X = −

b g

=

Entonces, el modelo de regresión estimado es:

Y

$

i

=

β β

$

0

+

$

1

X

i, reemplazando se tiene:

Y

$

i

=

3 428 0 9907

.

+

.

X

i

d) Obtener la gráfica de la ecuación de regresión estimada. Recta de regresión lineal ajustada

0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 Horas de estudio (X) Calificación (Y) $ . . Yi=3 428 0 9907+ Xi

e) Análisis de varianza (ANOVA). Grados de libertad (G.L.) GLreg. = p - 1 = 2 - 1 = 1 GLerror = n - 2 = 14 - 2 = 12 GLtotal = n - 1 = 14 - 1 = 13 Sumas de Cuadrados (S.C. = S.S). SSRm x yi i X Yi i Xi Y ni i n =

=

= $ $ β1 β1 1

d

i

(32)

= 0.99070055(414.5-(53.5)(101)/14) = 28.27034806 SST Y Y n m i i i n i n = − = = − = = = =

2 1 14 2 1 14 2 765 101 14 36 35714286 ( ) . SSE=SSTmSSRm=36 35714286 28 27034806.. =8 086794798.

Tabla de Análisis de Varianza.

F. de V. G.L. S.S. M.S. Fc. Signif Regresión 1 28.270348 28.27035 41.95 ** Error 12 8.086795 0.67390 Total 13 36.357143 2.79670330 R SSRm SSTm 2 36 35714286 = x100 = 28.270348 x100 = 77.76% . ~ . . R MSE MSTm ajust 2 1 2 796703297 = − x100 = 1-0.673899566x100 = 75.90%

f) Prueba de hipótesis para (

β

1). 1. Hipótesis Estadística: H : = 0 H : 0 0 1 a 1 β β ≠

2. Elegir el nivel de significación:

α

= 0.05

3. Estadígrafo de Contraste, elegida para este caso, la prueba t-Student y cuya función pivotal. t = 1 1 1 $ . ( $ ) ~ ( ) β β β − − s e tn 2

4. Establecer la Región de decisión, determinando la región crítica de la prueba.

RA Ho: - 2.179≤ ≤tc 2.179

RR Ho: t < -2.179 t > 2.179c ó c

5. Valor experimental. Se obtiene reemplazando valores en la función pivotal.

0 α 2 −2 179. α 2 1 - α Valor crítico Valor crítico t RR/Ho: RA/Ha: RR/Ho: β1 t0 025 12. , =2179.

(33)

t = c 1 1 1 $ . ( $ ) . . . β β β − = − = s e 0 990700558 0 0 15295878 6 4769,

s

CME MSE

2

0673899566

=

=

=

.

V s Xi Xi n ( $ ) . . . β1 2 2 2 0 673899566 28 80357143 0 023396 = −

= =

d i

s e

. ( $ )

β

1

=

0152958

.

6. Estadística de decisión: Si tc = 6.48 > t0.025,12 =2.179, entonces cae en la región de rechazo, y se rechaza H0: y se acepta la Ha:

7. Conclusión. Se puede interpretar que

β

1 es diferente de cero, es decir el modelo tiene pendiente positiva.

g) INTERVALO CONFIDENCIAL (IC) PARA (

β

1). Pr $β1 α,( 2) . .( $ )β1 β β1 $1 α,( 2) . .( $ )β1 α

2 2 1

−t n s e ≤ ≤ +t n s e = −

P r 0 9907.( .2 179)( .0 152958)≤β1≤0 9907. +( .2 179)( .0 152958) =0 95.

Pr .0 6574≤β1≤1 32399. =0 95.

Se puede interpretar; de 100 muestras que se toma en el 95% el parámetro estimado

$

β1estará comprendido entre el intervalo (0.657, 1.32) y tan sólo el 5% de las muestras

estará fuera del intervalo o no contendrá en el intervalo.

h) Estime la respuesta media E Y( h).

Para el ejemplo anterior si el número de horas de estudio es X = 7, entonces:

$ $ $ . . ( ) . Y701Xh =3 428 0 9907 7+ =10 3629 S Y MSE n X X Xi nX 2 7 7 2 2 2 2 1 06738996 1 14 7 382 2880357 02847293 ( $ ) ( ) . ( . ) . . = + − −

L

NMM

O

QPP

=

L

NM

+ −

O

QP

=

S Y( $ )7 =0 53360037.

(34)

E Y( h) cuando

X

h

=

7

.

Pr10 3629.( .2 179)( .0 5336)E Y( 7)≤10 3629. +( .2 179)( .0 5336) =0 95.

Pr .9 2≤E Y( 7)≤1153. =0 95.

i) Predicción del Intervalo confidencial cuando el parámetro es desconocido

Y

h New( ).

¿Será posible decir con una confianza del 95% de la calificación obtenida de 11 puntos; si el número de horas de estudio fuese 8?. Entonces X = 8.

$

$

$

.

.

( )

.

Y

8

=

β

0

+

β

1

X

h

=

3 428 0 9907 8

+

=

113536

S Y MSE n X X X nX h New i 2 7 2 2 2 2 1 1 0 6738996 1 1 14 8 382 2880357 11308 ( $ ) ( ) . ( . ) . . ( ) = + + − −

L

NMM

O

QPP

=

L

NM

+ + −

O

QP

=

S Y( $8(New))=1063403.

Luego el intervalo confidencial del (1-

α

)x100% para la predicción futura

Y

h New( ) es:

Pr $

Y

h

t

α2,n2

S Y

( $

h New( )

)

E Y

(

h

)

≤ +

Y

$

h

t

α2,n2

S Y

( $

h New( )

)

= −

1

α

Para el ejemplo, determinar el IC del 95% para la observación futura.

Pr11 3536.( .2 179 1 0634)( . )Y8(New)≤11 3536. +( .2 179 1 0634)( . ) =0 95.

(35)

PROGRAMA EN SAS.

DATA AGRO;

OPTIONS NODATE NOCENTER NONUMBER; INPUT X Y; DATALINES; 1.0 4 2.0 5 2.0 6 3.0 6 3.0 8 3.5 7 4.0 8 4.0 6 4.5 7 4.5 8 5.0 9 5.5 8 5.5 9 6.0 10 ;

PROC PRINT; RUN; PROC REG;

MODEL Y = X/XPX I COVB CLB CLI CLM P; RUN;

/* CALCULA EL COEFICIENTE DE CORRELACIÓN */ PROC CORR;

VAR X Y; RUN;

(36)

SALIDA DEL SAS.

Model Crossproducts X’X X’Y Y’Y

Variable Intercept X Y Intercept 14 53.5 101 X 53.5 233.25 414.5 Y 101 414.5 765 X’X Inverse, Parameter Estimates, and SSE

Variable Intercept X Y Intercept 0.5784252945 -0.13267204 3.4283942963 X -0.13267204 0.0347179169 0.990700558 Y 3.4283942963 0.990700558 8.0867947923 Analysis of Variance Sum of Mean

Source DF Squares Square F Value Pr > F Model 1 28.27035 28.27035 41.95 <.0001 Error 12 8.08679 0.67390

Corrected Total 13 36.35714

Root MSE 0.82091 R-Square 0.7776 Dependent Mean 7.21429 Adj R-Sq 0.7590 Coeff Var 11.37900

Parameter Estimates Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits Intercept 1 3.42839 0.62434 5.49 0.0001 2.06807 4.78871 X 1 0.99070 0.15296 6.48 <.0001 0.65743 1.32397 Covariance of Estimates Variable Intercept X Intercept 0.3898005549 -0.08940763 X -0.08940763 0.0233963891 Output Statistics Dep Var Predicted Std Error

Obs Y Value Mean Predict 95% CL Mean 95% CL Predict Residual 1 4.0000 4.4191 0.4841 3.3643 5.4739 2.3426 6.4956 -0.4191 2 5.0000 5.4098 0.3546 4.6371 6.1824 3.4614 7.3582 -0.4098 3 6.0000 5.4098 0.3546 4.6371 6.1824 3.4614 7.3582 0.5902 4 6.0000 6.4005 0.2528 5.8496 6.9514 4.5290 8.2720 -0.4005 5 8.0000 6.4005 0.2528 5.8496 6.9514 4.5290 8.2720 1.5995 6 7.0000 6.8958 0.2248 6.4060 7.3857 5.0414 8.7503 0.1042 7 8.0000 7.3912 0.2211 6.9095 7.8729 5.5388 9.2435 0.6088 8 6.0000 7.3912 0.2211 6.9095 7.8729 5.5388 9.2435 -1.3912 9 7.0000 7.8865 0.2427 7.3577 8.4154 6.0214 9.7517 -0.8865 10 8.0000 7.8865 0.2427 7.3577 8.4154 6.0214 9.7517 0.1135 11 9.0000 8.3819 0.2840 7.7632 9.0006 6.4893 10.2745 0.6181 12 8.0000 8.8772 0.3377 8.1414 9.6131 6.9432 10.8113 -0.8772 13 9.0000 8.8772 0.3377 8.1414 9.6131 6.9432 10.8113 0.1228 14 10.0000 9.3726 0.3990 8.5033 10.2419 7.3839 11.3613 0.6274 Sum of Residuals 0

Sum of Squared Residuals 8.08679 Predicted Residual SS (PRESS) 10.46913

(37)

1.2. CORRELACIÓN.

Coeficiente de correlación de Pearson.

La correlación viene del latín cum: con y relatus: relacionado, la correlación lineal permite medir si hay asociación entre dos variables o medir la intensidad de dicha asociación. Para ello es importante que la muestra bivariado sea tomada al azar, tanto para la variable X como para la variable Y.

El coeficiente de correlación de Pearson, se ajusta al tipo de información cuanti-tativa, esto con la finalidad de detectar y medir la asociación entre variables o de razón. Los valores del coeficiente de correlación oscilan entre +1 y -1, y se explica de la siguiente manera:

a) El valor de r = +1, indica una correlación positiva perfecta o correlación direc-ta, cuando al aumentar ó disminuir el valor de la variable independiente, au-menta ó disminuye también el valor de la variable dependiente (pendiente po-sitiva).

b) El valor de r = -1, expresa una correlación inversa o relación negativa perfecta: cuando al aumentar ó disminuir el valor de la variable independiente, disminu-ye ó aumenta el valor de la variable dependiente (pendiente negativa). c) El valor de r = 0, indica la ausencia absoluta de correlación, es decir las dos

variables no están correlacionadas o relacionadas. El coeficiente de correlación está definido por.

r X Y nXY X nX Y nY xy i i i n i i n i i n = − −

L

NM

O

QP

L

NM

O

QP

= = =

1 2 1 2 2 1 2

Los rangos que del coeficiente de correlación, se pueden interpretarse haciendo uso de las siguientes expresiones:

r = 0.2 a r = 0.3 coeficiente de correlación muy bajo. r = 0.4 a r = 0.5 coeficiente de correlación bajo. r = 0.6 a r = 0.7 coeficiente de correlación alto. r = 0.8 a r = 1.0 coeficiente de correlación muy alto.

(38)

Prueba de hipótesis para la correlación. 1. Hipótesis Estadística:

H : = 0

H :

0

0 a

ρ

ρ

ó

H

H

a 0 0 0

:

:

ρ ρ

ρ ρ

=

(ausencia de correlación entre las variables)

(existencia de correlación entre las variables en forma directa). 2. Elegir el nivel de significación:

α

, (

α

=0.01,

α

= 0.05,

α

= 0.10). 3. Estadígrafo de Contraste.

t =

r

-S

=

r n - 2

1- r

r 2

ρ

,

S =

1- r

n - 2

r 2

4. Establecer la Región de decisión, determinando la región crítica de la prueba.

RA H

o

:

- t

α 2,(n2)

≤ ≤

t

c

t

α 2,(n-2)

RR

H

o

:

t < -t

c α2,(n-2)

ó t

c

> t

α2,(n-2)

5. Si tc pertenece a RA H :0 , aceptamos H0: y rechazamos la Ha:

Si tc pertenece a RR H :0 , rechazamos H0: y aceptamos Ha:

6. Conclusión. Realizar la interpretación en base al paso 4) y concluir de acuerdo al tenor del problema.

Fisher sugiere la transformación de r en z, como sigue: Z = 1

2 r ln 1 1 + − r r, donde

ln es el logaritmo natural. Es posible demostrar que Z

r, sigue una distribución

aproxi-madamente normal, con: E Z Z

n r ( )= = = ln + , ) −

F

HG

I

KJ

= − µ ρ ρ ρ 1 2 1 1 1 3 V(Zr

Para probar la hipótesis nula (Ho:) que indica que

ρ

es igual a un valor

diferen-te de cero, la estadística de prueba es: Z Z Z

n c r = − − ρ

1 3que sigue una distribución

aproxi-madamente normal con N(0,1).

En algunas situaciones, los datos disponibles para el análisis no cumplen con las suposiciones necesarias para el uso de los procedimientos estudiados. La prueba de hipótesis respecto al coeficiente de correlación de la población. En tales circunstan-cias es conveniente utilizar la técnica de correlación de rango de Spearman.

(39)

INTERVALO DE CONFIANZA PARA

ρ

Para encontrar el intervalo de confidencial, se utiliza la transformación de Fisher

del (1-

α

)x100, para

ρ

. Este procedimiento se calcula con la siguiente fórmula para

el intervalo de confianza:

Pr tanh(

Z

r

E

0

)

≤ ≤

ρ

tanh(

Z

r

+

E

0

)

= −

1

α

Donde: Z = 1 2 E r ln , 0 1 1 3 2 + −

FHG IKJ

= − r r Z n α tanh( )x e e , e e X X X X = − + −

− tanh: Tangente hiperbólica

COEFICIENTE DE DETERMINACIÓN: R2 ó r2

El coeficiente de determinación, R2, es el valor cuadrado del coeficiente r de

Pearson, y representa la proporción de la varianza explicada por una variable respec-to a la varianza respec-total, también se conoce con el nombre de determinación porque se considera como la medida del grado de influencia de una variable frente a la otra variable. El coeficiente de determinación mide la proporción de la variación que se explica por la variable independiente en el modelo de regresión, y está definido por:

R r Varianza x SSR SST x m m 2 2 100 100 = = Explicada = Varianza Total

El valor complementario del coeficiente de determinación, 1-R2, recibe el

nom-bre de coeficiente de no determinación ó coeficiente de alineación, que indica la varianza de una variable no explicada por otra.

COEFICIENTE DE DETERMINACIÓN AJUSTADO (

R

~

2)

El coeficiente de determinación ajustado, se puede expresar con las siguientes fórmulas:

~

R

MSE

MST

m 2

1

= −

(40)

EJEMPLO:

Calcular el coeficiente de correlación de Pearson «r» y coeficiente de

determina-ción R2 del ejemplo 1, que corresponde a los datos para el análisis sensorial de la

naranza Wasgington Navel «hipobárico» en su apariencia general externa. X= Tiempo (días) e Y= Apariencia general externa (puntaje) El coeficiente de correlación queda definido por. r X Y X Y n X X n Y Y n xy i i i i i i i i = − − − = − − − = −

∑ ∑

( )( ) ( ) ( ) . ( )( . ) ( ( ) )( . ( . ) ) . 2 2 2 2 2 2 91325 431 2715 9 28909 431 9 1006225 2715 9 0983

Se ha encontrado una correlación negativa y alta, es decir existe una directa asociación entre la variable sobre el tiempo en días y la apariencia general externa en forma inversa.

Calculamos el Coeficiente de Determinación R2.

R SSRm SSTm 2 18 72 = x100 =18.106109x100 = 96.72% .

El 96.72% de la variación de la apareiencia general externa (puntajes) está explicado por la variación del tiempo (días), y 3.28% está explicado por otros factores externos o lo que no se puede controlar en el modelo.

Calculamos el Coeficiente de Determinación Ajustada:

~ . . R MSE MSTm ajust 2 1 2 34 = − x100 = 1-0.087698699x100 = 96.25%

El 96.25% indica que el modelo tiene buen ajuste y es confiable para realizar las predicciones futuras, asimismo se puede recomendar el uso de este modelo para los estudios en otros lugares.

Análisis gráfico de Residuos.

Como complemento a lo que se ha desarrollado hasta el momento, un análisis adecuado de los residuos da información adicional sobre la calidad del ajuste del modelo de regresión y de esta forma verificar si el modelo es adecuado. Las gráficas que se hacen para completar el diagnóstico del modelo son: graficar los residuos en papel de probabilidad normal, graficar los residuos contra los predichos, los residuos contra cada variable regresora y contra alguna otra variable importante que no haya sido incluido en el modelo. A continuación presentamos la gráfica de residuos

(41)

con-tra predicios(εivs Y$ )i . Si el modelo es adecuado, se espera que en esta gráfica los

puntos no sigan ningún patrón, y que por tanto estén distribuidos más o menos aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los valores de Y, si esto no ocurre habrá que ver cuál es el tipo de patrón que se observa en la gráfica y diagnosticar cuál es la falla que registra el modelo. La gráfica que se muestra en seguida no muestra ninguna anomalía, por lo que esto es una evidencia más en favor del modelo de regresión lineal simple para nuestro ejemplo.

Probar la hipótesis para

ρ ≠

0

1. Hipótesis Estadística:

H : = 0

H :

0

0 a

ρ

ρ

(ausencia de correlación entre las variables)

Referencias

Documento similar

La réceptivité associée à une transition source est généralement une réceptivité sur front (sinon l’étape suivante est activée en permanence). Les règles de

Si la máquina esta en posición inicial (S2 + S5) es decir con el carro transportador arriba y a la izquierda y S1 detecta que ha llegado pieza desde la CINTA1 se pone

El útil de más empleo, tanto para podar co- mo para cortar esquejes y demás necesario pa- ra injertar, es la tijera de fiodar (fig.. Conviene tener una gran- de, de 2o a 25

Se llega así a una doctrina de la autonomía en el ejercicio de los derechos que es, en mi opinión, cuanto menos paradójica: el paternalismo sería siempre una discriminación cuando

Aparte de los posibles problemas técnicos que presenta un análisis de correlaciones (RePass 1976), lo que en ningún momento se plantea Converse es que la ausencia de

Este libro intenta aportar al lector una mirada cuestiona- dora al ambiente que se desarrolló en las redes sociales digitales en un escenario de guerra mediática mantenido por

o esperar la resolución expresa&#34; (artículo 94 de la Ley de procedimiento administrativo). Luego si opta por esperar la resolución expresa, todo queda supeditado a que se

Esas adaptaciones requerirán conciliar la regulación de actividades abiertas a una competencia plena o acotada con los llamados servicios uni- versales sin alterar el modelo de