• No se han encontrado resultados

CAPÍTULO I REGRESIÓN LINEAL

N/A
N/A
Protected

Academic year: 2021

Share "CAPÍTULO I REGRESIÓN LINEAL"

Copied!
40
0
0

Texto completo

(1)

Estadística Inferencial II

Raúl Jiménez González

(2)

Contenido

CAPÍTULO 1. Regresión lineal simple y múltiple 1.1. Regresión Lineal simple

1.1.1. Prueba de hipótesis en la regresión lineal simple. 1.1.2. Calidad del ajuste en regresión lineal simple

1.1.3. Estimación y predicción por intervalo en regresión lineal simple 1.1.4. Uso de software estadístico

1.2. Regresión lineal múltiple

1.2.1. Pruebas de hipótesis en regresión lineal múltiple

1.2.2. Intervalos de confianza y predicción en regresión múltiple 1.2.3. Uso de un software estadístico

1.3. Regresión no lineal

CAPÍTULO 2. Diseño de experimentos de un factor 2.1. Familia de diseños para comparar tratamientos 2.2. El modelo de efectos fijos

2.3. Diseño completamente aleatorio y ANOVA 2.4. Comparaciones o pruebas de rangos múltiples 2.5. Verificación de los supuestos del Modelo 2.6. Uso de un software estadístico

CAPÍTULO 3. Diseño de bloques. 3.1. Diseños en bloques completos al azar. 3.2. Diseño en cuadrado latino.

3.3. Diseño en cuadrado grecolatino. 3.4. Uso de un software estadístico.

CAPÍTULO 4. Conceptos básicos en diseños factoriales 4.1. Diseños factoriales con dos factores

4.2. Diseños factoriales con tres factores 4.3. Diseño factorial general

4.4. Modelos de efectos aleatorios 4.5. Uso de un software estadístico

CAPÍTULO 5. Series de tiempo 5.1. Modelo clásico de series de tiempo 5.2. Análisis de fluctuaciones

5.3. Análisis de tendencia

5.4. Análisis de variaciones cíclicas

5.5. Medición de variaciones estacionales e irregulares 5.6. Aplicación de ajustes estacionales

(3)
(4)

1.1. Regresión Lineal simple

El análisis de regresión se usa con el propósito de predicción. La meta del análisis de regresión es desarrollar un modelo estadístico que se pueda usar para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa. Este capítulo se centra en un modelo de regresión lineal simple, que usa una variable numérica independiente para predecir la variable numérica dependiente .

Para establecer una relación cuantitativa entre y es necesario disponer de cierta información muestral. Esta información consiste de un conjunto de pares de observaciones de y , donde cada uno de estos pares pertenece a una unidad elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado con la temperatura de operación, o la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc. Si mediante un modelo matemático es posible describir tal relación, entonces este modelo puede ser usado para propósitos de predicción, optimización o control

Para ilustrar el concepto, considérense los datos de la tabla 1.1. En esta tabla, se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel).

Tabla 1.1 Datos de resistencia de pulpa Porcentaje de fibra Resistencia 4 6 8 10 12 14 16 18 20 22 24 26 28 30 134 145 142 149 144 160 156 157 168 166 167 171 174 183

Es claro que la variable de respuesta o variable dependiente es la resistencia, por eso se denota con . Para tener una idea de la relación que existe entre y , los 14 pares de datos son graficados en un diagrama de dispersión de la figura 1.1. De la inspección de este diagrama de dispersión se ve que los puntos cercanos siguen una línea recta, lo que indica que la suposición de linealidad entre las dos variables parece ser razonable

El diagrama de dispersión es una grafica en la que cada punto trazado representa un par de valores observados por las variables independiente y dependiente. El valor de la variable independiente X, se traza en relación con el eje horizontal y el valor de la variable dependiente Y, en relación con el eje vertical. La naturaleza de la relación entre

(5)

dos variables puede tomar muchas formas, que van desde algunas funciones matemáticas sencillas a otras en extremo complicadas. La relación más elemental consiste en una línea recta o relación lineal.

30 25 20 15 10 5 190 180 170 160 150 140 130 Porcentaje de fibra Re si st en ci a

Gráfica de dispersión de Resistencia vs. Porcentaje de fibra

Figura 1.1 Diagrama de dispersión para los datos de resistencia de la pulpa

La relación del modelo matemático adecuado tiene influencia de la distribución de los valores X y Y en el diagrama de dispersión. Es sencillo ver esto si se examinan las siguientes graficas.

Figura 1.2 Relación entre dos variables

En la grafica 1 se observa que los valores de Y, en general, aumentan en forma lineal cuando se incrementa X .

En la grafica 2 es un ejemplo de una relación lineal negativa. Cuando X crece, se observa que los valores de Y decrecen. Un ejemplo de este tipo de relación puede ser el precio de un producto específico y la cantidad de ventas.

(6)

En la grafica 3 se muestra un conjunto de datos en el que existe muy poca o ninguna relación entre X y Y. Para cada valor de X aparecen valores altos y bajos de Y.

En la grafica 4 muestran una relación curvilínea entre X y Y. Los valores de Y aumentan cuando X crece, pero el incremento disminuye para valores altos de X. un ejemplo de esta relación curvilínea puede ser la edad y el costo de mantenimiento de una maquina. Cuando la máquina tiene muchos años, el costo de mantenimiento se eleva con rapidez al principio, pero después de cierto número de años se nivela.

En la grafica 5 muestra una relación parabólica o en forma de U entre X y Y. Conforme X aumenta, al principio Y disminuye; pero si X aumenta más, Y no sólo deja de disminuir sino que aumenta después de su valor mínimo. Un ejemplo tipo de relación puede ser el número de errores por hora en una tarea y número de horas trabajadas.

Por ultimo en la grafica 6 indica una relación exponencial o curvilínea negativa entre X y Y. en este caso, Y disminuye con rapidez al principio del incremento de X pero después, cuando X aumenta más, la velocidad de disminución es mucho menor. Un ejemplo de esta relación exponencial puede ser el valor de reventa de un tipo dado de automóvil y los años que tiene. El primer año el valor baja en forma drástica respeto a su precio original; sin embargo, la disminución es mucho más lenta en los años subsecuentes.

El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor se ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la más sencilla sea encontrar la línea recta para la cual las diferencias entre los valores reales y los valores pronosticados a partir de la recta ajustada de regresión sean tan pequeñas como sea posible. Sin embargo, como estas diferencias son positivas para algunas observaciones y negativas para otras, en términos matemáticos se minimiza la suma de los cuadrados de las diferencias.

30 25 20 15 10 5 190 180 170 160 150 140 130 Porcentaje de fibra R es is te nc ia S 3,87648 R-cuad. 93,0% R-cuad.(ajustado) 92,4% Gráfica de línea ajustada

Resistencia = 130,7 + 1,624 Porcentaje de fibra

Figura 1.3 Línea recta que mejor se ajusta a los datos, donde la distancia a los puntos es la más pequeña posible

Suponga que las variables X y Y están relacionadas linealmente y que para cada valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y puede ser descrita por el modelo:

(7)

Donde es un error aleatorio con media cero y varianza . También suponga que los errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, ( ) , se puede ver que el valor esperado de la variable Y, para cada valor de X, está dado por línea recta

( )

(1.2)

En donde son los parámetros del modelo y son constantes desconocidas. Por lo tanto, para tener bien especificada la ecuación que relaciona las dos variables será necesario estimar los dos parámetros, que tienen los siguientes significados:

- Es el punto en el cual la línea recta intercepta o cruza el eje y.

- Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o disminuye la variable por cada unidad que se incrementa

Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar es mediante el método de mínimos cuadrados, el cual consiste en lo siguiente:

si de la ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos, obtendremos lo siguiente: ∑( ) ∑( , -) (1.3)

De esta forma, se quieren encontrar los valores de que minimizan la suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las distancias en forma vertical de los puntos a la recta se minimice, como se ilustra en la figura 1.3.

El procedimiento matemático para minimizar los errores de la ecuación (1.3) y así encontrar los estimadores de mínimos cuadrados de , consiste en derivar a con respecto a , y derivar también a con respecto a , se obtiene:

∑ ( , -) ∑ ( , -)

Al igualar a cero las dos ecuaciones y resolverlas en forma simultánea con respecto a las dos incógnitas ( ), se obtiene la solución única:

̂

(1.4)

̂ ̅ ̂ ̅

(8)

donde ∑( ̅)( ̅) ∑ (∑ )(∑ ) (1.6) ∑( ̅) ∑ (∑ ) (1.7)

̅ ̅ son las medias muestrales de las dos variables, es decir,

̅ ∑ ̅ ∑

De esta forma, para obtener la recta ajustada es necesario aplicar las fórmulas anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la resistencia de la pulpa.

Tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple para los datos de la resistencia De la pulpa ̂ ̂ ( ̂) 4 6 8 10 12 14 16 18 20 22 24 26 28 30 134 145 142 149 144 160 156 157 168 166 167 171 174 183 16 36 64 100 144 196 256 324 400 484 576 676 784 900 17 956 21 025 20 164 22 201 20 736 25 600 24 336 24 649 28 224 27 556 27 889 27 241 30 276 33 489 536 870 1 136 1 490 1 728 2 240 2 496 2 826 3 360 3 652 4 008 4 446 4 872 5 490 137,2 140,4 143,7 146,9 150,2 153,4 156,7 159,9 163,2 166,4 169,7 172,9 176,2 179,4 -3,2 4,6 -1,7 2,1 -6,2 6,6 -0,7 -2,9 4,8 -0,4 -2,7 -1,9 -2,2 3,6 10,24 21,16 2,89 4,41 38,44 43,56 0,49 8,41 23,04 0,16 7,29 3.61 4,84 12,96 Ʃ Ʃ Ʃ 956 = 4 Ʃ = 353 342 Ʃ = 39 150 Ʃ ̂2216.6 ( ̂) ( ̂) ̅ ̅ ( )( ) ( ) ̂ ̂ ( )( )

(9)

Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra y resistencia del papel, está dada por

̂

En la figura 1.3 se muestra el ajuste de esta línea. De esta manera, por cada punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de resistencia de 1.6242 en promedio. La ecuación (1.8) sirve para estimar la resistencia promedio esperada para cualquier porcentaje de fibra utilizada.

Nota: La calculadora científica, trae la función de Regresión Lineal, una vez activada esta función, se procede a capturar por parejas (X, Y) correspondientes sin olvidar separarlas por una coma entre ambos datos, se manda cada par a memoria, al finalizar la captura se obtienen los coeficientes correspondientes presionando la inversa correspondiente de acuerdo al modelo de esta.

Utilizando un paquete computacional el resultado arrojado sería el siguiente:

Resumen de Minitab

Análisis de regresión: Resistencia vs. Porcentaje de fibra La ecuación de regresión es

Resistencia = 131 + 1,62 Porcentaje de fibra Resumen de Excel

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,964432318 Coeficiente de determinación R^2 0,930129695

R^2 ajustado 0,92430717

Error típico 3,876481166

Observaciones 14

ANÁLISIS DE VARIANZA

Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F

Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08

Residuos 12 180,3252747 15,02710623

Total 13 2580,857143

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813

Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444

Análisis de los residuales

Observación Pronóstico Resistencia Residuos

1 137,1714286 -3,171428571 2 140,4197802 4,58021978 3 143,6681319 -1,668131868 4 146,9164835 2,083516484 5 150,1648352 -6,164835165 6 153,4131868 6,586813187 7 156,6615385 -0,661538462 8 159,9098901 -2,90989011 9 163,1582418 4,841758242 10 166,4065934 -0,406593407 11 169,6549451 -2,654945055 12 172,9032967 -1,903296703 13 176,1516484 -2,151648352 14 179,4 3,6

(10)

Coef. Predictor Coef de EE T P Constante 130,675 2,418 54,05 0,000 Porcentaje de fibra 1,6242 0,1285 12,64 0,000 S = 3,87648 R-cuad. = 93,0% R-cuad.(ajustado) = 92,4% Análisis de varianza Fuente GL SC MC F P Regresión 1 2400,5 2400,5 159,75 0,000 Error residual 12 180,3 15,0 Total 13 2580,9

Porcentaje Ajuste Residuo Obs de fibra Resistencia Ajuste SE Residuo estándar 1 4,0 134,00 137,17 1,97 -3,17 -0,95 2 6,0 145,00 140,42 1,75 4,58 1,32 3 8,0 142,00 143,67 1,55 -1,67 -0,47 4 10,0 149,00 146,92 1,37 2,08 0,57 5 12,0 144,00 150,16 1,22 -6,16 -1,68 6 14,0 160,00 153,41 1,11 6,59 1,77 7 16,0 156,00 156,66 1,04 -0,66 -0,18 8 18,0 157,00 159,91 1,04 -2,91 -0,78 9 20,0 168,00 163,16 1,11 4,84 1,30 10 22,0 166,00 166,41 1,22 -0,41 -0,11 11 24,0 167,00 169,65 1,37 -2,65 -0,73 12 26,0 171,00 172,90 1,55 -1,90 -0,54 13 28,0 174,00 176,15 1,75 -2,15 -0,62 14 30,0 183,00 179,40 1,97 3,60 1,08

Tabla 1.4 Formulas básicas para el Análisis de regresión para el modelo ̂ ̅ ̂ ̅ Es el punto en el cual la línea recta intercepta o cruza el eje Y

̂

Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o disminuye la variable por cada unidad que se incrementa

̂ ̂ ̂ Ecuación de la regresión lineal estimada

∑ ( ̅)( ̅) ∑ (∑ )(∑ ) Sumatoria de XY ∑ ( ̅) ∑ (∑ ) Sumatoria de XX ∑ ( ̅) ∑ (∑ ) Variabilidad total ̅ ∑ Media de X ̅ ∑ Media de Y

∑ ( ̂) ̂ Sumatoria de los cuadrados del error

̂ Suma de cuadrados de la regresión

̂ Estimador insesgado de la varianza

Cuadrado medio del error

(11)

Cuadrado medio total

̂ √ √ = √ ̂

Error estándar de estimación

Coeficiente de determinación en regresión lineal simple

̂

Estadístico para prueba de hipótesis en regresión lineal simple

̂ ( )⁄ √ [ ( ̅)

] ( ) ̂ ( )⁄ √ [

( ̅)

]

Estimación por intervalos para , en

regresión lineal simple

̂ ( )⁄ √̂

̂ ( )⁄ √

̂

Estimación por intervalos para la pendiente en

regresión lineal simple ̂ ( )⁄ √ [ ̅

] ̂ ( )⁄ √ [

̅

] Estimación para la ordenada al

origen en regresión lineal simple

Ejemplo. Suponga que el gerente de una cadena de servicios de entrega de paquetería desea desarrollar un modelo para predecir las ventas semanales (en miles de dólares) para las tiendas individuales basado en el número de clientes que realizan compras. Se seleccionó una muestra aleatoria entre todas las tiendas de la cadena con los siguientes resultados.

Tienda Clientes Ventas ($000) Tienda Clientes Ventas ($000) 1 2 3 4 5 6 7 8 9 10 907 926 506 741 789 889 874 510 529 420 11,20 11,05 6,48 9,21 9,42 10,08 9,45 6,73 7,24 6,12 11 12 13 14 15 16 17 18 19 20 679 872 924 607 452 729 794 844 1010 621 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

(a) Grafique el diagrama de dispersión.

(b) Suponga una relación lineal y utilice el método de mínimos cuadrados para encontrar los coeficientes de regresión y

(c) Interprete el significado de la pendiente.

(d) Pronostique las ventas semanales (en miles de dólares) para las tiendas que tienen 600 clientes.

(12)

(e) ¿Qué otros factores además del número de clientes pueden afectar las ventas? Respuestas a) 1000 900 800 700 600 500 400 12 11 10 9 8 7 6 Clientes V en ta s

Gráfica de dispersión de Ventas vs. Clientes

b) Los coeficientes son = 2,3086 y = 0,0088

c) Por cada cliente más, se espera un incremento en las ventas de 0,0088612 de miles de dólares en promedio.

d) ̂ ( )

e) Factores tan variados como, atención al cliente, lejanía, falta de estacionamiento etc., etc.

Resumen de Excel

Coeficientes Error típico Estadístico t Probabilidad

Intercepción 2,308620077 0,486903934 4,741428269 0,000162977

Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11

1.1.1. Prueba de hipótesis en la regresión lineal simple.

En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes, sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la relación entre y . Una primera forma de hacer esto es probar una serie hipótesis sobre el modelo. Para ello es necesario suponer una distribución de probabilidad para el término de error, Es usual suponer normalidad: se distribuye en forma normal, independiente, con media cero y varianza .

Por lo general, la hipótesis de mayor interés plantea que la pendiente es significativamente diferente de cero. Esto se logra al aprobar la siguiente hipótesis:

(13)

(1.9)

El estadístico de prueba es:

̂ √

(1.10)

Si la hipótesis nula es verdadera él estadístico (1.10) tiene una distribución

-Student con grados de libertad. Se rechaza si el valor absoluto de este

estadístico es mayor que el correspondiente valor crítico obtenido de tablas, es decir, se rechaza si:

| | ( ⁄ )

(1.11)

En caso contrario no se rechaza . No rechazar que , en el caso del modelo de regresión lineal simple, implica que no existe una relación lineal significativa entre y ; por tanto, no existe relación entre estas variables o ésta es de otro tipo.

La suma de cuadrados de los residuos o suma de cuadrados del error ( ) y se utiliza para estimar la varianza del error de ajuste de un modelo, y está dada por:

∑( ̂)

( )

A partir de la ecuación (1.12) se obtiene que el valor esperado de la suma de cuadrados ( ), del error está dado por:

( ) ( )

(1.13)

Por lo tanto, un estimador insesgado de está dado por:

̂

( )

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el planteamiento de hipótesis sería el siguiente:

Aplicando el estadístico de prueba

̂ √

(14)

El valor de -Student encontrado en tablas con grados de libertad y un 0,05 de nivel de significancia es

( ⁄ ) ( ⁄ ) ( )

| | Se rechaza la Hipótesis nula

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p .

En ocasiones, en lugar de probar que , puede ser de interés probar que es igual a cierta constante ( ), en este caso en el numerador del estadístico de la expresión (1.10) se resta , es decir, el estadístico queda de la siguiente manera(̂ )⁄√ , y el criterio de rechazo es el mismo.

Si se utiliza como criterio de rechazo la comparación de la significancia observada (p-value o valor p) contra la significancia predefinida ( ), entonces se rechaza si el valor p .

Por otro lado, con respecto del parámetro suele ser de interés probar la siguiente hipótesis:

(1.15)

El estadístico de prueba es el siguiente:

̂ √ [ ̅

]

( )

El cual tiene una distribución -Student con grados de libertad, por lo que se rechaza si:

| | ( ⁄ )

o si se utiliza el criterio de la significancia observada se rechaza si el valor-p . No rechazar que simplemente significa que el punto de corte de la línea recta pasa por el origen, es decir pasa por (0, 0). En ocasiones, en lugar de probar que , puede ser de interés probar que es igual a cierta constante ( ); en ese caso, en el numerador del estadístico de la expresión (1.16) se resta , es decir, el estadístico queda de la siguiente manera:

̂ √ [ ̅

]

(1.17)

(15)

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el planteamiento de hipótesis sería el siguiente:

Aplicando el estadístico de prueba

̂ √ [ ̅ ] √ | |

El valor de -Student encontrado en tablas con grados de libertad y un 0,05 de nivel de significancia es

( ⁄ ) ( ⁄ ) ( )

| | Se rechaza la Hipótesis nula

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p .

La estimación de los parámetros del modelo y las pruebas de hipótesis sobre los mismos se sintetizan en la siguiente tabla:

Parámetro Estimación Error estándar Estadístico Valor-p Intercepción Pendiente ̂ ̅ ̂ ̅ ̂ √ [ ̅ ] √ ̂ √ [ ̅ ] ̂ √ ( | |) ( | |)

Las pruebas de hipótesis para el ejemplo de las ventas contra clientes, el resumen que nos arroja Excel y Minitab incluye el cálculo del valor de t y el valor-p, optando por cualesquiera de ambos estadísticos las hipótesis quedarían de la siguiente manera:

El valor de -Student encontrado en tablas con grados de libertad y un 0,05 de nivel de significancia es

( ⁄ ) ( ⁄ ) ( )

(16)

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p .

En el caso de las hipótesis para la intercepción tenemos:

| | Se rechaza la Hipótesis nula

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p .

Resumen de Excel

Coeficientes Error típico Estadístico t Probabilidad

Intercepción 2,308620077 0,486903934 4,741428269 0,000162977

Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11

Ejercicios

1.- ¿Cuál es el propósito general del análisis de regresión?

2.- En el análisis de regresión intervienen dos tipos de variables: las independientes y las dependientes. Explique con sus palabras y a través de ejemplos, las características de estos dos tipos de variables.

3.- En el artículo de Concrete Research (Características del concreto cerca de la superficie: Permeabilidad intrínseca), se presentaron los datos sobre la resistencia a la compresión y la permeabilidad intrínseca de varias mezclas y curados de concreto. Las cantidades resumidas son , Ʃ , Ʃ = 23 530, Ʃ , Ʃ = 157.42, y Ʃ = 1 697.80. Suponga que las dosvariables se relacionan de acuerdo con el modelo de regresión lineal simple.

a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen

b) Use la ecuación de la recta ajustada para predecir la permeabilidad que se observaría cuando la resistencia a la compresión es = 4,3.

c) Dé una estimación puntual de la permeabilidad media cuando la resistencia a la compresión es = 3,7.

(17)

4.- Se utilizaron métodos de regresión para analizar los datos de un estudio para investigar la relación entre la temperatura superficial de una carretera (x) y la deflexión del pavimento (y). Las cantidades resumidas fueron , Ʃ , Ʃ = 8.86, Ʃ , Ʃ = 143 215.8, Ʃ = 1 083.67.

a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen. Grafique la recta de regresión

b) Use la ecuación de la recta ajustada para predecir la deflexión del pavimento que se observaría cuando la temperatura superficial es de 85 .

c) ¿Cuál es la deflexión media del pavimento cuando la temperatura superficial es 90 ?

d) ¿Qué cambio en la deflexión media del pavimento se esperaría para un cambio de 1 en la temperatura superficial?

5.- Se piensa que el número de libras de vapor consumidas mensualmente por una planta química se relaciona con la temperatura ambiente promedio (en ) de ese mes. En la tabla siguiente se muestra la temperatura y el consumo anual:

Mes Temperatura Consumo/1 000 Ene. Feb. Mar. Abr. May Jun. Jul. Ago. Sep. Oct. Nov. Dic. 21 24 32 47 50 59 68 74 62 50 41 30 185.79 214.47 288.03 424.84 454.58 539.03 621.55 675.06 562.03 452.93 369.95 273.98

a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajuste el modelo de regresión que relacione el consumo de vapor ( ) con la temperatura promedio ( ).

b) ¿Cuál es la estimación del consumo esperado de vapor cuando la temperatura promedio es 55 ?

c) ¿Qué cambio se espera en el consumo de vapor promedio cuando la temperatura mensual promedio cambia 1 ?

d) Suponga que la temperatura mensual promedio es de 47 . Calcule el vapor ajustado y el residual correspondiente.

6.- En un artículo de Journal of Environmental Energineering se reportan los resultados de

un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de la parte central de Rhode Island. Los datos que se presentan a continuación corresponden a la concentración de cloruros (en mg/l) y al área de carretera de la vertiente (en %). 4.4 6.6 9.7 10.6 10.8 10.9 11.8 12.1 14.3 14.7 15.0 17.3 19.2 23.1 27.4 27.7 31.8 39.5

(18)

a) Trace un diagrama de dispersión de los datos. ¿Parecería apropiado un modelo de regresión lineal simple en este caso?

b) Ajuste el modelo de regresión lineal simple usando el método de mínimos cuadrados.

c) Estime la concentración de cloruros media de una vertiente que tiene 1% del área de carretera.

d) Encuentre el valor ajustado que corresponde a = 0.47

7.- Demuestre que en un modelo de regresión lineal simple el punto ( ̅ ̅) se localiza exactamente sobre la recta de regresión de mínimos cuadrados.

8.- En un artículo de Wear se presentan los datos del desgaste por rozamiento del acero dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad del aceite y = volumen del desgaste ( ), son:

240 181 193 155 172 110 113 75 94

1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0

a) Construya un diagrama de dispersión de los datos. ¿Parecería plausible un modelo de regresión lineal simple?

b) Ajuste el modelo de regresión lineal simple usando mínimos cuadrados. c) Estime el desgaste por rozamiento cuando la viscosidad es = 30.

d) Obtenga el valor ajustado de cuando = 22,0 y calcule el residual correspondiente.

9.- Considérense los datos del ejercicio 4 para = temperatura superficial de una carretera y = deflexión del pavimento.

a) Pruebe la significación de la regresión utilizando . Encuentre el valor P para esta prueba. ¿Qué conclusiones pueden sacarse?

b) Estime

c) Estime los errores estándar de la pendiente y la ordenada al origen.

10.- En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento. Los datos obtenidos se muestran en la siguiente tabla.

Tiempo (minutos) 10 15 20 8 12 13 15 12 14 20 19 18 Rendimiento (%) 64 81,7 76,2 68,5 77,9 82,2 74,2 70 76 83,2 85,3

a) ¿En este problema cuál variable se considera independiente y cuál dependiente? b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique

pruebas de hipótesis y verifique residuos).

d) ¿La calidad del ajuste es satisfactoria? Argumente

e) Destaque el valor de la pendiente de la recta e interprételo en términos practicos. f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25

(19)

11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura promedio.

a) Pruebe la significación de la regresión usando . ¿Cuál es el valor P para esta prueba? Enuncie las conclusiones que resultan de esta prueba.

b) Estime

c) Estime los errores estándar de la pendiente y la ordenada al origen.

d) Pruebe la hipótesis contra usando . Encuentre el valor P para esta prueba.

e) Pruebe la hipótesis contra usando . Encuentre el valor P para esta prueba y saque conclusiones.

12.- En el ejercicio 6 se presentan los datos para = concentración de cloruros en corrientes superficiales y = área de carretera.

a) Pruebe la hipótesis contra usando el procedimiento indicado con un nivel de significancia del 0,01 ( ) .

1.1.2. Calidad del ajuste en regresión lineal simple

En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una relación significativa entre y ; sin embargo, no hemos visto si tal relación permite hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué tanta de la variabilidad presente en fue explicada por el modelo, además si se cumplen los supuestos de los residuos.

Coeficiente de determinación . Un primer criterio para evaluar la calidad del

ajuste es observar la forma en que el modelo se ajustó a los datos. En el caso de la regresión lineal simple esto se distingue al observar si los puntos tienden a ajustarse razonablemente bien a la línea recta (véase la figura 1.3). Pero otro criterio más cuantitativo es el que proporciona el coeficiente de determinación, el cual está definido por:

(1.17)

Es claro que . En general se interpreta como la proporción de la variabilidad en los datos ( ) que es explicada por el modelo. En el caso de los datos de la resistencia de la pulpa (tabla 1.1) tenemos

̂ ( )( ) ∑ (∑ ) = = 2580.86 =

(20)

Por lo tanto, podemos decir que 93% de la variación observada en la resistencia es explicada por el modelo (línea recta), lo cual nos dice que la calidad del ajuste es satisfactorio, y que por ello, la relación entre es descrita adecuadamente por una línea recta.

Nota. El resultado arrojado por Excel o Minitab, incluye el análisis de varianza para el modelo de regresión simple cuyo cuadro sintético es el siguiente:

Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Valor-p Regresión Error o residual Total ̂ ̂ 1 ( )

Análisis de varianza en Minitab

Fuente GL SC MC F P Regresión 1 2400,5 2400,5 159,75 0,000 Error residual 12 180,3 15,0

Total 13 2580,9

S = 3,87648 R-cuad. = 93,0% R-cuad.(ajustado) = 92,4%

Coeficiente de determinación ajustado . Este coeficiente se calcula de la

siguiente manera:

(1.18) donde el cuadrado medio total, , se obtiene al dividir la suma de cuadrados total, ,

entre sus grados d libertad. Cuando hay muchos términos en un modelo, el estadístico

se prefiere en lugar de , puesto que este último es engañoso al incrementarse en

forma artificial con cada término que se agrega al modelo, aunque sea un término que no contribuya en nada a la explicación de la respuesta. En cambio, el incluso baja de valor cuando el término que se agrega no aporta nada. Se cumple que

Resumen de Excel

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,964432318 Coeficiente de determinación R^2 0,930129695 R^2 ajustado 0,92430717 Error típico 3,876481166 Observaciones 14 ANÁLISIS DE VARIANZA

Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F

Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08 Residuos 12 180,3252747 15,02710623

Total 13 2580,857143

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813 Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444 Análisis de los residuales

Observación Pronóstico Resistencia Residuos

1 137,1714286 -3,171428571 2 140,4197802 4,58021978 3 143,6681319 -1,668131868 4 146,9164835 2,083516484 5 150,1648352 -6,164835165 6 153,4131868 6,586813187 7 156,6615385 -0,661538462 8 159,9098901 -2,90989011 9 163,1582418 4,841758242 10 166,4065934 -0,406593407 11 169,6549451 -2,654945055 12 172,9032967 -1,903296703 13 176,1516484 -2,151648352 14 179,4 3,6 Resumen de Excel Estadísticas de la regresión

Coeficiente de correlación múltiple 0,964432318 Coeficiente de determinación R^2 0,930129695

R^2 ajustado 0,92430717

Error típico 3,876481166

Observaciones 14

ANÁLISIS DE VARIANZA

Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F

Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08

Residuos 12 180,3252747 15,02710623

Total 13 2580,857143

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813

Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444

Análisis de los residuales

Observación Pronóstico Resistencia Residuos

1 137,1714286 -3,171428571 2 140,4197802 4,58021978 3 143,6681319 -1,668131868 4 146,9164835 2,083516484 5 150,1648352 -6,164835165 6 153,4131868 6,586813187 7 156,6615385 -0,661538462 8 159,9098901 -2,90989011 9 163,1582418 4,841758242 10 166,4065934 -0,406593407 11 169,6549451 -2,654945055 12 172,9032967 -1,903296703 13 176,1516484 -2,151648352 14 179,4 3,6

(21)

. En general, para fines de predicción se recomienda un coeficiente de

determinación ajustado de al menos 0.7.

En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de determinación ajustado está dado por:

Observe que estos coeficientes son arrojados automáticamente en Excel y Minitab.

Coeficiente de correlación . Es bien conocido que el coeficiente de correlación, ,

mide la intensidad de la relación lineal entre dos variables Si se tiene pares de datos de la forma ( ), entonces este coeficiente se obtiene de la siguiente manera:

(1.19) Se puede ver que ; si es próximo a , entonces tendremos una relación lineal negativa fuerte, y si es próximo a cero, entonces diremos que no

hay correlación lineal, y finalmente se es próximo a , entonces tendremos una

relación lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de correlación es;

∑ (∑ )(∑ ) ( )( ) ∑ (∑ ) ( ) √ √( )( )

lo cual habla de una correlación lineal positiva fuerte.

Error estándar de estimación

̂.

Una medición sobre la calidad del ajuste de un modelo lo da el error estándar de estimación, que es una estimación de la desviación estándar del error, . En el caso de la regresión lineal simple, está dado por:

(22)

̂ √ = (1.20) ̂ √ √

Es claro que a medida que el modelo ajuste mejor, la será menor y en consecuencia el error estándar de estimación también será menor.

Análisis gráfico de residuos.

Como complemento a lo que se ha discutido hasta aquí, un análisis adecuado de los residuos proporciona información adicional sobre la calidad del ajuste del modelo de regresión y de esa manera es posible verificar si el modelo es adecuado. Las gráficas que suelen hacerse para completar el diagnóstico del modelo consisten en:

a) graficar los residuos en papel de probabilidad normal, b) graficar los residuos contra los predichos.

Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se construye la gráfica de probabilidad normal que se muestra en la figura 1.4. En ésta se aprecia que el supuesto de normalidad sobre los errores se cumple razonablemente bien, ya que los puntos en esta gráfica tienden a ajustarse a la línea recta.

10 5 0 -5 -10 99 95 90 80 70 60 50 40 30 20 10 5 1 Residuo Po rc en ta je

Gráfica de probabilidad normal

(la respuesta es Resistencia)

Figura 1.4 Gráfica de probabilidad normal para los residuos de la resistencia de la pulpa

A partir de la tabla 1.2 es fácil obtener la gráfica de residuos contra predichos que se muestra en la figura 1.5. Si el modelo es adecuado se espera que en esta gráfica los puntos no sigan ningún patrón y que, por lo tanto, estén distribuidos más o menos aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los valores de . Por el contrario, si se aprecia algún patrón habrá que ver cuál es el tipo de patrón que se observa en la gráfica y diagnosticar cuál es la falla que registra el modelo.

(23)

180 170 160 150 140 7,5 5,0 2,5 0,0 -2,5 -5,0 Valor ajustado R es id uo vs. ajustes

(la respuesta es Resistencia)

Figura 1.5 Gráfica de residuos contra estimados o predichos ̂ para la resistencia de la pulpa

En particular la figura 1.5 no muestra ninguna anomalía, lo cual es una evidencia más a favor del modelo de regresión simple para este ejemplo.

1.1.3. Estimación y predicción por intervalo en regresión lineal simple

Una de las aplicaciones más importantes en un análisis de regresión es hacer estimaciones de la respuesta media para un valor dado de X. En el caso particular de la regresión lineal simple, sabemos que un estimador puntual de la respuesta media lo da la recta de regresión:

̂ ̂ ̂

Además de esto, en ocasiones es de interés obtener una estimación por intervalos para ̂ a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuación:

̂ ( )⁄ √ [ ( ̅)

] ( ) ̂ ( )⁄ √ [

( ̅)

]

(1.21)

A este intervalo se le conoce como intervalo para la recta de regresión. Note que su amplitud depende del y de la distancia entre y ̅ . La amplitud es mínima cuando

= ̅ y se incrementa conforme | ̅| se hace más grande.

Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo de la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza para la respuesta media en = 12 (porcentaje de fibra)

Primeramente calculemos el estimador puntual para ̂ cuando = 12 , está dado por

(24)

y un intervalo de confianza al 95% para ̂ ̂ ( )⁄ √ [ ( ̅) ] √ [ ( ) ]

De aquí que el intervalo de confianza para la respuesta media en = 12 está dada por:

( )

Además de la estimación puntual para la pendiente y la ordenada al origen, ̂ ̂ , es posible obtener estimaciones de los intervalos de confianza para estos parámetros. La anchura de estos intervalos de confianza es una medida de la calidad global de la recta de regresión. Si los términos del error, del modelo de regresión tienen una distribución normal e independiente, entonces tienen ambos una distribución igual a la de una variable aleatoria grados de libertad. Esto lleva a la siguiente definición de los intervalos de confianza del ( )% para la pendiente y la ordenada al origen. ̂ ( )⁄ √ ̂ ̂ ( )⁄ √ ̂ (1.22) ̂ ( )⁄ √ [ ̅ ] ̂ ( )⁄ √ [ ̅ ] (1.23)

En el caso del intervalo de confianza para la pendiente de los datos del porcentaje de fibra (tabla 1.1) tenemos

̂ ( )⁄ √ ̂ √ ( )

Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042

Ejemplo

En un artículo se presentaron los datos de la concentración del licor verde ( ), y la producción de una máquina papelera ( ). Los datos se muestran en la tabla siguiente

(25)

Número de observación

Concentración Del licor verde

( ) Producción (tons ) 1 2 3 4 5 6 7 8 9 10 11 12 13 40 42 49 46 44 48 46 43 53 52 54 57 58 825 830 890 895 890 910 915 960 990 1010 1012 1030 1050 a) Encuentre un intervalo de confianza de 99% para ̂ ̂

b) La concentración media de cuando la producción es toneladas

c) Encuentre un intervalo de predicción de 99% para la concentración de cuando toneladas

1.2. Regresión lineal múltiple

En muchas situaciones prácticas existen varias variables independientes que se cree que influyen o están relacionadas con una variable de respuesta , y por lo tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de . Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitación tal vez sea necesario considerar el tipo de residencia, el número de personas que la habitan, la temperatura promedio de la zona, etcétera.

Sea variables independientes o regresoras, y sea una variable de respuesta, entonces el modelo de regresión lineal múltiple con variables independientes es el polinomio de primer orden:}

(1.22)

Donde los son los parámetros del modelo que se conocen como coeficientes de regresión y es el error aleatorio, con media cero, ( ) ( ) . Si en la ecuación (1.22) , estamos en el caso de regresión lineal simple y el modelo es una línea recta; si , tal ecuación representa un plano. En general, la ecuación (1.22)representa un hiperplano en el espacio de dimensiones generado por las variables { }.

(26)

El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22) es función lineal de los parámetros desconocidos La interpretación de éstos es muy similar a lo ya explicado para el caso de regresión lineal simple: es la ordenada al origen, y mide el cambio esperado en por cambio unitario en cuando el resto de las variables regresoras se mantienen fijas o constantes.

Para encontrar los coeficientes de regresión múltiple por el método de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:

̂ ̂ ∑ ̂ ∑ ̂ ∑ ∑ ̂ ̂ ∑ ̂ ∑ ̂ ∑ ̂ ∑ ∑ ̂ ̂ ∑ ̂ ∑ ̂ ∑ ̂ ∑ ∑ ̂ (1.23)

Estas ecuaciones se pueden resolver para ̂ , ̂ y ̂ mediante cualquier método apropiado para resolver sistemas de ecuaciones lineales

Por ejemplo La siguiente tabla muestra los pesos Y a la libra más cercana, las estaturas X1 a la pulgada más cercana y las edades X2 al año más cercano de 12

muchachos.

Tabla 1.5 Peso, estatura y edad Peso Estatura Edad 64 71 53 67 55 58 77 57 56 51 76 68 57 59 49 62 51 50 55 48 52 42 61 57 8 10 6 11 8 7 10 9 10 6 12 9

Para encontrar los coeficientes de regresión ( ̂ , ̂ y ̂ ) múltiple mediante el método de mínimos cuadrados seria de la siguiente manera:

(27)

Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple Y X1 X2 2 Y X12 X22 X1Y X2Y X1X2 64 71 53 67 55 58 77 57 56 51 76 68 57 59 49 62 51 50 55 48 52 42 61 57 8 10 6 11 8 7 10 9 10 6 12 9 4096 5041 2809 4489 3025 3364 5929 3249 3136 2601 5776 4624 3249 3481 2401 3844 2601 2500 3025 2304 2704 1764 3721 3249 64 100 36 121 64 49 100 81 100 36 144 81 3648 4189 2597 4154 2805 2900 4235 2736 2912 2142 4636 3876 512 710 318 737 440 406 770 513 560 306 912 612 456 590 294 682 408 350 550 432 520 252 732 513  y 753  x1 643  x2 106   2 y 48,139   2 1 x 34,843   2 2 x 976  x1y 40,830  x2y 6,796  x1x2 5,779

Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene ̂ ̂ ̂

̂ ̂ ̂ ̂ ̂ ̂

Resolver este sistema de tres ecuaciones lineales para ̂ , ̂ y ̂ , es por lo menos tedioso. Es común emplear matrices para simplificar el proceso. Hoy en día, esta clase de cálculos son realizados por la computadora.

El resultado seria el siguiente ̂ , ̂ y ̂ por lo tanto la ecuación de regresión es

̂

La solución manual aplicando el sistema de tres ecuaciones lineales con tres incógnitas (3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el método de Cramer. Para este tipo de planteamiento se recomienda el método de Cramer el cual consiste en la siguiente secuencia:

(28)

̂ | | | | ( ) ( ) ( ) ) Siguiendo la misma secuencia de la multiplicación para el denominador, así como para ̂ y ̂ ̂ | | | | ̂ | | | | Sustituyendo los valores tendremos

753 643 106 753 643 40,830 34,843 5,779 40,830 34,843 6,796 5,779 976 6,796 5,779 ̂ 12 643 106 12 643 643 34,843 5,779 643 34,843 106 5,779 976 106 5,779 ̂ (2.56070963x1010+ 2.525323601x1010+ 2.501139642x1010) – (2.510006097x1010+ 2.514782127x1010+ 2.562360144x1010) ( 408081216 + 393885082 + 393885082 ) – ( 391495948 + 400762092 + 403526224 ) ̂

Siguiendo el mismo procedimiento correspondiente para ̂ y ̂ tenemos los coeficientes de regresión múltiple

(29)

Análisis de regresión: Peso vs. Estatura; Edad en Minitab La ecuación de regresión es

Peso = 3,7 + 0,855 Estatura + 1,51 Edad Coef. Predictor Coef de EE T P Constante 3,65 16,17 0,23 0,826 Estatura 0,8546 0,4517 1,89 0,091 Edad 1,506 1,414 1,07 0,315 S = 5,36321 R-cuad. = 70,9% R-cuad.(ajustado) = 64,4% Análisis de varianza Fuente GL SC MC F P Regresión 2 629,37 314,69 10,94 0,004 Error residual 9 258,88 28,76 Total 11 888,25

1.2.1. Pruebas de hipótesis en regresión lineal múltiple

Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar su verdadera contribución a la explicación de la respuesta. También requerimos de la suposición de que los errores se distribuyen en forma normal, independientes, con

Resumen

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,841756673 Coeficiente de determinación R^2 0,708554296

R^2 ajustado 0,643788584

Error típico 5,363214691

Observaciones 12

ANÁLISIS DE VARIANZA

Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F

Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018

Residuos 9 258,8766464 28,76407182

Total 11 888,25

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014

Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373

Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262

Análisis de los residuales

Observación Pronóstico Peso Residuos

1 64,41464032 -0,414640324 2 69,13652482 1,863475177 3 54,56509625 -1,565096251 4 73,20668693 -6,20668693 5 59,28698075 -4,28698075 6 56,9260385 1,073961499 7 65,71808511 11,28191489 8 58,22948328 -1,229483283 9 63,15425532 -7,154255319 10 48,58282675 2,417173252 11 73,85840932 2,141590679 12 65,92097264 2,079027356

(30)

media cero y varianza ( ( )). Una consecuencia de esta suposición es que las observaciones son: ( ∑ ).

La hipótesis global más importante sobre un modelo de regresión múltiple consiste en ver si la regresión es significativa. Esto se logra probando la siguiente hipótesis:

Aceptar significa que ningún término o variable en el modelo tiene una contribución significativa al explicar la variable de respuesta, . Mientras que rechazar implica que por lo menos un término en el modelo contribuye de manera significativa a explicar . El procedimiento para probar esta hipótesis es una generalización del procedimiento utilizado para probar la hipótesis equivalente en regresión lineal simple.

El estadístico de prueba para la significancia del modelo de regresión lineal múltiple esta dado por:

⁄ ⁄( )

(1.24)

que bajo tiene una distribución ( ). Así, se rechaza si

( ) o también si ( )

Ejemplo

Se probará la significación de la regresión (con ) utilizando los datos de los pesos , estaturas y edades de la tabla 1.5

El valor de calculado por formula nos da un valor de = 10,9402 ,por comodidad observamos el resumen arrojado por Excel y/o Minitab

⁄ ⁄( ) 10,94

En tanto que el valor de encontrado en tablas cuando tenemos un nivel de significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el denominador el cual es igual a 4,26

( ) = ( )= ( )

( ) Se rechaza la Hipótesis nula Dado que el valor encontrado en formula es mayor al punto crítico en base al nivel de significancia por lo que rechazamos la hipótesis nula y aceptamos la alterna lo

(31)

cual implica que por lo menos un término en el modelo contribuye de manera significativa a explicar

Tabla 1.7 ANOVA para la significancia del modelo de regresión lineal múltiple Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Regresión Error o residuo Total ̂ (∑ ) ̂ (∑ ) K n-1 ⁄

Análisis de varianza en Minitab

Fuente GL SC MC F P Regresión 2 629,37 314,69 10,94 0,004 Error residual 9 258,88 28,76

Total 11 888,25

Coeficiente de determinación

El que un modelo sea significativo no necesariamente implica que sea bueno en términos de que explique la variación de los datos. Por ello es importante tener mediciones adicionales de la calidad del ajuste del modelo, como las gráficas de residuales y el coeficiente de determinación. Con la información del análisis de varianza de la tabla 1.7 es muy sencillo calcular el coeficiente de determinación , y el coeficiente de determinación ajustado :

(1.25) ( ) ⁄ ⁄( ) (1.26)

Ambos coeficientes se interpretan de forma similar al caso de regresión lineal simple, es decir, como el porcentaje de variabilidad de los datos que son explicados por el modelo. Se cumple que ; en general, para hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientes tengan valores superiores a 0,7. Cuando en el modelo hay términos que no contribuyen de manera significativa a éste, el tiende a ser menor que el . Por lo tanto, es deseable depurar el modelo y para ello las siguientes pruebas de hipótesis son de mucha utilidad.

Resumen

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,841756673 Coeficiente de determinación R^2 0,708554296

R^2 ajustado 0,643788584

Error típico 5,363214691

Observaciones 12

ANÁLISIS DE VARIANZA

Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F

Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018

Residuos 9 258,8766464 28,76407182

Total 11 888,25

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014

Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373

Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262

Análisis de los residuales

Observación Pronóstico Peso Residuos

1 64,41464032 -0,414640324 2 69,13652482 1,863475177 3 54,56509625 -1,565096251 4 73,20668693 -6,20668693 5 59,28698075 -4,28698075 6 56,9260385 1,073961499 7 65,71808511 11,28191489 8 58,22948328 -1,229483283 9 63,15425532 -7,154255319 10 48,58282675 2,417173252 11 73,85840932 2,141590679 12 65,92097264 2,079027356

(32)

Para los datos de la tabla 1.5 tenemos que

Coeficiente de correlación múltiple

Es la raíz cuadrada del coeficiente de determinación √

(1.27) y es una medida de la intensidad de la relación entre la variable dependiente, , y el conjunto de

variables o términos en el modelo ( )

Error estándar de estimación

Al igual que en regresión lineal simple, el error estándar de estimación proporciona la medida del error de ajuste de un modelo, éstas tienen una interpretación similar a la que se dio para el caso de regresión lineal simple. En cuanto al cálculo en el caso múltiple, el error estándar de estimación,

̂ √ ⁄( )

(1.28)

En el caso del ejemplo de los pesos, estatura y edades tenemos

̂ √ ( )⁄

1.2.2. Intervalos de confianza y predicción en regresión múltiple

En los modelos de regresión múltiple con frecuencia es conveniente construir estimaciones de intervalos de confianza para los coeficientes de regresión * +. Por ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada coeficiente en lo individual está dado por:

̂ ( ⁄ )√ ̂ ( ⁄ )√ (1.29)

(33)

Tabla 1.8 Análisis de regresión múltiple

Parámetro Estimación Error estándar Estadístico Valor-p Intercepción . . ̂ ̂ . . ̂ √ √ . . √ ̂ √ ̂ √ . ̂ √ ( | |) ( | |) . ( | |)

También es posible obtener un intervalo de confianza con respecto a la respuesta media en un punto particular, digamos está dado por:

̂ ( ⁄ )√ ( ) ( ) ̂

( ⁄ )√ ( )

Ejercicios de regresión lineal múltiple

13.- ¿Por qué se requiere la regresión lineal múltiple?

14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno ( ) con la profundidad en pies ( ) y el contenido de humedad ( ). Se hicieron 10 observaciones, obteniéndose las siguientes cantidades resumidas

, ∑ , ∑ , ∑ , ∑ , ∑ , ∑ , ∑ , ∑ y ∑

a) Establezca las ecuaciones normales de mínimos cuadrados para el modelo

b) Estime los parámetros del modelo del inciso a)

c) ¿Cuál es la resistencia predicha cuando pies y ?

15.- En una empresa dedicada a anodizar artículos de aluminio (baterías de cocina), el anodizado se logra con una solución hecha a base de ácidos (sulfúrico, cítrico, bórico) y dicromato de aluminio. En este proceso se controla el pH de la solución, la temperatura, la corriente y el tiempo de permanencia. Debido al poco grosor del anodizado, han aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver este problema se decide estudiar, mediante un experimento, la relación del pH y la temperatura con el grosor del anodizado. Los datos se muestran en la siguiente tabla:

Resumen

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,841756673 Coeficiente de determinación R^2 0,708554296

R^2 ajustado 0,643788584

Error típico 5,363214691

Observaciones 12

ANÁLISIS DE VARIANZA

Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F

Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018

Residuos 9 258,8766464 28,76407182

Total 11 888,25

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014

Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373

Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262

Análisis de los residuales

Observación Pronóstico Peso Residuos

1 64,41464032 -0,414640324 2 69,13652482 1,863475177 3 54,56509625 -1,565096251 4 73,20668693 -6,20668693 5 59,28698075 -4,28698075 6 56,9260385 1,073961499 7 65,71808511 11,28191489 8 58,22948328 -1,229483283 9 63,15425532 -7,154255319 10 48,58282675 2,417173252 11 73,85840932 2,141590679 12 65,92097264 2,079027356

(34)

pH Temperatura Espesor 1,2 1,8 1,2 1,8 1,2 1,8 1,2 1,8 1,5 1,5 -8 -8 8 8 -8 -8 8 8 0 0 9 14 10 19 8 12 11 20 14 13

a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente b) Ajuste un modelo del tipo y anote la

ecuación del modelo ajustado

c) A partir del modelo ajustado, ¿cuál es el espesor estimado cuando se utiliza un pH = 2 y una temperatura de 10 grados?

d) ¿El modelo es adecuado? Argumente con base en graficas de residuos, pruebas de hipótesis y coeficientes de determinación.

16.- Se realizó un experimento para estudiar el sabor del queso panela en función de la cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio reportado por un grupo de cinco panelistas que probaron todos los quesos y los calificaron en una escala hedónica. Los datos obtenidos se muestran a continuación:

Sal Cuajo Sabor 6 5,5 4,5 4 4,5 5,5 5 5 0,3 0,387 0,387 0,3 0,213 0,213 0,3 0,3 5,67 7,44 7,33 6,33 7,11 7,22 6,33 6,66 a) Ajuste el modelo

b) ¿El modelo explica la variación observada en el sabor? Argumente con base en la significancia del modelo, los residuales y el coeficiente de determinación.

c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del ajuste aplique las pruebas de hipótesis

d) Compare el error estándar de estimación (√ ) y los coeficientes de determinación

( ) para ambos modelos

e) ¿Cuál modelo prefiere para explicar el sabor?

17.- Se piensa que la energía eléctrica consumida mensualmente por una planta química se relaciona con la temperatura ambiente promedio ( ), el número de días laborales del mes ( ), la pureza promedio del producto ( ) y las toneladas del producto producidas ( ). Se cuenta con los datos del último año, los cuales se presentan en la tabla siguiente:

(35)

240 236 290 274 301 316 300 296 267 276 288 261 25 31 45 60 65 72 80 84 75 60 50 38 24 21 24 25 25 26 25 25 24 25 25 23 91 90 88 87 91 94 87 86 88 91 90 89 100 95 110 88 94 99 97 96 110 105 100 98

a) Ajuste un modelo de regresión lineal múltiple a estos datos

b) Prediga el consumo de electricidad para un mes en el que , días y toneladas

c) Calcule para este modelo. Interprete esta cantidad d) Grafique los residuales contra ̂. Interprete la grafica

1.2.3. Uso de un software estadístico

Excel

En la hoja de cálculo de Excel se incluye la regresión lineal simple y múltiple; para ello, es necesario realizar la siguiente secuencia de opciones:

Datos Análisis de datos Regresión

Generalmente Excel no trae instalado la herramienta de análisis de datos esta debe instalarse con la siguiente secuencia:

1.- En la hoja de cálculo de Excel (pantalla principal) hacer click con el puntero en el símbolo del sistema localizado en el extremo superior izquierdo

(36)

3.- De la ventana desplegada hacer click en complementos

4.- De la ventana desplegada hacer click en ir

(37)

6.- De esta ventana activar la casilla de herramientas para análisis (palomearla) y dar click en aceptar. De esta manera hemos activado la opción de análisis de datos.

Para capturar la tabla de datos para el análisis de regresión lineal simple o múltiple, primeramente capturamos los datos en la hoja de cálculo, posteriormente activamos Datos seguido de Análisis de datos y seleccionamos Regresión

Datos Análisis de datos Regresión

En la ventana de captura se solicitará el rango de celdas donde se encuentran los datos para la variable dependiente Rango de entrada y para la(s) variable(s) regresora(s) Rango de entrada

Activamos la casilla de rótulos, por default está indicado en una hoja nueva, seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y curva de regresión ajustada y aceptar.

(38)

Minitab

En minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego Regresión seguida de Regresión nuevamente

De la ventana desplegada en Respuesta indicamos la variable de respuesta, en este caso es resistencia y en predictor indicamos porcentaje de fibra activando también cualquiera de las opciones posibles, terminando en aceptar.

(39)

1.3. Regresión no lineal

Si las dos variables X y Y se relacionan según un modelo de línea recta, se habla de regresión lineal simple

Cuando las variables X y Y se relacionan según una línea curva, se habla de regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica, exponencial, potencial etc.

Supongamos que al hacer la representación gráfica correspondiente la distribución bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relación entre las dos variables, pero desde luego, esa relación no es lineal.

Por tanto, debemos buscar la función que ha de describir la dependencia entre las dos variables.

Nos limitaremos al estudio de las más utilizadas: la función parabólica, la logarítmica, la exponencial y la potencial.

Parábola de Regresión

En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada.

La expresión general de un polinomio de 2º grado es:

donde a, b y c son los parámetros.

El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste de los mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresión sea mínima:

∑( ̂ )

donde, siguiendo la notación habitual, yi son los valores observados de la variable

dependiente, e los valores estimados según el modelo; por tanto, podemos escribir D de la forma:

∑( ̂) ∑( )

Para encontrar los valores de a, b y c que hacen mínima la expresión anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parámetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen

Referencias

Documento similar

Es decir un 65.9 por ciento de la variación de la variable tipo de parto ( vía de culminación de parto normal o por cesárea ) es explicada por las variables incluidas en

▪ Con los datos que tienen un comportamiento aleatorio como los observados en el ejemplo del consumo de los pollos, estimaremos un modelo de ajuste por el Método de Regresión Lineal

Geométricamente podemos decir que una línea recta es una sucesión continua e infinita de puntos alineados en una misma dirección; analíticamente, una recta en el plano está

Geométricamente podemos decir que una línea recta es una sucesión continua e infinita de puntos alineados en una misma dirección; analíticamente, una recta en el plano está

El modelo puede estimarse con o sin término independiente y en todo caso, la hipótesis nula de No Autocorrelación se asociaría con un valor estimado ρ=0, algo que podemos verificar

Es decir, que el modelo ajuste demasiado bien a los datos con los que fue entrenado pero no de buenas pedicciones para nuevas observaciones. Sobreajuste significa que un modelo

En un modelo de regresión, cada uno de los pará- metros que acompañan a las variables explicativas indica la variación que sufre el valor esperado de la variable endógena ante

- Errores de medición de la variable dependiente... • Para obtener un modelo útil que nos permita cuantificar “cómo x explica y”, tenemos que responder a las siguientes