REGRESIÓN Y CORRELACIÓN LINEAL

Texto completo

(1)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

REGRESIÓN Y CORRELACIÓN LINEAL

AUTOR: Camilo H. Cohecha Torres. Licenciado en Matemáticas. Ingeniero de

Sistemas.

TEMA: Regresión y correlación lineal. LOGROS:

Determinar y aplicar el modelo de regresión lineal en la predicción de valores. Aplicar la regresión lineal para el pronóstico en series de tiempo.

Usar Excel en el modelo de regresión y correlación lineal.

CONDUCTA DE ENTRADA:

1. Dada la función f(x) = 8 – 5 x a. Identificar la pendiente.

b. Identificar el intercepto con el eje y. c. Realizar la gráfica.

2. Realizar un gráfico de una función lineal para cada una de las siguientes condiciones:

a. Pendiente positiva. b. Pendiente negativa. c. Pendiente igual a cero.

CRITERIOS DE EVALUACIÓN:

En la parte final de la guía encuentras una serie de ejercicios, los cuales se evalúan por parte del docente junto con la temática, a la semana siguiente de la realización de esta en una estructura similar a la presentada.

TIEMPO DE EJECUCIÓN:

La guía se realiza en una sesión de clase. En la siguiente clase entregará al docente los ejercicios propuestos y en la clase de la semana siguiente el docente la evalúa.

(2)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A TEMATICA:

REGRESIÓN Y CORRELACIÓN LINEAL

Si se dispone de dos series de datos emparejadas, con frecuencia se desea conocer si ambas variables están relacionadas o si son independientes. Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto? ó ¿será que existe alguna relación entre la talla y el peso de una persona?

A continuación, representaremos la relación entre dos variables mediante una gráfica llamada diagrama de dispersión, luego, estableceremos un modelo matemático para estimar el valor de una variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión y finalmente estudiaremos el grado de relación existente entre las variables en lo que llamaremos análisis de correlación. La relación existente entre dos variables puede ser lineal, cuadrática, exponencial, logarítmica, etc. En este documento vamos a centrarnos en la posible relación lineal entre dos variables.

DIAGRAMA DE DISPERSIÓN

RECTA DE REGRESIÓN

Se llama así a la recta que atraviesa la nube de puntos y que mejor se ajusta a ellos. El modelo matemático que describe una relación lineal cuando se estima el valor de Y en función de x esta dada así, Y = bx + c ó Y = 1x + 0, o Y = Bx

+ A. (Esta última notación es la empleada en las calculadoras CASIO) Donde:

Y es la variable que se va a estimar en función de otra variable (x) que se supone conocida. Se le denomina también como variable dependiente, explicada o predictando.

x es la variable cuyo valor supuestamente se conoce, se le denomina variable independiente, predictor o explicativa.

En un plano cartesiano se representan tantos puntos como pares de observaciones se tengan, correspondiendo cada punto a un par de observaciones; a esta representación gráfica se le denomina indistintamente diagrama de esparcimiento o nube de puntos.

(3)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

b = 1 es la pendiente o sea la que determina el ángulo de inclinación de la recta.

Denominada coeficiente angular, cuantificando la cantidad que aumenta o decrece Y por cada unidad que aumente o disminuya la variable independiente x.

El coeficiente angular puede representarse así:

b > 0 b < 0 b = 0

EJEMPLOS:

Si b es positivo indica que la recta es ascendente. Si b es negativo la recta será descendente y si b es igual a cero será una paralela al eje horizontal.

c = 0, corresponde al coeficiente de posición. Es el valor donde la recta

intercepta al eje Y. Puede ser mayor, menor o igual a 0.

Se debe encontrar la línea que represente al conjunto de puntos, para lograr esto se deben determinar los coeficientes de regresión muestrales (Coeficiente angular y de posición) que son estimadores de los parámetros o coeficientes de regresión poblacional. Los valores de b y c corresponden a aquellos que hacen que los Yi

sean lo más cercanos posibles a los valores observados yi, para determinarlos lo

más indicado es aplicar el método de los mínimos cuadrados. CRITERIO DE LOS MÍNIMOS CUADRADOS:

En el método de los mínimos cuadrados se emplean los datos de la muestra para determinar los valores de b y c que minimizan la suma de los cuadrados de las desviaciones entre los valores observados de la variable dependiente yi, y los

valores estimados de la variable dependiente, Yi. Este criterio se puede expresar

así:

Mín ( yi – Yi)2

Siendo

yi = valor observado de la variable dependiente para la i-ésima observación.

(4)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

Aplicando el cálculo diferencial se puede demostrar que los valores de b y c que minimizan la anterior expresión se pueden determinar con las siguientes ecuaciones:

El valor de b, se puede obtener mediante otras fórmulas, la consulta de las cuales se deja como ejercicio.

PREDICCIÓN:

Uno de los fines al obtener la ecuación de regresión es el poder emplearla para predecir el valor de y para determinado valor de x. Se debe tener precaución al aplicar la ecuación de regresión para hacer predicciones fuera del intervalo de valores de la variable independiente, porque fuera de él no se puede asegurar que sea válida la misma relación.

En el análisis de correlación, se determina el grado de relación que puede haber entre dos variables. Este grado de correlación lo obtenemos mediante el cálculo del Coeficiente de correlación.

COEFICIENTE DE CORRELACIÓN:

Denominado coeficiente de correlación lineal de Pearson y simbolizado por r o R, es una medida de interdependencia de dos variables aleatorias, y su valor oscila entre –1 y +1.

Su cálculo se puede realizar mediante la aplicación de la siguiente fórmula:

Donde:

 

   n x x n y x y x b i i i i i i 2 2 x b y c  y x xy s s m r

(5)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

El valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa (mayores valores de x, significan mayores valores de y) y se aproxima a –1 cuando la relación tiende a ser lineal inversa.

Si no hay correlación de ningún tipo entre dos variables aleatorias, entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo el que ocurra que r= 0, sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo.

El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables:

COEFICIENTE DE DETERMINACIÓN:

Denominamos coeficiente de determinación R2 como el coeficiente que nos indica

el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variación de Y que se explica a través del modelo lineal que se ha estimado, es decir a través del comportamiento de X. A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y.

2 2 2 2 cov y n y s x n x s y x n xy arianza m i y i x xy       

Correlación negativa perfecta Correlación negativa moderada Ninguna

correlación Correlación positiva perfecta Correlación positiva moderada Correlación negativa fuerte Correlación positiva fuerte Correlación positiva débil Correlación negativa débil 0 0.5 – 0.5 – 1 1

(6)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

También se puede entender este coeficiente de determinación como el porcentaje de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y es igual al cuadrado del coeficiente de correlación (r).

R2 = r2

Es una medida de la proximidad o de ajuste de la recta de regresión a la nube de puntos. También se le denomina bondad del ajuste.

1 - R2 nos indica qué porcentaje de las variaciones no se explica a través del

modelo de regresión, es como si fuera la varianza inexplicada que es la varianza de los residuos.

EJEMPLO:

Los siguientes datos fueron recopilados por un gerente de ventas y corresponden a los años de experiencia y las ventas anuales de 5 de sus empleados:

Años de experiencia 6 12 15 21 24 Ventas anuales ($

millones) 38 68 83 113 128 Tomamos los años de experiencia como variable independiente.

A continuación se presentan los cálculos necesarios para determinar la ecuación de regresión con cuadrados mínimos. vendedor i xi yi xi yi xi2 Y i2 1 6 38 228 36 1444 2 12 68 816 144 4624 3 15 83 1245 225 6889 4 21 113 2373 441 12769 5 24 128 3072 576 16384 Totales 78 430 7734 1422 42110 Aplicando la fórmula: Se obtiene

 

   n x x n y x y x b i i i i i i 2 2

(7)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A b = 5.

El cálculo de la ordenada al origen (c) es el siguiente:

= 86 – 5(15.6) = 8.

Por lo anterior, la función estimada de regresión, deducida con el método de los mínimos cuadrados, es

Y = 5X + 8

La pendiente de la función de regresión (b = 5) es positiva, lo cual implica que al aumentar los años de experiencia, las ventas también aumentan. De hecho, en este ejemplo, posemos llegar a la conclusión que las ventas aumenten en $ 5 millones por cada año de experiencia.

Si quisiéramos predecir el valor de las ventas anuales para un empleado que tiene 20 años de experiencia, el resultado sería:

Y = 5(20) + 8 = 108

En consecuencia, predeciríamos ventas anuales de 108 millones de pesos para este empleado.

A continuación, se analizará si el modelo desarrollado si es el adecuado para estimar y predecir. 5 ) 78 ( 1422 5 ) 430 )( 78 ( 7734 2    b 86 5 430 6 . 15 5 78      

n y y n x x i i x b y c 

(8)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

Para hallar el coeficiente de correlación, se determinará primero la covarianza:

Se hallan las desviaciones típicas:

Luego el coeficiente de correlación es

En este caso se tiene que las dos variables x (años de experiencia) y y (Ventas anuales) una relación lineal positiva perfecta. Esto es, todos los puntos de datos están en una recta con pendiente positiva (5).

El coeficiente de determinación en este caso también es igual a 1. Expresándolo de manera porcentual se tiene el 100%, lo cual significa que el 100% de la variación en las ventas se puede explicar con la relación lineal entre la experiencia y las ventas. y x n xy arianza mxy   

cov 2 . 205 ) 86 )( 6 . 15 ( 5 7734 cov     arianza mxy 1026 2 ) 86 ( 5 42110 2 2 04 . 41 2 ) 6 . 15 ( 5 1422 2 2          

y n y s x n x s i y i x 1 1026 04 . 41 2 . 205    y x xy s s m r

(9)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

USO DE LA CALCULADORA EN LA REGRESIÓN LINEAL

Si se dispone de una calculadora casio fx-3500p ó fx-3600p se pueden ejecutar los siguientes pasos, los cuales se van explicando tomando como modelo el ejemplo resuelto:

1. Oprimir las teclas mode 2 y en la pantalla debe aparecer LR (Regresión Lineal).

2. Con las teclas INV AC se borra la información que puede haber de trabajos anteriores. Para constatar el borrado, oprimir las teclas KOUT 3 y debe aparecer 0 en la pantalla. Si aparece otro número se repite el procedimiento. 3. Se introduce la información con la tecla [(... para la variable X, y con RUN

para la variable Y. Teniendo en cuenta que primero es X1, luego [(..., a

continuación Y1 RUN. Luego X2 [(... , Y2 RUN, y así sucesivamente. No debe

haber equivocación al introducir los datos.

4. Introducida la información se comprueba, en parte, si la operación fue realizada correctamente oprimiendo KOUT 3, debe aparecer el número de parejas introducidas, en este caso 5.

5. Con la tecla KOUT y las teclas (1, 2, 3, 4, 5, 6) se obtiene lo que aparece en negrilla debajo de cada una de las teclas, así:

KOUT 1 = xi2 = 1422. KOUT 2 = xi = 78. KOUT 3 = n = 5. KOUT 4 = yi2 = 42110. KOUT 5 = yi = 430. KOUT 6 =  xi yi = 7734.

6. Con la tecla INV y las teclas del 1 al 9 se obtiene lo que aparece señalado en rojo o anaranjado debajo de cada tecla.

INV 1 = media de X = 15.6

INV 2 = nx = nS x = 6.41 (6.406246951). Corresponde a la desviación

típica, elevando al cuadrado se obtiene la varianza Sx2 = 41.04

INV 3 = n-1x = n-1S x = 7.16 (7.162401832)

INV 4 = media de Y = 86

INV 5 = ny = nS y = 32.03 (32.03123476). La varianza Sy2= 1026

(10)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

El coeficiente de posición c se obtiene con INV 7 siendo igual a 8 y el coeficiente angular b con INV 8 igual a 5, con lo cual se tiene la función estimada de regresión Y = 5x + 8.

El coeficiente de correlación se obtiene con INV 9 siendo igual a 1.

APLICACIÓN DE EXCEL EN LA REGRESIÓN LINEAL

Excel dispone de funciones que permiten trabajar con coeficientes correlación, regresión y otros conceptos sobre variables multidimensionales.

Para ver las funciones de la categoría Estadística, se hace clic sobre el icono insertar función, fx, de la barra de fórmulas (o se elige la opción Insetar función

del menu Insertar), en la opción categoría de la función se elige Estadísticas, presentándose todas las funciones de dicha categoría en el cuadro Nombre de la función.

(11)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A A B 1 xi yi 2 6 38 3 12 68 4 15 83 5 21 113 6 24 128

Si en el cuadro Nombre de la función hacemos clic sobre una función, por ejemplo la función COEF.DE.CORREL, se obtiene el siguiente cuadro. Una vez completados los argumentos (Variables X e Y) se obtiene el resultado en la parte inferior. Al pulsar Aceptar, la fórmula y su resultado se insertan en la celda activa de la hoja de cálculo.

A continuación, se presenta una relación de las funciones de Excel para correlación y regresión, acompañada de los resultados para el ejemplo que venimos trabajando para las variables X e Y de la hoja de cálculo cuyos valores ocupan los rangos A2:A6 y B2:B6. Para algunas funciones se presenta la caja correspondiente.

(12)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A

FUNCIÓN VALOR QUE DEVUELVE RESULTADO EN EL

EJEMPLO COVAR(X;Y) Devuelve la covarianza de x e y definida

por 205.2

COEF.DECORREL(X;

(13)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A COEFICIENTE.R2(Y; X) Da el coeficnete de determinación de y en x. 1 PENDIENTE(Y;X) Da la pendiente de la línea de regresión

de y sobre x. (Coeficiente angular) 5 INTERSECCION.EJE(

Y;X) Da la ordenada en el origen de la línea de regresión de y sobre x. (Coeficiente de posición)

8

PRONOSTICO(x;

Y;X) Halla la predicción según la línea de regresión de y sobre x para el valor k de la variable independiente.

Si x=20 entonces y = 108

(14)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A EJERCICIOS:

1. A continuación se presentan cinco observaciones de dos variables, X y Y.

xi 2 4 7 9 11

yi 24 30 31 36 40

a. Trace un diagrama de dispersión de datos.

b. ¿Que indica el diagrama trazado en el inciso a acerca de la relación entre las dos variables?

c. Trate de aproximar la relación entre x y y.trazando una recta que pase por los datos.

d. Forme la ecuación estimada de regresión calculando los valores de b y c.

e. Aplique la ecuación estimada de regresión para predecir el valor de y

cuando x = 6.

2. Se ha realizado una observación a cinco familias respecto a el número de

integrantes (x) y sus gastos mensuales (y) en agua en miles de pesos:

xi 2 5 7 8 10

yi 30 42 55 75 97

a. Hallar la recta de regresión.

b. ¿Cuanto se espera que gaste una familia si esta constituida por 6 personas? c. Hallar el coeficiente de correlación y concluir.

d. Hallar el coeficiente de determinación y concluir.

3. Se dispone de 7 parejas de datos para los cuales se sabe: n = 7 x = 420,6 y = 5958,7 x y = 500073,09 x 2 = 35119,7 y 2 = 7213831,23

a. Hallar la recta de regresión.

b. Hallar el coeficiente de correlación y concluir. c. Hallar el coeficiente de determinación y concluir.

4. En el semestre inmediatamente anterior el profesor de Estadística registro los

puntajes obtenidos por sus estudiantes en una prueba inicial (de conocimientos elementales) y la nota definitiva en la materia en dicho semestre. Los resultados fueron los siguientes

(15)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A Estudiante 1 2 3 4 5 6 7 8 9 1 0 Puntaje Prueba inicial 3

9 43 21 47 2 25 32 3 4 15 Definitiva 3

5 37 29 42 29 31 33 32 36 25 a. Elabore el diagrama de dispersión.

b. Obtenga la ecuación de la recta de regresión.

c. Si un estudiante obtuvo en la prueba inicial 45, ¿cuál sería la nota definitiva que se espera obtenga al final del semestre?

d. Si un estudiante obtuvo en definitiva 4.0, ¿qué edad puntaje habría obtenido en la prueba inicial?

5. Nota: Use Excel o una calculadora para resolver el siguiente problema:

Una compañía que fabrica partes para maquinaria quiere desarrollar un modelo para estimar el número de horas - trabajador requeridas para corridas de producción de lotes de diversos tamaños. Se selecciona una muestra aleatoria de 18 corridas de producción (2 para cada tamaño de lote de 10, 20, 30, 40, 50, 60, 70, 80 y 90) y se obtienen los siguientes resultados:

TAMAÑO DEL LOTE HORAS – TRABAJADOR TAMAÑO DEL LOTE HORAS – TRABAJADOR

10 30 50 112 10 40 60 128 20 50 60 135 20 55 70 148 30 73 70 160 30 67 80 170 40 87 80 162 40 95 90 180 50 108 90 190

a. Grafique el diagrama de dispersión.

b. Suponga una relación lineal y utilice al método de mínimos cuadrados para encontrar los coeficientes de regresión A y B.

c. Interprete el significado de la ordenada A y la pendiente B en este problema.

d. Pronostique el número promedio de horas – trabajador requeridas para una corrida de producción con un tamaño de lote de 45.

e. ¿Por qué no es adecuado predecir el número promedio de horas – trabajador para una corrida de producción de un lote de tamaño 100? Explique.

f. Suponga que las horas – trabajador para el lote de tamaño 60 son 117 y 119. Resuelva los incisos a. y d. con estos valores y compare los resultados.

(16)

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES E S T A D I S T I C A BIBLIOGRAFIA:

ANDERSON, David. SWEENEY, Dennis. WILLIAMS, Thomas. Estadística para administración y economía. México: Thomson, séptima edición. 1999.

BERENSON Mark. LEVINE David. KREHBIEL Timothy. Estadística para administración. México: Prentice Hall, Segunda edición. 2000.

CHAO LINCOLN. Estadística para ciencias administrativas. Bogotá: Mc Graw Hill, tercera edición. 1993.

MARTINEZ Bencardino Ciro. Estadística y Muestreo. Bogotá: Ecoe ediciones, décima edición. 2000.

SPIEGEK, Murray R. Teoría y problemas de Estadística. Bogotá: Mc Graw Hill. MASSON y LIND. Estadística para administración y economía. Alfaomega.

PORTUS, Lincoyan. Curso práctico de estadística. Ed. Mc Graw Hill. FREUND, John. Estadística Elemental. Ed Prentice Hall.

Figure

Actualización...

Referencias

Actualización...

Related subjects :