Regresión lineal y correlación

Texto completo

(1)

13

O B J E T I V O S

Al concluir el capítulo, será capaz de:

1.  Comprender e interpretar los  términos variable dependiente e  independiente. 2.  Calcular e interpretar el  coeficiente de correlación, el  coeficiente de determinación y el  error estándar de estimación. 3.  Realizar una prueba de hipótesis  para determinar si el coeficiente de  correlación en la población es cero. 4.  Calcular la recta de regresión por  mínimos cuadrados. 5.  Elaborar e interpretar intervalos  de confianza y pronóstico para la  variable dependiente.

Regresión lineal

y correlación

En el ejercicio 61 se listan las películas con los mayores ingresos mundiales y su presupuesto mundial. Determine la correlación entre presupuesto mundial e ingresos mundiales. Comente sobre la asociación entre las dos variables (véase el objetivo 2).

(2)

Introducción

De los capítulo 2 a 4 se aborda la estadística descriptiva. Los datos sin procesar se organizaron en una distribución de la frecuencia, y se calcula-ron varias medidas de ubicación y medidas de dispersión para describir las características importantes de los datos. En el capítulo 5 se inició el estudio de la inferencia estadística. El foco de atención principal fue infe-rir algo acerca de un parámetro poblacional, como la media poblacional, con base en una muestra. Se probó lo razonable de una media poblacio-nal o una proporción poblaciopoblacio-nal, la diferencia entre dos medias poblaciona-les, o si varias medias poblacionales eran iguales. Todas estas pruebas implicaron sólo una variable de intervalo o de nivel de razón, como el peso de una botella de plástico de una bebida de cola, el ingreso de los presidentes de un banco o el número de pacientes admitidos en un hospital.

En este capítulo el hincapié cambia al estudio de dos variables. Recuerde que en el capítulo 4 se presentó la idea de mostrar la relación entre dos variables con diagrama de dispersión. Se graficó el precio de vehículos vendidos en Whitner Autoplex en el eje ver-tical y la edad del comprador en el eje horizontal. Véase la salida del software estadístico en la página 119. En ese caso se observó que, cuando aumentaba la edad del compra-dor, la cantidad gastada en el vehículo también aumentaba. En este capítulo se amplía esta idea. Es decir, se desarrollan medidas numéricas para expresar la relación entre dos variables. ¿Es fuerte o débil la relación, o es directa o inversa? Además, se desarro-lla una ecuación para expresar la relación entre variables, para permitir la estimación de una variable con base en otra. A continuación se presentan algunos ejemplos.

• ¿Existe alguna relación entre la cantidad que Healthtex gasta por mes en publicidad y sus ventas mensuales?

• Con base en el costo de calefacción de una casa en el mes de enero, ¿es posible estimar el área de la casa?

• ¿Hay alguna relación entre las millas por galón que rinde una camioneta grande y el tamaño del motor?

• ¿Hay alguna relación entre el número de horas que estudiaron los alumnos para un examen y la calificación que obtuvieron?

Advierta que en cada uno de los casos anteriores hay dos variables por cada muestra. En el último ejemplo se determinaron, por cada estudiante seleccionado en la muestra, las horas estudiadas y la calificación obtenida.

Este capítulo inicia con el examen del significado y propósito del análisis de corre-lación. Continúa con el desarrollo de una ecuación matemática que permita estimar el valor de una variable con base en el valor de otra: un análisis de regresión. Así, (1) determinaremos la ecuación de la recta que se ajusta mejor a los datos, (2) utilizaremos la ecuación para estimar el valor de una variable con base en otra, (3) mediremos el error en el estimado y (4) estableceremos intervalos de confianza y pronóstico para el estimado.

¿Qué es el análisis de correlación?

El análisis de correlación es el estudio de la relación entre variables. Para explicarlo en otras palabras, suponga que el gerente de ventas de Copier Sales of America, que tiene una fuerza de ventas muy grande en Estados Unidos y Canadá, desea determinar si hay alguna relación entre el número de llamadas de ventas en un mes y el número de copiadoras vendidas ese mes. El gerente selecciona una muestra aleatoria de 10 repre-sentantes de ventas y determina el número de llamadas de ventas que cada uno hizo el Estadística en acción

El transbordador espacial Challenger explotó el 28 de junio de 1986. Una in-vestigación para determinar la causa examinó a cuatro contratistas: Rockwell In-ternational por el transbor-dador y motores, Lockheed Martin por el apoyo terres-tre, Martin Marietta por los tanques de combustible externos y Morton Thiokol por los cohetes aceleradores de combustible sólido. Des-pués de varios meses, en la investigación se determinó responsable de la explosión a los empaques en “O” produ-cidos por Morton Thiokol. Un estudio de los precios accionarios del contratista reveló algo interesante. En el día del accidente, las accio-nes de Morton Thiokol ba-jaron 11.86% y las acciones de los otros tres contratistas sólo perdieron de 2% a 3%. ¿Es posible concluir que en los mercados financieros se anticipó el resultado de la investigación?

(3)

mes pasado y el número de copiadoras vendidas. La información muestral aparece en la tabla 13.1.

Ejemplo

Solución

Copier Sales of America vende copiadoras a empresas de todos tamaños en Esta-dos UniEsta-dos y Canadá. Hace poco ascendieron a la señora Marcy Bancer al puesto de gerente nacional de ventas. A la siguiente junta de ventas asistirán los represen-tantes de ventas de todo el país. Ella desea destacar la importancia de hacer una última llamada de ventas adicional cada día, y decide reunir información sobre la relación entre el número de llamadas de ventas y el número de copiadoras vendidas. Así, selecciona una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas que hicieron el mes pasado y el número de copiadoras que vendieron. La información muestral se reporta en la tabla 13.1 ¿Qué observaciones cabe hacer respecto de la relación entre el número de llamadas de ventas y el núme-ro de copiadoras vendidas? Elabore un diagrama de dispersión para representar la información.

Con base en la información de la tabla 13.1, la señora Bancer sospecha que hay una relación entre el número de llamadas de venta hechas en un mes y el número de copiadoras vendidas. Soni Jones vendió más copiadoras el mes anterior, y fue una de las tres representantes que hicieron 30 llamadas o más. Por otro lado, Susan

Al revisar los datos se observa que parece haber una relación entre el número de llamadas de ventas y el número de unidades vendidas. Es decir, los vendedores que hicieron más llamadas de venta vendieron más unidades. Sin embargo, la relación no es “perfecta” o exacta. Por ejemplo, Soni Jones hizo menos llamadas de ventas que Jeff Hall, pero vendió más unidades.

En lugar de hablar en términos generales, como en el capítulo 4 y hasta este capítu-lo, ahora se desarrollan algunas medidas estadísticas para representar de manera más precisa la relación entre ambas variables: llamadas de ventas y copiadoras vendidas. Este grupo de técnicas estadísticas se denomina análisis de correlación.

La idea básica del análisis de correlación es reportar la asociación entre dos varia-bles. El primer paso habitual es trazar los datos en un diagrama de dispersión. Un ejemplo ilustrará cómo se emplea un diagrama de dispersión.

Número de Número de

Representante de ventas llamadas de ventas copiadoras vendidas

Tom Keller 20 30 Jeff Hall 40 60 Brian Virost 20 40 Greg Fish 30 60 Susan Welch 10 30 Carlos Ramirez 10 40 Rich Niles 20 40 Mike Kiel 20 50 Mark Reynolds 20 30 Soni Jones 30 70

Tabla 13.1 Número de llamadas de ventas y copiadoras vendidas para 10 vendedores

aNÁliSiS de CORRelaCióN Grupo de técnicas para medir la asociación entre dos variables.

(4)

Se requiere información sobre el nivel del intervalo o de la razón

Características de r

Coeficiente de correlación

El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la fuerza de la relación entre dos conjuntos de variables en escala de intervalo o de razón. Se designa con la letra r, y con frecuencia se le conoce como r de Pearson y

coeficien-te de correlación producto-momento. Puede adoptar cualquier valor de –1.00 a +1.00,

inclusive. Un coeficiente de correlación de –1.00 o bien de +1.00 indica una correlación

perfecta. Por ejemplo, un coeficiente de correlación para el caso anterior calculado a

+1.00 indicaría que el número de llamadas de ventas y el número de copiadoras vendi-das están perfectamente relacionados en un sentido lineal positivo. Un valor calculado de –1.00 revela que las llamadas de ventas y el número de copiadoras vendidas están Welch y Carlos Ramirez sólo hicieron 10 llamadas de ventas durante el mes anterior. La señora Welch, junto con otros dos, tuvo el número menor de copiadoras vendidas entre los representantes muestreados.

La implicación es que el número de copiadoras vendidas se relaciona con el número de llamadas de ventas. Conforme aumenta el número de llamadas de venta, parece que el número de copiadoras vendidas también aumenta. De este modo, el número de llamadas de ventas se considera variable independiente, y el de copia-doras vendidas, variable dependiente.

0 10 20 30 40 50 80 70 60 50 40 30 20 10 0 Copiadoras vendidas Llamadas de ventas

GRÁFiCa 13.1 Diagrama de dispersión que representa las llamadas de ventas y las copiadoras vendidas

VaRiable dePeNdieNTe Variable que se predice o estima. Se muestra en el eje Y. VaRiable iNdePeNdieNTe Variable que proporciona la base para la estimación. Es la variable de pronóstico. Se muestra en el eje X.

Es práctica común escalar la variable dependiente (copiadoras vendidas) en el eje vertical o Y y la variable independiente (número de llamadas de ventas) en el eje horizontal o X. Para elaborar un diagrama de dispersión de la información de Copier Sales of America, inicie con el primer representante de ventas, Tom Keller, quien hizo 20 llamadas de ventas el mes anterior y vendió 30 copiadoras, por tanto, X = 20 y Y = 30. Para trazar esta información, a partir del origen vaya por el eje horizontal has-ta el valor X = 20, después haga lo mismo en el eje vertical hashas-ta Y = 30 y marque un punto en la intersección. Continúe este proceso hasta que trace todos los datos pareados, como se muestra en la gráfica 13.1.

El diagrama de dispersión muestra en forma gráfica que los representantes con más llamadas tienden a vender más copiadoras. Es razonable que la señora Bancer, gerente nacional de ventas en Copier Sales of America, diga a sus vendedores que, entre más llamadas de ventas hagan, se espera que vendan más copiadoras. Observe que, aun-que parece haber una relación positiva entre las dos variables, no todos los puntos se encuentran en una recta. En la siguiente sección se miden la fuerza y la dirección de esta relación entre dos variables, para determinar el coeficiente de correlación.

(5)

Ejemplos de grados de correlación X Y X Y r = –1.00 r = +1.00

Correlación negativa perfecta Recta con pendiente

negativa

Correlación positiva perfecta

Recta con pendiente positiva

perfectamente relacionados en un sentido lineal inverso. En la gráfica 13.2 se muestra cómo aparecería el diagrama de dispersión si la relación entre los dos conjuntos de datos fuera lineal y perfecta.

Si no hay ninguna relación entre los dos conjuntos de variables, la r de Pearson es cero. Un coeficiente de correlación r cercano a 0 (sea 0.08) indica que la relación lineal es muy débil. Se llega a la misma conclusión si r = –0.08. Los coeficientes de –0.91 y + 0.91 tienen una fuerza igual; los dos indican una correlación muy fuerte entre las dos variables. Por tanto, la fuerza de la correlación no depende de la dirección (ya sea – o

bien +).

En la gráfica 13.3 se muestran los diagramas de dispersión para r = 0, una r débil (sea –0.23), y una r fuerte (sea +0.87). Observe que, si la correlación es débil, se pre-senta una dispersión considerable respecto de la recta trazada a través del centro de los datos. Para el diagrama de dispersión que representa una fuerte relación, hay muy poca dispersión respecto de la recta. Esto indica, en el ejemplo que se muestra en la gráfica, que las horas estudiadas constituyen un factor de pronóstico de la calificación en el examen.

GRÁFiCa 13.2 Diagramas de dispersión con correlación negativa perfecta y correlación positiva perfecta

(6)

En la siguiente gráfica se resume la fuerza y la dirección del coeficiente de correla-ción. Correlación positiva 0.50 1.00 –0.50 –1.00 0 Correlación negativa Correlación negativa moderada Correlación negativa perfecta Correlación negativa débil Correlación negativa fuerte Correlación positiva moderada No hay correlación Correlación positiva perfecta Correlación positiva débil Correlación positiva fuerte llamadas de Copiadoras

Representantes ventas vendidas,

de ventas (X ) (Y ) Tom Keller 20 30 Jeff Hall 40 60 Brian Virost 20 40 Greg Fish 30 60 Susan Welch 10 30 Carlos Ramirez 10 40 Rich Niles 20 40 Mike Kiel 20 50 Mark Reynolds 20 30 Soni Jones 30 70 Total 220 450

Las características del coeficiente de correlación se resumen a continuación.

¿Cómo se determina el coeficiente de correlación? Como ejemplo, emplee los datos de Copier Sales of America, que se reportan en la tabla 13.2. Inicie con un diagrama

Tabla 13.2 Llamadas de ventas y copiadoras vendidas de 10 vendedores

COeFiCieNTe de CORRelaCióN Medida de la fuerza de la relación lineal entre dos variables.

CaRaCTeRÍSTiCaS del COeFiCieNTe de CORRelaCióN

1. El coeficiente de correlación de la muestra se identifica por la letra minúscula r.

2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en escala de intervalo o en escala de razón.

3. Varía de –1 hasta +1, inclusive.

4. Un valor cercano a 0 indica que hay poca asociación entre las variables. 5. Un valor cercano a 1 indica una asociación directa o positiva entre las

variables.

6. Un valor cercano a –1 indica una asociación inversa o negativa entre las variables.

(7)

de dispersión, similar a la gráfica 13.2. Se traza una recta vertical con los valores de datos en la media de los valores X y una recta horizontal en la media de los valores Y. En la gráfica 13.4 se agregó una recta en 22.0 llamadas (X = ∑X n/ =220 10 22 y / = ) una recta horizontal en 45.0 copiadoras (Y = ∑Y n/ =450 10 45 0 . Estas rectas pasan / = . ) por el “centro” de los datos y dividen el diagrama de dispersión en cuatro cuadrantes. Considere mover el origen de (0, 0) a (22, 45).

Dos variables tienen una relación positiva cuando el número de copiadoras vendi-das está por arriba de la media y el número de llamavendi-das de ventas también se encuentra arriba de la media. Estos puntos aparecen en el cuadrante superior derecho (cuadrante I) de la gráfica 13.4. De manera similar, cuando el número de copiadoras vendidas es menor que la media, también lo es el número de llamadas de ventas. Estos puntos se encuentran en el cuadrante inferior izquierdo de la gráfica 13.2 (cuadrante III). Por ejemplo, la última persona en la lista de la tabla 13.2, Soni Jones, hizo 30 llamadas de ventas y vendió 70 copiadoras. Estos valores se encuentran arriba de sus medias res-pectivas, por tanto, este punto se ubica en el cuadrante I, que es el cuadrante superior derecho. Soni hizo 8(X X− =30 22− ) más llamadas de ventas que la media y vendió 25(Y Y− =70 45− ) más copiadoras que la media. Tom Keller, el primer nombre en la lista de la tabla 13.2, hizo 20 llamadas y vendió 30 copiadoras. Ambos valores son menores que sus respectivas medias, por lo que este punto se ubica en el cuadrante inferior derecho. Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias res-pectivas. Las desviaciones del número medio de llamadas de ventas y para el número medio de copiadoras vendidas se resumen en la tabla 13.3 para los 10 representantes de ventas. La suma de los productos de las desviaciones de las medias respectivas es 900. Es decir, el término ∑(X X Y Y− )( − )=900 .

En los cuadrantes superior derecho e inferior izquierdo, el producto de (X X Y Y− )( − ) es positivo debido a que los dos factores tienen el mismo signo. En el ejemplo, esto

0 10 20 30 40 50 80 70 60 50 40 30 20 10 0 X = 22 Y = 45 IV III II I Copiadoras vendidas ( Y ) Llamadas de ventas (X )

Representante de ventas llamadas, X Ventas, Y X – X Y – Y (X – X_)(Y – Y_)

Tom Keller 20 30 –2 –15 30 Jeff Hall 40 60 18 15 270 Brian Virost 20 40 –2 –5 10 Greg Fish 30 60 8 15 120 Susan Welch 10 30 –12 –15 180 Carlos Ramirez 10 40 –12 –5 60 Rich Niles 20 40 –2 –5 10 Mike Kiel 20 50 –2 5 –10 Mark Reynolds 20 30 –2 –15 30 Soni Jones 30 70 8 25 200 900

Tabla 13.3 Desviaciones de la media y sus productos GRÁFiCa 13.4 Cálculo del coeficiente de correlación

(8)

sucede con todos los representantes, excepto Mike Kiel. Por tanto, se espera que el coeficiente de correlación tenga un valor positivo.

Si las dos variables tienen una relación inversa, una variable estará arriba de la media y la otra debajo de la media. La mayoría de los puntos en este caso suceden en los cuadrantes superior izquierdo e inferior derecho, es decir, en los cuadrantes II y IV. Ahora (X X− ) y (Y Y− ) tendrán signos opuestos, y su producto será negativo. El coefi-ciente de correlación resultante es negativo.

¿Qué sucede si no hay una relación lineal entre las dos variables? Los puntos en el diagrama de dispersión aparecerán en los cuatro cuadrantes. Los productos negativos de (X X Y Y− )( − equilibran los productos positivos, por lo cual la suma casi es cero. ) Esto conduce al coeficiente de correlación cercano a cero.

Es necesario también que el coeficiente de correlación no se afecte por las unida-des de las dos variables. Por ejemplo, si se hubieran empleado cientos de copiadoras vendidas en lugar del número vendido, el coeficiente de correlación sería el mismo. El coeficiente de correlación es independiente de la escala empleada si se divide el término ∑(X X Y Y entre las desviaciones estándar muestrales. También se hace − )( − ) independiente del tamaño muestral y está acotado por los valores +1.00 y –1.00 si se divide entre (n – 1).

Este razonamiento conduce a la siguiente fórmula:

Para calcular el coeficiente de correlación, se utilizan las desviaciones estándar de la muestra de 10 llamadas de ventas y 10 copiadoras vendidas. Se puede emplear la fórmula (3.12) para calcular las desviaciones estándar muestrales o un paquete de software estadístico. Para los comandos específicos en Excel y MINITAB vea la sección “Comandos de software” al final del capítulo 3. La siguiente es la salida en pantalla de Excel. La desviación estándar del número de llamadas de ventas es 9.189, y del número de copiadoras vendidas, 14.337.

Ahora se sustituyen estos valores en la fórmula (13.1) para determinar el coeficiente de correlación: r X X Y Y n s sx y = ∑ − − − = − ( )( ) ( 1) ( )( . )( . 900 10 1 9 189 14 3337)=0 759.

¿Cómo se interpreta una correlación de 0.759? Primero, es positiva, por lo que se observa una relación directa entre el número de llamadas de ventas y el número de

COeFiCieNTe de CORRelaCióN r X X Y Y [13.1] n s sx y = ∑ − − − ( )( ) ( 1)

(9)

copiadoras vendidas. Esto confirma el razonamiento basado en el diagrama de disper-sión, gráfica 13.4. El valor de 0.759 está muy cercano a 1.00, y por ende se concluye que la asociación es fuerte.

Debe tener mucho cuidado con la interpretación. La correlación de 0.759 indica una asociación positiva fuerte entre las variables. La señora Bancer acierta al motivar al personal de ventas para hacer llamadas adicionales, debido a que el número de llamadas de ventas hechas se relaciona con el número de copiadoras vendidas. Sin embargo, ¿más llamadas de ventas ocasionan más ventas? No, aquí no se ha demostrado la causa y el efecto, sólo que hay una relación entre las dos variables, llamadas de ventas y copiadoras vendidas.

El coeficiente de determinación

En ejemplo anterior, la relación entre el número de llamadas de ventas y las unidades vendidas, el coeficiente de correlación, 0.759, se interpretó como “fuerte”. Sin embargo, los términos débil, moderado y fuerte no tienen un significado exacto. Una medida cuyo significado se interpreta con más facilidad es el coeficiente de determinación. Éste se calcula elevando al cuadrado el coeficiente de correlación. Entonces, en dicho ejemplo, el coeficiente de correlación, r2, es 0.576, determinado por (0.759)2. Ésta es una proporción

o un porcentaje; es posible decir que 57.6% de la variación en el número de copiadoras vendidas se explica, o contabiliza, por la variación en el número de llamadas de ventas.

Más adelante, en este capítulo, se hace un análisis más detallado del coeficiente de determinación.

Correlación y causa

Si hay una relación fuerte (sea 0.91) entre dos variables, es factible suponer que un aumento o una disminución en una variable causa un cambio en la otra variable. Por ejemplo, se puede demostrar que el consumo de cacahuates de Georgia y el consumo de aspirina tienen una correlación fuerte. Sin embargo, esto no indica que un aumento en el consumo de cacahuates causó que creciera el consumo de aspirina. De igual forma, los ingresos de profesores y el número de pacientes en instituciones psiquiátri-cas han aumentado en forma proporcional. Además, conforme disminuye la población de burros, aumenta el número de grados doctorales otorgados. Las relaciones de este tipo se denominan correlaciones espurias. Lo que se puede concluir cuando se tienen dos variables con fuerte correlación es que hay una relación o asociación entre ambas variables, no que un cambio en una ocasiona un cambio en la otra.

COeFiCieNTe de deTeRMiNaCióN Proporción de la variación total en la variable dependiente Y que se explica, o contabiliza, por la variación en la variable dependiente X.

autoevaluación 13.1 Haverty’s Furniture es un negocio familiar que vende a clientes minoristas en el área de Chicago desde hace muchos años. La compañía se anuncia ampliamente en radio, televisión e Internet, destacando sus precios bajos y términos fáciles de crédito. El propietario desea analizar la rela-ción entre las ventas y la cantidad monetaria gastada en publicidad. A continuarela-ción se presenta la información de las ventas y de los gastos publicitarios durante los últimos cuatro meses.

a) El propietario desea pronosticar las ventas con base en los gastos publicitarios. ¿Cuál es la

variable dependiente? ¿Cuál es la variable independiente?

Gastos publicitarios ingresos por ventas Mes (en millones de dólares) (en millones de dólares)

Julio 2 7

Agosto 1 3

Septiembre 3 8

Figure

Actualización...

Referencias

Actualización...

Related subjects :