SEMANA 6
TEMAS SEMANA 6:
a) Correlación
b) Correlación producto momento de Pearson c) Correlación de rango de Spearman
¿Cómo determino cuál es la Variable Dependiente (VD) y cuál es la Variable Independiente (VI) en un ejercicio de correlación?
Una forma de determinar las variables es desde el punto de vista de la causalidad: relación de causa-efecto.
Definiciones:
Variable dependiente: Se asume como el efecto. Esta variable es la que el investigador estudia, la cual varia según los cambios que se produzcan en la variable independiente.
Variable independiente: Se asume como la causa por la que se supone que ocurren cambios en un fenómeno o situación.
Ejemplos:
Variable dependiente
EFECTO
Variable independiente
CAUSA
Explicación
Contaminación Número de autos
en circulación La contaminación (VD) sería la variable que el investigador estudia, asumiendo que entre más autos en circulación (VI), los índices de contaminantes del aire incrementan.
Calificación Horas de estudio Se determina que los estudiantes que dedican mayor horas de dedicación al estudio (VI) son los que obtienen mayor calificación (VD).
Por lo anterior, cuando quieras determinar cuál es la variable dependiente y cual es la variable independiente, pregunta lo siguiente:
¿Cuál es la causa y cuál es el efecto?
- Variable dependiente- EFECTO - Variable independiente- CAUSA
¿Cómo se realiza una gráfica de correlación de dos variables y cómo se interpreta?
La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión, donde cada dato es representado como un punto en el plano.
Para ejemplificar el procedimiento tomaremos el siguiente ejemplo: Una heladería le da seguimiento a sus ventas con respecto a la temperatura máxima diaria. El estudio se realiza por doce días consecutivos. Los datos son los siguientes:
Temp
(oC) 14.2 16.4 11.9 15.2 18.5 22.1 19.4 25.1 23.4 18.1 22.6 17.2 Ventas
($) 215 325 185 332 406 522 412 614 544 421 445 408
Cómo hacer un diagrama de dispersión paso a paso en Excel
Paso 1: identificación de variables. Determina cuál es la situación y determina las variables a estudiar. Identifica la variable dependiente e independiente.
En el ejemplo ya tenemos definida la situación Se quiere establecer si existe relación entre las ventas helados y la temperatura máxima diaria, asimismo, se identifican las variables de la siguiente forma:
¿Cuál es la causa y cuál es el efecto?
- Variable dependiente- EFECTO- Ventas
- Variable independiente- CAUSA- Temperatura
Paso 2: ordenar datos
Identifica los datos a graficar. Si ya los tienes, perfecto, de lo contrario tendrás que recolectarlos y ordenarlos en una tabla.
Se recomienda ordenarlos en dos columnas de la siguiente forma (en la primera columna la variable independiente y en la segunda columna la variable dependiente)
Nombre de la variable independiente
Nombre de la variable dependiente
valores valores
valores valores
O también los puedes ordenar en dos filas forma (en la primera fila la variable independiente y en la segunda fila la variable dependiente)
Nombre de la variable
independiente valores valores Nombre de la variable
dependiente valores valores
Nota: el orden que darás a las variables en tu tabla es importante para aegurarte que se cumpla con lo siguiente:
- La variable dependiente se grafica en el eje Y - La variable independiente se grafica en el eje X
En el ejemplo, ya los tenemos ordenados, primero la variable independiente (temperatura) y luego la variable dependiente (ventas):
Temp
(oC) 14.2 16.4 11.9 15.2 18.5 22.1 19.4 25.1 23.4 18.1 22.6 17.2 Ventas
($) 215 325 185 332 406 522 412 614 544 421 445 408
Paso 3: Seleccionar la región de celdas con los datos de las 2 variables a gráficar.
Paso 4: Ir al menú Insertar, en el grupo gráficos, haga clic en dispersión.
Paso 4a: Haz clic en dispersión sólo con marcadores
Como resultado del ejemplo obtendrás la siguiente gráfica:
Paso 5: Editar gráfica (RECOMENDABLE)
Paso 5a) Dar formato a ejes. Debido a que las gráficas inician desde el valor 0 tanto para el eje x como para el eje 10, es recomendable editar las escalas de los eje, para ello, poscionate en el eje x da clic derecho con el mouse y selecciona “Dar formato a eje”, edita el valor de límite Mínimo. (Haz lo mismo para eje y).
Paso 5b) Agregar etiquetas a los ejes y cambia título de gráfica Paso 5c) Editar estilo de la gráfica
Paso 5d) Puedes agregar una línea de tendencia Listo, ¡así quedaría la gráfica editada!
¿Cómo realizo un cálculo de correlación de Pearson?
Fórmula
𝒓 = 𝒏 ∑ 𝒙𝒚 − (∑ 𝒙)(∑ 𝒚)
√𝒏 ∑ 𝒙𝟐 − (∑ 𝒙)𝟐√𝒏 ∑ 𝒚𝟐 − (∑ 𝒚)𝟐
Ejemplo: vamos a suponer que se que se quiere saber el grado de correlación de los errores acumulados de los empleados en el último mes con respecto a los años de antigüedad. Se tienen los siguientes datos:
Empleado
Años de antigüedad
x
Errores cometidos
y
1 4 10
2 2 20
3 3 12
*Es importante tener en una tabla los valores de las variables relacionadas.
Primer paso. Agregar fila de total y columnas a la tabla a modo de tener todas las variables que emplearemos en la fórmula:
Agregamos:
- Una fila de total
- Una columna de xy
Paso 2. Total para x y y
∑ 𝑥 = 4 + 2 + 3 = 9
∑ 𝑦 = 10 + 20 + 12 = 42
Paso 3. Calculamos cada una de las literales Para la columna x2
42 = 16 22 = 4 32 = 9
∑ 𝑥2 = 16 + 4 + 9 = 29
Para la columna y2
102 = 100 202 = 400 122 = 144
∑ 𝑦2 = 100 + 400 + 144 = 544
Para la columna xy (se multiplica cada x por el valor de y) (4)(10) = 40
(2)(20) = 40 (3)(12) = 36
∑ 𝑥𝑦 = 40 + 40 + 36 = 116 En el cuadro se visualizaría de la siguiente forma:
Empleado x y x2 y2 xy
1 4 10 16 100 40
2 2 20 4 400 40
3 3 12 9 144 36
Total 9 42 29 644 116
Paso 5: sustituímos valores en la fórmula y hacemos cada cálculo de manera ordenada.
𝒓 = (𝟑 ∗ 𝟏𝟏𝟔) − (𝟗)(𝟒𝟐)
√(𝟑 ∗ 𝟐𝟗) − (𝟗)𝟐∗ √(𝟑 ∗ 𝟔𝟒𝟒) − (𝟒𝟐)𝟐 NUMERADOR
(𝟑 ∗ 𝟏𝟏𝟔) − (𝟗)(𝟒𝟐) Operaciones individuales
(𝟑 ∗ 𝟏𝟏𝟔) = 𝟑𝟒𝟖 (𝟗)(𝟒𝟐) = 𝟑𝟕𝟖
𝑷𝒐𝒓 𝒍𝒐 𝒕𝒂𝒏𝒕𝒐, 𝒆𝒏 𝒆𝒍 𝒏𝒖𝒎𝒆𝒓𝒅𝒐𝒓 𝒕𝒆𝒏𝒅𝒓í𝒂𝒎𝒐𝒔 𝟑𝟒𝟖 − 𝟑𝟕𝟖 = −𝟑𝟎
DENOMINADOR (PRIMERA RAÍZ)
√(𝟑 ∗ 𝟐𝟗) − (𝟗)𝟐
- Recomiendo realizar primero lo que está dentro de cada raíz (𝟑 ∗ 𝟐𝟗) = 𝟖𝟕
(𝟗)𝟐 = 𝟖𝟏
𝑷𝒐𝒓 𝒍𝒐 𝒕𝒂𝒏𝒕𝒐 𝒆𝒍 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐 𝑫𝑬𝑵𝑻𝑹𝑶 𝒅𝒆 𝒍𝒂 𝒑𝒓𝒊𝒎𝒆𝒓𝒂 𝒓𝒂í𝒛 𝒔𝒆𝒓í𝒂: 𝟖𝟕 − 𝟖𝟏 = 𝟔
√𝟔 = 𝟐. 𝟒𝟒
DENOMINADOR (SEGUNDA RAÍZ)
√(𝟑 ∗ 𝟔𝟒𝟒) − (𝟒𝟐)𝟐
- Recomiendo realizar primero lo que está dentro de cada raíz (𝟑 ∗ 𝟔𝟒𝟒) = 𝟏𝟗𝟑𝟐
(𝟒𝟐)𝟐 = 𝟏𝟕𝟔𝟒
𝑷𝒐𝒓 𝒍𝒐 𝒕𝒂𝒏𝒕𝒐 𝒆𝒍 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐 𝑫𝑬𝑵𝑻𝑹𝑶 𝒅𝒆 𝒍𝒂 𝒔𝒆𝒈𝒖𝒏𝒅𝒂 𝒓𝒂í𝒛 𝒔𝒆𝒓í𝒂: 𝟏𝟗𝟑𝟐 − 𝟏𝟕𝟔𝟒
= 𝟏𝟔𝟖
√𝟏𝟔𝟖 = 𝟏𝟐. 𝟗𝟔
DENOMINADOR (MULTIPLICAR EL RESULTADO DE LAS DOS RAÍCES)
√𝟔 ∗ √𝟏𝟔𝟖 = 𝟐. 𝟒𝟒 ∗ 𝟏𝟐. 𝟗𝟔 = 𝟑𝟏. 𝟕𝟒
OPERACIÓN FINAL
𝒓 = (𝟑 ∗ 𝟏𝟏𝟔) − (𝟗)(𝟒𝟐)
√(𝟑 ∗ 𝟐𝟗) − (𝟗)𝟐 ∗√(𝟑 ∗ 𝟔𝟒𝟒) − (𝟒𝟐)𝟐 = −𝟑𝟎
𝟑𝟏. 𝟕𝟒 = −𝟎. 𝟗𝟒
Por lo tanto el resultado es -0.94
INTERPRETACIÓN
De acuerdo a la tabla de valores, la relación que se encuentra entre la variable años de antigüedad y errores cometidos es NEGATIGA MUY FUERTE, es decir, a mayor antigüedad menores errores comenten los empleados.
¿Cómo saber cuándo emplear el coeficiente de Pearson y cuándo el coeficiente de Spearman?
La r de Pearson se usa cuando los datos se miden en escalas de razón o proporción, por ejemplo: estaturas, edades, dinero, etc.
La r de Spearman se usa cuando los datos son rangos que miden el orden en que los datos, por ejemplo, calificación de un servicio de 1 a 10.