Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 1 UNIDAD TEMATICA 2: ANALISIS DE RELACION O ASOCIACION ENTRE DOS
VARIABLES. (Correspondiente a las semanas 4, 5 y 6 del sílabo)
INTRODUCCIÓN
INDEPENDENCIA DE DOS VARIABLES X e Y
Uno de los propósitos del estudio de variables bidimensionales es analizar la relación o asociación existente entre ellas (X , Y). Antes de hacer el análisis de asociación, debemos saber si las variables son independientes. Si no son independientes, posiblemente están relacionadas o asociadas y el siguiente paso es determinar en qué medida están asociadas, o sea cuál es el grado o intensidad de la relación o asociación.
La independencia de variables se determina teóricamente y también gráficamente. DEFINICIÓN DE INDEPENDENCIA
1) Dados los datos bidimensionales ( xi , y i), donde i =1, 2, 3, …, n valores de la variable bidimensional (X, Y), organizados en una tabla de contingencia de k filas por r columnas, presentando sus frecuencias absolutas conjuntas (f i j) y frecuencias absolutas marginales de X (f i . ), frecuencias absolutas marginales de Y (fj .),diremos que X e Y son independientes si:
n
f
f
f
ij=
i .*
. j o h i j = h i . * h . j2) Haciendo uso de las distribuciones de frecuencias condicionales de Y /X o de X / Y presentadas respectivamente en tablas denominadas perfil fila y perfil columna con sus gráficos correspondientes:
a) Dados (xi , y j) valores de X e Y respectivamente, si para cada i fijo las frecuencias condicionales de X i / Y = y j ,( h ij) ,son iguales para todo j se dice que X e Y son independientes.
b) Dado (xi , y j) valores de X e Y respectivamente, si para cada j fijo las frecuencias condicionales de Y j / X= x i ,(h ji), son iguales para todo i se dice que X e Y son independientes
EJEMPLO 1.-
Tabla 1: Tabla de frecuencias absolutas conjuntas y absolutas marginales
X i / Y j BA ME AL f. a. m. X: f i .
AP 40 30 20 90
DE 35 15 10 60
NO 30 15 5 50
f. a. m.Y:
f . j 105 60 35 n = 200
Usando la definición dada en (1), debemos comparar cada frecuencia conjunta con el producto de las frecuencias marginales:
f 11 = (105x90) / 200=47.25 f 21 = (105x60 / 200 = 31.5 f 31 = (105x50) / 200 = 26.25 f 12 = (60x90) / 200 = 27.0 f 22 = (60x60) / 200 = 18.0 f 32 = (60x50) / 200 = 15.0
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 2 Xi : Opinión Xi / Y 1= BA
h ij = 1
Xi / Y 2 = ME h ij = 2
Xi / Y 3 = AL h ij = 3
AP 38.1 50 57.1
DE 33.3 25 28.6
NO 28.6 25 14.3
TOTAL 100.0 100 100.0
Según 2 (a) y usando la tabla de perfiles columna:
Para i = AP (dado) , las h i j toman los siguientes valores para todo j : 38.1, 50.0, 57.1. Para i = DE (dado), las h ij toman los siguientes valores para todo j : 33.3, 25, 28.6. Para i = NO (dado), las h ij toman los siguientes valores para todo j : 28.6, 25, 14.3.
Tal como se observa, numéricamente, las frecuencias condicionales de cada fila de la tabla son diferentes; por lo tanto, las variables X e Y no son independientes.
Gráficamente: haciendo el gráfico de perfiles columna, se apreciará en cada barra correspondiente al nivel socioeconómico la diferencia de frecuencias para las categorías de opinión respectivas, indicando ésto que las variables no son independientes.
Tabla 3: Tabla de frecuencias relativas condicionales de Y j / X = x i : h ji (en %)
Según 2 (b) y usando la tabla de perfiles fila:
Para j = BA (dado) , las h ji toman los siguientes valores para todo i: 45, 58.3, 60. Para j = ME (dado) , las h ji toman los siguientes valores para todo i: 33, 25, 30. Para j = AL (dado) , las h ji toman los siguientes valores para todo i: 22, 16.7, 10.
Tal como se observa, numéricamente, las frecuencias condicionales de cada columna de la tabla son diferentes; por lo tanto, las variables X e Y no son independientes.
Gráficamente: haciendo el gráfico de perfiles fila, se apreciará en cada barra de opinión la diferencia de frecuencias para las categorías de nivel socioeconómico respectivas, indicando ésto que las variables no son independientes.
Consideremos un ejemplo de independencia de variables X e Y.- A 470 operarios de una planta industrial se registro información respecto al tipo de medio de transporte (público o privado) utilizado para concurrir a su centro de trabajo y el género (hombre, mujer).
M.Transporte/Género Hombre Mujer Marginal fila
Público 90 (40) 135 (60) 225
Privado 206 (40) 309 (60) 515
Marginal columna 296 (40) 444 (60) 740
Observamos que los hombres representan el 40% del total de operarios y las mujeres el 60 %. También observamos que tanto para los 225 operarios que utilizan el transporte público como para
Y j : Nivel de instrucción BA ME AL TOTAL Yj / X 1 = AP
h ji = 1
45.0 33 22.0 100 Yj / X 2 = DE
h ji = 2
58.3 25 16.7 100 Yj / X 3 = NO
h j i = 3
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 3 los 515 que utilizan el transporte privado, la distribución de porcentajes de hombres y mujeres sigue siendo 40% y el 60 % respectivamente. Es decir la distribución de género de los operarios de la planta industrial no se ve modificada por el hecho de considerar por separado a los operarios que utilizan uno u otro tipo de transporte; se mantiene constante dichos porcentajes. Podríamos afirmar que la distribución de la variable género para este conjunto de operarios es independiente de la variable medio de transporte utilizado.
También se muestra la independencia de dichas variables al comparar la “odds” para la variable género del conjunto de los operarios con la que obtenemos dentro de cada tipo de transporte que es de 1.5 mujeres por cada hombre ( odds = 1.5 = 444/296= 309/206 = 135 / 90).
Se traduce los ODDS como “ventaja”, “posibilidad”, “razón” y se puede definir como la posibilidad de ocurrencia de un suceso respecto a su posibilidad de no ocurrencia, de ahí que en el numerador se considera la frecuencia de individuos que presentan el suceso (n) y en el denominador la frecuencia de individuos que no la presentan (m); por lo tanto representa el número de individuos en los que se produce el suceso por cada uno que no lo presenta. Los odds varían de: 0 ≤ odds < ∞ y son muy útiles para valorar la asociación entre el suceso y una determinada variable.
Si las variables no son independientes, a continuación se debe hacer un análisis de relación o asociación, usando indicadores adecuados, según sea el tipo de las variables en estudio.
MEDIDAS DE ASOCIACIÓN PARA DOS VARIABLES X e Y
Introducción
Para evaluar la magnitud de la asociación entre dos variables categóricas o cualitativas se necesita de un estadístico denominado genéricamente:
Medidas de asociación , si la relación es simétrica y Medidas de tamaño del efecto si la relación es asimétrica.
Relación simétrica.- Cuando no se puede distinguir con precisión entre una variable de clasificación factor ( independiente) y una variable respuesta (dependiente)
Se expresa como X R Y o X
↔
Y EJEMPLO 2
Sea X : Religión que profesa: Católica, protestante Y : Lugar de nacimiento : Lima, provincia.
Relación Asimétrica .- Cuando se puede distinguir a una variable como variable respuesta (dependiente) y la otra como variable factor (independiente).
Se expresa como Y = f (X) o X
→
Y Factor RespuestaIndependiente Dependiente EJEMPLO 3
Sea X : Sabe leer : Si , No (independiente o factor) Y : Entiende bien lo que lee : Si, No (dependiente o respuesta)
MEDIDAS DE ASOCIACIÓN PARA DOS VARIABLES CUALITATIVAS O CATEGÓRICAS
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 4 (existencia, magnitud,sentido)
Yule estableció lo siguiente para una tabla de contingencia 2 x 2
22 11 12 21
22 11 12 21
*
*
*
*
f
f
f
f
f
f
f
f
+
−
=
ϕ
1
1
≤
≤
+
−
ϕ
φ = 0 significa relación nula entre X e Y
φ =
±
1 significa asociación perfecta entre X e Y EJEMPLO 4A 100 universitarios extranjeros se les preguntó sobre la religión que profesan (Y) y su raza (X), obteniéndose los siguientes resultados:
TABLA 4 Yj
Xi Católico Protestante Total
Sajón 0 1 1
Latino 99 0 99
Total 99 1 100
φ de Yule = 99x1 – 0x0 / 99x1 + 0x0 = 99 / 99 =1 Existe una relación positiva perfecta entre X e Y Todo católico es latino y todo latino es católico Todo protestante es sajón y todo sajón es protestante.
¿Qué sucede si se invierte el orden de las filas de la tabla de contingencia 2 x 2 ?
TABLA 5 Yj
Xi Católico Protestante Total
Latino 99 0 99
Sajón 0 1 1
Total 99 1 100
φ de Yule = 0 x 0- 99x1 / 0 x 0 + 99x1= -99 / 99 = -1 Existe una relación negativa perfecta entre X e Y
Relación negativa entre ser católico y ser sajón y entre ser sajón y ser católico. Relación negativa entre ser latino y ser protestante y entre ser protestante y ser latino.
El alumno podrá hacer la representación gráfica de los datos de ambas tablas y notará la relación existente.
NOTA
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 5 EJEMPLO 5
TABLA 6 Yj
Xi Católico Protestante Total
Sajón 30 40 70
Latino 75 0 75
Total 105 40 145
φ = 75x40 – 30x0 / 75x40 + 30x 0 = 3000/3000 =1
Existe una clara relación positiva entre ser católico y ser latino y entre ser latino y ser católico, y todo protestante es sajón y no todo sajón es protestante.
2.- MEDIDAS DE ASOCIACIÓN BASADAS EN EL ESTADÍSTICO CHI CUADRADO o JI CUADRADO: 2
χ
(Propuesto por Karl Pearson 1900)Con el símbolo χ 2 se denota a un estadístico cuya distribución de probabilidad se aproxima a la distribución de probabilidad llamada chi cuadrado, a medida que se aumenta más y más el tamaño de la muestra. Dicho estadístico se define como sigue:
∑ ∑
= =
−
k i rj i j
j i ij
n
f
f
n
f
f
f
1 1 . . 2 . .
*
*
:
entonces
teóricas,
o
esperadas
s
frecuencia
,
y
muestra
la
de
observadas
s
frecuencia
,
hacemos
Si
. . e j i o j if
n
*f
f
f
f
=
=
χ2 =
∑
−
j i e e o
f
f
f
,)
(
Si para todo (i, j) f 0 = f e , X e Y son independientes
a) COEFICIENTE PHI Ф de Pearson: (ambas variables dicotómicas) (existencia,magnitud) Se usa cuando X e Y son dicotómicas y están medidas en escala nominal
Ф =
χ
2/
n
0 < Ф < 1 Ф = 0 las variables son independientes Ф = 1 las variables no son independientes
Cuando 0 < Ф < 1 , es difícil interpretar su resultado. Uno de los criterios es: Ф≤ 30 Nivel bajo de asociación.
0.30 < Ф < 0.50 Nivel medio de asociación Ф≥0.50 Nivel alto de asociación
NOTA: No se recomienda usar Ф para tablas de contingencia de orden mayor de 2 x 2. EJEMPLO 6
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 6 TABLA 7: Frecuencias observadas TABLA 8: Frecuencias esperadas
Yj
Xi Católico Protestante Total
Sajón 20 70 90
Latino 100 10 110
Total 120 80 200
Yj
Xi Católico Protestante Total
Sajón 54 36 90
Latino 66 44 110
Total 120 80 200
χ2 = (20-54)2 / 54 + (70-36)2 /66 + (100-66)2/66 + (10-44)2/44 = 97.306
Ф =
χ
2/
n
= (97.306 / 200)1/2 = 0.6975Existe una ligera dependencia entre religión y raza, los católicos tienden a ser latinos y los latinos tienden a ser católicos. Los protestantes tienden a ser sajones y los sajones tienden a ser protestantes. b) COEFICIENTE DE CONTINGENCIA C de Pearson (existencia,magnitud)
n
C
+
=
22
χ
χ
0
≤
C < 1 C próximo a 0 indica ausencia de relaciónC próximo a 1 indica existencia de relación NOTA: Para tablas cuadradas el valor máximo de C es
C max = t t−1
Donde t es el mínimo entre el número de filas y el número de columnas de la tabla de contingencia.
Tabla de 2 x 2
⇒
C max = 1/2 = 0.707 Tabla de 3 x 3⇒
C max = 2/3 = 0.816NOTA: Se recomienda usar este coeficiente en tablas de contingencia de cualquier tamaño. Algunos prefieren usar el coeficiente de contingencia ajustado: C aj
C aj = C / C max EJEMPLO 7:
X: Despenalización del aborto: en contra, indiferente, a favor
Y: Implantación de la pena de muerte: en contra, indiferente, a favor TABLA 8: Frecuencias observadas: fo
Despenalización del aborto
Implantación de la pena de muerte
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 7
En contra 161 436 121 718
Indiferente 209 678 132 1019
A favor 118 144 155 417
Total 488 1258 408 2154
TABLA 9: frecuencias esperadas: fe
Despenalización del aborto
Implantación de la pena de muerte
En contra Indiferente A favor Total
En contra 162.6667 419.3333 136 718
Indiferente 230.8598 695.1263 193.0139 1019
A favor 94.4735 243.5404 78.9861 417
Total 488 1258 408 2154
χ2 = (161-162.6667)2/ 162.6667 + ………….+ (155-78.9861)2 / 78.9861 = 154.9282
n
C
+
=
22
χ
χ
C = [154.9282 / (154.9282 + 2154 )]1/2 = 0.2590 C aj = C / C max = 0.2590/0.816 = 0.3174
Se puede decir que entre X e Y hay ausencia de relación, pues los valores de C son muy pequeños, no son significativos.
c) COEFICIENTE DE CONTINGENCIA V DE CRAMER (variables pluricotómicas, f*c) (existencia,magnitud)
V =
) 1 (
2
−
t n
χ
donde t = mínimo (#filas, #columnas)
0
≤
V≤
1 V = 0 ausencia de relaciónV = 1 existencia de relación perfecta
NOTA: Se usa en tablas de contingencia de cualquier dimensión, siendo similar al coeficiente Ф
cuando la tabla es de 2 x 2
Considerando los datos del ejemplo 7: t = min (3, 3) = 3
V =
) 1 3 ( 2154
9282 . 154
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 8 Un resultado muy conservador respecto al anterior, no hay relación entre la implantación de la pena de muerte y despenalización del aborto.
3.- MEDIDAS DE ASOCIACIÓN BASADAS EN LA REDUCCIÓN PROPORCIONAL DEL ERROR DE PREDICCION: RPE
Las medidas de asociación estudiadas nos proporcionan información sobre el grado de dependencia de dos variables categóricas; en cambio las medidas del error de predicción fueron ideadas para cuantificar y describir la reducción proporcional del error en una clasificación.
Estas medidas descansan sobre las especificaciones de las probabilidades marginales de fila y marginales de columna para cada una de las variables X e Y de la tabla de contingencia.
Al poseer información de una variable, se pretende predecir el valor de la otra variable y nos preguntamos ¿El conocimiento que tenemos de una variable modifica la predicción que podríamos realizar a priori de la otra variable? ¿Cuál es la magnitud del error que se cometería en una predicción de este tipo?
Si el error de predicción es muy elevado, no resultará conveniente utilizar la información disponible de una variable para predecir el valor de la otra. Se sabe que la tasa del error de predicción está íntimamente ligada al concepto de la intensidad de la asociación, En la medida en que es menor la intensidad, mayor será la tasa de error de predicción, y a la inversa, cuanto mayor sea la intensidad de la asociación, menor será la tasa de error en la predicción.
Un valor igual a cero nos indicaría que no existe disminución en la proporción del error de predicción respecto a la que realizaríamos a priori desconociendo cualquier información de la variable predictora. Por el contrario un valor igual a 1 indicaría que la reducción proporcional del error de predicción es máxima.
Aquí debemos distinguir dos casos: cuando la relación es asimétrica y cuando es simétrica. En ambos casos se usará el coeficiente λ (lambda) de Kruscal.
CASO 1: En relaciones asimétricas
¿Es lo mismo predecir los valores de una variable X a partir de los valores de la variable Y que a la inversa?. La tasa de reducción proporcional del error no tiene por qué ser la misma según la direccionalidad en que se realiza la predicción en la clasificación.
Esta medida se basa en la reducción proporcional del error de predicción cuando se utilizan los valores de la variable independiente para predecir los valores de la variable dependiente.
Tomando X como variable respuesta: X = f (Y) o Y
→
X Factor respuesta independiente dependiente(columnas) (filas)
λX = Σj p ij max – p i . max / (1 - p i . max )
Tomando Y como variable respuesta: Y = f ( X ) o X
→
Y Factor respuesta Independiente dependienteProfesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 9 Una versión simétrica de lambda , apropiada para el caso en que no se distingue ninguna variable como respuesta, es un promedio de las dos anteriores.
Es decir, cuando X R Y o X
↔
Y, usamos:λ = Σi p ij max + Σj p ij max - p i . max - p . jmax / 2 - p i . max - p . jmax
0 < λ < 1 λ = 0 (Máximo error en la predicción) indica ausencia de relación λ = 1 (No existe error de predicción) indica presencia de relación EJEMPLO 8 : Adaptamos el ejemplo 7 para mostrar el cálculo de lambda 1.- Cálculo de las probabilidades p ij: Se divide cada f ij entre n
2.- Cálculo de las probabilidades marginales p i . y p . j : Se divide f i . entre n y f . j entre n
TABLA N° 10 (p i j)
Despenalización del aborto (X)
Implantación de la pena de muerte (Y)
En contra Indiferente A favor Total pi.
En contra 0.0747 0.2024 0.0562 0.3333
Indiferente 0.0970 0.3148 0.0613 0.4731
A favor 0.0548 0.0669 0.0720 0.1936
Total p.j 0.2266 0.5840 0.1894 1.0000
Para el caso: X = f(Y) o Y
→
XDespenalización del aborto = f( Implantación de la pena de muerte)
λx = 0.0970 +0.3148 + 0.0720 – 0.4731 / 1 – 0.4731 = 0.0203
(suma de máximos de cada columna - máximo de filas marginales) Para el caso: Y = f ( X ) o X
→
YImplantación de la pena de muerte = f(Despenalización del aborto)
λy = 0.2024 + 0.3148 + 0.0720 – 0.5840 / 1 – 0.5840 = 0.0123
(suma de máximos de cada fila - máximo de columnas marginales) Para el caso: X R Y X
↔
Y
λ = 0.4838+0.5892 – 0.4731 – 0.5840 / 2 – 0.4731 – 0.5840 = (1.073 – 1.057) / 0.7429 = 0.016 / 0.7429 = 0.0169
Podemos concluir que X e Y no están relacionados.
MEDIDAS DE ASOCIACIÓN DE VARIABLES CATEGÓRICAS ORDINALES
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 10 Cuando se considera la ordenación de individuos en dos variables X e Y , es posible determinar comparativamente si el par es concordante ( cuando un sujeto con puntuación alta en X también tiene una puntuación alta en Y) o discordante ( cuando un sujeto con puntuación alta en X obtiene una puntuación baja en Y)
El par se dice empatado si ambos sujetos obtienen la misma puntuación en X e Y. NOTACIONES:
C: Número total de pares concordantes D: Número total de pares discordantes. E: Número total de pares empatados a i j : frecuencia total de casos concordantes b i j : frecuencia total de casos discordantes
a) El estadístico a usar es “gamma” de Goodman y Kruskall ( 1979) para el caso simétrico: (existencia, magnitud,dirección)
γ = C – D / C + D -1 < γ < 1
Si D = 0
→
γ = 1 (cuando todos los pares son concordantes) y si C = 0→
γ = -1 (cuando todos los pares son discordantes) Cuando γ = 0 hay ausencia de relaciónγ = 1 existe relación positiva perfecta γ = -1 existe relación negativa perfecta
NOTA: Se usa para tablas de contingencia de cualquier dimensión, pero es apropiado para tablas de contingencia cuadradas ( igual número de filas y columnas)
Cálculo de “gamma”:
C = ΣiΣj f i j a i j donde a i j = Σk>iΣl>j f kl D = ΣiΣj f i j b i j donde b i j = Σk>iΣl<j f kl
Ex y = ΣiΣj f i j (f i j – 1) / 2 Ex = Σi f i . (f i . – 1) / 2 E y = Σj f . j (f . j – 1) / 2 Interpretación de pares: Dados los pares ( x 1, y 1) y ( x 2, y 2)
Dos pares son concordantes si:
x 1 es inferior a x 2 y y 1 es inferior a y 2 o x 1 es superior a x 2 y y 1 es superior a y 2 . Dos pares son discordantes si :
x 1 es superior a x 2 y y 1 es inferior a y 2 o x 1 es inferior a x 2 y y 1 es superior a y 2 . Dos pares son empatados solo en X si: x 1 es igual a x 2
Dos pares son empatados solo en Y si: y 1 es igual a y 2
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 11 EJEMPLO 9: Se seleccionó una muestra de 45 personas y se registró su nivel social (X): alto, medio, bajo y su nivel económico (Y): alto, medio, bajo, cuyos resultados se muestran a continuación.
TABLA Nº 11
Nivel social, X
Nivel económico, Y
Bajo Medio Alto f i .
Bajo 7 6 1 14
Medio 3 9 4 16
Alto 2 5 8 15
f . j 12 20 13 45
Cálculo de C: pares concordantes
a
i jf
i ja
i jtotal
a 11 = Σk>1Σl >1 f kl = Σk=2, 3Σl=2, 3 f kl
= f 22+ f 23+ f 32+ f33 = 9 + 4 + 5 + 8 = 26 7 (26) 182 a 12 = Σk>1Σl >2 f kl = Σk=2, 3Σl=3 f kl
= f 23 + f33 = 4 + 8 = 12 6 (12) 72
a 13 = 0 1 (0) 0
a 21 = 5 + 8 = 13 3 (13) 39
a 22 = 8 9 (8) 72
a 23 = 0 4 (0) 0
a 31 = 0 2 (0) 0
a 32 = 0 5 (0) 0
a 33 = 0 8 (0) 0
El número total de pares concordantes es: C = 182 + 72 + 39 + 72 = 365.
Cálculo de D: pares discordantes
b
i jf
i jb
i jtotal
b 11 = Σk>1Σl<1 f kl = Σk=2, 3Σl = 0 f kl = 0 7 (0) 0 b 12 = Σk>1Σl<2 f kl = Σk=2, 3Σl=1 f kl = 3 + 2 = 5 6 (5) 30
b 13 = 3+9+2+5 = 19 1 (19) 19
b 21 = 0 3 (0) 0
b 22 = 2 9 (2) 18
b 23 = 2+5 = 7 4 (7) 28
b 31 = 0 2 (0) 0
b 32 = 0 5 (0) 0
b 33 = 0 8 (0) 0
El número total de pares discordantes es: D = 30 + 19 + 18 + 28 = 95
γ = C-D / C+D = 365 – 95 / 365 + 95 = 270 / 460 = 0.58695
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 12 valor bastante alto, si nos atenemos a los resultados obtenidos ordinariamente con variables de este tipo.
NOTA: Cuando se cambia el orden de las categorías de una variable, cambia el signo de γ. Cálculo de pares empatados: E
Ex = {14(13)+16(15)+15(14)} / 2 = 316 E y = {12(11)+20(19)+13(12)} / 2 = 334
Ex y = {7(6)+6(5)+1(0)+3(2)+9(8)+4(3)+2(1)+5(4)+8(7)} / 2 = 120 b) Estadítico Tau-b de Kendall : τb
Es una variante de γ
τb = C – D / { n(n-1)/2 - Ex } { n(n-1)/2 – Ey } -1 < τb < 1
Se usa para cualquier tamaño de tablas de contingencia, pero se recomienda para T.C. de igual número de filas y columnas.
EJEMPLO 10: Considerando los datos del ejemplo 9 , tenemos:
τb = 365 – 95 / [ 45(44)/2 – 316] [45(44)/2 – 334] = 0.0006
MEDIDAS DE ASOCIACIÓN DE VARIABLES CUANTITATIVAS
a) Coeficiente de correlación de Spearman (existencia, magnitud, dirección)
Cuando se tiene una sucesión de valores en escala de intervalo, de las variables (X,Y), a los cuales se les puede asignar rangos ( escala ordinal) de acuerdo a la posición que ocupan , se recomienda usar el coeficiente de correlación de Spearman para medir la relación entre X e Y (mide la relación entre los rangos asignados a una variable y los rangos asignados a la otra variable)
r s = 1 – [6 Σ d i2 / n(n 2 – 1)] donde d i es la diferencia de rangos entre X e Y.
Por ejemplo, si se tratara de averiguar la relación existente entre los puntajes de ingreso a la universidad (X) y la situación académica de los alumnos del curso al concluir el primer año de estudios (Y), deberíamos ordenarlos según su puntaje de ingreso y según sus promedios ponderados, y estos valores se convertirían en rangos.
PROCEDIMIENTO PARA EL CALCULO DEL COEFICIENTE DE SPEARMAN
Se anota el rango de cada individuo en la variable X y en la variable Y. Se determina la diferencia entre los rangos , d i.
Se elevan al cuadrado estas diferencias y luego se suman. Aplicar la fórmula.
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 13 Cuando se presenta dos o más mediciones empatadas, el rango que se asigna a todas ellas es la media aritmética de los correspondientes valores ordinales o rangos.
NOTA: - 1 <= r s <= 1.
El coeficiente alcanzará El máximo valor si todos los individuos ocupan exactamente los mismos rangos o posiciones en X y en Y.
EJEMPLO 11:
Los datos que siguen muestran las puntuaciones en nivel de lectura (X) y la conducta mostrada en clase Y de 10 niños con problemas de conducta y de lectura, sometidos a un programa de recuperación cuyo fin era manifestar la eficacia de las técnicas de modificación de la conducta en la superación de dichos problemas.
TABLA N° 12 Nivel de lectura
X
Conducta en clase Y
RANGOS d i di2 X Y
2.7 40 4 1 3 9
2.2 14 8 9 -1 1
2.3 18 7 7 0 0
2.6 20 5 5 0 0
3.1 22 3 4 -1 1
3.4 36 2 3 -1 1
1.9 17 10 8 2 4
2.1 13 9 10 -1 1
2.4 39 6 2 4 16
3.9 19 1 6 -5 25
Total 0 58
r
s = 1 – [6 Σ d i2 / n(n 2 – 1)] = 1 - [6*58 / 10(102 -1)] = 1 – 0.35 = 0.65 Existe una asociación considerable entre los rangos asignados.Si se hubiera asignado los rangos en ambas variables desde el mínimo hasta el máximo, el valor del coeficiente sería el mismo.
NOTA: Respecto a los rangos, es indiferente atribuir en ambas variables el valor 1 al sujeto con la máxima puntuación, el valor 2 al inmediato inferior etc., que atribuir el valor 1 al sujeto con mínima puntuación, el 2 al inmediato superior etc. El valor de rs será el mismo en uno u otro caso.
b) Coeficiente de correlación de Pearson: r (existencia, magnitud, dirección, forma)
r
= S xy / S x S y -1 ≤r
≤ 1donde
S xy es la covarianza de X e Y
S x y S y son las desviaciones estándar de X y de Y, respectivamente.
EJEMPLO12: Con los datos de las variables X e Y de la tabla 12, vamos a calcular el valor del coeficiente de correlación lineal. Para tal efecto, agregaremos columnas a la tabla 13 con los cálculos necesarios.
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 14
X Y XY X^2 Y^2
2.7 40 108 7.29 1600
2.2 14 30.8 4.84 196
2.3 18 41.4 5.29 324
2.6 20 52 6.76 400
3.1 22 68.2 9.61 484
3.4 36 122.4 11.56 1296
1.9 17 32.3 3.61 289
2.1 13 27.3 4.41 169
2.4 39 93.6 5.76 1521
3.9 19 74.1 15.21 361
26.6 238 650.1 74.34 6640
media de X 2.66 media de Y 23.8
varianza de X 0.3584 Varianza de Y 97.56
desvest X 0.598665182 desvest Y 9.87724658
COV(X,Y) 1.702 COEF. DE CORREL. 0.287832387
Se puede decir que entre X e Y no hay relación lineal.
MEDIDAS DE ASOCIACIÓN DE VARIABLES MIXTAS: UNA CUANTITATIVA Y OTRA CUALITATIVA
a) Coeficiente de correlación biseral puntual de X e Y: r bp (existencia, magnitud,dirección)
Es una estimación de r cuando una variable es contínua y la otra variable es una variable cualitativa dicotómica ( debe existir una relación lineal)
r
bp =X
nS X X n
n0 1( 1− 0)
-1 ≤ r bp≤ 1 donde:
X es la variable cuantitativa continua,
Y es la variable cualitativa dicotómica (1 si objeto posee cierta característica y 0 si no la posee), 1
X es la media del grupo que presenta cierta característica de interés 0
X es la media del grupo que no presenta la característica de interés SX es la desviación estándar de la muestra total
n1 es el tamaño de muestra del grupo que tiene la característica de interés n0 es el tamaño de muestra del grupo que no tiene la característica de interés EJEMPLO 13:
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 15 TABLA N° 15
X X1 X0
Puntajes
Grupo Preparado en
música
Grupo no preparado
en música Total
55-59 1 16 17
60-64 0 21 21
65-69 1 19 20
70-74 6 27 33
75-79 6 19 25
80-84 2 16 18
85-89 5 6 11
Tamaño n1 = 21 n 2 = 124 n = 145
Notar que, dentro de las casillas, y en cada fila, se tienen las frecuencias observadas de cada grupo y del grupo total, respectivamente.
Se debe calcular la media de cada grupo y del grupo total:
1
X = 1617/21 = 77 X0= 8728/124 = 70.39 X = 10345/145 = 71.34 La varianza de los 145 puntajes (grupo total) está dada por:
=
2
X
S (749325/145) – (71.34)2 = 78.358 Reemplazando en la fórmula del coeficiente:
r
bp =X
nS X X n
n0 1( 1 − 0)
= 0.263
Existe una asociación muy débil entre la preparación musical previa y el puntaje del test de apreciación musical.
También se puede deducir el coeficiente r bp a partir del r xy y se obtiene: ─ ─ ─ ─
r bp = { (X1 – X 0 / Sx } (√ pq) o r bp = { (X1– X / Sx } (√ p /q) donde p = n1/ n y q= no / n
Considerando el ejemplo 14 tenemos: p = 245/520 = 0.47 q = 275/520 = 0.53 √pq = 0.50 Sx= √1324.192/520 = 1.596
r
bp = {(2.71-3.53)/1.596 }0.50 = 0.257 b) Coeficiente de correlación Etha : ηProfesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 16 Para el cálculo del coeficiente se toma en cuenta el tamaño de la población o de la muestra n, la media X y la varianza SX2 de la variable numérica X. Según la variable categórica, la población o la muestra se particiona en k clases de tamaños nk con medias Xk y varianzas
2
k
S .
η = 2
2
X entre
S S
0 ≤η≤ 1 (1)
Este índice vale 0 cuando la varianza entre es nula y traduce la ausencia de vínculo entre la variable real (cuantitativa) y la variable categórica. Vale 1 cuando la varianza entre es igual a la varianza total y traduce entonces un fuerte vínculo ente la variable real y la variable categórica.
El índice η2 se denomina poder discriminante. Fórmulas adicionales:
∑
= nk
n =
∑
nkXkn
X 1 SX2 =Sentre2 +Sdentro2
2 2
2 1
X X n n
Sentre =
∑
k k − dentro2 = 1∑
Sk2n S
Cuando la relación entre X e Y no es lineal , no se puede usar la r de Pearson , entonces se puede usar η para hallar correlación entre dos escalas de intervalo.
También se suele usar la siguiente expresión para el cálculo de η2
─ ─ ─
η2 = Σ n j ( X j – X )2 / Σ ( x i – X ) 2 f i (2) j i
n j número de observaciones del subgrupo j de X
─
X j media del grupo j (correspondiente a la categoría j de la variable cualitativa Y)
─
X media total
k número de subgrupos o categorías de la variable Y x i valor de la variable de escala de intervalo
EJEMPLO 14
Un investigador desea determinar el grado de asociación entre el número de hijos: (X) y el lugar de procedencia (ciudad y campo) :(Y) de un grupo de familias. Para ello se toma una muestra de 520 familias y se registra lo siguiente:
N° de hijos X
Fam. Ciudad f ciu
Fam. Campo fcam
Fam. Total f T
Xi f T Xi f ciu Xi fcam ─ (Xi-XT)2 f i
Profesoras del curso: Mg. Ana María Cárdenas y Lic. Caridad Huaroto Página 17 3 50 80 130 390 150 240 2.548
4 30 60 90 360 120 240 66.564 5 20 40 60 300 100 200 207.576 6 10 20 30 180 60 120 245.388 7 5 10 15 105 35 70 223.494 total 245 275 520 1635 665 970 1324.192
Sea:
X: N° de hijos, variable cuantitativa
Y:Lugar de procedencia, variable cualitativa con dos categorías (familias de la ciudad, familias del campo)
─
Media total del número de hijos : X T = 1635/ 520 = 3.14
─
Media del número de hijos de las familias de la ciudad: X ciu = 665/ 245 = 2.71
─
Media del número de hijos de las familias del campo: X cam = 970/275= 3.53
Usando (2) tenemos: η2 = 245(2.71-3.14)2 + 275(3.53-3.14)2 / 1324.192 = 0.0658
η = ± 0.257
Para ayudarte en la interpretación realiza el gráfico de X versus Y considerando ambas categorías EJERCICIO:
Se considera una población de 15 alumnos distribuidos según el grupo al que pertenecen y sus notas en Matemática I.
Iden a b c d e f g h i j k l m n ñ Grupo B B B B B C C C C A A A A A A Mat1 10 11 12 14 11 10 15 10 11 7 7 7 7 8 8