• No se han encontrado resultados

Coeficiente de correlación de los rangos de Spearman

In document BIOESTADÍSTICA - GESDoc (página 171-174)

REGRESIÓN LINEAL SIMPLE

10.2 COEFICIENTE DE CORRELACIÓN

10.2.2 Coeficiente de correlación de los rangos de Spearman

Coeficiente de correlación

variables en la población de referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 como

9 colesterol HDL fue r = -0,276. La transformación z de Fisher de esta correlación es z = log{(1 - 0,276)/(1 + 0,276)}/2 = -0,284. Para obtener una estimación por intervalo de la correlación subyacente ρ entre ambas variables en la población de referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 como

3 533 284 1

,

0 0,975

± −

z = 0,284 ± 1,96⋅0,043 = ( 0,369; 0,199)

y, a continuación, se aplica el inverso de la transformación de Fisher a ambos límites del intervalo



 

+

− +

1 )}

199 , 0 ( 2 exp{

1 )}

199 , 0 ( 2 ,exp{

1 )}

369 , 0 ( 2 exp{

1 )}

369 , 0 ( 2

exp{ = (-0,353; -0,196).

Notar que el intervalo resultante es ligeramente asimétrico respecto a la estimación puntual r = -0,276. Para contrastar la hipótesis de ausencia de asociación lineal entre ambas variables H0: ρ = 0, se calcula el estadístico

-0,284 533−3 = -6,53,

que corresponde a un valor P bilateral bajo la distribución normal estandarizada 2P(Z ≤ -6,53) = 2Φ(-6,53) < 0,001. En conclusión, existe una asociación lineal moderada pero significativa entre el índice de masa corporal y el colesterol HDL con un coeficiente de correlación de -0,28 (IC al 95% -0,35 a -0,20; P < 0,001).

162

Correlación y regresión lineal simple

Pastor-Barriuso R.

donde los rangos medios son

11 donde los rangos medios son r = s = (n + 1)/2. El coeficiente de correlación de

Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden yi < yj; es decir, los valores observados de las variables X e Y presentan una relación monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas variables.

En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la varianza de los rangos es

12 ) 1 ( 2

1 1

1

) 1 (

) 1 1 (

1

1

2 1

2 1

2

= +



 

 − +

= −

− −

=

− −

=

=

=

n n i n

n

s n s

r n r

n

i n

i i

n

i i

y su covarianza es

. ) ) (

1 ( 2

1 12

) 1 (

} ) (

) ( ) ) {(

1 ( 2 ) 1 )(

1 ( 1

1

2 1

2 2

2 1

=

=

=

− − + −

=

− +

− −

=

− −

n

i i i

n

i i i i i

n

i i i

s n r

n n

s r s s r n r

s s r n r

Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a

rs =

=

− −

n

i ri si

n

n 1

2

2 ( )

) 1 (

1 6 ,

fórmula que sólo puede emplearse cuando no hay empates.

=

11 donde los rangos medios son r = s = (n + 1)/2. El coeficiente de correlación de

Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden yi < yj; es decir, los valores observados de las variables X e Y presentan una relación monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas variables.

En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la varianza de los rangos es

12 ) 1 ( 2

1 1

1

) 1 (

) 1 1 (

1

1

2 1

2 1

2

= +



 

 − +

= −

− −

=

− −

=

=

=

n n i n

n

s n s

r n r

n

i n

i i

n

i i

y su covarianza es

. ) ) (

1 ( 2

1 12

) 1 (

} ) (

) ( ) ) {(

1 ( 2 ) 1 )(

1 ( 1

1

2 1

2 2

2 1

=

=

=

− − + −

=

− +

− −

=

− −

n

i i i

n

i i i i i

n

i i i

s n r

n n

s r s s r n r

s s r n r

Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a

rs =

=

− −

n

i ri si

n

n 1

2

2 ( )

) 1 (

1 6 ,

fórmula que sólo puede emplearse cuando no hay empates.

= (n + 1)/2. El coeficiente de correlación de Spearman siempre toma valores entre – 1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden yi < yj; es decir, los valores observados de las variables X e Y presentan una relación monótona creciente perfecta. De igual forma, si rs = – 1, los rangos verifican que si = n + 1 – ri, de donde se deduce que los valores de las variables X e Y presentan una relación monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas variables.

En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la varianza de los rangos es

11 donde los rangos medios son r = s = (n + 1)/2. El coeficiente de correlación de

Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden yi < yj; es decir, los valores observados de las variables X e Y presentan una relación monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas variables.

En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la varianza de los rangos es

12 ) 1 ( 2

1 1

1

) 1 (

) 1 1 (

1

1

2 1

2 1

2

= +



 

 − +

= −

− −

=

− −

=

=

=

n n i n

n

s n s

r n r

n

i n

i i

n

i i

y su covarianza es

. ) ) (

1 ( 2

1 12

) 1 (

} ) (

) ( ) ) {(

1 ( 2 ) 1 )(

1 ( 1

1

2 1

2 2

2 1

=

=

=

− − + −

=

− +

− −

=

− −

n

i i i

n

i i i i i

n

i i i

s n r

n n

s r s s r n r

s s r n r

Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a

rs =

=

− −

n

i ri si

n

n 1

2

2 ( )

) 1 (

1 6 ,

fórmula que sólo puede emplearse cuando no hay empates.

y su covarianza es

11 donde los rangos medios son r = s = (n + 1)/2. El coeficiente de correlación de

Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden yi < yj; es decir, los valores observados de las variables X e Y presentan una relación monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas variables.

En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la varianza de los rangos es

12 ) 1 ( 2

1 1

1

) 1 (

) 1 1 (

1

1

2 1

2 1

2

= +



 

 − +

= −

− −

=

− −

=

=

=

n n i n

n

s n s

r n r

n

i n

i i

n

i i

y su covarianza es

. ) ) (

1 ( 2

1 12

) 1 (

} ) ( ) ( ) ) {(

1 ( 2 ) 1 )(

1 ( 1

1

2 1

2 2

2 1

=

=

=

− − + −

=

− +

− −

=

− −

n

i i i

n

i i i i i

n

i i i

s n r

n n

s r s s r n r

s s r n r

Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a

rs =

=

− −

n

i ri si

n

n 1

2

2 ( )

) 1 (

1 6 ,

fórmula que sólo puede emplearse cuando no hay empates.

Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a

11 donde los rangos medios son r = s = (n + 1)/2. El coeficiente de correlación de

Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden yi < yj; es decir, los valores observados de las variables X e Y presentan una relación monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas variables.

En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la varianza de los rangos es

12 ) 1 ( 2

1 1

1

) 1 (

) 1 1 (

1

1

2 1

2 1

2

= +



 

 − +

= −

− −

=

− −

=

=

=

n n i n

n

s n s

r n r

n

i n

i i

n

i i

y su covarianza es

. ) ) (

1 ( 2

1 12

) 1 (

} ) (

) ( ) ) {(

1 ( 2 ) 1 )(

1 ( 1

1

2 1

2 2

2 1

=

=

=

− − + −

=

− +

− −

=

− −

n

i i i

n

i i i i i

n

i i i

s n r

n n

s r s s r n r

s s r n r

Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a

rs =

=

− −

n

i ri si

n

n 1

2

2 ( )

) 1 (

1 6 ,

fórmula que sólo puede emplearse cuando no hay empates.

fórmula que sólo puede emplearse cuando no hay empates.

Ejemplo 10.4 En la Tabla 10.1 se presentan los niveles de a-tocoferol y b-caroteno en tejido adiposo en una muestra aleatoria de 10 controles del estudio EURAMIC, junto con los rangos correspondientes a los valores de ambas variables. A partir de estos rangos, el coeficiente de correlación de Spearman se calcula como

12 Ejemplo 10.4 En la Tabla 10.1 se presentan los niveles de α-tocoferol y β-

caroteno en tejido adiposo en una muestra aleatoria de 10 controles del estudio EURAMIC, junto con los rangos correspondientes a los valores de ambas variables. A partir de estos rangos, el coeficiente de correlación de Spearman se calcula como

rs =

03 , 3 03 , 3

06 , 5 )

9 ( ) 1 9 (

1

) )(

9 ( 1

10

1 10 2

1

2 10

1

= ⋅

=

=

=

i i

i i

i i i

s s r

r

s s r r

= 0,552,

o de forma equivalente mediante la fórmula simplificada en ausencia de empates rs =

) 1 10 ( 10

74 1 6

} ) 6 6 ( ...

) 3 7 ){(

1 10 ( 10

1 62 2 2 2

− ⋅

=

− + +

− −

− = 0,552,

que refleja una fuerte relación monótonamente creciente entre los niveles de α- tocoferol y β-caroteno. Cabe destacar que esta estimación no esta influenciada por el valor extremo 1,46 μg/g de β-caroteno ya que el rango de esta observación continuaría siendo 10 para cualquier valor arbitrariamente mayor que los demás.

[Tabla 10.1 aproximadamente aquí]

Al igual que otros procedimientos no paramétricos, el coeficiente de correlación de los rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación monótona entre dos variables. Bajo esta hipótesis nula, se ha comprobado que el coeficiente de correlación rs de Spearman tiende a distribuirse de forma normal o, más concretamente, que el estadístico

o de forma equivalente mediante la fórmula simplificada en ausencia de empates

12 Ejemplo 10.4 En la Tabla 10.1 se presentan los niveles de α-tocoferol y β-

caroteno en tejido adiposo en una muestra aleatoria de 10 controles del estudio EURAMIC, junto con los rangos correspondientes a los valores de ambas variables. A partir de estos rangos, el coeficiente de correlación de Spearman se calcula como

rs =

03 , 3 03 , 3

06 , 5 )

9 ( ) 1 9 (

1

) )(

9 ( 1

10

1 10 2

1

2 10

1

= ⋅

=

=

=

i i

i i

i i i

s s r

r

s s r r

= 0,552,

o de forma equivalente mediante la fórmula simplificada en ausencia de empates rs =

) 1 10 ( 10

74 1 6

} ) 6 6 ( ...

) 3 7 ){(

1 10 ( 10

1 62 2 2 2

− ⋅

=

− + +

− −

− = 0,552,

que refleja una fuerte relación monótonamente creciente entre los niveles de α- tocoferol y β-caroteno. Cabe destacar que esta estimación no esta influenciada por el valor extremo 1,46 μg/g de β-caroteno ya que el rango de esta observación continuaría siendo 10 para cualquier valor arbitrariamente mayor que los demás.

[Tabla 10.1 aproximadamente aquí]

Al igual que otros procedimientos no paramétricos, el coeficiente de correlación de los rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación monótona entre dos variables. Bajo esta hipótesis nula, se ha comprobado que el coeficiente de correlación rs de Spearman tiende a distribuirse de forma normal o, más concretamente, que el estadístico

que refleja una fuerte relación monótonamente creciente entre los niveles de a-tocoferol y b-caroteno. Cabe destacar que esta estimación no esta influenciada por el valor extremo 1,46 mg/g de b-caroteno ya que el rango de esta observación continuaría siendo 10 para cualquier valor arbitrariamente mayor que los demás.

163 Coeficiente de correlación

Pastor-Barriuso R.

Tabla 10.1 α-tocoferol y β-caroteno en tejido adiposo en una muestra aleatoria de 10 controles del estudio EURAMIC.

α-tocoferol β-caroteno

Control Valor (μg/g) Rango (ri) Valor (μg/g) Rango (si)

1 163,8 7 0,14 3

2 331,9 10 0,45 8

3 125,1 4 0,07 1

4 42,9 1 0,44 7

5 211,0 8 1,46 10

6 115,9 2 0,18 4

7 128,6 5 0,37 5

8 271,0 9 0,66 9

9 118,8 3 0,11 2

10 128,7 6 0,40 6

Al igual que otros procedimientos no paramétricos, el coeficiente de correlación de los rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación monótona entre dos variables. Bajo esta hipótesis nula, se ha comprobado que el coeficiente de correlación rs de Spearman tiende a distribuirse de forma normal o, más concretamente, que el estadístico

t =

2

1 2

n

r r

s s

sigue aproximadamente una distribución t de Student con n - 2 grados de libertad, siempre que el tamaño muestral sea n > 10. Así, el valor P bilateral del contraste puede aproximarse mediante el área bajo la distribución tn-2 para valores tanto o más alejados de 0 que el valor observado del estadístico t. Aparte del mínimo requerimiento muestral, este contraste tiene la ventaja adicional de poder aplicarse a cualquier distribución subyacente de las variables X e Y, a diferencia del contraste paramétrico basado en el coeficiente de correlación de Pearson que requiere de distribuciones poblacionales aproximadamente normales.

Ejemplo 10.5 Como las distribuciones subyacentes del α-tocoferol y el β- caroteno (Figura 4.3) son marcadamente asimétricas en los controles del estudio EURAMIC, el contraste bilateral de la hipótesis de no asociación entre ambas variables a partir de los 10 controles de la Tabla 10.1 ha de realizarse mediante el estadístico basado en la correlación de los rangos de Spearman

t =

8 552 , 0 1

552 , 0 2

1 2 = − 2

n

r r

s

s = 1,87,

que bajo la distribución t de Student con 8 grados de libertad corresponde a un valor aproximado de P = 2P(t8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de correlación de Spearman rs = 0,55 estima una fuerte relación monótonamente creciente entre los valores observados de α-tocoferol y β-caroteno, esta

asociación no llega a ser estadísticamente significativa, probablemente debido a la sigue aproximadamente una distribución t de Student con n – 2 grados de libertad, siempre que el tamaño muestral sea n > 10. Así, el valor P bilateral del contraste puede aproximarse mediante el área bajo la distribución tn–2 para valores tanto o más alejados de 0 que el valor observado del estadístico t. Aparte del mínimo requerimiento muestral, este contraste tiene la ventaja adicional de poder aplicarse a cualquier distribución subyacente de las variables X e Y, a diferencia del contraste paramétrico basado en el coeficiente de correlación de Pearson que requiere de distribuciones poblacionales aproximadamente normales.

Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno (Figura 4.3) son marcadamente asimétricas en los controles del estudio EURAMIC, el contraste bilateral de la hipótesis de no asociación entre ambas variables a partir de los 10 controles de la Tabla 10.1 ha de realizarse mediante el estadístico basado en la correlación de los rangos de Spearman

13 t =

2

1 2

n

r r

s s

sigue aproximadamente una distribución t de Student con n - 2 grados de libertad, siempre que el tamaño muestral sea n > 10. Así, el valor P bilateral del contraste puede aproximarse mediante el área bajo la distribución tn-2 para valores tanto o más alejados de 0 que el valor observado del estadístico t. Aparte del mínimo requerimiento muestral, este contraste tiene la ventaja adicional de poder aplicarse a cualquier distribución subyacente de las variables X e Y, a diferencia del contraste paramétrico basado en el coeficiente de correlación de Pearson que requiere de distribuciones poblacionales aproximadamente normales.

Ejemplo 10.5 Como las distribuciones subyacentes del α-tocoferol y el β- caroteno (Figura 4.3) son marcadamente asimétricas en los controles del estudio EURAMIC, el contraste bilateral de la hipótesis de no asociación entre ambas variables a partir de los 10 controles de la Tabla 10.1 ha de realizarse mediante el estadístico basado en la correlación de los rangos de Spearman

t =

8 552 , 0 1

552 , 0 2

1 2 = − 2

n

r r

s

s = 1,87,

que bajo la distribución t de Student con 8 grados de libertad corresponde a un valor aproximado de P = 2P(t8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de correlación de Spearman rs = 0,55 estima una fuerte relación monótonamente creciente entre los valores observados de α-tocoferol y β-caroteno, esta

asociación no llega a ser estadísticamente significativa, probablemente debido a la que bajo la distribución t de Student con 8 grados de libertad corresponde a un valor aproximado de P = 2P(t8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de correlación de Spearman rs = 0,55 estima una fuerte relación monótonamente creciente entre los valores observados de a-tocoferol y b-caroteno, esta asociación no llega a ser estadísticamente significativa, probablemente debido a la escasa potencia del test para detectar cualquier asociación subyacente con tan reducido tamaño muestral.

Cuando el tamaño muestral es inferior o igual a 10, la distribución t de Student no es una buena aproximación a la distribución muestral del estadístico t y, en consecuencia, el contraste

164

Correlación y regresión lineal simple

Pastor-Barriuso R.

debe basarse en la distribución exacta del coeficiente de correlación de Spearman bajo la hipótesis nula. Si no existe ninguna relación monótona entre las variables, y los rangos ri de la variable X se asumen constantes, cualquier permutación s1, ..., sn de los rangos de la variable Y es igualmente probable y su probabilidad viene dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribución bajo la hipótesis nula del coeficiente de correlación de Spearman, cuyos percentiles en muestras de tamaño n ≤ 10 se presentan en la Tabla 10 del Apéndice. Para un contraste bilateral con un nivel de significación α preestablecido, la hipótesis de no asociación se rechazará si el coeficiente de correlación rs de Spearman es inferior al percentil α/2 o superior al percentil 1 – α/2 de dicha tabla.

Ejemplo 10.6 El valor exacto de P para el contraste bilateral de la hipótesis de no asociación entre el a-tocoferol y el b-caroteno viene dado por

14 escasa potencia del test para detectar cualquier asociación subyacente con tan reducido tamaño muestral.

Cuando el tamaño muestral es inferior o igual a 10, la distribución t de Student no es una buena aproximación a la distribución muestral del estadístico t y, en consecuencia, el contraste debe basarse en la distribución exacta del coeficiente de correlación de Spearman bajo la hipótesis nula. Si no existe ninguna relación monótona entre las variables, y los rangos ri de la variable X se asumen constantes, cualquier permutación s1, ..., sn de los rangos de la variable Y es igualmente probable y su probabilidad viene dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribución bajo la hipótesis nula del coeficiente de correlación de Spearman, cuyos percentiles en

muestras de tamaño n ≤ 10 se presentan en la Tabla 10 del Apéndice. Para un contraste bilateral con un nivel de significación α preestablecido, la hipótesis de no asociación se rechazará si el coeficiente de correlación rs de Spearman es inferior al percentil α/2 o superior al percentil 1 - α/2 de dicha tabla.

Ejemplo 10.6 El valor exacto de P para el contraste bilateral de la hipótesis de no

asociación entre el α-tocoferol y el β-caroteno viene dado por

P = P(rs ≥ 0,552|H0) + P(rs≤ 0,552|H0) = 2P(rs ≥ 0,552|H0), ya que la distribución bajo H0 del coeficiente de correlación de Spearman es simétrica alrededor de 0. Utilizando la Tabla 10 del Apéndice para n = 10, se tiene que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs ≥ 0,552|H0) ≥ 2⋅0,05 = 0,10. Este valor exacto de P es similar al valor aproximado mediante la distribución t de Student en el ejemplo anterior.

ya que la distribución bajo H0 del coeficiente de correlación de Spearman es simétrica alrededor de 0. Utilizando la Tabla 10 del Apéndice para n = 10, se tiene que el percentil

rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs ≥ 0,552|H0) ≥ 2⋅0,05 = 0,10. Este valor

exacto de P es similar al valor aproximado mediante la distribución t de Student en el ejemplo anterior.

In document BIOESTADÍSTICA - GESDoc (página 171-174)