Coeficiente de correlación muestral de Pearson

REGRESIÓN LINEAL SIMPLE

10.2 COEFICIENTE DE CORRELACIÓN

10.2.1 Coeficiente de correlación muestral de Pearson

Una vez descritas las propiedades e interpretación del coeficiente de correlación poblacional, en este apartado se presentan los métodos para estimar el coeficiente de correlación entre dos variables X e Y a partir de los valores observados de ambas variables (x_i, y_i) en una muestra de n sujetos mutuamente independientes, i = 1, ..., n.

El estimador muestral más utilizado para evaluar la dependencia lineal entre dos variables X e Y es el coeficiente de correlación muestral de Pearson, que se denota por r_xy, o simplemente por r, y se define como la covarianza muestral entre X e Y dividida por el producto de sus desviaciones típicas muestrales,

5 [Figura 10.2 aproximadamente aquí]

10.2.1 Coeficiente de correlación muestral de Pearson

Una vez descritas las propiedades e interpretación del coeficiente de correlación poblacional, en este apartado se presentan los métodos para estimar el coeficiente de correlación entre dos variables X e Y a partir de los valores observados de ambas variables (xi, yi) en una muestra de n sujetos mutuamente independientes, i = 1, ..., n.

El estimador muestral más utilizado para evaluar la dependencia lineal entre dos variables X e Y es el coeficiente de correlación muestral de Pearson, que se denota por rxy, o simplemente por r, y se define como la covarianza muestral entre X e Y dividida por el producto de sus desviaciones típicas muestrales,

r =



−

− −

i i

i i i

y x n

i i i

y y x

y y x x s

y y x n x

2 1

2 1 1

) (

) )(

( )

)(

1 ( 1

donde x y sx son la media y la desviación típica muestral de X y y y sy son la media y la desviación típica muestral de Y. Así, el coeficiente de correlación muestral de Pearson se define de forma análoga al coeficiente de correlación poblacional, reemplazando la covarianza y las desviaciones típicas poblacionales por sus

correspondientes estimadores muestrales. Al igual que el coeficiente de correlación poblacional, el coeficiente de correlación muestral siempre toma valores entre -1 y 1, de tal forma que cuanto más se aproxime a 1 ó -1, mayor será la dependencia lineal

positiva o negativa entre las variables.

Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersión entre el índice de masa corporal, medida de obesidad que se obtiene de dividir el peso en donde

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

y s_x son la media y la desviación típica muestral de X y y y s_y son la media y la desviación típica muestral de Y. Así, el coeficiente de correlación muestral de Pearson se define de forma análoga al coeficiente de correlación poblacional, reemplazando la covarianza y las desviaciones típicas poblacionales por sus correspondientes estimadores muestrales. Al igual que el coeficiente de correlación poblacional, el coeficiente de correlación muestral siempre toma valores entre – 1 y 1, de tal forma que cuanto más se aproxime a 1 ó –1, mayor será la dependencia lineal positiva o negativa entre las variables.

Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersión entre el índice de masa corporal, medida de obesidad que se obtiene de dividir el peso en kilogramos por la

Figura 10.3

20 24 28 32 36

0,25 0,5 1 1,5 2 2,25

Indice de masa corporal (kg/m²)

Colesterol HDL (mmol/l)

Figura 10.3 Diagrama de dispersión entre el índice de masa corporal y el colesterol HDL en el grupo con- trol del estudio EURAMIC.

159 Coeficiente de correlación

Pastor-Barriuso R.

altura en metros al cuadrado, y el colesterol HDL en los 533 controles del estudio EURAMIC con valores para ambas variables. A simple vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el índice de masa corporal. Esta apreciación visual se confirma mediante el cálculo del coeficiente de correlación muestral de Pearson,

6 kilogramos por la altura en metros al cuadrado, y el colesterol HDL en los 533 controles del estudio EURAMIC con valores para ambas variables. A simple vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el índice de masa corporal. Esta apreciación visual se confirma mediante el cálculo del coeficiente de correlación muestral de Pearson,

r = 3,50 0,295

285 , ) 0

)(

532 ( 1 ⁵³³

⋅

= −

−



−

y x

i i i

s s

y y x x

= 0,276,

que indica una asociación lineal negativa moderada entre el índice de masa corporal y el colesterol HDL.

[Figura 10.3 aproximadamente aquí]

El coeficiente de correlación r de Pearson tiene una distribución muestral tanto más asimétrica cuanto más distante esté la correlación subyacente ρ del valor 0. Cuando ρ está relativamente próximo a 1 ó -1, las estimaciones muestrales del coeficiente de correlación tenderán por fuerza a desviarse más del parámetro ρ en la cola que no está limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con un marcado sesgo negativo o positivo. Por ello, el cálculo de un intervalo de confianza y un test de hipótesis para ρ no suele realizarse a partir de la distribución muestral de r, sino mediante la transformación z de Fisher

z = 



 





− + r r 1 log 1 2

1 ,

cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede probarse que si las distribuciones poblaciones de las variables X e Y no distan mucho

−

que indica una asociación lineal negativa moderada entre el índice de masa corporal y el colesterol HDL.

El coeficiente de correlación r de Pearson tiene una distribución muestral tanto más asimétrica cuanto más distante esté la correlación subyacente ρ del valor 0. Cuando ρ está relativamente próximo a 1 ó – 1, las estimaciones muestrales del coeficiente de correlación tenderán por fuerza a desviarse más del parámetro ρ en la cola que no está limitada por el rango [– 1, 1] de valores posibles de r, resultando en una distribución con un marcado sesgo negativo o positivo. Por ello, el cálculo de un intervalo de confianza y un test de hipótesis para ρ no suele realizarse a partir de la distribución muestral de r, sino mediante la transformación z de Fisher

r = 3,50 0,295

285 , ) 0

)(

532 ( 1 ⁵³³

⋅

= −

−



−

y x

i i i

s s

y y x x

= -0,276,

que indica una asociación lineal negativa moderada entre el índice de masa corporal y el colesterol HDL.

[Figura 10.3 aproximadamente aquí]

z = 



 





− + r r 1 log 1 2

1 ,

cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede probarse que si las distribuciones poblaciones de las variables X e Y no distan mucho

cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede probarse que si las distribuciones poblacionales de las variables X e Y no distan mucho del modelo normal y el tamaño muestral no es muy pequeño, típicamente n > 50, la transformación z de Fisher se distribuye de forma aproximadamente normal con media log{(1 + ρ)/(1 – ρ)}/2 y varianza 1/(n – 3),

del modelo normal y el tamaño muestral no es muy pequeño, típicamente n > 50, la transformación z de Fisher se distribuye de forma aproximadamente normal con media log{(1 + ρ)/(1 - ρ)}/2 y varianza 1/(n - 3),



 





 −



 





−

→ +

3 , 1 1 log 1 2

~ 1 N n

z ρ

ρ .

Notar que la varianza de z es inversamente proporcional al tamaño muestral e independiente de la correlación subyacente ρ.

Ejemplo 10.2 Las Figuras 10.4(a) y (b) muestran las distribuciones del coeficiente de correlación r de Pearson y de la transformación z de Fisher entre el índice de masa corporal y el colesterol HDL en 1000 muestras aleatorias simples de tamaño 50 obtenidas a partir de los controles del estudio EURAMIC. La distribución muestral de r presenta un leve sesgo positivo ya que el percentil 75 (-0,18) está ligeramente más alejado de la mediana (-0,28) que el percentil 25 (-0,36). Para corregir esta leve asimetría, la transformación z de Fisher aumenta la dispersión de los valores de r más distantes de 0 (cola inferior de la distribución) y mantiene virtualmente constantes los valores próximos a 0 (cola superior), dando lugar así a una distribución sensiblemente más simétrica.

En este ejemplo, la distribución muestral del coeficiente de correlación r de Pearson presenta una leve asimetría ya que la correlación subyacente -0,276 en todos los controles del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlación subyacente ρ sea alta, la distribución muestral de r será notablemente asimétrica y, en consecuencia, el efecto normalizador de la transformación z de Fisher será mucho más marcado.

Notar que la varianza de z es inversamente proporcional al tamaño muestral e independiente de la correlación subyacente ρ.

Ejemplo 10.2 Las Figuras 10.4(a) y (b) muestran las distribuciones del coeficiente de correlación r de Pearson y de la transformación z de Fisher entre el índice de masa corporal y el colesterol HDL en 1000 muestras aleatorias simples de tamaño 50 obtenidas a partir de los controles del estudio EURAMIC. La distribución muestral de r presenta un leve sesgo positivo ya que el percentil 75 (– 0,18) está ligeramente más alejado de la mediana (– 0,28) que el percentil 25 (– 0,36). Para corregir esta leve asimetría, la transformación z de Fisher aumenta la dispersión de los valores de r más distantes de 0 (cola inferior de la distribución) y mantiene virtualmente constantes los valores próximos a 0 (cola superior), dando lugar así a una distribución sensiblemente más simétrica.

En este ejemplo, la distribución muestral del coeficiente de correlación r de Pearson presenta una leve asimetría ya que la correlación subyacente – 0,276 en todos los controles del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlación subyacente ρ sea alta, la distribución muestral de r será notablemente asimétrica y, en consecuencia, el efecto normalizador de la transformación z de Fisher será mucho más marcado.

160

Correlación y regresión lineal simple

Pastor-Barriuso R.

Figura 10.4



 





−

= +

r z r

b 1

log 1 2 1 ) (a) r (

-0,8 -0,6 -0,4 -0,2 0 0,2 0

5 10 15 20

Frecuencia relativa (%)

-0,8 -0,6 -0,4 -0,2 0 0,2 0

5 10 15 20

-0,8 -0,6 -0,4 -0,2 0 0,2 0

5 10 15 20

Frecuencia relativa (%)

-0,8 -0,6 -0,4 -0,2 0 0,2 0

5 10 15 20

Figura 10.4 Distribución muestral del coeficiente de correlación r de Pearson (a) y de la transformación z de Fisher (b) entre el índice de masa corporal y el colesterol HDL en 1000 muestras aleatorias simples de tamaño 50 obtenidas a partir de los controles del estudio EURAMIC. Las líneas verticales en trazo discon- tinuo representan los parámetros subyacentes ρ = – 0,276 y log{(1 + ρ)/(1 – ρ)}/2 = – 0,284.

En base a la distribución muestral de la transformación z de Fisher, el intervalo de confianza al 100(1 – α)% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 viene dado por

8 [Figura 10.4 aproximadamente aquí]

En base a la distribución muestral de la transformación z de Fisher, el intervalo de confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por

(z₁, z₂) =

2 1

1 −

± ₋ z n

z _α ,

donde z1-α/2 es el percentil 1 - α/2 de la distribución normal estandarizada. Así, el intervalo de confianza al 100(1 - α)% para el coeficiente de correlación poblacional ρ se obtiene de aplicar el inverso de la transformación de Fisher a ambos límites del intervalo,



 





− +

−

1 ) 2 exp(

1 ) 2 ,exp(

1 ) 2 exp(

2 2 1

z z z

z .

Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el contraste de la hipótesis nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ ρ0 se realiza mediante el estadístico

3 1

1 log 1 2 1

0 0

−



 





−

− +

z ρ

ρ ,

que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P del contraste se calcula, por tanto, como el área bajo la curva normal estandarizada para aquellos valores tanto o más distantes de 0 que el valor observado del estadístico.

Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación puntual del coeficiente de correlación entre el índice de masa corporal y el

donde z_1–α/2 es el percentil 1 – α/2 de la distribución normal estandarizada. Así, el intervalo de confianza al 100(1 – α)% para el coeficiente de correlación poblacional ρ se obtiene de aplicar el inverso de la transformación de Fisher a ambos límites del intervalo,

8 [Figura 10.4 aproximadamente aquí]

En base a la distribución muestral de la transformación z de Fisher, el intervalo de confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por

(z1, z2) =

3 1

2 /

1 −

± ₋ z n

z α ,



 





− +

−

1 ) 2 exp(

1 ) 2 ,exp(

1 ) 2 exp(

2 2 1

z z z

z .

3 1

1 log 1 2 1

0 0

−



 





−

− +

z ρ

ρ ,

Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación puntual del coeficiente de correlación entre el índice de masa corporal y el

Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el contraste de la hipótesis nula H₀: ρ = ρ₀ frente a la hipótesis alternativa bilateral H₁: ρ ≠ ρ₀ se realiza mediante el estadístico

8 [Figura 10.4 aproximadamente aquí]

En base a la distribución muestral de la transformación z de Fisher, el intervalo de confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por

(z1, z2) =

2 1

1 −

± ₋ z n

z _α ,



 





− +

−

1 ) 2 exp(

1 ) 2 ,exp(

1 ) 2 exp(

2 2 1

z z z

z .

3 1

1 log 1 2 1

0 0

−



 





−

− +

z ρ

ρ ,

Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación puntual del coeficiente de correlación entre el índice de masa corporal y el

que bajo H₀ sigue aproximadamente una distribución normal estandarizada. El valor P del contraste se calcula, por tanto, como el área bajo la curva normal estandarizada para aquellos valores tanto o más distantes de 0 que el valor observado del estadístico.

Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación puntual del coeficiente de correlación entre el índice de masa corporal y el colesterol HDL fue r = – 0,276.

La transformación z de Fisher de esta correlación es z = log{(1 – 0,276)/(1 + 0,276)}/2 = – 0,284.

Para obtener una estimación por intervalo de la correlación subyacente ρ entre ambas

Coeficiente de correlación

variables en la población de referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 como

9 colesterol HDL fue r = -0,276. La transformación z de Fisher de esta correlación es z = log{(1 - 0,276)/(1 + 0,276)}/2 = -0,284. Para obtener una estimación por intervalo de la correlación subyacente ρ entre ambas variables en la población de referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 como

3 533 284 1

0 ₀_,₉₇₅

± −

− z = 0,284 ± 1,96⋅0,043 = ( 0,369; 0,199)

y, a continuación, se aplica el inverso de la transformación de Fisher a ambos límites del intervalo



 





−

− +

−

1 )}

199 , 0 ( 2 exp{

1 )}

199 , 0 ( 2 ,exp{

1 )}

369 , 0 ( 2 exp{

1 )}

369 , 0 ( 2

exp{ = (-0,353; -0,196).

Notar que el intervalo resultante es ligeramente asimétrico respecto a la estimación puntual r = -0,276. Para contrastar la hipótesis de ausencia de asociación lineal entre ambas variables H0: ρ = 0, se calcula el estadístico

-0,284 533−3 = -6,53,

que corresponde a un valor P bilateral bajo la distribución normal estandarizada 2P(Z ≤ -6,53) = 2Φ(-6,53) < 0,001. En conclusión, existe una asociación lineal moderada pero significativa entre el índice de masa corporal y el colesterol HDL con un coeficiente de correlación de -0,28 (IC al 95% -0,35 a -0,20; P < 0,001).

In document BIOESTADÍSTICA - GESDoc (página 168-171)