Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 157–174
Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on
Comparison of confidence intervals for the correlation coefficient
Liliana Vanessa Pacheco
aliliana.pacheco24@gmail.com
Juan Carlos Correa
bjccorreamorales@gmail.com
Resumen
La construcci´ on de intervalos de confianza para la estimaci´ on de la correlaci´ on en la distribuci´ on normal bivariable y multivariable, ρ, es un problema importante en el trabajo estad´ıstico aplicado. Uno de los prop´ ositos principales de este tra- bajo es hacer una revisi´on de los diferentes procedimientos para su construcci´ on.
Se realiz´o adem´as, un estudio de simulaci´ on para analizar el comportamiento de los niveles de confianza reales y compararlos con los te´oricos, analizar el compor- tamiento de las longitudes de los intervalos de confianza logrados por los nueve m´etodos considerados y determinar cu´al metodolog´ıa provee los intervalos m´as cortos. As´ı como tambi´en se obtuvo un indicador que resume de manera m´as efec- tiva la calidad del intervalo analizado.
Palabras clave: coeficiente de correlaci´ on, estimaci´ on, intervalo de confianza.
Abstract
The construction of confidence intervals to estimate the correlation in the normal bivariate and multivariate distribution, ρ, is an important problem in applied sta- tistical work. One of the main purposes of this work is to make a review of the different procedures for their construction. In addition, a simulation study was conducted to analyze the behavior of real confidence levels and compare them to theoretical ones, analyze the behavior of the lengths of the confidence intervals achieved by the nine methods considered and determine which methodology pro- vides the shortest intervals. Likewise an indicator that summarizes more effectively the quality of the analyzed interval was also obtained.
Keywords: correlation coefficient, estimation, confidence interval.
a
Universidad Nacional de Colombia, sede Medell´ın. Escuela de Estad´ıstica. Colombia.
b
Universidad Nacional de Colombia, sede Medell´ın. Escuela de Estad´ıstica. Colombia.
157
158 Liliana Vanessa Pacheco & Juan Carlos Correa
1. Introducci´ on
El coeficiente de correlaci´ on es una de las medidas estad´ısticas m´as usadas dentro del trabajo aplicado. Algunas de sus propiedades fueron estudiadas por Zheng &
Matis (1994), donde presentan y demuestran las que consideron las m´as destacadas:
1. |R| ≤ 1.
2. Si |R| = 1 entonces los pares (x
1, y
1), (x
2, y
2), . . . , (x
n, y
n) yacen en una l´ınea recta.
3. Rec´ıprocamente, si los (x
1, y
1), (x
2, y
2), . . . , (x
n, y
n) yacen en una l´ınea recta, entonces |R| = 1.
Debido a su amplia utilizaci´ on, varias son sus interpretaciones. Falk & Well (1997) sustentan que el coeficiente de correlaci´ on de Pearson, ρ, es ampliamente usado en campos como la educaci´on, psicolog´ıa, y todas las ciencias sociales, y el concepto es empleado en diversas metodolog´ıas de tipo estad´ıstico.
La estimaci´ on del coeficiente de correlaci´ on por medio de intervalos es importante, y para ello se disponen de diversos m´etodos. La metodolog´ıa quiz´ a m´as conocida es la propuesta originalmente por Fisher en la cual se realiza una transformaci´ on del coeficiente de correlaci´ on muestral, r, y asumiendo normalidad asint´ otica, se desa- rrolla un intervalo para el coeficiente de correlaci´ on poblacional ρ (Krishnamoorthy
& Xia 2007). Tambi´en se conocen transformaciones adicionales hechas por Hote- lling (1953) a la propuesta inicial de Fisher.
El problema para el analista es la carencia de reglas sobre cu´al f´ ormula es preferi- ble. Para esto se pretende realizar un estudio de simulaci´ on que permita analizar el comportamiento de los niveles de confianza reales y compararlos con los te´oricos para los diversos intervalos disponibles. As´ı como tambi´en, hacer una comparaci´ on de las longitudes del intervalo obtenido por las diferentes metodolog´ıas y la imple- mentaci´on de un indicador que permita relacionar los dos criterios de evaluaci´on anteriormente mencionados.
Algunas de las metodolog´ıas empleadas para la construcci´ on de los intervalos de confianza pueden encontrarse en Fisher (1921), Hotelling (1953), Pawitan (2001), Efron (1979) y Krishnamoorthy & Xia (2007).
Adem´as, en Krishnamoorthy & Xia (2007) se pueden encontrar los resultados de estudios comparativos realizados previamente para tres m´etodos de construcci´ on de intervalos, en los cuales la metodolog´ıa consisti´o en la obtenci´on de l´ımites superiores para ρ bajo diferentes escenarios: Tama˜ nos de muestra peque˜ nos (n=5, n=10, n=20 y n=30) y valores de r positivos; y el c´ alculo de la probabilidad P (R ≤ r|n, ρ
U). Estos estudios mostraron que, en particular, el mejor m´etodo para construir intervalos unilaterales para ρ en muestras peque˜ nas es el de pivote generalizado.
Comunicaciones en Estad´ ıstica, diciembre 2013, Vol. 6, No. 2
Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on 159
2. Intervalos de confianza
2.1. M´ etodo I: basado en la transformaci´ on Arcotangente
Este intervalo puede considerarse el intervalo cl´ asico para este par´ ametro y fue propuesto por Fisher (1921). Debido a que la distribuci´ on del coeficiente de corre- laci´on muestral no es centrada y/o sim´etrica, el c´ alculo de intervalos de confianza a partir de los cuantiles de la distribuci´ on no se hace sencillo. Por tanto, Fisher propone la transformaci´ on arcotangente hiperb´ olico:
r = tanh(z) ⇔ z = 1
2 log 1 + r
1 − r (1)
y demostr´ o que z tiene una distribuci´ on aproximadamente normal cuando el ta- ma˜ no muestral es grande. Dicha distribuci´ on normal se caracteriza por una media ξ =
12log
1+ρ 1−ρ
y varianza
n−31. El intervalo hallado a partir de la transformaci´ on Arcotangente hiperb´ olico tiene la siguiente forma:
tanh
arctanh(r) − z
α/2√ n − 3
, tanh
arctanh(r) + z
α/2√ n − 3
(2) donde z
α2es el percentil superior α/2 de la distribuci´ on normal est´ andar.
2.1.1. Modificaciones a la transformaci´ on Arcotangente
Teniendo en cuenta el hecho de que la transformaci´ on propuesta por Fisher fun- ciona adecuadamente siempre y cuando los tama˜ nos muestrales sean grandes, se hizo necesario encontrar la manera de reducir el error al trabajar esta transfor- maci´ on en muestras peque˜ nas. Hotelling (1953) estudi´ o esta situaci´ on y propuso 4 transformaciones z
icon i = 1, . . . , 4, para la transformaci´ on z original de Fisher, las cuales tambi´en, asint´ oticamente tienen una distribuci´ on Normal con media ξ
iy varianza
n−11:
z
1= z − 7z + r
8(n − 1) ξ
1= ξ − 7ξ + ρ
8(n − 1) (3)
z
2= z − 7z + r
8(n − 1) − 119z + 57r + 3r
2384(n − 1)
2ξ
2= ξ − 7ξ + ρ
8(n − 1) − 119ξ + 57ρ + 3ρ
2384(n − 1)
2(4)
z
3= z − 3z + r
4(n − 1) ξ
3= ξ − 3ξ + ρ
4(n − 1) (5)
z
4= z − 3z + r
4(n − 1) − 23z + 33r − 5r
296(n − 1)
2ξ
4= ξ − 3ξ + ρ
4(n − 1) − 23ξ + 33ρ − 5ρ
296(n − 1)
2(6)
Comunicaciones en Estad´ ıstica, diciembre 2013, Vol. 6, No. 2
160 Liliana Vanessa Pacheco & Juan Carlos Correa
2.2. M´ etodo II: Intervalo de la raz´ on de verosimilitud
Kalbfleish (1985) y Pawitan (2001) presentan la metodolog´ıa para construir inter- valos de verosimilitud. Un intervalo de la raz´ on de verosimilitud para θ es definido como el conjunto de valores parametrales con valores altamente veros´ımiles:
( θ, L(θ)
L(ˆ θ) > c )
(7)
para un valor c ∈ (0, 1) y donde ˆ θ es el estimador muestral del par´ ametro θ Sabiendo que 2 log L(ˆ θ)
L(θ)
→ χ
d 21, la probabilidad de cubrimiento aproximada para este tipo de intervalos est´ a dada por:
P L(θ) L(ˆ θ) > c
!
= P 2 log L(ˆ θ)
L(θ) < −2 log c
!
(8)
≈ P χ
21< −2 log c . (9) Luego, para cualquier valor 0 < α < 1 el punto de corte c es:
c = exp
− 1 2 χ
21,1−α(10) donde χ
21,1−αes el 100(1 − α) percentil de una χ
21. Por tanto:
P L(θ) L(ˆ θ) > c
!
= P χ
21< χ
21,1−α= 1 − α. (11) Si L(ρ) es la funci´ on de verosimilitud, se define la funci´ on de verosimilitud relativa como:
R(ρ) = L(ρ)
L(r) (12)
El conjunto de valores de ρ para los cuales R(ρ) > c es llamado intervalo de 100 × c % de verosimilitud para ρ. Los intervalos del 14.7 % y del 3.6 % de verosi- militud corresponden a intervalos de confianza de niveles del 95 % y 99 % aproxi- madamente.
Lo que se debe hacer entonces es hallar las ra´ıces que nos dan los l´ımites del intervalo. Para el caso del par´ ametro ρ tenemos que un intervalo de confianza del 95 % se halla encontrando el par de ra´ıces tal que
R(ρ) = L(ρ)
L(r) (13)
= 1 − ρ
21 − r
2 (n−1)2Z
∞0
(cosh w − ρr)
−(n−1)dw Z
∞0
(cosh w − r
2)
−(n−1)dw
≥ K(k, α) (14)
Comunicaciones en Estad´ ıstica, diciembre 2013, Vol. 6, No. 2
Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on 161 donde K(k, α) es el valor cr´ıtico m´ınimo con el cual aseguramos una confianza deseada, ya sea del 95 % o 99 %, por ejemplo.
2.3. M´ etodo III: Bootstrap
La primera aplicaci´on del m´etodo bootstrap fue en la determinaci´on del intervalo de confianza del coeficiente de correlaci´ on en el art´ıculo seminal de Efron (1979).
A partir de la muestra (x
1, y
1), (x
2, y
2), . . . , (x
n, y
n) se calculan las estimacio- nes de m´axima verosimilitud del vector de medias y de la matriz de varianzas y covarianzas de la distribuci´ on normal bivariable.
Se generan M muestras de tama˜ no n de una distribuci´ on normal bivariable con par´ ametros ˆ µ y ˆ Σ. Y para cada una de estas muestras se estima el par´ ametro ρ, por ejemplo, para la muestra j el valor del estimador para el coeficiente de correlaci´ on es r
j.
Para los r
j, j = 1, . . . , M , se construye un histograma y se calculan los percentiles 0.025 y 0.975 los cuales se denotar´an: r
{0.025}iy r
i{0.975}.
Y el intervalo de Bootstrap para ρ est´ a dado por r
i{0.025}y r
{0.975}icomo l´ımite inferior y superior respectivamente.
2.4. M´ etodo IV: Intervalo de Jeyaratnam
Jeyaratnam propone un intervalo para el coeficiente de correlaci´on de la distribu- ci´on normal bivariada y este tiene la siguiente forma (Krishnamoorthy & Xia 2007):
r − w
1 − rw , r + w 1 + rw
(15) donde
w =
tn−2,1−α/2
√n−2
q
1 +
(tn−2,1−α/2n−2 )2(16)
y t
m,pdenota el p-´esimo cuantil de la distribuci´ on t-Student con m grados de libertad.
2.5. M´ etodo V: Test generalizado para ρ
Seg´ un el art´ıculo publicado por Krishnamoorthy & Xia (2007), los autores citados proponen un algoritmo para construir un intervalo de confianza para ρ a partir de
Comunicaciones en Estad´ ıstica, diciembre 2013, Vol. 6, No. 2
162 Liliana Vanessa Pacheco & Juan Carlos Correa
la distribuci´ on del pivote generalizado para el coeficiente de correlaci´ on:
G
ρij=
j
X
k=1
b
ikb
jkq P
ik=1
b
2ikq P
jk=1