An´
alisis Comparativo de Pruebas de Bondad de
Ajuste para Distribuciones El´ıpticamente
Sim´
etricas
Trabajo de Grado
Pregrado en Matem´
aticas
Autor: Juan Pablo Lozano
Director: Adolfo J. Quiroz
Introducci´
on
Las distribuciones esf´ericamente y el´ıpticamente sim´etricas son distribuciones de gran impor-tancia tanto para la matem´atica aplicada como para la investigaci´on. El prop´osito del trabajo es poder entender este tipo de distribuciones y ver distintas maneras de determinar si un conjunto de datos posee esta propiedad estudiando varias pruebas de bondad de ajuste. Tambi´en es de nuestro inter´es ver cuales son algunas de las aplicaciones y ventajas que tienen este tipo de distribuciones en el mundo real.
En el Cap´ıtulo 1 se introducen los conceptos b´asicos y la teor´ıa general de las distribuciones esf´ericamente y el´ıpticamente sim´etricas. Se presentar´an tambi´en los distintos tipos de simetr´ıas el´ıpticas y varios resultados de inter´es sobre estas distribuciones. Luego se discutiran algunas de las aplicaciones que tienen las distribuciones que tienen alguna de estas simetr´ıas en finanzas y en seguros.
En el Cap´ıtulo 2 se presentar´a el concepto de lo que es una prueba de bondad de ajuste junto con con una explicaci´on detallada de cada uno de los estad´ısticos estudiados para poder hacer las pruebas. Tambi´en se introducir´an las hip´otesis nulas y las hip´otesis alternativas con las cuales se har´an las pruebas y se discutir´a la pertinencia de la escogencia de cada una de estas. Las pruebas escogidas ser´an programadas en el programa estad´ıstico R, de la manera m´as vectorial posible para reducir su tiempo de ejecuci´on.
Finalmente, en el Cap´ıtulo 3 se presentar´an los resultados obtenidos para las hip´otesis y los estad´ısticos referidos en el Cap´ıtulo 2. Por medio de pruebas de potencia y de los diferentes escenarios bajo los cuales se hicieron las pruebas de bondad de ajuste, se concluir´a cual de estas funcion´o mejor en general y cuales fueron superiores bajo cada hip´otesis y se analizar´a la causa de este mejor desempe˜no.
´
Indice general
1. Distribuciones Esfericamente y Elipticamente Sim´etricas 7
1.1. Distribuciones Esfericamente Sim´etricas . . . 7
1.2. Distribuciones Elipticamente Sim´etricas . . . 13
1.3. Otros Tipos de Simetr´ıa . . . 24
1.4. Aplicaciones . . . 25
2. Estad´ısticos de Bondad de Ajuste y M´etodos de Implementaci´on 29 3. An´alisis de Resultados y Conclusiones 41 3.1. An´alisis de Resultados . . . 41
3.2. Conclusiones . . . 46
4. Tablas y Figuras 49 5. Ap´endice 61 5.1. Demostraciones . . . 61
Cap´ıtulo 1
Distribuciones Esfericamente y
Elipticamente Sim´
etricas
1.1.
Distribuciones Esfericamente Sim´
etricas
Definici´on 1.1. SeaX un vector aleatorio enRd(es decirX tiene dimensionesd×1). Se dice que X tiene simetr´ıa esf´erica si para cualquierO∈O(d)
OX =d X. (1.1)
Donde = simboliza igualdad en distribuci´d on yO(d) representa el conjunto de todas las matrices ortogonales de tama˜nod×d.
Esto quiere decir que las distribuciones con simetr´ıa esf´erica tienen distribuci´on invariable bajo transformaciones ortogonales. A continuaci´on se enunciar´a un Teorema que da una serie de defini-ciones equivalentes a 1.1.
Teorema 1.2. SeaX un vector aleatorio enRd. Entonces las siguientes afirmaciones son
equiva-lentes:
1. OX=d X ∀O∈O(d)
2. La funci´on caracter´ıstica deX es de la forma
ϕX(t) =φ(t0t), t∈Rd
con φ(·) una funci´on escalar 1 y t0 representa la transpuesta de t. Se denota de la siguiente
manera:X ∼Sd(φ)donde el sub´ındice indica la dimensi´on deX.2
3. X tiene una representaci´on estoc´astica dada por:
X=d RU(d). (1.2)
Para R ≥ 0, U(d) esta distribuido uniformemente sobre la esfera unitaria en Rd y R es independiente deU(d).3
4. Para cualquiera∈Rd se tiene lo siguiente:
a0X =d kakX1.
dondek · kes la norma euclidea yX1 es la primera componente deX.
5. SiX tiene funci´on de densidad y es esf´ericamente sim´etrica, su densidad se escribe:
fX(x) =g(x0x) =g(kxk2) (1.3)
Dondeg: [0,∞)→[0,∞) es una funci´on escalar.
Este Teorema se ramifica en varios otros resultados importantes, de los cuales la mayor´ıa estan relacionados con 3. Estos se enuncian en las siguientes Propocisiones.
Proposici´on 1.3. Sea X∼Sd(φ) tal queP(X = 0) = 0, entonces,
R=d kXkyU(d) d= X
kXk (1.4)
y estos son independientes entre s´ı.
Demostraci´on. La prueba se encuentra en [3].
Proposici´on 1.4. Un vector aleatotio X esfericamente sim´etrico con funci´on de densidad de la formag(x0x) entonces la variable aleatoriaRtiene una funci´on de densidad:
f(r) = 2π
d/2
Γ(n
2)
rn−1g(r2).
Demostraci´on. X ∈Rp es esfericamente sim´etrica con densidadfX(x) =g(x0x) =g(kxk). Ahora,
P(R≤r) =
Z
...
Z
kxk≤r
g(x0x)dx1. . . dxp
2La funci´on caracter´ısticaϕ
X de un vector aleatoriod- dimensionalXesE[eit 0X
].
Ahora al pasar a coordenadas polares se obtiene lo siguiente
P(R≤r) =
Z
ρ≤r
Z
ξ∈Ω
ρp−1g(ρ2)dρdξ=
r
Z
0
ρp−1g(ρ2)dρ
Z
ξ∈Ω
dξ=
r
Z
0
ωpρp−1g(ρ2)dρ
Al pasar a coordenadas polares, el Jacobiano de la transformaci´on es J = ρp−1 y ωp es el ´area
superficial de la concha esf´erica de dimensi´on p, por eso aparecne estos t´erminos en la ecuaci´on. Como se quiere obtener es la funci´on de distribuci´on de R entonces se necesita derivar. Entonces usando el Teorema Fundamental del C´alculo se llega a que
fR(r) =ωprp−1g(r2), ωp= 2π
p 2
Γ(p2). Luego al reemplazarωp obtenemos el resultado.
De esta proposici´on se puede sacar tambi´en la funci´on de densidad deU(d)ya quefX(x) =g(x0x) y como R y U(d) son independientes entonces su funci´on de densidad conjunta es el producto de
sus densidades respectivas. Luego
fX(x) =fU(x)fR(x) =fU(x)fR(x) =fU(x)2π
d/2
Γ(d2)x
d−1g(x0x) Entonces comofX(x) =g(x0x) llegamos a que
g(x0x) =fU(x)
2πd/2
Γ(d2)x
d−1g(x0x)
fU(x) = g(x 0x)
2πd/2
Γ(d 2)
xd−1g(x0x) = Γ(d2) 2πd/2x
−(d−1)
EntoncesfU(x) = Γ(d2)
2πd/2x
−(d−1).
SiRyU(d)son independientes se puede ver f´acilmente que siX∼Sd(φ) entonces si
E(R)≤ ∞ yE(R2)≤ ∞
E(X) = 0, Cov(X) =E(R2) 1
dId
Esto se tiene porqueE(U(d)) = 0 yCov(U(d)) = 1
dId, ademas comoRyU
(d)son independientes
el valor esperado de su producto es el producto de valores esperados, luego
Cov(X) =E[(RU(d))(RU(d) 0
)] =E(R2)E[U(d)Ud0] =E(R2)Cov(U(d)) =E(R2)1
nId
Luego la matriz de covarianza deX es proporcional a la matriz identidadd-dimensional.
Otra propiedad de gran importancia de las distribuciones esf´ericas es que cuando se quiere encontrar una distribuci´on asociada a ella, por ejemplo las distribucionestoF, estas son invariantes bajo cualquier distribuci´on esf´erica. Lo mostraremos para el estad´ıstico T asociado a un vector aleatorio X∈Rd, definido como
X = 1
n d
X
i=1
Xi=
1 n1 0X S= d X i=1
(X1−X)2=X0DX, D=Id−
1
n1
01
Sd2= S
d
T :=√d−1X
Sd
En esta ecuaci´on 10 = (1,1, . . . ,1) ∈Rd. Claramente se puede ver que si X ∼ N(0, Id) entonces
T ∼t(d−1) por la definici´on deT. Ahora si X∼Sd(φ) tal queX
d
=RU(d)entonces
T =√d−1
1
d1
0X (1dX0DX)1/2 =
√
d−1
1
d1
0RU(d)
(1dR2U(d)0DU(d))1/2 = 1
d1
0U(d)
(1dU(d)0DU(d))1/2.
LuegoT no depende de la variable aleatoriaR como se muestra en la ecuaci´on anterior lo que implica que esto ser´ıa as´ı para cualquier X ∼Sd(φ) pues lo ´unico que cambia para cada uno esR
ya queU(d)es uniforme sobre la concha esf´erica de dimensi´ondy es igual para todoX.Se concluye que T es invariante bajo distribuciones esf´ericas. A partir de este an´alisis se enuncia un Teorema que resalta esta importante propiedad.
Teorema 1.5. SeaX ∼Sd(φ)y seat(X)un estad´ıstico tal quet(X) =t(aX)paraa≥0. Entonces la distribuci´on del estad´ıstico es invariante bajo distribuciones esfericamente sim´etricas.
Hasta ahora se ha definido la simetr´ıa esf´erica solo para vectores aleatorios. Sin embargo es-to tambi´en se puede hacer para matrices aleatorias, aunque en este caso existen varias clases de simetr´ıas esf’ericas. Estas son: esf´ericas por izquierda, simetricamente esf´ericas, distribuciones mul-tivariadas esf´ericas y las vector-esf´erica. A continuaci´on se explicar´a brevemente cada una de ellas y algunas de sus propiedades.
Definici´on 1.6. SeaX ∈Rn×p una matriz aleatoria. Si para cualquierO∈O(n)
entonces se dice que X es esf´erica por izquierda y se denota X ∈LS. SiX y X0 son ambas LS
entonces se dice queX es simetricamente esf´erica. Se denotaX ∈SS.
Definici´on 1.7. Una matriz aleatoriaX de tama˜non×ptiene distribuci´on multivariada esf´erica si la funci´on caracter´ıtica deX es de la forma
ϕX=φ(t10t1, t20t2, . . . , tp0tp).
Se denotaX ∈M S oX ∼M Sn×p(φ)
La siguiente definici´on hace uso del operador vectorvec(·) que se define como
vec(X) = (x10, x20, . . . , xp0)0.
Definici´on 1.8. SeaX ∈Rn×puna matriz aleatoria. Sivec(X) es esfericamente sim´etrica entonces se dice queX es vector-esf´erica y se denotaX ∈V S.
Estas nuevas clases de simetr´ıas esf´ericas naturalmente tienen variaciones tanto en su represen-taci´on estoc´astica como en la forma de su funci´on caracter´ıstica. Estas diferencias ser´an expuestas en los siguientes dos Teoremas.
Teorema 1.9. Sea X una matriz aleatorio n×pque tenga alguna de las simetr´ıas esf´ericas ma-triciales. Entonces,tiene alguna de las siguientes representaciones estoc´asticas:
LS: X =d U A con U y A matrices independientes de tama˜non×p y p×prespectivamente, tales queA0A=X0X,U ∈LS,U0U =Ip
SS: X=d UΛV dondeU,Λ, V son independientes, U es igual que en la representaci´on de LS, Λ es una matriz diagonal no-negativa, yV ∈LS tal queV0V =Ip.
MS: X =d U Rcon U y Rindependientes,
R=diag(R1, R2, . . . , Rp)≥0
y U tiene columnas i.i.d distribuidas uniformes sobre la esfera de dimensi´on n.
VS: X =d RU, dondeR≥0independiente deU, y convec(U)=d Unp, es decirvec(U)se distribuye
uniforme sobre la esfera de dimensi´on np.
ϕ=
φ(T0T) siX∈LS, φ[tr(T0T)] siX∈SS,
φ[diag(T0T)] siX∈M S, φ[eig(T0T)] siX∈V S.
Donde para cualquier matrizAp×p,
tr(A) = (a11+a22+· · ·+app)
es la traza deA,
diag(A) = (a11, a22, . . . , app)
es la diagonal deA, y eig(A)es el vector de valores propios deA.
A continuaci´on se dar´an algunos ejemplos de distribuciones que exhiben simetr´ıa esf´erica:
Distribuci´on Uniforme sobre la Esfera Unitaria en Rd Esta distribuci´on es esfericamente sim´
etri-ca ya queX ∼U(d)luego cumple la definici´on 1.1 paraRidenticamente igual a 1.
Normal Multivariada Est´andar Para ver que la distribuci´on Normal Multivariada Est´andar (N(0, Id)) exhibe simetr´ıa esf´erica basta ver su funci´on caracter´ıstica.
ϕX(t) =e(it 0µ
−1 2it
0Σt)
=e(−12)t 0t
Luego su funci´on caracter´ıstica es de la forma ϕX(t) =φ(t0t) por lo que se concluye que es
esfericamente sim´etrica por el Teorema 1.2.
Distribuci´on t-multivariada Est´andar SiX ∼td(µ,Σ, m), dondemson los grados de libertad ydla dimensi´on, entonces su funci´on de densidad es
fX(x) = Γ(
(m+d) 2 )
Γ(m2)md2πd2|Σ| 1 2[1 + 1
m(x−µ)0Σ−1(x−µ)] (m+d)
2
Entonces organizando la ecuaci´on se obtiene que
fX(x) =|Σ|−12g((x−µ)0Σ−1(x−µ).
Ahora reemplazandoµ= 0 y Σ =Id, llegamos a
LuegoX∼td(0, Id, m) es esfericamente sim´etrica pues su funci´on de densidad es de la forma
g(x0x).
Ya que se introdujeron los conceptos b´asicos de las distribuciones esfericamente sim´etricas se puede comenzar a hablar de las distribuciones elipticamente sim´etricas las cuales van a ser de mayor importancia en este trabajo pero que se requiere saber sobre simetr´ıa esf´erica para poder definir y entender este nuevo concepto de simetr´ıa.
1.2.
Distribuciones Elipticamente Sim´
etricas
Definici´on 1.11. Sea X un vector aleatoriod−dimensional. Se dice queX tiene simetr´ıa el´ıptica con par´ametrosµ∈Rd y Σ∈
Rd×d una matriz semidefinida positiva, si :
X=d µ+AY. (1.5)
Donde Y ∼ Sk(φ), A es una matriz d×k tal que AA0 = Σ y rank(Σ) = k. Se escribe X ∼ ECDd(µ,Σ, φ) el sub´ındice siendo la dimensi´on deX.
La definici´on 1.11 dice que las distribuciones con simetr´ıa el´ıptica (que de ahora en adelante escribiremos ECD) son transformaciones afin de un vector aleatorio que exhibe simetr´ıa esf´erica. Existe otra definici´on, que es la definici´on cl´asica de una ECD, es presentada a continuaci´on.
Teorema 1.12. Si X es un vector aleatoriod−dimensional, y para alg´un µ∈Rd y alguna matriz
semidefinida positiva de tama˜no d×dΣ, la funci´on caracter´ısticaϕX−µ(t) =φ(t0Σt)entonces X
es ECD con par´ametros µ,Σy φ. Es decir, si la funci´on caracteristica deX−µesta expresada en funci´on de la forma cuadr´aticat0Σt, entonces X es una ECD.
Ahora algo que vale la pena notar es que si X ∼ ECD(µ,Σ, φ) tal que X =d µ+AY para
Y ∼Sk(φ), entonces
E(X) =µ, Cov(X) =cΣ (1.6)
Esto se nota claramente pues
E(X) =E(µ+AY) =E(µ) +E(AY) =µ+AE(Y) =µ+A0 =µ.
Cov(X) =E((X−E(X))(X−E(X))0=E((µ+AY −µ)(µ+AY −µ)0) =E((AY)(AY)0) =E(AY Y0A0) =AE(Y Y0)A0=AE(Y Y0)A0=ACov(Y)A0 =AE(R2)1
kIkA
0=E(R2)
k A
0A=E(R2)
Luego podemos ver que para una ECD, su media esµy su covarianza es proporcional a la matriz Σ.
En estas definiciones vale la pena notar que las ECD van a tener aµ como su vector media y a Σ como su matriz de covarianza. Las ventajas de definir las ECD en t´erminos de los par´ametros (µ,Σ, φ) es que es m´as general que las definiciones alternativas que requieren queXsea absolutamen-te continua y adem´as que permite ver facilmente que las ECD son cerradas bajo transformaciones lineales que preserven aφbajo esa transformaci´on y conµy Σ transformados de la misma manera como vectores de media y de covarianza respectivamente.
Otro punto importante es la funci´on caracter´ıstica de las ECD y como esta se compara con la de una distribuci´on con simetr´ıa esf´erica. Por medio de 1.12 ya se tiene una idea de la forma que va a tener esta.
Proposici´on 1.13. SiX ∼ECDd(µ,Σ, φ), como en 1.11,X tiene funci´on caracter´ıstica:
ΦX(t) =eit 0µ
φ(t0Σt)t∈Rd.
Demostraci´on. La funci´on caracter´ıstica deX corresponde a
ϕX(t) =E(eit
0(µ+AY)
) =E(eit0µ+it0AY) =E(eit0µeit0AY)
Pero comoµes constante entonceseit0µtambi´en lo es y puede salir del valor esperado, por lo tanto
la ecuaci´on quedar´ıa:
ϕX =eit0µE[eit0AY] =eit0µφ(t0AA0t)
Esto ´ultimo se tiene de 2 puesY ∼S(φ). Pero comoA0A= Σ obtenemos que:
ϕX(t) =eit0µφ(t0Σt). (1.7)
Que es exactamente lo que se quer´ıa probar.
Es importante notar que las distribuciones esfericamente sim´etricas son tambi´en ECD. Se puede ver de dos formas, la primera es simplemente notando que siY ∼Sd(φ) entonces
Y = 0 +IkY.
DondeIkes la identidad de tama˜nok×k. Luego es correcto decir queY ∼ECDd(0, Ik, φ)∼Sd(φ). Ya vimos en el caso de las distribuciones esfericamente sim´etricas que tienen una representaci´on estoc´astica que es de gran importancia para su comprensi´on. De la misma manera las ECD tienen representaci´on estoc´astica, enunciaremos el resultado como un Teorema.
Teorema 1.14. Sea X ∼ECDd(µ,Σ, φ)con rank(Σ) =k≤dsi y solo si
X =d µ+RAU(k). (1.8)
Con R una variable aleatoria no negativa, U(k) una variable aleatoria d−dimensional distribuida
uniformemente sobre Sd−1,R y U(k) independientes yA∈Rd×k tal queAA0 = Σyrank(A) =k. Demostraci´on. (←) Suponiendo queX =d µ+RAU(k)y sabiendo que un vector aleatorioY ∼Sk(φ)
si y solo si tiene representaci´on estoc´asticaY =d RU(k). Luego
X =d µ+RAU(k)=µ+ARU(k)=µ+AY.
EntoncesX ∼ECDd(µ,Σ, φ) por 1.11.
(→) Lo primero de esta parte de la prueba es notar que toda matriz semidefinida positiva Σ∈Rd×d
con rank(Σ) =k tiene una ra´ız A ∈Rk×d tal que AA0 = Σ. Entonces podemos definir el vector aleatorio
Y =A−1(X−µ)
usando la inversa generalizadaA−1 deA. Entonces la funci´on caracter´ıstica deY viene dada por
ϕY(t) =ϕX−µ((A)−1
0
t) =φ(t0A−1ΣA0−1t) =φ(t0A−1AA0A0−1t) =φ(t0t), t∈Rk.
Como Aes una matriz de rango completo, entonces A−1A=A0−1
A0 =Ik. Entonces Y ∼Sk(φ) y
por lo tantoY =d RU(k)gracias a 3. Luego
µ+AY =d µ+RAU(k)∼ECDd(µ,Σ, φ).
De este Teorema se puede deducir como es la funci´on caracter´ıstica de una ECD con su repre-sentaci´on estoc´astica.
Proposici´on 1.15. SeaXun vector aleatorio enRdcon representaci´on estoc´astica como se muestra en 1.14. Denotemos porF a la funci´on de distribuci´on deRy por Ωd(ktk
2
) la funci´on caracter´ıstica deUk. Entonces:
ϕX(s) =
Z
0,∞)
Ωd(r2s)dF(r), s≥0 (1.9)
Demostraci´on. La distribuci´on uniforme sobre la concha esf´erica es esfericamente sim´etricaU(d)∼
Sd(φ), luego por 2 su funci´on caracter´ıstica es de la forma
por lo que tiene sentido definirla como Ωd(ktk2). Entonces la funci´on caracter´ıstica derU(d)va
a ser
ϕrU(d)(t) =ϕU(d)(rt) =φ(r2t0t).
La funci´on caracter´ıstica de X−µviene dada por
ϕX−µ=E[eit
0(X−µ)
] =E[eit
0RAU(d)
].
Entonces usando la Ley de Esperanza Total obtenemos
ϕX−µ(t) =
∞
Z
0
E[eit
0ρAU(d)
]dF(ρ) = ∞
Z
0
Ωd(r2t0AA0t)dF(r) =
∞
Z
0
Ωd(r2t0Σt)dF(r).
Como Σ es semidefinida positiva entonces sabemos que t0Σt≥0 entonces al final se tiene:
ϕX−µ(s) =
∞
Z
0
Ω(r2s)dF(r) s≥0.
De esta forma cualquier vector aleatorio que se represente como es 1.14 es una ECD con funci´on caracter´ıstica 1.9. AF, la funci´on de distribuci´on deRse llama Funci´on de Distribuci´on Can´onica Asociada a X.La importancia de esta funci´on se enunciar´a en el siguiente Teorema:
Teorema 1.16. Sea X ∼ ECDd(µ,Σ, φ) y rank(Σ) = k. Si F es la funci´on de distribuci´on
can´onica con respecto a X entonces la forma cuadr´atica
Q(X) = (X−µ)0Σ−1(X−µ) (1.10) tiene funci´on de distrbuci´onF(√·).Σ−1 es la inversa generalizada deΣ.
Demostraci´on. La prueba sale directamente reemplazando la representaci´on estoc´astica de una ECD en la forma cuadr´atica.
Q(X) = (X−µ)0Σ−1(X−µ)=d RU0(k)A0A0−1A−1AU(k)R.
DondeA−1 es la inversa generalizada deAtal queA−1A=AA−1=Ik. Luego obtenemos:
Q(X)=d R2U0(k)IkIkU(k)=R2U0(k)U(k)a.s.=R2.
U0(k)U(k)=kU(k)k= 1. Como sabemos queRse distribuye por medio de la funci´onF(·), entonces comoQ=d R2 entoncesQ(X) tiene funci´on de distribuci´onF(√·).
Lo importante de este Teorema est´a en que
Q(X)=d R2. (1.11)
Ya que da pie a una caracterizaci´on de normalidad que esta relacionada a la forma cuadr´aticaQ(X)
Proposici´on 1.17. Sea X ∼ ECD(µ,Σ, φ). Entonces X tiene distribuci´on Normal si y solo si
Q(X)∼χ2(m). Dondeχ2(m) es una distribuci´on chi-cuadrado conmgrados de libertad.
Demostraci´on. (→) Comenzamos suponiendo queQ(X)∼χ2(m). Por 1.16 sabemos queQ(X)=d
R2, lo que quiere decir que R∼p
χ2(m). Ahora, la funci´on de densidad de laχ2 es
f(R2)(x) =
xd/2−1e−x/2
2d/2Γ(d
2)
|Σ|−1/2
Por cuestiones de simplificaci´on se ha nombradoxa la expresi´on (x−µ)0Σ−1(x−µ). ComoR∼
p
χ2(m), se sigue que la funci´on de densidad deR est´a dada por
fR(r) = 2rfR2(r2)
usando el cambio de variablex=r2 y claramente el jacobiano de esta transformaci´on es J = 2r.
Ya teniendo esto solo queda ver como es la funci´on de densidad deX. Como tenemos la funci´on de densidad deRhace sentido analizar la representaci´on estoc´astica deX para determinar su funci´on de densidad. Primero notaremos que la funci´on de densidad conjunta de dos variables aleatorias independientes es igual al producto de las densidades de cada una. Es decir,fY,Z(y, z) =fY(y)fZ(z) paraY yZ variables aleatorias independientes. ComoR yU(k)son independientes entonces
fX(t) =fR,U(t) =fU(t)fR(t) = Γ(
d
2)
2πd/2
√
td−12√tt
d/2−1e−t/22d/2
Γ (
d
2)|Σ|
−1/2= 1
(2π)d/2|Σ|
−1/2e−t/2.
Usando la transformaci´onr =√t. En este casox=t luego t = (x−µ)0Σ−1(x−µ). Claramente
vemos quefX(t) es la funci´on de densidad de una distribuci´on normal multivariada. Luego se tiene el resultado.
(←) Supongamos queX ∼N(µ,Σ) entonces paraY =A−1(X−µ)∼N(0, Ik). Ahora,
La base de la prueba es recordar queY0Y =
d
P
i=1
Yi0Yi∼χ2.
Otros atributos que caracterizan a las ECD vienen relacionados a sus distribuciones condicio-nales, las transformaciones lineales y a las funciones de densidad. Los m´as importantes se enuncian en el siguiente Teorema.
Teorema 1.18. 1. Toda transformaci´on lineal de una ECD es otra vez una ECD. En particular,
todas las distribuciones marginales de una ECD son de nueva ECD.
2. Todas las distribuciones condicionales de una ECD son ECD.
3. SiY tiene densidad g(x0x) y A es una matriz cuadrada no-singular, entoncesX =µ+AY
tiene densidad:
fX(x) =|Σ|−12g[(x−µ)0Σ−1(x−µ)] =det(Σ−1/2)g(kA−1(x−µ
0)k2)
DondeAA0 = Σ. Cuando esto sucede se denotaX ∼ECDd(µ,Σ, g).4.
1. Demostraci´on. Sean µ ∈ Rk y A ∈ Rk×d. Sea Y = µ+AX con X una ECD. Ahora por 3 sabemos queX =d γ+RBU(n) para γ ∈
Rd y B ∈ Rd×n tal que BB0 = Σ semidefinida positiva. Entonce si reemplazamosX por su representaci´on estoc´astica en la ecuaci´on de Y
obtenemos
Y =d µ+A(γ+RBU(m)) = (µ+Aγ) +RABU(m)
Notemos queAγtiene dimensionesk×1 igual que las deµluego podemos sumarlos. Denotemos a esa suma porδ. Ahora veamos que ∆ :=AB(AB)0 es semidefinida positiva.
∆ =ABB0A0=AΣA0
Ahora como Σ es semidefinida positiva por definici´on de la representaci´on estoc´astica deX, entonces ∆ tambi´en lo es y si elrank(∆) =kse tiene todo lo requerido para concluir queY
tiene representaci´on estoc´astica como la que se presenta en 1.14 entonces
Y ∼ECDd(δ,∆, φ).
2. Demostraci´on. La prueba de este numeral se puede encontrar en [3]
4Existe una versi´on m´as general de este numeral, cuandoAno es cuadrada. Su enunciaci´on y demostrac´on se
3. Demostraci´on. Para mostrar esto usaremos 1.4. ClaramenteY =A−1(X−µ) entonces como
la funci´on de densidad deY es de la formag(x0x), entonces bajo esta transformaci´on se vuelve de la forma
fX(x) =fY(A−1(X−µ))|J|=g((X−µ)0A0−1A−1(X−µ)) 1
|A| =g((X−µ)
0Σ−1(X−µ)) 1
|A|
El Jacobiano de la transformaci´onY =A−1(X−µ) es J =A−1, entonces|J|=|A−1|= 1
|A| y de ah´ı sale este t´ermino en la expresi´on anterior. Ahora comoAes una matriz cuadrada tal queAA0 = Σ entonces Σ es de rango completo pues rank(A) =rank(AA0) =rank(Σ) por ser cuadrada. Entonces se puede ver aAcomo Σ12. Luego reemplazando se obtiene
fX(x) =|Σ|
−1
2g[(x−µ)0Σ−1(x−µ)]
A partir de 3 se puede determinar una interpretaci´on de las ECD desde un punto de vista geom´etrico. Las ECD son aquellas distribuciones cuyas superficies equiprobables (curvas de nivel) son elipsiodes, y eso lo podemos ver por su representaci´on estoc´astica. SiX es un vector aleatorio
d−dimensional, lo primero a analizar es queU(d)le da la forma esf´erica pues es una variable aleatoria
uniformemente distribuida sobre la esfera de dimensi´on d. Luego, la matriz de transformaci´on A
nos da los contornos el´ıpticos al deformar la variableU(d). La variable Rdetermina la forma de la
distribuci´on, en particular las colas, y por ´ultimo, elµ determina la posici´on de la variable X, es decir, es una variable de traslaci´on. A partir de 3, los contornos equiprobables son los elipsoides:
(x−µ)0Σ−1(x−µ) =constante
pues la funci´on de densidadg es constante.
Otra propiedad importante de las ECD es que la distribuci´on de una variable aleatoriaX que exhiba esta simetr´ıa no determina de manera ´unica los par´ametros Σ yφ. Para ver esto hace falta comparar como se relacionar´ıan los par´ametros si una variable aleatoria se distribuye por medio de dos ECD. Para mostrar esto se enuncia el siguiente Teorema.
Teorema 1.19. Si X∼ECDd(µ,Σ, φ)y X∼ECDd(µ0,Σ0, φ0). Entonces
µ0=µ
M´as a´un, si X es no-degenerada, entonces existe unc≥0 tal que:
Demostraci´on. La prueba de este Teorema se encuentra en [3].
Ahora, del resultado Teorema 1.19 surge la pregunta si existe un razonamiento similar para un vector aleatorio representado por dos representaciones estoc´asticas con diferentes par´ametros. La respuesta es si, pero antes de enunciar como ser´ıa esta comparaci´on de par´ametros hace falta hacer una definici´on y enunciar un lema.
Definici´on 1.20. SeaU(k)un vector aleatorio distribuido uniformemente sobreS(k−1). Dividamos este vector en dos partes, U1(k) de dimensi´on m con 0 ≤ m ≤ k y U2(k) de dimensi´on n con
0≤n≤ktal quem+n+k, es decir
U(k)= (U1(k), U2(k)).
Lemma 1.21.
U(k)= (U1(k), U2(k)) d
= (RnmU(m),(1−Rnm2)12U(n−m))
DondeRnm≥0,U(n−m)yU(m) son independientes y R2nm∼Beta(m
2,
n−m
2 )
Teorema 1.22. Sea X un vector aleatorio ECD. Supongamos que X =d µ+RAU(k) y que X =d
µ0+R0A0U(k0) conk≥k0. Entonces,
1. µ=µ0.
2. A0A=cA00A0, c≥0.
3. c12RRkk
0 =R0.DondeR yRk(k)0 son independientes yR
2
kk0 se distribuye como en el Lema.
Luego de manera similar los par´ametros de la representaci´on estoc´asticaµ,RyAse determinan unicamente por la distribuci´on del vector aleatorio ECD.
Una propiedad adicional que tienen las ECD es que son estables bajo sumas, es decir si tenemos
X1, X2, . . . , Xnvectores aleatorios i.i.d y ECD con la misma matriz Σ entonces n
P
i=1
Xi−µies ECD.
Todo se debe a que su funci´on caracter´ıstica tiene la forma
ϕX(t) =E[it0e
[
n
P
i=1
(Xi−µi)]
] =
n
Y
i=1
E[e(it
0(X
i−µi))] = n
Y
i=1
φXi−µi(t0Σt)
Ya se hab´ıa mencionado que las distribuciones condicionales de una ECD es de nuevo una ECD, pero es importante saber como se expresan estas de forma estoc´astica. Para eso es necesario intro-ducir una proposici´on importante que permitir´a la representai´on ser expresada con m´as facilidad.
Proposici´on 1.23. Si Γ = (ε1, ε2, . . . , εd) se distribuyen uniformemente sobre la esfera unitaria de
dimensi´ond, entonces
(ε12, ε22, . . . , εd2) d
= (Y1
S , Y2
S, . . . , Yd
S ) Yi∼Gamma(1/2,1) S= d
X
i=1
Yi.
En otras palabrasεi2∼Beta(1/2,(d−1)/2) Demostraci´on. SeaZ ∼N(0, I). EntoncesZ2∼χ
12=Gamma(1/2), adem´as
(ε1, ε2, . . . , εd) = Z
kZk = (
Z1
kZk,
Z2
kZk, . . . ,
Zd
kZk).
Entoncesεi2= Zi2
kZk2. Ahora, seanY1, Y2, . . . , Ydvariables i.i.d tales queYi∼Gamma(1/2), ∀i=
1, . . . , d. Antes de continuar hay que recordar que si tenemos dos variables aleatorias independientes
V yW tales que
V ∼Gamma(α,1), W ∼Gamma(β,1)→ V
W +V ∼Beta(α, β)
Entonces cogiendoV =Yi yW =Y1+· · ·+Yi−1+Yi+1,· · ·+Yd∼Beta((d−1)/2,1). Luego
Z12
kZk2 =
V
V +W ∼Beta(1/2,(d−1)/2).
Pues comoYi ∼Gamma(1/2,1) ∼Zi2 se tiene el resultado se tiene, ya que εi2 ∼ Beta((d−
1)/2,1/2)
Ahora veremos los dos Teoremas que muestran como se representan las distribuciones condicio-nales tanto para distribuciones esf´ericas como el´ıpticas.
Teorema 1.24. Sea X∼Sd(φ)∼ECD(0, Id, φ). SeaX1,X2 dos sub-vectores deX de tama˜nom
y d−mrespectivamente tales queX = (X1, X2). Entonces el vector condicionalX2|X1=x1 tiene
distribuci´on esfericamente sim´etrica y representaci´on estoc´astica dada por
(X2|X1=x1)
d
=R∗U(m−d), R∗=Rp1−β|RpβU(m)=x1
Dondeβ∼Beta(m/2,(d−m)/2) yR,β,U(m) yU(d−m) son independientes.
Demostraci´on. La prueba se puede encontrar en [3].
Teorema 1.25. Sea X ∼ECDd(µ,Σ, φ)con µ= (µ1, µ2)∈Rd y Σ∈Rd×d matriz semidefinida positiva conrank(Σ) =k. Entonces al descomponer Σcomo
ϕX=
Σ11 Σ12
Σ21 Σ22
!
con las submatrices Σ ∈ Rr×r, Σ
12 ∈ Rr×(d−r), Σ21 = Σ120 y Σ22 ∈ R(d−r)×(d−r) y a X = (X1, X2)subvectores de tama˜nor≤k y(d−r) respectivamente se tiene que
(X2|X1=x1)∼ECDd−r(µ∗,Σ∗, φ∗) µ∗=µ2+Σ21Σ−111(x1−µ1), Σ∗= Σ22+Σ21Σ11−1Σ12
y φ∗ es el generador de la funci´on caracter´ıstica de R∗U(r−k) con R∗ como el del Teorema anterior.
Demostraci´on. La demostraci´on se encuentra en [3].
Notamos queX1es independiente deX2si y solo si Σ12= Σ21= 0.
En el cap´ıtulo anterior se presentaron las simetr´ıas esf´ericas para matrices aleatorias. Dado que la simetr´ıa el´ıptica va de la mano con la esf´erica en el caso de vectores aleatorios es natural pensar que tambi´en se puede extender la simetr´ıa el´ıptica al caso matricial. Estas simetr´ıas matriciales son:el´ıptica por izquierda, simetricamente el´ıptica, distribuciones multivariadas el´ıpticas y vector el´ıptica.
Definici´on 1.26. Sea Y una matriz aleatoria con alguna de las simetr´ıas esf´ericas matriciales. Se dice queX es una distribuci´on el´ıptica matricial (ECMD) si
X =M +AY
dondeAyM son matrices constantes.
Las propiedades de las ECDM son derivadas del tipo de distribuci´on esf´erica tenga la matriz aleatoria Y. Una de estas propiedades es la funci´on caracter´ıstica.
Teorema 1.27. La funci´on caracter´ıstica de X una ECDM tiene la forma:
ϕX =
φ(T0ΣT) siX ∈LE, φ[tr(T0ΣT)] siX ∈SE, φ[diag(T0ΣT)] siX ∈M E,
Para este trabajo es de importancia conocer distribuciones que exhiben simetr´ıa el´ıptica pues es necesario comprobar que los estad´ısticos de bondad de ajuste sean v´alidos bajo la hip´otesis nula
H0=El estad´ıstico es una ECD.
este concepto, se presentar´an algunos ejemplos de distribuciones que son ECD.
Ejemplos:
Normal Multivariada General En el caso est´andar ya vimos que la distribuci´on Normal era esfericamente sim´etrica. Basandonos en ese caso y analizando su funci´on caracter´ıstica vemos que es una ECD.
ϕX(t) =e(it0µ−12it 0Σt)
=e(it0µ)e(−12it 0Σt)
=cφ(t0Σt).
Luego su funci´on caracter´ıstica es la de una ECD. CuandoX ∼N(µ,Σ), se tiene queE(X) =µ
y queCov(X) = Σ.
Distribuci´on t-Multivariada Se puede ver claramente cuando se construy´o el ejemplo de la t -multivariada est´andar para el caso de simetr´ıa esf´erica que siX∼td(µ,Σ, m) la forma de su
funci´on de densidad correspondera a la de una ECD.
Distribuci´on Kotz SiX tiene distribuci´on tipo Kotz, entonces su funci´on de densidad es
fX(x) =c(|Σ|
−1
2)[(x−µ)0Σ−1(x−µ)]N−1exp n
−r[x−µ0Σ−1(x−µ)]so=cg((x−µ)0Σ−1(x−µ)) conr, s≥0, 2m+n= 2 y
c=sπ−d2r 2m+d−2
2s
Γ(d
2)
Γ(2m+2sd−2)r
m−1
una constante. Luego se tiene una funci´on de densidad de una ECD. CuandoN = 1,r=12 y
s= 1 se tiene la distribuci´on multivariada.
Distribuci´on Pearson Tipo II Si X ∼Pd(µ,Σ, a) con a ≥0 y dla dimensi´on, entonces X es ECD pues su funci´on de densidad es
fX(x) =
Γ(d
2+a+ 1)
πd2Γ(a+ 1)
|Σ|−12[1−(x−µ)0Σ−1(x−µ)]a =c|Σ|− 1
1.3.
Otros Tipos de Simetr´ıa
Aparte de los dos tipos de simetr´ıas ya presentados, es bueno mencionar que existen otros tipos de simetr´ıas que son de importancia para los estad´ısticos. Entre estas otras clases se encuentran: la simetr´ıa angular, simetr´ıa de signo, simetr´ıa central y simtr´ıa de medio espacio. A continuaci’on mencionaremos como se comporta cada una de estas, pero sin entrar en mucho detalle.
Definici´on 1.28. Un vector aleatorioX tiene simetr´ıa angular con respecto aθsi
X−θ
kX−θk
d
= θ−X
kX−θk.
Los aspectos importantes de la simetr´ıa angular son:
1. Si el punto de simetr´ıa angularθexiste, entonces este es ´unico.
2. Siθes un punto de simetr´ıa angular entonces cualquier hiperplano que pase por ´el divide aRd
en dos semiespacios con probabilidades iguales. Si la distribuci´on es continua esta probabilidad es 1/2. Se tiene en la otra direcci´on tambi´en.
3. Siθes un punto de simetr´ıa angular, entonces θes la mediana de la distribuci´on condicional deX en cualquier eje que pase porθ.
Definici´on 1.29. Se dice que un vector aleatorio X tiene distribuci´on con simetr´ıa central (o radial) con respecto aθsi
X−θ=d θ−X.
Esta distribuci´on tiene la caracter´ıstica que su funci´on de distribuci´on satisface que
f(x−θ) =f(θ−x).
Este tipo de simetr´ıa se parece a la simetr´ıa esf´erica pero no son lo mismo. Un ejemplo es la distribuci´on uniforme sobre el cubo [−1,1]d. Esta distribuci´on claramente no es esfericamente
sim´etrica pero si tiene simetr´ıa central.
Definici´on 1.30. Si un vector aleatorio X cumple que
(X1−θ1, . . . , Xd−θd)0
d
= (±(X1−θ1), . . . ,±(Xd−θd))0
para cualquier combinaci´on de signos y para alg´unθ∈Rd entonces se dice queX tiene simetr´ıa de signo con respecto aθ.
Definici´on 1.31. Un vector aleatorioX tiene simetr´ıa de semiespacio alrededor deθsi
P(X ∈H)≥1/2
para cada semiespacio cerradoH conθen el borde.
Claramente se puede ver una relaci´on entre todas estas distribuciones. La simetr´ıa angular requiere que kXX−−θθk tenga simetr´ıa central, y la simetr´ıa angular se relaciona con la de semiespacio en la probabilidad de los hiperplanos que pasan por θ. La simetr´ıa de signo es un poco m´as fuerte que la central pero m´as debil que la angular.
Existe otro tipo de simetr´ıa llamada distribuci´on α-sim´etrica, la cual se caracteriza por tener funci´on caracter´ıstica de la formaϕX(t) =φ(|t1|α, . . . ,|td|α)
Vale la pena mencionar que toda distribuci´on esfericamente sim´etrica tiene tambi´en simetr´ıa radial, angular y rotacional. Las elipticamente sim´etricas son radialemente sim´etricas alrededor de
µ y tienen tambi´en simetr´ıa angular. Mostraremos el caso que una variable ECD es radialmente sim´etrica.
X−µ=d RAU(d)=RA(−U(d)) =−RAU(d)=−(X−µ) ComoU(d)es esfericamente sim´etrica tambi´en es radial luego se obtiene el resultado.
1.4.
Aplicaciones
Los datos que exhiben simetr´ıa esf´erica o el´ıptica tienen gran variedad de aplicaciones tanto para el an´alisis de conceptos estad´ısticos como lo son las regresiones lineales y el an´alisis de componentes principales. Sin embargo tambi´en hay varios ejemplos de procedimientos en el mundo financiero que exigen que los datos tengan estos tipos de simetr´ıas para poder sacar conclusiones importantes y obtener resultados importantes. Se analizar´an un poco estas aplicaciones para mostrar la pertinencia en el estudio de datos con estas simetr´ıas y la necesidad de poder clasificar datos por medio de pruebas de bondad de ajuste.
Primero comenzaremos hablando de un estudio que se puede ver en [12] en el que se analizan el mercado accionario de Asia y de Norte Am´erica tratando de ver si las tasas de retorno diarias se distribuyen con simetr´ıa esf´erica. Para mostrar este prop´osito cogieron datos hist´oricos de empresas de estos dos continentes de varios a˜nos (1987-2008), e intentaron ver si las inestabilidades financieras del mercado se daban en periodos de tiempo donde los datos recogidos perd´ıan la simetr´ıa el´ıptica. Para hacer preciso el estudio se us´o un tama˜no muestral de un a˜no financiero (n= 252) y para cada muestra corr´ıan el momento de inicio por 5 d´ıas y volv´ıan a escoger los datos de un a˜no despu´es. Esto lo hicieron hasta quedarse sin informac´on. Para podes estimar los parametros hicieron varias
pruebas bootstrap.
Cabe resaltar que se uso la prueba de bondad de ajuste propuesta en ese articulo para mostrar la simetr´ıa de los datos. Para el mercado asiatico, cogieron 3 empresas y siguiendo el procedimiento mencionado anteriormente, lograron detectar que en varias ocasiones se rechazaba la hip´otesis nula de simetr´ıa de los datos cerca a puntos que historicamente ten´ıan inestabilidad financiera en los mercados. Para ser m´as precisos esos puntos que encontraron fueron finales de 1987, comienzos de 1989 y finales de 1997, que coinciden con momentos en los que el mercado asiatico tuvo crisis. Ellos comentan que es necesario hacer pruebas para evaluar la simetr´ıa el´ıptica en vez de solo hacer pruebas para detectar cambios en el estimador de matriz de covarianza, pero resulta que la distribuci´on cambia dr´asticamente su sim´etria mientras que mirando solo la matriz de covarianza puede no dar suficiente informaci´on.
En el caso del mercado americano y haciendo el mismo procedimiento tambi´en usando 3 empresas distintas, llegaron a observar que los datos perdieron simetr´ıa el´ıptica a finales de 1987 y a principios del 2007. Claramente la crisis del 2007 es la crisis reciente que es bastante conocida. Luego ellos concluyeron que la simetr´ıa el´ıptica es muy importante para hacer un an´alisis en cuanto a los precios diarios de tasas de retorno de activos en la bolsa ya que permiten saber cuando hay una crisis financiera.
Por otro lado si se considera un mercado condactivos con riesgo teniendo un retorno de diario (Xit)t∈Z
Xit=log(Pi,t)−log(Pi,t−1) i= 1, . . . , d ∀t∈Z
dondePit es el precio del bienien el tiempot. Para construir bien el modelo se asumen varias cosas, primero que el precio de un bien no puede desaparecer pues eso implica que la empresa entro en bancarota, segundo que los (X·t) tienen momentos de segundo orden cruzados finitos y
queX·t−µson secuencias de diferencias de martingalas ergodicas estacionarias, lo que quiere decir
que E(X·t) =µy que E[X·t|X·t−1, X·t−2. . .] a.s.
= µ∀t ∈Z. Sea Σ la matriz de covarianza deX·t,
entonces
√
T(1
T T
X
i=1
X·t−µ)
d
→Nd(0, I) T → ∞
Luego para T lo suficientemente grande como, por ejemplo, un a˜no financiero T = 252 los retornos logar´ıtmicos son asintoticamente normales si estos tienen una distribuci´on elipticamente sim´etrica.
El an´alisis de componentes principales es basicamente la reducci´on de las dimensiones de datos a aquellas que proporcionen m´as informaci´on en el an´alisis de estos. Tomando como ejemplo los retor-nos de bienes en un mercado, veremos como tener datos que tengan ECD dan una forma directa de obtener un an´alisis de componentes principales basandose en la definici´on de una ECD y en la des-composici´on espectral de la matriz Σ. Para comenzar el argumento, cojamosR= (R1, R2, . . . , Rd)
vector de retornos i.i.d dedbienes tales que
Ri=
T
X
t=1
Xit.
SeaY una variable aletoria tal queRi=αi+βiY +i para algunos par´ametrosαi,iyβi es el coeficiente de regresi´on del i-´esimo activo. Tambi´en la regresi´on se puede expresar de la siguiente forma
Ri=αi+βi1Y1+βi2Y2+· · ·+βidYd+i, i= 1, . . . , d (1.12)
ParaT bastante grande sabemos que cada Ri es aproximadamente normal si losXitson ECD
por el argumento anterior. EntoncesR∼N(µ,Σ) lo que implica que
R=d µ+O
√
DY Y ∼N(0, Id)∼Sd(φ).
Esta forma de expresar esta descomposici´on de R se debe a la descomposici´on espectral de Σ = ODO0 donde O es una matriz ortogonal y D es una matriz diagonal que tiene los valores propios λ1, . . . , λn de la matriz Σ en la diagonal. Si asumimos que los valores propios est´an en
forma descendente y que los primeros m son grandes mientras los d−m restantes no lo son, podemos concluir queY1, . . . , Ymson los componentes deY que van a dar informaci´on, los elementos
de Y se llaman componentes principales. En t´erminos m´as financieros se dice que los primeros
m son los factores de riesgo principales y los otros d−m se les conoce como las componentes de riesgo idiosincratico. La interpretaci´on de los valores propios en D son las varianzas de estos factores, luego los primeros tienen varianzas grandes mientras lo otros tienen varianzas peque˜nas. La descomposici´on espectral no solo es importante para determinar cuales van a ser las componentes (o dimensiones) deY que van a ser pertinentes para la regresi´on si no que tambi´en las columnas de la matriz ortogonalOnos dice la direccion del componente principal correspondiente. Una explicaci´on m´as geom´etrica de la situaci´on consiste en ver los componentes como los ejes de los elipsoides que conformas las superficies de nivel, luego el an´alisis de componentes principales determina cuales ejes son los m´as importantes y cual es su direcci´on por medio de los vectores propios de Σ que componen las columnas de la matrizO.
Ahora losβij estan dados por la siguiente ecuaci´on
βij =pλjOij i= 1, . . . , d j= 1, . . . , m (1.13)
Ahora podemos estimar los βij estimando primero la matriz de covarianza Σ deR y obtener
4La descomposici´on espectral de Σ no es m´as que la diagonalizaci´on de Σ, donde la matriz O es la matriz
asi las estimaciones paraO yD, denotemos a las estimaciones de cada uno de estos por ˆΣ, ˆOy ˆD. Entonces los βij se pueden estimar usando la ecuaci´on 1.13 y obtendr´ıamos
ˆ
β·j =
q
ˆ
λjOˆ·j j= 1, . . . , m. (1.14)
Se puede saber la contribuci´on de los componentes principales dividiendo la suma de los primeros
m valores propios de Σ (o elementos de la diagonal de D) entre la traza de Σ. Esto se tiene pues tr(D) = tr(Σ), entonces es como calcular que proporci´on de la traza total aportan los m
primeros valores propios. Adem´as ˆβ·jse puede interpretar como la direcci´on delj- ´esimo componente
principal.
De esta forma se puede usar el an´alisis de componentes principales para determinar como hacer una regresi´on lineal m´as eficiente y obtener los coeficientes de regresi´on es bastante f´acil si los datos inicialesXit son elipticamente sim´etricos.
Si se desea investigar m´as a fondo sobre este tipo de distribuciones, se puede encontrar infor-maci´on en: [1], [2], [3], [5], [7], [11], [13].
Cap´ıtulo 2
Estad´ısticos de Bondad de Ajuste
y M´
etodos de Implementaci´
on
La meta principal del trabajo es hacer un an´alisis comparativo entre distintos estad´ısticos de bondad de ajuste que permiten evaluar cuando una muestra con distribuci´on desconocida presenta simetr´ıa el´ıptica. Para hacer un an´alisis detallado de los estad´ısticos en cuesti´on se tomaron en cuenta diferentes par´ametros para poder determinar cual de estos tiene mejor desempe˜no. Los criterios para lograr esto fueron: potencia contra las hip´otesis alternativas, costo computacional y facilidad de implementaci´on,y la r´apidez de convergencia a distribuci´on l´ımite. A continuaci´on se exponen los diferentes estad´ısticos tomados en cuenta para el an´alisis, las distribuciones que se usaron para evaluarlos y los resultados obtenidos en la implementaci´on para diferentes tama˜nos muestrales y distintas dimensiones.
Antes de presentar y describir los estad´ısticos es necesario introducir brevemente lo que es una prueba de bondad de ajuste. Una prueba de bondad de ajuste es una forma de determinar si un conjunto de datos observados con distribuci´on desconocida tiene una propiedad espec´ıfica. Esto se logra evaluando los datos por medio de un modelo estad´ıstico y viendo si se ajustan a las carac-ter´ısticas requeridas por el modelo para determinar si exhiben o no la propiedad buscada.
El primer estad´ıstico que se estudi´o fue aquel presentado en el articulo escrito por Manzotti, Perez y Quiroz [9]. Antes de presentar la idea, vale la pena recordar que una ECD se puede expresar en t´erminos de los par´ametros (µ0,Σ0, g0) donde g0 es la funci´on escalar que define la funci´on de
distribuci´on de una ECD, como se expresa en el Teorema 1.18, para la teor´ıa los autores usan unas condiciones sobreG0la funci´on de distribucio´on acumulativa deX, cuya relaci´on cong0es la
siguiente:
La idea que expusieron los autores es la siguiente: partiendo deX1, X2, . . . , Xn,ndatos i.i.d de
una distribuci´ond-dimensionalP con par´ametros (µ0,Σ0, g0) desconocidos, probar la hip´otesis nula
infinito-dimensional que P tiene simetr´ıa el´ıptica. SeanX y S la media y la matriz de covarianza muestral. Para todo i≤ndefinimos
Yi=S−1/2(Xi−X)
Los Yi son los datos estandarizados, o como los llaman algunos autores los residuos a escala o en ingl´es scaled residuals. En la expresi´on anterior, se introduce la inversa de la raiz cuadrada de la matriz de covarianza, en el ap´endice se explicar´a como fue calculada para mayor comprensi´on. A continuaci´on, se proyectan los datos estandarizados en la esfera unitaria de dimensi´ond, es decir, para todoi≤nse hace la siguiente operac´on,
Wi= Yi
kYik
.
Los Wi son los datos proyectados en la esfera unitaria d-dimensional. Lo importante de hacer estas transformaciones es que si los Xi tienen simetr´ıa el´ıptica entonces los Wi deber´ıan estar
uniformemente distribuidos en la esfera unitaria (de ahora en adelante denotaremos a la esfera unitariad-dimensional como Ωd). Esto se debe a que si losXi son aproximadamente el´ıpticamente
sim´etricos, entonces se pueden expresar por medio de su representaci´on estoc´astica de la siguiente manera:
Xi =X+RS1/2Γ.
Por lo tanto usando la transformaci´on antes descrita para losYi se puede ver que los datos estan-darizados tienen, aproximadamente, simetr´ıa esf´erica. Por lo tanto losWi se pueden expresar, por
medio de la representaci´on estoc´astica de losYi, de la siguiente forma:
Wi= Yi
kYik
= RiΓi
kRiΓik
= RiΓi
|Ri|kΓik .
Como Ri es una variable aleatoria positiva, |Ri| = Ri y adem´as como Γi esta uniformemente
distribuida sobre Ωd entonceskΓik= 1, por lo tanto se concluye queWi= Γi. Para poder verificar
la uniformidad de losWilos autores decidieron usar un m´etodo que involucra promediar los valores
de las arm´onicas esf´ericas evaluadas en losWiya que, seg´un los autores, este m´etodo ha sido probado para pruebas de normalidad multivariada y ha dado buena potencia contra varias alternativas de diferentes dimensiones. Para conocer m´as detalles sobre esto referirse a [10].
Rd tales que ∆(p)≡0 en Rd, donde ∆ es el operador Laplaciano, ∆ = d X i=1 ∂2
∂xi2.
El grado de la arm´onica esf´erica es el mismo del polinomio del que se define. Ahora, se puede encontrar una base ortonormal de arm´onicas esf´ericas sobre Ωd, denotaremos porHk el conjunto
de arm´onicas esf´ericas de gradoken la base y por
Jjl=
[
j≤k≤l
Hk
es decir, J|lson todas las arm´onicas esf´ericas de grado j al. El n´umero de arm´onicas esf´ericas de gradoken dimensi´ondque son linealmente independientes viene dado por:
N(d, j) =
d+j−1
j
−
d+j−3
j−2
Ahora, para un ∈(0,1) se calcula el -cuantil (denotado q) de las variables radiales de los
datos estandarizados, es decir, kY1k,kY2k, . . . ,kYnk. Los Yi para los cuales su norma sea menor
a q se excluyen pues para datos muy cercanos al origen pueden surgir algunas complicaciones en
supocisiones sobreg0que se tomaron en la teor´ıa. Entonces, luego se proyectan los datos cuya norma
es mayor a q y se calcula el promedio del valor de una arm´onica esf´ericahevaluada en todos los
Wi resultantes. Este proceso se denotaQn(h) y se expresa de acuerdo a la siguiente f´ormula:
Qn(h) = (1/n)
n
X
i=1
h(Wi)1kYik≥q (2.1)
El estad´ıstico propuesto por los autores es entonces el siguiente:
Zn2=n X hinJ|l
Q2n(h), ∀j≥3. (2.2) La raz´on por la cual se decide considerar ´unicamente las arm´onicas esf´ericas de grado 3 en adelante es para que la distribuci´on l´ımite del estad´ısticoZ2
n sea una chi-cuadrado, exceptuando una
cons-tante multiplicativa, que no dependa de los par´ametros de la distribuci´on el´ıpticamente sim´etrica subyacente. Esta constante tendr´a que ver con la cantidad de datos cercanos al origen que se omi-tieron de los c´alculos. Es evidente entender por qu´e el m´etodo tiene validez, pues si un conjunto de datos no presenta simetr´ıa el´ıptica entonces las proyecciones de los datos estandarizados no es-tar´ıan distribuidos uniformemente en la esfera unitaria. Por conveniencia a esta prueba de bondad de ajuste la llamaremos MPQ para evitar confusiones en el an´alisis.
A continuaci´on se explicar´a un poco la teor´ıa detr´as del m´etodo, sin embargo, las demostracio-nes de los teoremas y algunos resultados requieren conocimiento de procesos emp´ıricos, un tema que va m´as all´a del alcance del presente trabajo y por lo tanto no se mostrar´an. Sin embargo, las demostraciones se encuentran en [9]. Se enunciar´an los resultados y su importancia para las consi-deraciones que se hicieron para plantear el estad´ıstico y como llegaron los autores a su distribuci´on l´ımite. Para comenzar los autores asumieron los siguiente:
1. E(R4) =
E(kXk)4)<∞
2. La funci´onG0es continuamente diferenciable en un intervaloJ = (s, t) tal que 0< s < q< t
conG00(q)>0
Proposici´on 2.1. La distribuci´on deZ2
nno depende de los valores deµ0y Σ0. Es decir es invariante
frente a transformaciones af´ın.
Anteriormente se habl´o de la escogencia de arm´onicas esf´ericas de grado mayor o igual a 3. La necesidad de hacer esto viene directamente relacionada con el siguiente Lema, ya que las de menor grado no lo cumplen.
Lemma 2.2. Para cada arm´onica esf´erica h de grado j ≥3 y para 1 ≤i, i0 ≤d, las siguientes integrales son iguales a 0.
(a)
Z
Ωd
hi(γ)−kh(γ)γidγ (b)
Z
Ωd
hi(γ)γi0−kh(γ)γiγi0dγ. (2.3)
Dondeγes un datod-dimensional uniformemente distribuido sobre Ωdyγies lai-´esima coordenada
deγ.
A continuaci´on el resultado m´as importante del articulo se enuncia.
Teorema 2.3. Sea N(j, l)el n´umero de arm´onicas esf´ericas en Jjl. Bajo las suposiciones hechas
en 2, la distribuci´on l´ımite deZn2 es(1−ε)χ2N(j,l). Es decir tiene distribuci´on l´ımite chi-cuadrado
con N(j, l) grados de libertad, multiplicado por la constante (1−ε), donde ε es la proporci´on de datos cercanos al origen que se omitieron.
Sabiendo que la distribuci´on l´ımite es algo tan sencillo como una distribuci´on chi-cuadrado, es muy f´acil determinar la rapidez de convergencia del m´etodo propuesto a su distribuci´on l´ımite por medio de comparar los cuantiles montecarlo estimados en simulaciones hechas a ciertas ECD con los cuantiles l´ımite de la chi-cuadrado. Ya expuesto esta prueba de bondad de ajuste y como funciona, m´as adelante se aclarar´an algunos detalles tomados en cuenta para la implementaci´on de este y en la comparaci´on con los otros.
Symmetry”[6]. Esta prueba de bondad de ajuste comienza asumiendo queX1, X2, . . . , Xnson datos
iid de una densidad f enRd. El paso siguiente es calcular los datos estandarizados Zi partiendo de los Xi de la misma manera que se explico en la descripci´on del articulo de Manzotti, P´erez y Quiroz. Una vez se haya hecho esto, se divide el espacioRd enc casquetes esf´ericos coc´entricos
centrados en el origen, tales que las regiones entre los casquetes contengan el mismo n´umero de datos estandarizadosZi. En otras palabras, cada uno de losc−1 radios de los casquetes es elj/c-´esimo
cuantil muestral de las variables radiales de los datos estandarizados,kZikparaj= 1, . . . , c−1. A continuaci´on lo que se hace es dividir de nuevoRd eng sectores c´onicos congruentes emanando del origen. 1 Lo que se tiene es entonces una divisi´on de
Rd en gc celdas que, asint´oticamente van a tener la misma cantidad (n/gc) de datos estandarizadosZi. Luego de calcular la cantidad observada de datosZi en cada celda se dispone a calcular el estad´ısticoX2 que es el estad´ıstico chi-cuadrado
que compara la cantidad de datos observados y los esperados en cada celda de la siguiente manera:
X2=
gc
X
i=1
(Oi−Ei)2
E2
i
Donde Oi es la cantidad de datos observados en la celda i-´esima y Ei es la cantidad de datos esperados en la celda i-´esima. Vale la pena aclarar que cada Ei =Ej = n/(gc) para todo i, j =
1, . . . , gc, luego sobra subindicarlos pero por claridad se deja as´ı.
Si se tuvieran los valores deµel valor esperado y Σ la covarianza de los datosXiy se usaran para
calcular los datos estandarizados, entonces la cantidad de Zi en cada casquete ser´ıa independiente y la cantidad en cada sector sigue una distribuci´on multinomial. Todo esto se debe a que bajo estas suposiciones losZi ser´ıan exactamente esf´ericamente sim´etricos, bajo la suposici´on que losXi
son ECD. Por lo tanto, bajo estas condiciones ideales la distribuci´on l´ımite χ2
c(g−1)para cualquier
distribuci´on el´ıpticamente sim´etrica. Sin embargo, este no es el caso ya que se usan los estimadores
X y S, por lo que no es tan f´acil determinar una distribuci´on l´ımite. Los autores demuestran , en condiciones normales, la distribuci´on l´ımite es una combinaci´on lineal de distribuciones chi-cuadrado:
X2 d→W0+
m
X
i=1
λiWi, n→ ∞ (2.4)
Donde W0 ∼ χ2c(g−1), W1, W2, . . . , Wm ∼ χ21 iid, y todos los Wi para i = 1, . . . , m son
indepen-dientes. Los λi son los valores propios no nulos de una matriz QQ’ donde la matriz Q se calcula
dependiendo de la divisi´on sectorial que se haga del espacio. En este trabajo se dividi´o sectorialmen-te por medio de los ortansectorialmen-tesG1, . . . , Gm, ya que calcular los valores propiosλi es bastante f´acil de
calcular e implementar. A continuaci´on describiremos como calcularlos, seaq0= (q01, q02, . . . , q0c−1)
el vector de los cuantiles poblacionales de la distribuci´on χ2
d (recordar que d es la dimensi´on del
1Se entiende por sectores congruentes a aquellos que para cualquier par de sectores, existe una transformaci´on
espacio). Entonces q0 divide la distribuci´on en intervalos de igual probabilidad 1/c. Ahora para
j= 1, . . . , cse definen:
aj=Fd+1(q0j)−Fd+1(q0j−1)bj=Fd+2(q0j)−Fd+2(q0j−1)
DondeFk es la funci´on de distribuci´on deχ2k. A continuaci´on se define
a∗:= 2c
π c
X
j=1
a2j y b∗ := 4c
π2
c
X
j=1
bj.
La distribuci´on l´ımite es entonces la siguiente:
X2→d W0+ (1−a∗)W1+ (1−b∗)W2 (2.5)
donde W0, W1, W2 son variable aleatorias chi-cuadrado conc(2p−1)−p(p+ 1)/2,pyp(p−1)/2
grados de libertad respectivamente. Los detalles detr´as de los c´alculos son bastante extensos y en algunos casos complicados por lo cual se omiten pero se pueden encontrar en [6].
Los autores recalcan que para que la distribuci´on l´ımite sea una buena aproximaci´on deben suceder dos cosas:
1. La cantidad de observaciones esperadas (n/(gc)) por celda no debe ser muy peque˜na. Se dice que si hay mas de 5 se logra una aproximaci´on buena.
2. La distribuci´on de muestra, es decir los Xi, no debe tener distribuci´on muy diferente a la normal, pues en ese caso, como se mostrar´a mas adelante, no se logra tener buena precisi´on en la aproximaci´on.
En los casos que los datos de muestra tengan simetr´ıa el´ıptica pero tengan distribuci´on muy diferente a la normal, entonces los autores dicen que se debe hacer un proceso de remuestreo para aproximar la distribuci´on del estad´ıstico X2. El procedimiento que proponen los autores consiste
en lo siguiente:
1. Se toma una muestraξ∗1, . . . , ξn∗con reemplazo de los valores de las variables radialesξ1. . . , ξn.
2. Se generanU∗
1, U2∗, . . . , Un∗ datos uniformes sobre Ωd.
3. Se calculan losZi∗=ξ∗iUi∗ parai= 1,2, . . . , n.
4. Estos datos ahora se usan para calcular el estad´ısticoX2∗.
Se repite el proceso muchas veces y se obtienenX2
1∗, X22∗, . . . , Xk2∗replicas de remuestreo cuya
de ajuste, al igual que en el caso anterior, m´as adelante se hablar´a de las consideraciones que se tomaron para este m´etodo al momento de hacer las comparaciones. A este m´etodo lo llamaremos HP en nuestro an´alisis.
Ahora se presentar´a el tercer y ´ultimo m´etodo estudiado en este trabajo. El tercer articulo fue escrito por Lyudmila Sakhanenko [12]. Comenzando de la misma forma que en los 2 articulos anteriores, sean X1, X2, . . . , Xn variables aleatorias iid de una distribuci´on d-dimensional P absolutamente
continua. Sean Zi para i = 1, . . . , n los datos estandarizados de la misma forma que en los casos expuestos anteriormente. Seamla distribuci´on uniforme sobre la esfera unitaria enRd. Dadaf una funci´on de Borel, se define:
mf(ρ) =
Z
Ωd
f(ρv)m(dv), ρ >0
Si la distribuci´on de la muestra,P, tiene simetr´ıa el´ıptica con par´ametros (µ0, A0, g0), cong0siendo
la distribuci´on de la variable radial de los datos, entonces se tiene:
Z
Rd
f(A−01(x−µ0))P(dx) = +∞
Z
0
mf(ρ)g0(dρ) (2.6)
SiF es una clase de funciones tales que:
Z
Rd
f dQ1=
Z
Rd
f dQ2, ∀f ∈ F →Q1=Q2
se dice queF es una clase que caracteriza la distribuci´on. Por lo tanto, una distribuci´onP es ECD
⇐⇒ 2.6 se cumple para toda f ∈ F. Se dice que P esF-asim´etrica si y solo si ∃f ∈ F tal que 2.6 no se cumpla. Los autores definen por πn a la distribuci´on emp´ırica de las variables radiales de los datos estandarizados, i.e.kZik. El siguiente paso es considerar una clase de funcionesF de
funciones de Borel que van de Rd a Ry utilizar funcionales del siguiente proceso estoc´astico:
ξn(f) =n−1/2(
Z
Rd
f(A−n1(x−µn))P(dx)−
+∞
Z
0
mf(ρ)πn(dρ)) =n−1/2 n
X
i=1
[f(Zi)−mf(kZik)], f ∈ F
como estad´ıstico de prueba. Vale la pena notar que como los Zi son invariantes af´ın, tambi´en los son los funcionales deξn. El estad´ıstico es entonces el siguiente:
Tn(F) := sup f∈F
Para un polinomio pen Rd de grado menor o igual a r, el conjunto
x∈Rd:p(x)≥0 se le
llama un conjunto polinomial de grado menor o igual a r en Rd. Sea Pr,d la clase de todos los polinomios de grado menor o igual a r en Rd. Ahora, se le llama conjunto polinomial de grado menor a r y de orden menor a l a cualquier conjunto de S
{A(B1, . . . , Bl) : B1, . . . , Bl ∈ Pr,d}
donde A(B1, . . . , Bl) la m´ınima ´algebra de conjunto generada por B1, . . . , Bl. Se define entonces
LPr,d,lla clase de los polinomios de grado menor ary de orden menor al.2. Una clase de funciones
G se le llama una clase de subgrafos polinomiales o de subgrafos semialgebraicos si y solo si para algunosr, l todas las funciones g∈ G el conjunto{(x, t) :g(x)≥t≥0 og(x)≤t≤0}pertenece a
LPr,d+1,l. Esto quiere decir que el subgrafo de una funci´on en G se puede constuir de la uni´on de
las intersecciones de finitos subgrafos de polinomios de grado finito enRd.
Toda la discusi´on sobre esta clase de funciones se hizo porque esta clase de subgrafos polinomiales es esencial para mostrar el resultado m´as importante del articulo. De nuevo, la demostraci´on se omite pues usa temas que est´an fuera del alcance del pregrado.
Teorema 2.4. Suponiendo que F es una clase de subgrafos polinomiales uniformemente acota-da con ciertas condiciones de suaviacota-dad y con R
Rd
|x|4dP < ∞. Entonces la sucesi´on de procesos
estoc´asticos:
{ξn(f)−n−1/2E(f, µ0, A0) :f ∈ F }
converge d´ebilmente en el espacio`∞(F)a un proceso estoc´astico GaussianoξP. En particular siP
es una ECD con par´ametros(µ0, A0, g0)entonces la sucesi´on ξn converge d´ebilmente en el espacio `∞(F)al procesoξP.
En el Teorema E(f, µ0, A0) =
R
Rd
[f(A−01(x−µ0))−mf(kA−01(x−µ0)k)]P(dx) lo que implica
por 2.6 que si P es ECD entonces E(f, µ0, A0) = 0 para todaf. `∞(F) es el espacio de todas las
funciones uniformemente acotadas en F. El proceso estoc´astico es extremadamente complicado,
3por lo cual no se puede implementar. Esto en principio da pie para pensar que para calcular la
potencia contra un conjunto de distribuciones alternativas es necesario usar los cuantiles Monte Carlo que son calculados al evaluar el m´etodo contra una serie de distribuciones que si tengan simetr´ıa el´ıptica. Las caracter´ısticas que se usaron para implementar el m´etodo ser´an explicadas m´as adelante junto con aquellas de los otros dos m´etodos una vez se hayan establecido cuales fueron las distribuciones que se usaron para la comparaci´on. A esta prueba la denominaremos LS.
En el an´alisis comparativo se consideraron las dimensiones d= 2,3,5 para datos con tama˜no muestral n = 50,100,200 para no dar alg´un tipo de ventaja a aquellos m´etodos que pueden fun-cionar mejor en dimensiones bajas. Para mostrar la rapidez de convergencia y la exactitud de las distribuciones l´ımite, se escogieron tres distribuciones que exhiben simetr´ıa el´ıptica. Estas son: la
2Se entiende por orden de un polinomio el entero positivo m´as peque˜noktal quep(x) divide axk+ 1
3Si se desea ver la expresi´on deξ
distribuci´on normal est´andar multivariada, N(0, I), la distribuci´on uniforme en la bola unitaria,
B1(0), la denotaremosUB, y la distribuci´on Pearson Tipo II con par´ametro a = 4, PII(4). Una
muestra de cada una de estas distribuciones se muestra en las figuras 1,2,3 respectivamente.4
Como alternativas, se escogieron distribuciones con asimetria elipsoidal. La primera es la dis-tribuci´on uniforme sobre el cubo unitario, es decir sobre [0,1]d y denotaremos esta alternativa por UC (Ver Figura 4). La segunda alternativa es la distribuci´ond-dimensional definida de la siguiente
forma:Y =d RU dondeR yU son independientes yR2∼χ2
d y
U esta uniformemente distribuido sobre{y∈Rd:
d
X
i=1
|yi|= 1}
es decir sobre la bola unitaria enRd pero bajo la norma`1, la cual denominaremos por U`1. Ver
Figura 5.
La siguiente alternativa que se implemento fue la distribuci´on Burr con par´ametroα, la deno-taremosBurr(α), paraα >0. Esta tiene una funci´on de densidad:
f(x) = αcx
(αc)−1
(1 +xc)α+1, Paraα, c >0.
Para nuestra comparaci´on utilizaremos dos versiones de esta distribuci´on, las alternativasBurr(1) y Burr(0,05). En el Ap´endice se mostrar´a el proceso utilizado para generar los datos de esta distribuci´on. Una muestra de como est´an distribuidos los datos de estas distribuciones se ven en las figuras, 6 y 7 respectivamente.
Las siguientes tres alternativas que se usaron fueron las distribuciones Beta, Weibull y Gamma, las cuales denotaremos porBeta(α, β),W(α, β) yGamma(α, β), dondeα, βson par´ametros especificas de cada distribuci´on pero que en todos los casos α, β > 0. La distribuci´on β(a, b) su funci´on de densidad es:
f(x) = 1 Γ(α)Γ(β)x
α−1(1−x)β−1.
Para la distribuci´onW(α, β), esta tiene funci´on de densidad
f(x) =
(β
α( x α)
β−1exp− {x/α}β, x≥0
0, x≤0
En cuanto a la distribuci´onGamma(α, β), tiene funci´on de densidad:
f(x) =x
α−1e−x β
βαΓ(α) .