Análisis comparativo de pruebas de bondad de ajuste para distribuciones elípticamente simétricas

(1)

An´

alisis Comparativo de Pruebas de Bondad de

Ajuste para Distribuciones El´ıpticamente

Sim´

etricas

Trabajo de Grado

Pregrado en Matem´

aticas

Autor: Juan Pablo Lozano

Director: Adolfo J. Quiroz

(2)

(3)

Introducci´

on

Las distribuciones esféricamente y el´ıpticamente simétricas son distribuciones de gran impor-tancia tanto para la matemática aplicada como para la investigación. El propósito del trabajo es poder entender este tipo de distribuciones y ver distintas maneras de determinar si un conjunto de datos posee esta propiedad estudiando varias pruebas de bondad de ajuste. También es de nuestro interés ver cuales son algunas de las aplicaciones y ventajas que tienen este tipo de distribuciones en el mundo real.

En el Cap´ıtulo 1 se introducen los conceptos básicos y la teor´ıa general de las distribuciones esféricamente y el´ıpticamente simétricas. Se presentarán también los distintos tipos de simetr´ıas el´ıpticas y varios resultados de interés sobre estas distribuciones. Luego se discutiran algunas de las aplicaciones que tienen las distribuciones que tienen alguna de estas simetr´ıas en finanzas y en seguros.

En el Cap´ıtulo 2 se presentará el concepto de lo que es una prueba de bondad de ajuste junto con con una explicación detallada de cada uno de los estad´ısticos estudiados para poder hacer las pruebas. También se introducirán las hipótesis nulas y las hipótesis alternativas con las cuales se harán las pruebas y se discutirá la pertinencia de la escogencia de cada una de estas. Las pruebas escogidas serán programadas en el programa estad´ıstico R, de la manera más vectorial posible para reducir su tiempo de ejecución.

Finalmente, en el Cap´ıtulo 3 se presentarán los resultados obtenidos para las hipótesis y los estad´ısticos referidos en el Cap´ıtulo 2. Por medio de pruebas de potencia y de los diferentes escenarios bajo los cuales se hicieron las pruebas de bondad de ajuste, se concluirá cual de estas funcionó mejor en general y cuales fueron superiores bajo cada hipótesis y se analizará la causa de este mejor desempeño.

(4)

(5)

´

_{Indice general}

1. Distribuciones Esfericamente y Elipticamente Sim´etricas 7

1.1. Distribuciones Esfericamente Sim´etricas . . . 7

1.2. Distribuciones Elipticamente Sim´etricas . . . 13

1.3. Otros Tipos de Simetr´ıa . . . 24

1.4. Aplicaciones . . . 25

2. Estad´ısticos de Bondad de Ajuste y Métodos de Implementación 29 3. Análisis de Resultados y Conclusiones 41 3.1. Análisis de Resultados . . . 41

3.2. Conclusiones . . . 46

4. Tablas y Figuras 49 5. Ap´endice 61 5.1. Demostraciones . . . 61

(6)

(7)

Cap´ıtulo 1

Distribuciones Esfericamente y

Elipticamente Sim´

etricas

1.1. Distribuciones Esfericamente Sim´

etricas

Definici´on 1.1. SeaX un vector aleatorio en_Rd_{(es decir}_X _{tiene dimensiones}_d_×_{1). Se dice que} X tiene simetr´ıa esf´erica si para cualquierO∈O(d)

OX =d X. (1.1)

Donde = simboliza igualdad en distribuci´d on yO(d) representa el conjunto de todas las matrices ortogonales de tama˜nod×d.

Esto quiere decir que las distribuciones con simetr´ıa esférica tienen distribución invariable bajo transformaciones ortogonales. A continuación se enunciará un Teorema que da una serie de defini-ciones equivalentes a 1.1.

Teorema 1.2. SeaX un vector aleatorio en_Rd_{. Entonces las siguientes afirmaciones son}

equiva-lentes:

1. OX=d X ∀O∈O(d)

2. La funci´on caracter´ıstica deX es de la forma

ϕX(t) =φ(t0t), t∈Rd

con φ(·) una funci´on escalar 1 _y _t0 _{representa la transpuesta de} _t_{. Se denota de la siguiente}

(8)

manera:X ∼Sd(φ)donde el sub´ındice indica la dimensi´on deX.2

3. X tiene una representaci´on estoc´astica dada por:

X=d RU(d). (1.2)

Para R ≥ 0, U(d) esta distribuido uniformemente sobre la esfera unitaria en Rd y R es independiente deU(d)_.3

4. Para cualquiera∈Rd se tiene lo siguiente:

a0X =d kakX1.

dondek · kes la norma euclidea yX1 es la primera componente deX.

5. SiX tiene función de densidad y es esféricamente simétrica, su densidad se escribe:

fX(x) =g(x0x) =g(kxk2) (1.3)

Dondeg: [0,∞)→[0,∞) es una funci´on escalar.

Este Teorema se ramifica en varios otros resultados importantes, de los cuales la mayor´ıa estan relacionados con 3. Estos se enuncian en las siguientes Propocisiones.

Proposici´on 1.3. Sea X∼Sd(φ) tal queP(X = 0) = 0, entonces,

R=d kXkyU(d) d= X

kXk (1.4)

y estos son independientes entre s´ı.

Demostraci´on. La prueba se encuentra en [3].

Proposición 1.4. Un vector aleatotio X esfericamente simétrico con función de densidad de la formag(x0x) entonces la variable aleatoriaRtiene una función de densidad:

f(r) = 2π

d/2

Γ(n

2)

rn−1g(r2).

Demostraci´on. X ∈Rp es esfericamente sim´etrica con densidadfX(x) =g(x0x) =g(kxk). Ahora,

P(R≤r) =

Z

...

Z

kxk≤r

g(x0x)dx1. . . dxp

2_{La funci´}_{on caracter´ıstica}_ϕ

X de un vector aleatoriod- dimensionalXesE[eit 0_X

].

(9)

Ahora al pasar a coordenadas polares se obtiene lo siguiente

P(R≤r) =

Z

ρ≤r

Z

ξ∈Ω

ρp−1g(ρ2)dρdξ=

r

Z

0

ρp−1g(ρ2)dρ

Z

ξ∈Ω

dξ=

r

Z

0

ωpρp−1g(ρ2)dρ

Al pasar a coordenadas polares, el Jacobiano de la transformaci´on es J = ρp−1 _y _ωp _{es el ´}_area

superficial de la concha esférica de dimensión p, por eso aparecne estos términos en la ecuación. Como se quiere obtener es la función de distribución de R entonces se necesita derivar. Entonces usando el Teorema Fundamental del Cálculo se llega a que

fR(r) =ωprp−1g(r2), ωp= 2π

p 2

Γ(p₂). Luego al reemplazarωp obtenemos el resultado.

De esta proposición se puede sacar también la función de densidad deU(d)_{ya que}_fX₍_x_{) =}_g₍_x0_x₎ y como R y U(d) _{son independientes entonces su funci´}_{on de densidad conjunta es el producto de}

sus densidades respectivas. Luego

fX(x) =fU(x)fR(x) =fU(x)fR(x) =fU(x)2π

d/2

Γ(d₂)x

d−1_g₍_x0_x₎ Entonces comofX(x) =g(x0x) llegamos a que

g(x0x) =fU(x)

2πd/2

Γ(d₂)x

d−1_g₍_x0_x₎

fU(x) = g(x 0_x₎

2πd/2

Γ(d 2)

xd−1_g₍_x0_x₎ = Γ(d₂) 2πd/2x

−(d−1)

EntoncesfU(x) = Γ(d2)

2πd/2x

−(d−1)_.

SiRyU(d)_{son independientes se puede ver f´}_{acilmente que si}_X_∼_Sd₍_φ_{) entonces si}

E(R)≤ ∞ yE(R2)≤ ∞

E(X) = 0, Cov(X) =E(R2) 1

dId

Esto se tiene porque_E(U(d)_{) = 0 y}_Cov₍_U(d)_{) =} 1

dId, ademas comoRyU

(d)_{son independientes}

el valor esperado de su producto es el producto de valores esperados, luego

(10)

Cov(X) =E[(RU(d))(RU(d) 0

)] =E(R2)E[U(d)Ud0] =E(R2)Cov(U(d)) =E(R2)1

nId

Luego la matriz de covarianza deX es proporcional a la matriz identidadd-dimensional.

Otra propiedad de gran importancia de las distribuciones esféricas es que cuando se quiere encontrar una distribución asociada a ella, por ejemplo las distribucionestoF, estas son invariantes bajo cualquier distribución esférica. Lo mostraremos para el estad´ıstico T asociado a un vector aleatorio X∈Rd, definido como

X = 1

n d

X

i=1

Xi=

1 n1 0_X S= d X i=1

(X1−X)2=X0DX, D=Id−

1

n1

0₁

Sd2= S

d

T :=√d−1X

Sd

En esta ecuaci´on 10 = (1,1, . . . ,1) ∈Rd. Claramente se puede ver que si X ∼ N(0, Id) entonces

T ∼t(d−1) por la definici´on deT. Ahora si X∼Sd(φ) tal queX

d

=RU(d)_entonces

T =√d−1

1

d1

0_X (1_dX0_DX₎1/2 =

√

d−1

1

d1

0_RU(d)

(1_dR2_U(d)0_DU(d)₎1/2 = 1

d1

0_U(d)

(1_dU(d)0_DU(d)₎1/2.

LuegoT no depende de la variable aleatoriaR como se muestra en la ecuaci´on anterior lo que implica que esto ser´ıa as´ı para cualquier X ∼Sd(φ) pues lo ´unico que cambia para cada uno esR

ya queU(d)es uniforme sobre la concha esférica de dimensióndy es igual para todoX.Se concluye que T es invariante bajo distribuciones esféricas. A partir de este análisis se enuncia un Teorema que resalta esta importante propiedad.

Teorema 1.5. SeaX ∼Sd(φ)y seat(X)un estad´ıstico tal quet(X) =t(aX)paraa≥0. Entonces la distribuci´on del estad´ıstico es invariante bajo distribuciones esfericamente sim´etricas.

Hasta ahora se ha definido la simetr´ıa esférica solo para vectores aleatorios. Sin embargo es-to también se puede hacer para matrices aleatorias, aunque en este caso existen varias clases de simetr´ıas esf’ericas. Estas son: esféricas por izquierda, simetricamente esféricas, distribuciones mul-tivariadas esféricas y las vector-esférica. A continuación se explicará brevemente cada una de ellas y algunas de sus propiedades.

Definici´on 1.6. SeaX ∈Rn×p una matriz aleatoria. Si para cualquierO∈O(n)

(11)

entonces se dice que X es esf´erica por izquierda y se denota X ∈LS. SiX y X0 son ambas LS

entonces se dice queX es simetricamente esf´erica. Se denotaX ∈SS.

Definición 1.7. Una matriz aleatoriaX de tamañon×ptiene distribución multivariada esférica si la función caracter´ıtica deX es de la forma

ϕX=φ(t10t1, t20t2, . . . , tp0tp).

Se denotaX ∈M S oX ∼M Sn×p(φ)

La siguiente definici´on hace uso del operador vectorvec(·) que se define como

vec(X) = (x10, x20, . . . , xp0)0.

Definición 1.8. SeaX ∈Rn×puna matriz aleatoria. Sivec(X) es esfericamente simétrica entonces se dice queX es vector-esférica y se denotaX ∈V S.

Estas nuevas clases de simetr´ıas esféricas naturalmente tienen variaciones tanto en su represen-tación estocástica como en la forma de su función caracter´ıstica. Estas diferencias serán expuestas en los siguientes dos Teoremas.

Teorema 1.9. Sea X una matriz aleatorio n×pque tenga alguna de las simetr´ıas esf´ericas ma-triciales. Entonces,tiene alguna de las siguientes representaciones estoc´asticas:

LS: X =d U A con U y A matrices independientes de tama˜non×p y p×prespectivamente, tales queA0A=X0X,U ∈LS,U0U =Ip

SS: X=d UΛV dondeU,Λ, V son independientes, U es igual que en la representaci´on de LS, Λ es una matriz diagonal no-negativa, yV ∈LS tal queV0V =Ip.

MS: X =d U Rcon U y Rindependientes,

R=diag(R1, R2, . . . , Rp)≥0

y U tiene columnas i.i.d distribuidas uniformes sobre la esfera de dimensi´on n.

VS: X =d RU, dondeR≥0independiente deU, y convec(U)=d Unp_{, es decir}_vec₍_U₎_{se distribuye}

uniforme sobre la esfera de dimensi´on np.

(12)

ϕ=           

φ(T0T) siX∈LS, φ[tr(T0_T_)] _si_X_∈_SS,

φ[diag(T0T)] siX∈M S, φ[eig(T0T)] siX∈V S.

Donde para cualquier matrizAp×p,

tr(A) = (a11+a22+· · ·+app)

es la traza deA,

diag(A) = (a11, a22, . . . , app)

es la diagonal deA, y eig(A)es el vector de valores propios deA.

A continuación se darán algunos ejemplos de distribuciones que exhiben simetr´ıa esférica:

Distribuci´on Uniforme sobre la Esfera Unitaria en _Rd _{Esta distribuci´}_{on es esfericamente sim´}

etri-ca ya queX ∼U(d)luego cumple la definici´on 1.1 paraRidenticamente igual a 1.

Normal Multivariada Estándar Para ver que la distribución Normal Multivariada Estándar (N(0, Id)) exhibe simetr´ıa esférica basta ver su función caracter´ıstica.

ϕX(t) =e(it 0_µ

−1 2it

0_Σ_t₎

=e(−12)t 0_t

Luego su funci´on caracter´ıstica es de la forma ϕX(t) =φ(t0t) por lo que se concluye que es

esfericamente sim´etrica por el Teorema 1.2.

Distribución t-multivariada Estándar SiX ∼td(µ,Σ, m), dondemson los grados de libertad ydla dimensión, entonces su función de densidad es

fX(x) = Γ(

(m+d) 2 )

Γ(m₂)md2πd2|Σ| 1 2_{[1 +} 1

m(x−µ)0Σ−1(x−µ)] (m+d)

2

Entonces organizando la ecuaci´on se obtiene que

fX(x) =|Σ|−12_g₍₍_x₋_µ₎0_Σ−1₍_x₋_µ₎_.

Ahora reemplazandoµ= 0 y Σ =Id, llegamos a

(13)

LuegoX∼td(0, Id, m) es esfericamente sim´etrica pues su funci´on de densidad es de la forma

g(x0x).

Ya que se introdujeron los conceptos básicos de las distribuciones esfericamente simétricas se puede comenzar a hablar de las distribuciones elipticamente simétricas las cuales van a ser de mayor importancia en este trabajo pero que se requiere saber sobre simetr´ıa esférica para poder definir y entender este nuevo concepto de simetr´ıa.

1.2. Distribuciones Elipticamente Sim´

etricas

Definici´on 1.11. Sea X un vector aleatoriod−dimensional. Se dice queX tiene simetr´ıa el´ıptica con par´ametrosµ∈_Rd _{y Σ}_∈

Rd×d una matriz semidefinida positiva, si :

X=d µ+AY. (1.5)

Donde Y ∼ Sk(φ), A es una matriz d×k tal que AA0 = Σ y rank(Σ) = k. Se escribe X ∼ ECDd(µ,Σ, φ) el sub´ındice siendo la dimensi´on deX.

La definición 1.11 dice que las distribuciones con simetr´ıa el´ıptica (que de ahora en adelante escribiremos ECD) son transformaciones afin de un vector aleatorio que exhibe simetr´ıa esférica. Existe otra definición, que es la definición clásica de una ECD, es presentada a continuación.

Teorema 1.12. Si X es un vector aleatoriod−dimensional, y para alg´un µ∈_Rd _{y alguna matriz}

semidefinida positiva de tama˜no d×dΣ, la funci´on caracter´ısticaϕX−µ(t) =φ(t0Σt)entonces X

es ECD con parámetros µ,Σy φ. Es decir, si la función caracteristica deX−µesta expresada en función de la forma cuadráticat0_Σ_t_{, entonces} _X _{es una ECD.}

Ahora algo que vale la pena notar es que si X ∼ ECD(µ,Σ, φ) tal que X =d µ+AY para

Y ∼Sk(φ), entonces

E(X) =µ, Cov(X) =cΣ (1.6)

Esto se nota claramente pues

E(X) =E(µ+AY) =E(µ) +E(AY) =µ+AE(Y) =µ+A0 =µ.

Cov(X) =_E((X−_E(X))(X−_E(X))0=_E((µ+AY −µ)(µ+AY −µ)0) =E((AY)(AY)0) =E(AY Y0A0) =AE(Y Y0)A0=AE(Y Y0)A0=ACov(Y)A0 =AE(R2)1

kIkA

0₌E(R2)

k A

0_A₌E(R2)

(14)

Luego podemos ver que para una ECD, su media esµy su covarianza es proporcional a la matriz Σ.

En estas definiciones vale la pena notar que las ECD van a tener aµ como su vector media y a Σ como su matriz de covarianza. Las ventajas de definir las ECD en términos de los parámetros (µ,Σ, φ) es que es más general que las definiciones alternativas que requieren queXsea absolutamen-te continua y además que permite ver facilmente que las ECD son cerradas bajo transformaciones lineales que preserven aφbajo esa transformación y conµy Σ transformados de la misma manera como vectores de media y de covarianza respectivamente.

Otro punto importante es la función caracter´ıstica de las ECD y como esta se compara con la de una distribución con simetr´ıa esférica. Por medio de 1.12 ya se tiene una idea de la forma que va a tener esta.

Proposici´on 1.13. SiX ∼ECDd(µ,Σ, φ), como en 1.11,X tiene funci´on caracter´ıstica:

ΦX(t) =eit 0_µ

φ(t0Σt)t∈_Rd_.

Demostraci´on. La funci´on caracter´ıstica deX corresponde a

ϕX(t) =E(eit

0₍_µ₊_AY₎

) =_E(eit0µ+it0AY) =_E(eit0µeit0AY)

Pero comoµes constante entonceseit0µ_tambi´_{en lo es y puede salir del valor esperado, por lo tanto}

la ecuaci´on quedar´ıa:

ϕX =eit0µ_E[eit0AY] =eit0µφ(t0AA0t)

Esto ´ultimo se tiene de 2 puesY ∼S(φ). Pero comoA0A= Σ obtenemos que:

ϕX(t) =eit0µφ(t0Σt). (1.7)

Que es exactamente lo que se quer´ıa probar.

Es importante notar que las distribuciones esfericamente sim´etricas son tambi´en ECD. Se puede ver de dos formas, la primera es simplemente notando que siY ∼Sd(φ) entonces

Y = 0 +IkY.

DondeIkes la identidad de tamañok×k. Luego es correcto decir queY ∼ECDd(0, Ik, φ)∼Sd(φ). Ya vimos en el caso de las distribuciones esfericamente simétricas que tienen una representación estocástica que es de gran importancia para su comprensión. De la misma manera las ECD tienen representación estocástica, enunciaremos el resultado como un Teorema.

(15)

Teorema 1.14. Sea X ∼ECDd(µ,Σ, φ)con rank(Σ) =k≤dsi y solo si

X =d µ+RAU(k). (1.8)

Con R una variable aleatoria no negativa, U(k) _{una variable aleatoria} _d₋_{dimensional distribuida}

uniformemente sobre Sd−1,R y U(k) independientes yA∈Rd×k tal queAA0 = Σyrank(A) =k. Demostraci´on. (←) Suponiendo queX =d µ+RAU(k)_{y sabiendo que un vector aleatorio}_Y _∼_Sk₍_φ₎

si y solo si tiene representaci´on estoc´asticaY =d RU(k). Luego

X =d µ+RAU(k)=µ+ARU(k)=µ+AY.

EntoncesX ∼ECDd(µ,Σ, φ) por 1.11.

(→) Lo primero de esta parte de la prueba es notar que toda matriz semidefinida positiva Σ∈_Rd×d

con rank(Σ) =k tiene una ra´ız A ∈Rk×d tal que AA0 = Σ. Entonces podemos definir el vector aleatorio

Y =A−1(X−µ)

usando la inversa generalizadaA−1 _de_A_{. Entonces la funci´}_{on caracter´ıstica de}_Y _{viene dada por}

ϕY(t) =ϕX−µ((A)−1

0

t) =φ(t0A−1ΣA0−1t) =φ(t0A−1AA0A0−1t) =φ(t0t), t∈_Rk_.

Como Aes una matriz de rango completo, entonces A−1_A₌_A0−1

A0 =Ik. Entonces Y ∼Sk(φ) y

por lo tantoY =d RU(k)gracias a 3. Luego

µ+AY =d µ+RAU(k)∼ECDd(µ,Σ, φ).

De este Teorema se puede deducir como es la función caracter´ıstica de una ECD con su repre-sentación estocástica.

Proposición 1.15. SeaXun vector aleatorio enRdcon representación estocástica como se muestra en 1.14. Denotemos porF a la función de distribución deRy por Ωd(ktk

2

) la funci´on caracter´ıstica deUk_{. Entonces:}

ϕX(s) =

Z

0,∞)

Ωd(r2s)dF(r), s≥0 (1.9)

Demostración. La distribución uniforme sobre la concha esférica es esfericamente simétricaU(d)_∼

Sd(φ), luego por 2 su funci´on caracter´ıstica es de la forma

(16)

por lo que tiene sentido definirla como Ωd(ktk2). Entonces la funci´on caracter´ıstica derU(d)va

a ser

ϕ_rU(d)(t) =ϕ_U(d)(rt) =φ(r2t0t).

La funci´on caracter´ıstica de X−µviene dada por

ϕX−µ=E[eit

0₍_X₋_µ₎

] =E[eit

0_RAU(d)

].

Entonces usando la Ley de Esperanza Total obtenemos

ϕX−µ(t) =

∞

Z

0

E[eit

0_ρAU(d)

]dF(ρ) = ∞

Z

0

Ωd(r2t0AA0t)dF(r) =

∞

Z

0

Ωd(r2t0Σt)dF(r).

Como Σ es semidefinida positiva entonces sabemos que t0Σt≥0 entonces al final se tiene:

ϕX−µ(s) =

∞

Z

0

Ω(r2s)dF(r) s≥0.

De esta forma cualquier vector aleatorio que se represente como es 1.14 es una ECD con función caracter´ıstica 1.9. AF, la función de distribución deRse llama Función de Distribución Canónica Asociada a X.La importancia de esta función se enunciará en el siguiente Teorema:

Teorema 1.16. Sea X ∼ ECDd(µ,Σ, φ) y rank(Σ) = k. Si F es la funci´on de distribuci´on

can´onica con respecto a X entonces la forma cuadr´atica

Q(X) = (X−µ)0Σ−1(X−µ) (1.10) tiene funci´on de distrbuci´onF(√·).Σ−1 _{es la inversa generalizada de}_Σ.

Demostración. La prueba sale directamente reemplazando la representación estocástica de una ECD en la forma cuadrática.

Q(X) = (X−µ)0Σ−1(X−µ)=d RU0(k)A0A0−1A−1AU(k)R.

DondeA−1 es la inversa generalizada deAtal queA−1A=AA−1=Ik. Luego obtenemos:

Q(X)=d R2U0(k)IkIkU(k)=R2U0(k)U(k)a.s.=R2.

(17)

U0(k)U(k)=kU(k)k= 1. Como sabemos queRse distribuye por medio de la funci´onF(·), entonces comoQ=d R2 _entonces_Q₍_X_{) tiene funci´}_{on de distribuci´}_on_F₍√_·_).

Lo importante de este Teorema est´a en que

Q(X)=d R2. (1.11)

Ya que da pie a una caracterizaci´on de normalidad que esta relacionada a la forma cuadr´aticaQ(X)

Proposici´on 1.17. Sea X ∼ ECD(µ,Σ, φ). Entonces X tiene distribuci´on Normal si y solo si

Q(X)∼χ2₍_m_{). Donde}_χ2₍_m_{) es una distribuci´}_{on chi-cuadrado con}_m_{grados de libertad.}

Demostraci´on. (→) Comenzamos suponiendo queQ(X)∼χ2₍_m_{). Por 1.16 sabemos que}_Q₍_X₎₌d

R2, lo que quiere decir que R∼p

χ2₍_m_{). Ahora, la funci´}_{on de densidad de la}_χ2 _es

f(R2₎(x) =

xd/2−1e−x/2

2d/2_Γ(d

2)

|Σ|−1/2

Por cuestiones de simplificaci´on se ha nombradoxa la expresi´on (x−µ)0Σ−1(x−µ). ComoR∼

p

χ2₍_m_{), se sigue que la funci´}_{on de densidad de}_R _est´_{a dada por}

fR(r) = 2rfR2(r2)

usando el cambio de variablex=r2 _{y claramente el jacobiano de esta transformaci´}_{on es} _J _{= 2}_r_.

Ya teniendo esto solo queda ver como es la función de densidad deX. Como tenemos la función de densidad deRhace sentido analizar la representación estocástica deX para determinar su función de densidad. Primero notaremos que la función de densidad conjunta de dos variables aleatorias independientes es igual al producto de las densidades de cada una. Es decir,fY,Z(y, z) =fY(y)fZ(z) paraY yZ variables aleatorias independientes. ComoR yU(k)_{son independientes entonces}

fX(t) =fR,U(t) =fU(t)fR(t) = Γ(

d

2)

2πd/2

√

td−12√tt

d/2−1_e−t/2₂d/2

Γ (

d

2)|Σ|

−1/2₌ 1

(2π)d/2|Σ|

−1/2_e−t/2_.

Usando la transformaci´onr =√t. En este casox=t luego t = (x−µ)0_Σ−1₍_x₋_µ_{). Claramente}

vemos quefX(t) es la funci´on de densidad de una distribuci´on normal multivariada. Luego se tiene el resultado.

(←) Supongamos queX ∼N(µ,Σ) entonces paraY =A−1(X−µ)∼N(0, Ik). Ahora,

(18)

La base de la prueba es recordar queY0Y =

d

P

i=1

Yi0Yi∼χ2_.

Otros atributos que caracterizan a las ECD vienen relacionados a sus distribuciones condicio-nales, las transformaciones lineales y a las funciones de densidad. Los m´as importantes se enuncian en el siguiente Teorema.

Teorema 1.18. 1. Toda transformaci´on lineal de una ECD es otra vez una ECD. En particular,

todas las distribuciones marginales de una ECD son de nueva ECD.

2. Todas las distribuciones condicionales de una ECD son ECD.

3. SiY tiene densidad g(x0x) y A es una matriz cuadrada no-singular, entoncesX =µ+AY

tiene densidad:

fX(x) =|Σ|−12_g_[(_x₋_µ₎0_Σ−1₍_x₋_µ_{)] =}_det_(Σ−1/2₎_g₍_k_A−1₍_x₋_µ

0)k2)

DondeAA0 = Σ. Cuando esto sucede se denotaX ∼ECDd(µ,Σ, g).4.

1. Demostraci´on. Sean µ ∈ Rk y A ∈ Rk×d. Sea Y = µ+AX con X una ECD. Ahora por 3 sabemos queX =d γ+RBU(n) _para _γ _∈

Rd y B ∈ Rd×n tal que BB0 = Σ semidefinida positiva. Entonce si reemplazamosX por su representación estocástica en la ecuación de Y

obtenemos

Y =d µ+A(γ+RBU(m)) = (µ+Aγ) +RABU(m)

Notemos queAγtiene dimensionesk×1 igual que las deµluego podemos sumarlos. Denotemos a esa suma porδ. Ahora veamos que ∆ :=AB(AB)0 _{es semidefinida positiva.}

∆ =ABB0A0=AΣA0

Ahora como Σ es semidefinida positiva por definición de la representación estocástica deX, entonces ∆ también lo es y si elrank(∆) =kse tiene todo lo requerido para concluir queY

tiene representaci´on estoc´astica como la que se presenta en 1.14 entonces

Y ∼ECDd(δ,∆, φ).

2. Demostraci´on. La prueba de este numeral se puede encontrar en [3]

4_{Existe una versi´}_{on m´}_{as general de este numeral, cuando}_A_{no es cuadrada. Su enunciaci´}_{on y demostrac´}_{on se}

(19)

3. Demostraci´on. Para mostrar esto usaremos 1.4. ClaramenteY =A−1₍_X₋_µ_{) entonces como}

la funci´on de densidad deY es de la formag(x0x), entonces bajo esta transformaci´on se vuelve de la forma

fX(x) =fY(A−1(X−µ))|J|=g((X−µ)0A0−1A−1(X−µ)) 1

|A| =g((X−µ)

0_Σ−1₍_X₋_µ₎₎ 1

|A|

El Jacobiano de la transformaci´onY =A−1₍_X₋_µ_{) es} _J ₌_A−1_{, entonces}_|_J_|₌_|_A−1_|₌ 1

|A| y de ah´ı sale este t´ermino en la expresi´on anterior. Ahora comoAes una matriz cuadrada tal queAA0 = Σ entonces Σ es de rango completo pues rank(A) =rank(AA0) =rank(Σ) por ser cuadrada. Entonces se puede ver aAcomo Σ12. Luego reemplazando se obtiene

fX(x) =|Σ|

−1

2_g_[(_x₋_µ₎0_Σ−1₍_x₋_µ_)]

A partir de 3 se puede determinar una interpretación de las ECD desde un punto de vista geométrico. Las ECD son aquellas distribuciones cuyas superficies equiprobables (curvas de nivel) son elipsiodes, y eso lo podemos ver por su representación estocástica. SiX es un vector aleatorio

d−dimensional, lo primero a analizar es queU(d)_{le da la forma esf´}_{erica pues es una variable aleatoria}

uniformemente distribuida sobre la esfera de dimensi´on d. Luego, la matriz de transformaci´on A

nos da los contornos el´ıpticos al deformar la variableU(d)_{. La variable} _R_{determina la forma de la}

distribución, en particular las colas, y por último, elµ determina la posición de la variable X, es decir, es una variable de traslación. A partir de 3, los contornos equiprobables son los elipsoides:

(x−µ)0Σ−1(x−µ) =constante

pues la funci´on de densidadg es constante.

Otra propiedad importante de las ECD es que la distribución de una variable aleatoriaX que exhiba esta simetr´ıa no determina de manera única los parámetros Σ yφ. Para ver esto hace falta comparar como se relacionar´ıan los parámetros si una variable aleatoria se distribuye por medio de dos ECD. Para mostrar esto se enuncia el siguiente Teorema.

Teorema 1.19. Si X∼ECDd(µ,Σ, φ)y X∼ECDd(µ0,Σ0, φ0). Entonces

µ0=µ

M´as a´un, si X es no-degenerada, entonces existe unc≥0 tal que:

(20)

Demostraci´on. La prueba de este Teorema se encuentra en [3].

Ahora, del resultado Teorema 1.19 surge la pregunta si existe un razonamiento similar para un vector aleatorio representado por dos representaciones estocásticas con diferentes parámetros. La respuesta es si, pero antes de enunciar como ser´ıa esta comparación de parámetros hace falta hacer una definición y enunciar un lema.

Definición 1.20. SeaU(k)un vector aleatorio distribuido uniformemente sobreS(k−1). Dividamos este vector en dos partes, U1(k) de dimensión m con 0 ≤ m ≤ k y U2(k) de dimensión n con

0≤n≤ktal quem+n+k, es decir

U(k)= (U1(k), U2(k)).

Lemma 1.21.

U(k)= (U1(k), U2(k)) d

= (RnmU(m),(1−Rnm2)12_U(n−m)₎

DondeRnm≥0,U(n−m)yU(m) son independientes y R2_nm∼Beta(m

2,

n−m

2 )

Teorema 1.22. Sea X un vector aleatorio ECD. Supongamos que X =d µ+RAU(k) _{y que} _X ₌d

µ0+R0A0U(k0) conk≥k0. Entonces,

1. µ=µ0.

2. A0A=cA00A0, c≥0.

3. c12RR_kk

0 =R0.DondeR yRk(k)0 son independientes yR

2

kk0 se distribuye como en el Lema.

Luego de manera similar los parámetros de la representación estocásticaµ,RyAse determinan unicamente por la distribución del vector aleatorio ECD.

Una propiedad adicional que tienen las ECD es que son estables bajo sumas, es decir si tenemos

X1, X2, . . . , Xnvectores aleatorios i.i.d y ECD con la misma matriz Σ entonces n

P

i=1

Xi−µies ECD.

Todo se debe a que su funci´on caracter´ıstica tiene la forma

ϕX(t) =E[it0e

[

n

P

i=1

(Xi−µi)]

] =

n

Y

i=1

E[e(it

0₍_X

i−µi))_{] =} n

Y

i=1

φXi−µi(t0Σt)

Ya se hab´ıa mencionado que las distribuciones condicionales de una ECD es de nuevo una ECD, pero es importante saber como se expresan estas de forma estocástica. Para eso es necesario intro-ducir una proposición importante que permitirá la representaión ser expresada con más facilidad.

(21)

Proposici´on 1.23. Si Γ = (ε1, ε2, . . . , εd) se distribuyen uniformemente sobre la esfera unitaria de

dimensi´ond, entonces

(ε12, ε22, . . . , εd2) d

= (Y1

S , Y2

S, . . . , Yd

S ) Yi∼Gamma(1/2,1) S= d

X

i=1

Yi.

En otras palabrasεi2∼Beta(1/2,(d−1)/2) Demostraci´on. SeaZ ∼N(0, I). EntoncesZ2_∼_χ

12=Gamma(1/2), adem´as

(ε1, ε2, . . . , εd) = Z

kZk = (

Z1

kZk,

Z2

kZk, . . . ,

Zd

kZk).

Entoncesεi2= Z_i2

kZk2. Ahora, seanY1, Y2, . . . , Ydvariables i.i.d tales queYi∼Gamma(1/2), ∀i=

1, . . . , d. Antes de continuar hay que recordar que si tenemos dos variables aleatorias independientes

V yW tales que

V ∼Gamma(α,1), W ∼Gamma(β,1)→ V

W +V ∼Beta(α, β)

Entonces cogiendoV =Yi yW =Y1+· · ·+Yi−1+Yi+1,· · ·+Yd∼Beta((d−1)/2,1). Luego

Z12

kZk2 =

V

V +W ∼Beta(1/2,(d−1)/2).

Pues comoYi ∼Gamma(1/2,1) ∼Zi2 se tiene el resultado se tiene, ya que εi2 ∼ Beta((d−

1)/2,1/2)

Ahora veremos los dos Teoremas que muestran como se representan las distribuciones condicio-nales tanto para distribuciones esf´ericas como el´ıpticas.

Teorema 1.24. Sea X∼Sd(φ)∼ECD(0, Id, φ). SeaX1,X2 dos sub-vectores deX de tama˜nom

y d−mrespectivamente tales queX = (X1, X2). Entonces el vector condicionalX2|X1=x1 tiene

distribución esfericamente simétrica y representación estocástica dada por

(X2|X1=x1)

d

=R∗U(m−d), R∗=Rp1−β|RpβU(m)=x1

Dondeβ∼Beta(m/2,(d−m)/2) yR,β,U(m) _y_U(d−m) _{son independientes.}

Demostraci´on. La prueba se puede encontrar en [3].

Teorema 1.25. Sea X ∼ECDd(µ,Σ, φ)con µ= (µ1, µ2)∈Rd y Σ∈Rd×d matriz semidefinida positiva conrank(Σ) =k. Entonces al descomponer Σcomo

(22)

ϕX=

Σ11 Σ12

Σ21 Σ22

!

con las submatrices Σ ∈ _Rr×r_, _Σ

12 ∈ Rr×(d−r), Σ21 = Σ120 y Σ22 ∈ R(d−r)×(d−r) y a X = (X1, X2)subvectores de tama˜nor≤k y(d−r) respectivamente se tiene que

(X2|X1=x1)∼ECDd−r(µ∗,Σ∗, φ∗) µ∗=µ2+Σ21Σ−111(x1−µ1), Σ∗= Σ22+Σ21Σ11−1Σ12

y φ∗ es el generador de la funci´on caracter´ıstica de R∗U(r−k) _con _R∗ _{como el del Teorema} anterior.

Demostraci´on. La demostraci´on se encuentra en [3].

Notamos queX1es independiente deX2si y solo si Σ12= Σ21= 0.

En el cap´ıtulo anterior se presentaron las simetr´ıas esféricas para matrices aleatorias. Dado que la simetr´ıa el´ıptica va de la mano con la esférica en el caso de vectores aleatorios es natural pensar que también se puede extender la simetr´ıa el´ıptica al caso matricial. Estas simetr´ıas matriciales son:el´ıptica por izquierda, simetricamente el´ıptica, distribuciones multivariadas el´ıpticas y vector el´ıptica.

Definición 1.26. Sea Y una matriz aleatoria con alguna de las simetr´ıas esféricas matriciales. Se dice queX es una distribución el´ıptica matricial (ECMD) si

X =M +AY

dondeAyM son matrices constantes.

Las propiedades de las ECDM son derivadas del tipo de distribución esférica tenga la matriz aleatoria Y. Una de estas propiedades es la función caracter´ıstica.

Teorema 1.27. La funci´on caracter´ıstica de X una ECDM tiene la forma:

ϕX =



    

    

φ(T0ΣT) siX ∈LE, φ[tr(T0ΣT)] siX ∈SE, φ[diag(T0ΣT)] siX ∈M E,

(23)

Para este trabajo es de importancia conocer distribuciones que exhiben simetr´ıa el´ıptica pues es necesario comprobar que los estad´ısticos de bondad de ajuste sean v´alidos bajo la hip´otesis nula

H0=El estad´ıstico es una ECD.

este concepto, se presentar´an algunos ejemplos de distribuciones que son ECD.

Ejemplos:

Normal Multivariada General En el caso estándar ya vimos que la distribución Normal era esfericamente simétrica. Basandonos en ese caso y analizando su función caracter´ıstica vemos que es una ECD.

ϕX(t) =e(it0µ−12it 0_Σ_t₎

=e(it0µ)e(−12it 0_Σ_t₎

=cφ(t0Σt).

Luego su funci´on caracter´ıstica es la de una ECD. CuandoX ∼N(µ,Σ), se tiene que_E(X) =µ

y queCov(X) = Σ.

Distribución t-Multivariada Se puede ver claramente cuando se construyó el ejemplo de la t -multivariada estándar para el caso de simetr´ıa esférica que siX∼td(µ,Σ, m) la forma de su

funci´on de densidad correspondera a la de una ECD.

Distribución Kotz SiX tiene distribución tipo Kotz, entonces su función de densidad es

fX(x) =c(|Σ|

−1

2_)[(_x₋_µ₎0_Σ−1₍_x₋_µ_)]N−1_exp n

−r[x−µ0Σ−1(x−µ)]so=cg((x−µ)0Σ−1(x−µ)) conr, s≥0, 2m+n= 2 y

c=sπ−d2r 2m+d−2

2s

Γ(d

2)

Γ(2m+₂_sd−2)r

m−1

una constante. Luego se tiene una funci´on de densidad de una ECD. CuandoN = 1,r=1₂ y

s= 1 se tiene la distribuci´on multivariada.

Distribución Pearson Tipo II Si X ∼Pd(µ,Σ, a) con a ≥0 y dla dimensión, entonces X es ECD pues su función de densidad es

fX(x) =

Γ(d

2+a+ 1)

πd2Γ(a+ 1)

|Σ|−12_[1−₍_x−_µ₎0_Σ−1₍_x−_µ_)]a ₌_c|_Σ|− 1

(24)

1.3. Otros Tipos de Simetr´ıa

Aparte de los dos tipos de simetr´ıas ya presentados, es bueno mencionar que existen otros tipos de simetr´ıas que son de importancia para los estad´ısticos. Entre estas otras clases se encuentran: la simetr´ıa angular, simetr´ıa de signo, simetr´ıa central y simtr´ıa de medio espacio. A continuaci’on mencionaremos como se comporta cada una de estas, pero sin entrar en mucho detalle.

Definici´on 1.28. Un vector aleatorioX tiene simetr´ıa angular con respecto aθsi

X−θ

kX−θk

d

= θ−X

kX−θk.

Los aspectos importantes de la simetr´ıa angular son:

1. Si el punto de simetr´ıa angularθexiste, entonces este es ´unico.

2. Siθes un punto de simetr´ıa angular entonces cualquier hiperplano que pase por ´el divide a_Rd

en dos semiespacios con probabilidades iguales. Si la distribución es continua esta probabilidad es 1/2. Se tiene en la otra dirección también.

3. Siθes un punto de simetr´ıa angular, entonces θes la mediana de la distribuci´on condicional deX en cualquier eje que pase porθ.

Definici´on 1.29. Se dice que un vector aleatorio X tiene distribuci´on con simetr´ıa central (o radial) con respecto aθsi

X−θ=d θ−X.

Esta distribución tiene la caracter´ıstica que su función de distribución satisface que

f(x−θ) =f(θ−x).

Este tipo de simetr´ıa se parece a la simetr´ıa esf´erica pero no son lo mismo. Un ejemplo es la distribuci´on uniforme sobre el cubo [−1,1]d_{. Esta distribuci´}_{on claramente no es esfericamente}

sim´etrica pero si tiene simetr´ıa central.

Definici´on 1.30. Si un vector aleatorio X cumple que

(X1−θ1, . . . , Xd−θd)0

d

= (±(X1−θ1), . . . ,±(Xd−θd))0

para cualquier combinaci´on de signos y para alg´unθ∈Rd entonces se dice queX tiene simetr´ıa de signo con respecto aθ.

(25)

Definici´on 1.31. Un vector aleatorioX tiene simetr´ıa de semiespacio alrededor deθsi

P(X ∈H)≥1/2

para cada semiespacio cerradoH conθen el borde.

Claramente se puede ver una relación entre todas estas distribuciones. La simetr´ıa angular requiere que _kX_X−₋θ_θ_k tenga simetr´ıa central, y la simetr´ıa angular se relaciona con la de semiespacio en la probabilidad de los hiperplanos que pasan por θ. La simetr´ıa de signo es un poco más fuerte que la central pero más debil que la angular.

Existe otro tipo de simetr´ıa llamada distribución α-simétrica, la cual se caracteriza por tener función caracter´ıstica de la formaϕX(t) =φ(|t1|α, . . . ,|td|α)

Vale la pena mencionar que toda distribución esfericamente simétrica tiene también simetr´ıa radial, angular y rotacional. Las elipticamente simétricas son radialemente simétricas alrededor de

µ y tienen tambi´en simetr´ıa angular. Mostraremos el caso que una variable ECD es radialmente sim´etrica.

X−µ=d RAU(d)=RA(−U(d)) =−RAU(d)=−(X−µ) ComoU(d)_{es esfericamente sim´}_{etrica tambi´}_{en es radial luego se obtiene el resultado.}

1.4. Aplicaciones

Los datos que exhiben simetr´ıa esférica o el´ıptica tienen gran variedad de aplicaciones tanto para el análisis de conceptos estad´ısticos como lo son las regresiones lineales y el análisis de componentes principales. Sin embargo también hay varios ejemplos de procedimientos en el mundo financiero que exigen que los datos tengan estos tipos de simetr´ıas para poder sacar conclusiones importantes y obtener resultados importantes. Se analizarán un poco estas aplicaciones para mostrar la pertinencia en el estudio de datos con estas simetr´ıas y la necesidad de poder clasificar datos por medio de pruebas de bondad de ajuste.

Primero comenzaremos hablando de un estudio que se puede ver en [12] en el que se analizan el mercado accionario de Asia y de Norte América tratando de ver si las tasas de retorno diarias se distribuyen con simetr´ıa esférica. Para mostrar este propósito cogieron datos históricos de empresas de estos dos continentes de varios años (1987-2008), e intentaron ver si las inestabilidades financieras del mercado se daban en periodos de tiempo donde los datos recogidos perd´ıan la simetr´ıa el´ıptica. Para hacer preciso el estudio se usó un tamaño muestral de un año financiero (n= 252) y para cada muestra corr´ıan el momento de inicio por 5 d´ıas y volv´ıan a escoger los datos de un año después. Esto lo hicieron hasta quedarse sin informacón. Para podes estimar los parametros hicieron varias

(26)

pruebas bootstrap.

Cabe resaltar que se uso la prueba de bondad de ajuste propuesta en ese articulo para mostrar la simetr´ıa de los datos. Para el mercado asiatico, cogieron 3 empresas y siguiendo el procedimiento mencionado anteriormente, lograron detectar que en varias ocasiones se rechazaba la hipótesis nula de simetr´ıa de los datos cerca a puntos que historicamente ten´ıan inestabilidad financiera en los mercados. Para ser más precisos esos puntos que encontraron fueron finales de 1987, comienzos de 1989 y finales de 1997, que coinciden con momentos en los que el mercado asiatico tuvo crisis. Ellos comentan que es necesario hacer pruebas para evaluar la simetr´ıa el´ıptica en vez de solo hacer pruebas para detectar cambios en el estimador de matriz de covarianza, pero resulta que la distribución cambia drásticamente su simétria mientras que mirando solo la matriz de covarianza puede no dar suficiente información.

En el caso del mercado americano y haciendo el mismo procedimiento tambi´en usando 3 empresas distintas, llegaron a observar que los datos perdieron simetr´ıa el´ıptica a finales de 1987 y a principios del 2007. Claramente la crisis del 2007 es la crisis reciente que es bastante conocida. Luego ellos concluyeron que la simetr´ıa el´ıptica es muy importante para hacer un an´alisis en cuanto a los precios diarios de tasas de retorno de activos en la bolsa ya que permiten saber cuando hay una crisis financiera.

Por otro lado si se considera un mercado condactivos con riesgo teniendo un retorno de diario (Xit)t∈Z

Xit=log(Pi,t)−log(Pi,t−1) i= 1, . . . , d ∀t∈Z

dondePit es el precio del bienien el tiempot. Para construir bien el modelo se asumen varias cosas, primero que el precio de un bien no puede desaparecer pues eso implica que la empresa entro en bancarota, segundo que los (X·t) tienen momentos de segundo orden cruzados finitos y

queX·t−µson secuencias de diferencias de martingalas ergodicas estacionarias, lo que quiere decir

que E(X·t) =µy que E[X·t|X·t−1, X·t−2. . .] a.s.

= µ∀t ∈Z. Sea Σ la matriz de covarianza deX·t,

entonces

√

T(1

T T

X

i=1

X·t−µ)

d

→Nd(0, I) T → ∞

Luego para T lo suficientemente grande como, por ejemplo, un año financiero T = 252 los retornos logar´ıtmicos son asintoticamente normales si estos tienen una distribución elipticamente simétrica.

El análisis de componentes principales es basicamente la reducción de las dimensiones de datos a aquellas que proporcionen más información en el análisis de estos. Tomando como ejemplo los retor-nos de bienes en un mercado, veremos como tener datos que tengan ECD dan una forma directa de obtener un análisis de componentes principales basandose en la definición de una ECD y en la des-composición espectral de la matriz Σ. Para comenzar el argumento, cojamosR= (R1, R2, . . . , Rd)

(27)

vector de retornos i.i.d dedbienes tales que

Ri=

T

X

t=1

Xit.

SeaY una variable aletoria tal queRi=αi+βiY +i para algunos parámetrosαi,iyβi es el coeficiente de regresión del i-ésimo activo. También la regresión se puede expresar de la siguiente forma

Ri=αi+βi1Y1+βi2Y2+· · ·+βidYd+i, i= 1, . . . , d (1.12)

ParaT bastante grande sabemos que cada Ri es aproximadamente normal si losXitson ECD

por el argumento anterior. EntoncesR∼N(µ,Σ) lo que implica que

R=d µ+O

√

DY Y ∼N(0, Id)∼Sd(φ).

Esta forma de expresar esta descomposición de R se debe a la descomposición espectral de Σ = ODO0 donde O es una matriz ortogonal y D es una matriz diagonal que tiene los valores propios λ1, . . . , λn de la matriz Σ en la diagonal. Si asumimos que los valores propios están en

forma descendente y que los primeros m son grandes mientras los d−m restantes no lo son, podemos concluir queY1, . . . , Ymson los componentes deY que van a dar informaci´on, los elementos

de Y se llaman componentes principales. En t´erminos m´as financieros se dice que los primeros

m son los factores de riesgo principales y los otros d−m se les conoce como las componentes de riesgo idiosincratico. La interpretación de los valores propios en D son las varianzas de estos factores, luego los primeros tienen varianzas grandes mientras lo otros tienen varianzas pequeñas. La descomposición espectral no solo es importante para determinar cuales van a ser las componentes (o dimensiones) deY que van a ser pertinentes para la regresión si no que también las columnas de la matriz ortogonalOnos dice la direccion del componente principal correspondiente. Una explicación más geométrica de la situación consiste en ver los componentes como los ejes de los elipsoides que conformas las superficies de nivel, luego el análisis de componentes principales determina cuales ejes son los más importantes y cual es su dirección por medio de los vectores propios de Σ que componen las columnas de la matrizO.

Ahora losβij estan dados por la siguiente ecuaci´on

βij =pλjOij i= 1, . . . , d j= 1, . . . , m (1.13)

Ahora podemos estimar los βij estimando primero la matriz de covarianza Σ deR y obtener

4_{La descomposici´}_{on espectral de Σ no es m´}_{as que la diagonalizaci´}_{on de Σ, donde la matriz} _O _{es la matriz}

(28)

asi las estimaciones paraO yD, denotemos a las estimaciones de cada uno de estos por ˆΣ, ˆOy ˆD. Entonces los βij se pueden estimar usando la ecuaci´on 1.13 y obtendr´ıamos

ˆ

β·j =

q

ˆ

λjOˆ·j j= 1, . . . , m. (1.14)

Se puede saber la contribuci´on de los componentes principales dividiendo la suma de los primeros

m valores propios de Σ (o elementos de la diagonal de D) entre la traza de Σ. Esto se tiene pues tr(D) = tr(Σ), entonces es como calcular que proporci´on de la traza total aportan los m

primeros valores propios. Además ˆβ·jse puede interpretar como la dirección delj- ésimo componente

principal.

De esta forma se puede usar el análisis de componentes principales para determinar como hacer una regresión lineal más eficiente y obtener los coeficientes de regresión es bastante fácil si los datos inicialesXit son elipticamente simétricos.

Si se desea investigar m´as a fondo sobre este tipo de distribuciones, se puede encontrar infor-maci´on en: [1], [2], [3], [5], [7], [11], [13].

(29)

Cap´ıtulo 2

Estad´ısticos de Bondad de Ajuste

y M´

etodos de Implementaci´

on

La meta principal del trabajo es hacer un análisis comparativo entre distintos estad´ısticos de bondad de ajuste que permiten evaluar cuando una muestra con distribución desconocida presenta simetr´ıa el´ıptica. Para hacer un análisis detallado de los estad´ısticos en cuestión se tomaron en cuenta diferentes parámetros para poder determinar cual de estos tiene mejor desempeño. Los criterios para lograr esto fueron: potencia contra las hipótesis alternativas, costo computacional y facilidad de implementación,y la rápidez de convergencia a distribución l´ımite. A continuación se exponen los diferentes estad´ısticos tomados en cuenta para el análisis, las distribuciones que se usaron para evaluarlos y los resultados obtenidos en la implementación para diferentes tamaños muestrales y distintas dimensiones.

Antes de presentar y describir los estad´ısticos es necesario introducir brevemente lo que es una prueba de bondad de ajuste. Una prueba de bondad de ajuste es una forma de determinar si un conjunto de datos observados con distribuci´on desconocida tiene una propiedad espec´ıfica. Esto se logra evaluando los datos por medio de un modelo estad´ıstico y viendo si se ajustan a las carac-ter´ısticas requeridas por el modelo para determinar si exhiben o no la propiedad buscada.

El primer estad´ıstico que se estudió fue aquel presentado en el articulo escrito por Manzotti, Perez y Quiroz [9]. Antes de presentar la idea, vale la pena recordar que una ECD se puede expresar en términos de los parámetros (µ0,Σ0, g0) donde g0 es la función escalar que define la función de

distribución de una ECD, como se expresa en el Teorema 1.18, para la teor´ıa los autores usan unas condiciones sobreG0la función de distribucioón acumulativa deX, cuya relación cong0es la

La idea que expusieron los autores es la siguiente: partiendo deX1, X2, . . . , Xn,ndatos i.i.d de

una distribuciónd-dimensionalP con parámetros (µ0,Σ0, g0) desconocidos, probar la hipótesis nula

infinito-dimensional que P tiene simetr´ıa el´ıptica. SeanX y S la media y la matriz de covarianza muestral. Para todo i≤ndefinimos

Yi=S−1/2(Xi−X)

Los Yi son los datos estandarizados, o como los llaman algunos autores los residuos a escala o en inglés scaled residuals. En la expresión anterior, se introduce la inversa de la raiz cuadrada de la matriz de covarianza, en el apéndice se explicará como fue calculada para mayor comprensión. A continuación, se proyectan los datos estandarizados en la esfera unitaria de dimensiónd, es decir, para todoi≤nse hace la siguiente operacón,

Wi= Yi

kYik

.

Los Wi son los datos proyectados en la esfera unitaria d-dimensional. Lo importante de hacer estas transformaciones es que si los Xi tienen simetr´ıa el´ıptica entonces los Wi deber´ıan estar

uniformemente distribuidos en la esfera unitaria (de ahora en adelante denotaremos a la esfera unitariad-dimensional como Ωd). Esto se debe a que si losXi son aproximadamente el´ıpticamente

simétricos, entonces se pueden expresar por medio de su representación estocástica de la siguiente manera:

Xi =X+RS1/2Γ.

Por lo tanto usando la transformaci´on antes descrita para losYi se puede ver que los datos estan-darizados tienen, aproximadamente, simetr´ıa esf´erica. Por lo tanto losWi se pueden expresar, por

medio de la representaci´on estoc´astica de losYi, de la siguiente forma:

Wi= Yi

kYik

= RiΓi

kRiΓik

= RiΓi

|Ri|kΓik .

Como Ri es una variable aleatoria positiva, |Ri| = Ri y adem´as como Γi esta uniformemente

distribuida sobre Ωd entonceskΓik= 1, por lo tanto se concluye queWi= Γi. Para poder verificar

la uniformidad de losWilos autores decidieron usar un m´etodo que involucra promediar los valores

de las armónicas esféricas evaluadas en losWiya que, según los autores, este método ha sido probado para pruebas de normalidad multivariada y ha dado buena potencia contra varias alternativas de diferentes dimensiones. Para conocer más detalles sobre esto referirse a [10].

(31)

Rd tales que ∆(p)≡0 en Rd, donde ∆ es el operador Laplaciano, ∆ = d X i=1 ∂2

∂xi2.

El grado de la armónica esférica es el mismo del polinomio del que se define. Ahora, se puede encontrar una base ortonormal de armónicas esféricas sobre Ωd, denotaremos porHk el conjunto

de arm´onicas esf´ericas de gradoken la base y por

Jjl=

[

j≤k≤l

Hk

es decir, J|lson todas las armónicas esféricas de grado j al. El número de armónicas esféricas de gradoken dimensióndque son linealmente independientes viene dado por:

N(d, j) =

_d₊_j₋₁

j

−

_d₊_j₋₃

j−2

Ahora, para un ∈(0,1) se calcula el -cuantil (denotado q) de las variables radiales de los

datos estandarizados, es decir, kY1k,kY2k, . . . ,kYnk. Los Yi para los cuales su norma sea menor

a q se excluyen pues para datos muy cercanos al origen pueden surgir algunas complicaciones en

supocisiones sobreg0que se tomaron en la teor´ıa. Entonces, luego se proyectan los datos cuya norma

es mayor a q y se calcula el promedio del valor de una arm´onica esf´ericahevaluada en todos los

Wi resultantes. Este proceso se denotaQn(h) y se expresa de acuerdo a la siguiente f´ormula:

Qn(h) = (1/n)

n

X

i=1

h(Wi)1kYik≥q (2.1)

El estad´ıstico propuesto por los autores es entonces el siguiente:

Z_n2=n X hinJ|l

Q2_n(h), ∀j≥3. (2.2) La razón por la cual se decide considerar únicamente las armónicas esféricas de grado 3 en adelante es para que la distribución l´ımite del estad´ısticoZ2

n sea una chi-cuadrado, exceptuando una

cons-tante multiplicativa, que no dependa de los parámetros de la distribución el´ıpticamente simétrica subyacente. Esta constante tendrá que ver con la cantidad de datos cercanos al origen que se omi-tieron de los cálculos. Es evidente entender por qué el método tiene validez, pues si un conjunto de datos no presenta simetr´ıa el´ıptica entonces las proyecciones de los datos estandarizados no es-tar´ıan distribuidos uniformemente en la esfera unitaria. Por conveniencia a esta prueba de bondad de ajuste la llamaremos MPQ para evitar confusiones en el análisis.

(32)

A continuación se explicará un poco la teor´ıa detrás del método, sin embargo, las demostracio-nes de los teoremas y algunos resultados requieren conocimiento de procesos emp´ıricos, un tema que va más allá del alcance del presente trabajo y por lo tanto no se mostrarán. Sin embargo, las demostraciones se encuentran en [9]. Se enunciarán los resultados y su importancia para las consi-deraciones que se hicieron para plantear el estad´ıstico y como llegaron los autores a su distribución l´ımite. Para comenzar los autores asumieron los siguiente:

1. _E(R4_{) =}

E(kXk)4)<∞

2. La funci´onG0es continuamente diferenciable en un intervaloJ = (s, t) tal que 0< s < q< t

conG0₀(q)>0

Proposici´on 2.1. La distribuci´on deZ2

nno depende de los valores deµ0y Σ0. Es decir es invariante

frente a transformaciones af´ın.

Anteriormente se habló de la escogencia de armónicas esféricas de grado mayor o igual a 3. La necesidad de hacer esto viene directamente relacionada con el siguiente Lema, ya que las de menor grado no lo cumplen.

Lemma 2.2. Para cada arm´onica esf´erica h de grado j ≥3 y para 1 ≤i, i0 ≤d, las siguientes integrales son iguales a 0.

(a)

Z

Ωd

hi(γ)−kh(γ)γidγ (b)

Z

Ωd

hi(γ)γi0−kh(γ)γiγi0dγ. (2.3)

Dondeγes un datod-dimensional uniformemente distribuido sobre Ωdyγies lai-´esima coordenada

deγ.

A continuaci´on el resultado m´as importante del articulo se enuncia.

Teorema 2.3. Sea N(j, l)el número de armónicas esféricas en Jjl. Bajo las suposiciones hechas

en 2, la distribuci´on l´ımite deZn2 es(1−ε)χ2N(j,l). Es decir tiene distribuci´on l´ımite chi-cuadrado

con N(j, l) grados de libertad, multiplicado por la constante (1−ε), donde ε es la proporci´on de datos cercanos al origen que se omitieron.

Sabiendo que la distribución l´ımite es algo tan sencillo como una distribución chi-cuadrado, es muy fácil determinar la rapidez de convergencia del método propuesto a su distribución l´ımite por medio de comparar los cuantiles montecarlo estimados en simulaciones hechas a ciertas ECD con los cuantiles l´ımite de la chi-cuadrado. Ya expuesto esta prueba de bondad de ajuste y como funciona, más adelante se aclararán algunos detalles tomados en cuenta para la implementación de este y en la comparación con los otros.

(33)

Symmetry”[6]. Esta prueba de bondad de ajuste comienza asumiendo queX1, X2, . . . , Xnson datos

iid de una densidad f enRd. El paso siguiente es calcular los datos estandarizados Zi partiendo de los Xi de la misma manera que se explico en la descripci´on del articulo de Manzotti, P´erez y Quiroz. Una vez se haya hecho esto, se divide el espacio_Rd _en_c _{casquetes esf´}_{ericos coc´}_entricos

centrados en el origen, tales que las regiones entre los casquetes contengan el mismo n´umero de datos estandarizadosZi. En otras palabras, cada uno de losc−1 radios de los casquetes es elj/c-´esimo

cuantil muestral de las variables radiales de los datos estandarizados,kZikparaj= 1, . . . , c−1. A continuaci´on lo que se hace es dividir de nuevoRd eng sectores c´onicos congruentes emanando del origen. 1 _{Lo que se tiene es entonces una divisi´}_{on de}

Rd en gc celdas que, asint´oticamente van a tener la misma cantidad (n/gc) de datos estandarizadosZi. Luego de calcular la cantidad observada de datosZi en cada celda se dispone a calcular el estad´ısticoX2 que es el estad´ıstico chi-cuadrado

que compara la cantidad de datos observados y los esperados en cada celda de la siguiente manera:

X2=

gc

X

i=1

(Oi−Ei)2

E2

i

Donde Oi es la cantidad de datos observados en la celda i-´esima y Ei es la cantidad de datos esperados en la celda i-´esima. Vale la pena aclarar que cada Ei =Ej = n/(gc) para todo i, j =

1, . . . , gc, luego sobra subindicarlos pero por claridad se deja as´ı.

Si se tuvieran los valores deµel valor esperado y Σ la covarianza de los datosXiy se usaran para

calcular los datos estandarizados, entonces la cantidad de Zi en cada casquete ser´ıa independiente y la cantidad en cada sector sigue una distribución multinomial. Todo esto se debe a que bajo estas suposiciones losZi ser´ıan exactamente esféricamente simétricos, bajo la suposición que losXi

son ECD. Por lo tanto, bajo estas condiciones ideales la distribuci´on l´ımite χ2

c(g−1)para cualquier

distribuci´on el´ıpticamente sim´etrica. Sin embargo, este no es el caso ya que se usan los estimadores

X y S, por lo que no es tan fácil determinar una distribución l´ımite. Los autores demuestran , en condiciones normales, la distribución l´ımite es una combinación lineal de distribuciones chi-cuadrado:

X2 d→W0+

m

X

i=1

λiWi, n→ ∞ (2.4)

Donde W0 ∼ χ2_c₍_g₋₁₎, W1, W2, . . . , Wm ∼ χ21 iid, y todos los Wi para i = 1, . . . , m son

indepen-dientes. Los λi son los valores propios no nulos de una matriz QQ’ donde la matriz Q se calcula

dependiendo de la división sectorial que se haga del espacio. En este trabajo se dividió sectorialmen-te por medio de los ortansectorialmen-tesG1, . . . , Gm, ya que calcular los valores propiosλi es bastante fácil de

calcular e implementar. A continuaci´on describiremos como calcularlos, seaq0= (q01, q02, . . . , q0c−1)

el vector de los cuantiles poblacionales de la distribuci´on χ2

d (recordar que d es la dimensi´on del

1_{Se entiende por sectores congruentes a aquellos que para cualquier par de sectores, existe una transformaci´}_on

(34)

espacio). Entonces q0 divide la distribuci´on en intervalos de igual probabilidad 1/c. Ahora para

j= 1, . . . , cse definen:

aj=Fd+1(q0j)−Fd+1(q0j−1)bj=Fd+2(q0j)−Fd+2(q0j−1)

DondeFk es la función de distribución deχ2_k. A continuación se define

a∗:= 2c

π c

X

j=1

a2_j y b∗ := 4c

π2

c

X

j=1

bj.

La distribuci´on l´ımite es entonces la siguiente:

X2→d W0+ (1−a∗)W1+ (1−b∗)W2 (2.5)

donde W0, W1, W2 son variable aleatorias chi-cuadrado conc(2p−1)−p(p+ 1)/2,pyp(p−1)/2

grados de libertad respectivamente. Los detalles detr´as de los c´alculos son bastante extensos y en algunos casos complicados por lo cual se omiten pero se pueden encontrar en [6].

Los autores recalcan que para que la distribuci´on l´ımite sea una buena aproximaci´on deben suceder dos cosas:

1. La cantidad de observaciones esperadas (n/(gc)) por celda no debe ser muy peque˜na. Se dice que si hay mas de 5 se logra una aproximaci´on buena.

2. La distribución de muestra, es decir los Xi, no debe tener distribución muy diferente a la normal, pues en ese caso, como se mostrará mas adelante, no se logra tener buena precisión en la aproximación.

En los casos que los datos de muestra tengan simetr´ıa el´ıptica pero tengan distribuci´on muy diferente a la normal, entonces los autores dicen que se debe hacer un proceso de remuestreo para aproximar la distribuci´on del estad´ıstico X2_{. El procedimiento que proponen los autores consiste}

en lo siguiente:

1. Se toma una muestraξ∗₁, . . . , ξ_n∗con reemplazo de los valores de las variables radialesξ1. . . , ξn.

2. Se generanU∗

1, U2∗, . . . , Un∗ datos uniformes sobre Ωd.

3. Se calculan losZ_i∗=ξ∗_iU_i∗ parai= 1,2, . . . , n.

4. Estos datos ahora se usan para calcular el estad´ısticoX2_∗_.

Se repite el proceso muchas veces y se obtienenX2

1∗, X22∗, . . . , Xk2∗replicas de remuestreo cuya

(35)

de ajuste, al igual que en el caso anterior, más adelante se hablará de las consideraciones que se tomaron para este método al momento de hacer las comparaciones. A este método lo llamaremos HP en nuestro análisis.

Ahora se presentará el tercer y último método estudiado en este trabajo. El tercer articulo fue escrito por Lyudmila Sakhanenko [12]. Comenzando de la misma forma que en los 2 articulos anteriores, sean X1, X2, . . . , Xn variables aleatorias iid de una distribución d-dimensional P absolutamente

continua. Sean Zi para i = 1, . . . , n los datos estandarizados de la misma forma que en los casos expuestos anteriormente. Seamla distribuci´on uniforme sobre la esfera unitaria enRd. Dadaf una funci´on de Borel, se define:

mf(ρ) =

Z

Ωd

f(ρv)m(dv), ρ >0

Si la distribuci´on de la muestra,P, tiene simetr´ıa el´ıptica con par´ametros (µ0, A0, g0), cong0siendo

la distribuci´on de la variable radial de los datos, entonces se tiene:

Z

Rd

f(A−₀1(x−µ0))P(dx) = +∞

Z

0

mf(ρ)g0(dρ) (2.6)

SiF es una clase de funciones tales que:

Z

Rd

f dQ1=

Z

Rd

f dQ2, ∀f ∈ F →Q1=Q2

se dice queF es una clase que caracteriza la distribuci´on. Por lo tanto, una distribuci´onP es ECD

⇐⇒ 2.6 se cumple para toda f ∈ F. Se dice que P esF-asim´etrica si y solo si ∃f ∈ F tal que 2.6 no se cumpla. Los autores definen por πn a la distribuci´on emp´ırica de las variables radiales de los datos estandarizados, i.e.kZik. El siguiente paso es considerar una clase de funcionesF de

funciones de Borel que van de Rd a Ry utilizar funcionales del siguiente proceso estoc´astico:

ξn(f) =n−1/2(

Z

Rd

f(A−_n1(x−µn))P(dx)−

+∞

Z

0

mf(ρ)πn(dρ)) =n−1/2 n

X

i=1

[f(Zi)−mf(kZik)], f ∈ F

como estad´ıstico de prueba. Vale la pena notar que como los Zi son invariantes af´ın, tambi´en los son los funcionales deξn. El estad´ıstico es entonces el siguiente:

Tn(F) := sup f∈F

(36)

Para un polinomio pen _Rd _{de grado menor o igual a} _r_{, el conjunto}

x∈_Rd_:_p₍_x₎_≥₀ _{se le}

llama un conjunto polinomial de grado menor o igual a r en Rd. Sea Pr,d la clase de todos los polinomios de grado menor o igual a r en Rd. Ahora, se le llama conjunto polinomial de grado menor a r y de orden menor a l a cualquier conjunto de S

{A(B1, . . . , Bl) : B1, . . . , Bl ∈ Pr,d}

donde A(B1, . . . , Bl) la m´ınima ´algebra de conjunto generada por B1, . . . , Bl. Se define entonces

LPr,d,lla clase de los polinomios de grado menor ary de orden menor al.2. Una clase de funciones

G se le llama una clase de subgrafos polinomiales o de subgrafos semialgebraicos si y solo si para algunosr, l todas las funciones g∈ G el conjunto{(x, t) :g(x)≥t≥0 og(x)≤t≤0}pertenece a

LPr,d+1,l. Esto quiere decir que el subgrafo de una funci´on en G se puede constuir de la uni´on de

las intersecciones de finitos subgrafos de polinomios de grado finito enRd.

Toda la discusión sobre esta clase de funciones se hizo porque esta clase de subgrafos polinomiales es esencial para mostrar el resultado más importante del articulo. De nuevo, la demostración se omite pues usa temas que están fuera del alcance del pregrado.

Teorema 2.4. Suponiendo que F es una clase de subgrafos polinomiales uniformemente acota-da con ciertas condiciones de suaviacota-dad y con R

Rd

|x|4_{dP <} _∞_{. Entonces la sucesi´}_{on de procesos}

estoc´asticos:

{ξn(f)−n−1/2E(f, µ0, A0) :f ∈ F }

converge d´ebilmente en el espacio`∞(F)a un proceso estoc´astico GaussianoξP. En particular siP

es una ECD con parámetros(µ0, A0, g0)entonces la sucesión ξn converge débilmente en el espacio `∞(F)al procesoξP.

En el Teorema E(f, µ0, A0) =

R

Rd

[f(A−₀1(x−µ0))−mf(kA−01(x−µ0)k)]P(dx) lo que implica

por 2.6 que si P es ECD entonces E(f, µ0, A0) = 0 para todaf. `∞(F) es el espacio de todas las

funciones uniformemente acotadas en F. El proceso estoc´astico es extremadamente complicado,

3_{por lo cual no se puede implementar. Esto en principio da pie para pensar que para calcular la}

potencia contra un conjunto de distribuciones alternativas es necesario usar los cuantiles Monte Carlo que son calculados al evaluar el método contra una serie de distribuciones que si tengan simetr´ıa el´ıptica. Las caracter´ısticas que se usaron para implementar el método serán explicadas más adelante junto con aquellas de los otros dos métodos una vez se hayan establecido cuales fueron las distribuciones que se usaron para la comparación. A esta prueba la denominaremos LS.

En el análisis comparativo se consideraron las dimensiones d= 2,3,5 para datos con tamaño muestral n = 50,100,200 para no dar algún tipo de ventaja a aquellos métodos que pueden fun-cionar mejor en dimensiones bajas. Para mostrar la rapidez de convergencia y la exactitud de las distribuciones l´ımite, se escogieron tres distribuciones que exhiben simetr´ıa el´ıptica. Estas son: la

2_{Se entiende por orden de un polinomio el entero positivo m´}_{as peque˜}_no_k_{tal que}_p₍_x_{) divide a}_xk_{+ 1}

3_{Si se desea ver la expresi´}_{on de}_ξ

(37)

distribución normal estándar multivariada, N(0, I), la distribución uniforme en la bola unitaria,

B1(0), la denotaremosUB, y la distribuci´on Pearson Tipo II con par´ametro a = 4, PII(4). Una

muestra de cada una de estas distribuciones se muestra en las figuras 1,2,3 respectivamente.4

Como alternativas, se escogieron distribuciones con asimetria elipsoidal. La primera es la dis-tribuci´on uniforme sobre el cubo unitario, es decir sobre [0,1]d _{y denotaremos esta alternativa por} UC (Ver Figura 4). La segunda alternativa es la distribuci´ond-dimensional definida de la siguiente

forma:Y =d RU dondeR yU son independientes yR2_∼_χ2

d y

U esta uniformemente distribuido sobre{y∈Rd:

d

X

i=1

|yi|= 1}

es decir sobre la bola unitaria enRd pero bajo la norma`1, la cual denominaremos por U`1. Ver

Figura 5.

La siguiente alternativa que se implemento fue la distribución Burr con parámetroα, la deno-taremosBurr(α), paraα >0. Esta tiene una función de densidad:

f(x) = αcx

(αc)−1

(1 +xc₎α+1, Paraα, c >0.

Para nuestra comparación utilizaremos dos versiones de esta distribución, las alternativasBurr(1) y Burr(0,05). En el Apéndice se mostrará el proceso utilizado para generar los datos de esta distribución. Una muestra de como están distribuidos los datos de estas distribuciones se ven en las figuras, 6 y 7 respectivamente.

Las siguientes tres alternativas que se usaron fueron las distribuciones Beta, Weibull y Gamma, las cuales denotaremos porBeta(α, β),W(α, β) yGamma(α, β), dondeα, βson parámetros especificas de cada distribución pero que en todos los casos α, β > 0. La distribución β(a, b) su función de densidad es:

f(x) = 1 Γ(α)Γ(β)x

α−1₍₁₋_x₎β−1_.

Para la distribuci´onW(α, β), esta tiene funci´on de densidad

f(x) =

(_β

α( x α)

β−1_exp_{− {}_x/α_}β_, _x_≥₀

0, x≤0

En cuanto a la distribuci´onGamma(α, β), tiene funci´on de densidad:

f(x) =x

α−1_e−x β

βα_Γ(_α₎ .