Tesis de Maestr´ıa Regresi´

(1)

Regresi´

on no param´etrica para datos funcionales

no estacionarios

Laura Aspirot

Orientador: Gonzalo Perera

Maestr´ıa en Ingenier´ıa Matem´atica.

Facultad de Ingenier´ıa, Universidad de la Rep´ublica. Montevideo, Uruguay.

(2)

En este trabajo se estudia el modelo de regresi´onY =φ(X)+εdonde la variable Y es real y la variable explicativa X es funcional, es decir que X _{∈ D} donde

Des un espacio de funciones. Se considera el estimador basado en n´ucleos tipo Nadaraya-Watson para la funci´onφ, definido para cadax_{∈ D}por

φn(x) =

Pn i=1Y iK

kx−Xik

hn

Pn i=1K

kx−Xik

hn ,

dondeK es un n´ucleo,hn es una sucesi´on positiva que tiende a cero yk · k es

(3)

1. Introducci´on 2

2. Regresi´on no param´etrica 8

2.1. Estimador para variables enRd _{. . . .} ₉

2.2. Estimador para variables funcionales . . . 12

2.3. Extensiones al caso no estacionario y dependiente . . . 17

3. Teorema central del l´ımite 19 3.1. Conjuntos asint´oticamente medibles . . . 20

3.2. Teorema central del l´ımite . . . 22

3.2.1. Teorema central del l´ımite para variables reales . . . 22

3.2.2. Teorema central del l´ımite para variables vectoriales . . . 24

3.3. Variables asint´oticamente medibles . . . 26

4. Consistencia y distribuci´on asint´otica 28 4.1. Consistencia . . . 30

4.2. Distribuci´on asint´otica . . . 36

5. Aplicaciones 43 5.1. Descripci´on del problema . . . 43

5.2. Un ejemplo b´asico . . . 47

5.3. Datos simulados . . . 50

5.4. Datos reales . . . 52

(4)

Introducci´

on

Se consideran dos variables aleatoriasX eY que satisfacenY =φ(X) +ε, dondeεes otra variable aleatoria centrada e independiente deX. Este modelo se conoce como modelo de regresión, la funciónφse llama regresor y la variable aleatoriaX es la variable explicativa. En este modelo la funciónφpuede tener diferentes caracter´ısticas, se pueden considerar funciones lineales, o se pueden hacer hipótesis más generales, por ejemplo sobre la regularidad de la función, y considerar funciones continuas o derivables. Por otra parte se puede asumir determinada distribución para las variables (modelo paramétrico) o puede no hacerse ninguna hipótesis expl´ıcita sobre la distribución de los datos (modelo no paramétrico).

Uno de los problemas consiste en estimar la funci´on φ a partir de obser-vaciones de las variables (X, Y). Cuando X es una variable aleatoria en Rd _y

la variable Y es real la funci´on φ puede estimarse a partir de observaciones

{(Xi, Yi) :i= 1, . . . , n}mediante el estimador basado en n´ucleos

φn(x) =

Pn i=1YiK

x−Xi

hn

Pn i=1K

x−Xi

hn

donde se considera 0/0 = 0.K es un n´ucleo, es decir una funci´on K:Rd _→R

que cumple queK(x)>0 _∀ x_∈Rd _{y que} R_R_d_K(x)dx_{= 1.}_h_n _{es una sucesi´on}

de reales positivos que tiende a cero conny se denomina ventana, y junto con el n´ucleo determina el peso de que tiene cada una de las observaciones en la estimaci´on. Este estimador se conoce como estimador de Nadaraya-Watson.

Para interpretar de una manera informal este estimador basta observar que en el modeloY =φ(X) +ε,conε centrada e independiente deX, φ(X) es la esperanza condicionalE(Y_|X). En el caso en que X es una variable aleatoria discreta la estimaci´on de φ(x) =E(Y_|X = x) se obtiene promediando los Yi

tales queXi=x. En el caso m´as general, la estimaci´on deφ(x) =E(Y|X =x)

se hace promediando los Yi tales que Xi est´a “cerca” de x y esto lleva a un

(5)

estimador de la forma

n

X

i=1

Yiwn(Xi, x)

dondewn(Xi, x) son “pesos” que indican cu´ales de los datos Xi est´an “cerca”

dexy para el estimador de Nadaraya-Watson est´an determinados por el n´ucleo Ky la ventanahn mediante

wn(Xi, x) =

Kx−Xi

hn

Pn i=1K

x−Xi

hn .

Otra interpretaci´on surge de suponer que la variable (X, Y) tiene densidad conjunta en Rd+1_{, en ese caso el estimador} _φ_n _{es el estimador plug-in de la}

esperanza condicionalE(Y|X =x) cuando se sustituye la densidad por la esti-mación de densidades por núcleos. Estos aspectos se describen con más detalle en el cap´ıtulo 2.

Por otra parte, con el desarrollo de la estad´ıstica para datos funcionales (Ramsay y Silverman (2005) presentan un abordaje extenso del tema datos fun-cionales y Ferraty y Vieu (2006) consideran especialmente el caso no paramétri-co), aparece el modelo de regresión no paramétrico para variables funcionales, es decir un modelo de regresión donde la variable explicativa es una función aleatoriaX. En este caso el estimador de la funciónφ, introducido por Ferraty, Goia y Vieu (2002), es

φn(x) =

Pn i=1YiK

_k_x₋_X ik

hn

Pn i=1K

kx−Xik

hn

donde la diferencia con el caso real es que_{k · k}es una seminorma en un espacio de funciones. En ese trabajo los autores obtienen la convergencia completa y tasas de convergencia del estimador para variables débilmente dependientes y estacionarias. Por otra parte Masry (2005) obtiene la normalidad asintótica del estimador para variables débilmente dependientes y con estacionariedad de segundo orden.

En este trabajo se estudia la regresión no paramétrica para un modelo de datos funcionales no estacionarios. La variable X es una función aleatoria que sigue determinado modelo de dependencia que se explica con detalle en el cap´ıtu-lo 4, que consiste en una mezcla (no estacionaria y dependiente) de variables estacionarias débilmente dependientes. Para este modelo se obtienen resultados análogos a los mencionados en los trabajos existentes, es decir la consistencia y la distribución asintótica del estimador. La distribución asintótica para datos dependientes y no estacionarios se basa en un teorema central del l´ımite para a-rreglos triangulares de campos aleatorios estacionarios enZd_{(Tablar 2007) y en}

(6)

consiste en estimar la calidad de servicio de extremo a extremo para un tráfico de datos multimedia (voz o video) en una red. La calidad de servicio de extremo a extremo está determinada por ciertos parámetros que afectan la trasmisión, como ser la pérdida de paquetes de datos, el retardo o la variación del retar-do. Estos parámetros afectan la calidad, especialmente para las aplicaciones de trasmisión de voz y video en tiempo real. Estas aplicaciones son relativamente nuevas en las redes, y a diferencia de otras aplicaciones, como correo o trans-ferencia de archivos, tienen requerimientos más altos para dichos parámetros, y por ejemplo para una conversación o para una video llamada, los retardos son mucho más importantes que para una transferencia de archivos.

El conocimiento de la calidad de servicio que puede brindar una determi-nada red es de interés tanto para los usuarios como para los proveedores de servicios. Los usuarios conociendo información precisa pueden corroborar si se están cumpliendo los requerimientos que se les garantizaron, mientras que para los proveedores de servicios puede ser información útil para análisis, diseño de la red, ingenier´ıa de tráfico, tarificación de los servicios, etc..

Muchos de los modelos para las redes están basados en teor´ıa de colas, donde existen numerosas referencias de las aplicaciones para redes de datos (Baccelli & Bremaud 2003) (Kleinrock & Gail 1996). El tráfico llega a un enlace o nodo de la red y es procesado según la capacidad del enlace o almacenado en una cola hasta que se procesa y se dirige a otro nodo de la red. Bajo ciertas hipótesis, como por ejemplo suponer un solo cuello de botella, esto es una sola cola, las pérdidas en la red se pueden calcular con un modelo de cola finita o aproximar asumiendo una cola infinita y estudiando el tamaño de la cola, para ver cuándo supera el tamaño máximo real. En estos modelos la hipótesis de que el tráfico llega según un proceso de Poisson es fundamental para poder hacer cálculos expl´ıcitos, pero esta hipótesis restringe los modelos a estudiar. Por otra parte al imponer distribuciones más generales en el modelo se hace más dif´ıcil obtener resultados en términos de distribución de los retardos o pérdidas y solamente se obtiene información de los comportamientos en media. Sin embargo el retardo medio, por ejemplo, no brinda la información necesaria para estimar la calidad de servicio para las aplicaciones de voz o video, porque interesa más conocer la probabilidad de que éste supere determinado valor y se pueden tener distintos comportamientos en este sentido para un mismo retardo medio.

(7)

cero (“régimen de buffer pequeño” (Ozturk, Mazumdar & Likhanov 2004)) se utiliza para analizar por ejemplo el corazón de la red. La validez en toda la red depende de la hipótesis de la existencia de un único cuello de botella y por otra parte algunos trabajos que permiten extender los resultados de grandes desv´ıos a redes dependen fuertemente de la topolog´ıa de la red o utilizan algoritmos complejos que también dependen de esta topolog´ıa.

Otro enfoque del problema consiste en realizar simulaciones. Sin embargo muchos de los aspectos que interesan estudiar se consideran eventos raros, es decir que son eventos muy poco probables como por ejemplo la pérdida de paquetes en la red. El problema central consiste en simular adecuadamente este tipo de eventos, utilizándose diversas técnicas para esto (De Boer 2000). Por otra parte la realización de simulaciones generalmente es muy costosa en términos de cálculo y también en el tiempo necesario para su realización.

En todos los análisis mencionados antes, los autores asumen como hipótesis cierta independencia o dependencia débil de los datos, por ejemplo respecto del tiempo, o independencia entre los usuarios cuando el número de usuarios tiende a infinito. Por otra parte también existen modelos que consideran la dependencia y afirman que no es posible modelar el comportamiento de Internet sin considerar dependencias largas en el tiempo. En estos casos la predicción depende fuertemente del ajuste a un modelo concreto (Willinger, Paxon, Reidi & Taqqu 2001).

Por las dificultades de encontrar modelos anal´ıticos que tengan buen de-sempeño y también gracias a mayores posibilidades tecnológicas muchos de los estudios se hacen en base a medidas expl´ıcitas dentro de la red. Uno de los objetivos al estudiar el comportamiento de Internet ha sido el intento de es-tandarización para las medidas de varios parámetros, como ser pérdidas, re-tardo, variación del retardo, como puede verse en distintas normas interna-cionales, desarrolladas principalmente por el grupo IPPM (IP Performance Met-rics) (IPPM 2008) de la lETF (Internet Engineering Task Force) y también por la ITU (International Telecommunication Union).

Existen diversas herramientas de software tanto para mediciones activas, donde se introduce tráfico adicional y controlado en la red a efectos de medir, como pasivas, donde el software instalado en algunos puntos de la red es el que realiza las mediciones. Parte de la información que se obtiene de mediciones en distintos nodos de la red a veces está sistematizada y disponible, como en el caso de CAIDA (Cooperative Association for Internet Data Analysis) (CAIDA 2008). Las herramientas de medición pasiva permiten obtener información en cada nodo de la red o en una red del mismo propietario pero no son adecuadas para las medidas de extremo a extremo. Estas herramientas muchas veces son usadas por los proveedores de servicios para analizar cada cierto tiempo el estado de la red, contabilizando por ejemplo la cantidad de tráfico que llega a determinado nodo, el tipo de aplicación, etc..

(8)

medir sin afectar la calidad de la red, de modo que generalmente se busca añadir el menor tráfico posible. Para medir la capacidad del cuello de botella también existen técnicas basadas en pares de paquetes. Estas técnicas asumen que si se env´ıan paquetes de a pares, eligiendo adecuadamente el tiempo entre env´ıos para los pares, la mayor´ıa de estos pares de paquetes permanecen juntos en la cola en el cuello de botella, de modo que el tiempo entre paquetes en el destino permite calcular la capacidad del enlace. Por otra parte para medir los retar-dos o las pérdidas existen diversas técnicas basadas en el env´ıo de ráfagas de paquetes livianos. En algunos casos el tráfico de prueba utilizado está asociado a algún modelo para el tráfico en Internet y los paquetes de datos tienen deter-minada distribución para su tamaño o para los tiempos de env´ıo, por ejemplo siguiendo un proceso de Poisson, aunque también se utilizan ráfagas de paquetes periódicos, trazas de tráfico, etc..

Luego de obtenidas las mediciones hay un posterior tratamiento estad´ıstico de los datos, con el objetivo de predecir comportamientos futuros, explicar lo observado o validar un modelo. En muchos casos se realiza un tratamiento des-criptivo. Para muchas de las aplicaciones los comportamientos en media, como por ejemplo el retardo medio para aplicaciones de voz, pueden no servir como herramienta para distinguir entre calidades de servicio diferentes.

(9)

Y conociendo únicamente esta observación y la estimación previa de φ. En el cap´ıtulo 5 se describe con detalle el tipo de medidas que se realizan.

El trabajo se organiza de la siguiente manera. En el cap´ıtulo 2 se revisan los conceptos básicos y los resultados existentes en regresión no paramétrica tanto para datos reales como para datos funcionales. En el cap´ıtulo 3 se presentan resultados sobre campos aleatorios que serán fundamentales como herramienta para extender los resultados sobre regresión para datos funcionales débilmente dependientes y estacionarios a un caso dependiente y no estacionario, que es el resultado principal de este trabajo y se presenta, junto con la descripción deta-llada del problema en el cap´ıtulo 4. En el cap´ıtulo 5 se presentan los resultados aplicados a simulaciones de un enlace en una red de datos.

Los resultados que se presentan aqu´ı forman parte de dos trabajos que se citan a continuación. El primero incluye algunos resultados sobre consistencia del estimador y resultados de su aplicación a simulaciones y datos reales, el segundo consiste en los resultados sobre la distribución asintótica del estimador tipo Nadaraya-Watson para variables funcionales.

Aspirot, L., Bazzano, B., Belzarena, P., Perera, G.. End-To-End Quality of Service Prediction Based On Functional Regression. Third International Working Conference on Performance Modelling and Evaluation of Hetero-geneous Networks (HET-NET’s), Ilkley, 2005.

(10)

Regresi´

on no param´

etrica

En este cap´ıtulo se describen algunos resultados sobre regresión no paramétri-ca y se plantean sus posibles extensiones, que serán el contenido del paramétri-cap´ıtulo 4. En la sección 2.1 se presentan resultados para variables en Rd _{y en la}

sec-ci´on 2.2 se presentan resultados para el caso funcional. En la secci´on 2.3 se plantea el problema de extender los resultados existentes para datos no esta-cionarios y dependientes, motivado en el problema de telecomunicaciones que se quiere analizar en este trabajo.

En el modelo de regresión se representa la relación entre dos variables aleato-riasX eY mediante la ecuación

Y =φ(X) +ε,

dondeεes una variable aleatoria, centrada e independiente deXque representa los errores yφes una función no aleatoria. Este modelo incluye varios problemas diferentes. Uno de los problemas consiste en conocer la funciónφ. Esta función se puede estimar a partir de observaciones de las variables (X, Y). Luego mediante nuevas observaciones se puede validar el modelo o también se pueden hacer predicciones sobre la variableY, es decir que conociendoX y la estimación de φse estiman futuros valores deY.

Para el problema de regresión se pueden asumir diferentes modelos para la función φ, por ejemplo se puede considerar que φ es una función lineal, este modelo se conoce como regresión lineal y existe una gran variedad de aplica-ciones. En ese caso para conocer la función basta estimar un cantidad finita de parámetros, siendo este un modelo paramétrico. Un modelo no paramétri-co para la función φ consiste en hacer hipótesis generales sobre esta función (continuidad, derivabilidad, etc.) pero la función no queda determinada por una cantidad finita de parámetros. También se pueden realizar hipótesis sobre la distribución de las variables (X, Y) de modo que los datos sigan un modelo paramétrico, mientras que en el caso no paramétrico se asumen hipótesis gene-rales sobre la distribución, (momentos, decaimiento de las colas, dependencia débil, etc.).

(11)

Una referencia para una introducción general al problema de regresión no paramétrica en el caso de variables en Rd _{es el libro de Nadaraya (1989), del}

cual se resumen resultados, donde las demostraciones est´an presentadas para el caso de variables independientes e id´enticamente distribuidas (i.i.d.) en R_,

pero son an´alogas para el caso de variables i.i.d. en Rd_{. Las referencias para}

el caso funcional se encuentran en diversos art´ıculos (Ferraty, Goia & Vieu 2002) (Ferraty & Vieu 2004) (Masry 2005) (Oliveira 2005) (Ferraty & Vieu 2006) y existen otras referencias relacionadas, por ejemplo estimación de densidades o estimación de la moda para datos funcionales, que se citan más adelante en este cap´ıtulo.

2.1. Estimador para variables en

R

d

Se considera una variable aleatoriaX enRd_{, una variable aleatoria}_Y _enR_,

una funci´onφ:Rd_→R_{y la regresi´}_on_Y ₌_φ(X_{)+ε, con}_ε_{otra variable aleatoria}

enR_{, centrada e independiente de}_X_{. Un estimador para inferir la funci´on}_φ_a

partir de observaciones_{(Xi, Yi) :i= 1, . . . , n}fue introducido por Nadaraya y

por Watson en 1964 (Nadaraya 1964), (Watson 1964). Este estimador se conoce como estimador de Nadaraya-Watson de la funciónφy está dado por la siguiente fórmula para la funciónφn:Rd→R

φn(x) =

Pn i=1YiK

x−Xi

hn

Pn i=1K

x−Xi

hn

siPn_i=1Kx−Xi

hn

6

= 0 y siPn_i=1Kx−Xi

hn

= 0 se defineφn(x) = 0.K es un

n´ucleo, es decir una funci´onK:Rd_→R_{que cumple que} _K(x)>0_∀x_∈Rd _y

R

RdK(x)dx= 1, yhn es una sucesi´on de reales positivos, que tiende a 0 conn,

que se denomina ventana.

Para interpretar el estimador se puede ver queφ(X) es la esperanza condi-cionalE(Y|X),

E(Y|X) =E(φ(X) +ε|X) =E(φ(X)|X) +E(ε|X)

y comoεes independiente deX y centradaE(Y|X) =φ(X) +E(ε) =φ(X). Sobre la f´ormula del estimador, si se consideran variables discretas, para estimar E(Y_|X) basta estimar φ(x) =E(Y_|X =x) para xen el recorrido de X. En este caso E(Y_|X =x) se puede estimar con el promedio de losYi tales

queXi=x, es decir,

φn(x) = n

X

i=1

Yi1{Xi=x}

donde 1A es la indicatriz del conjuntoA. Cuando la variableX no es discreta

(12)

dexy se obtiene un estimador de la forma

φn(x) = n

X

i=1

Yiwn(Xi, x)

dondewn(Xi, x) son “pesos” que indican si los datos est´an “cerca” o “lejos” de

xpara alguna medida de distancia definida en el espacio de las variablesX. En este caso los pesos est´an determinados por

wn(Xi, x) =

Kx−Xi

hn

Pn i=1K

x−Xi

hn ,

donde la ventana regula el peso que tendr´a cada dato en la estimaci´on.

Otra interpretaci´on del estimador es la siguiente. Suponiendo que la variable (X, Y) tiene densidad conjuntav enRd+1_{el estimador}_φ_n _{es el estimador}

plug-in de la esperanza condicionalE(Y|X =x) cuando se sustituye la densidad por la estimaci´on de densidades por n´ucleos.

φ(x) =E(Y_|X =x) = R

Ryv(x, y)dy R

Rv(x, y)dy

El estimador plug-in que se obtiene reemplazando la densidad v por la esti-maci´on de densidades por n´ucleosvn es

φn(x) =

R

Ryvn(x, y)dy R

Rvn(x, y)dy donde

vn(x, y) = 1

nhd+1n n X i=1 e K x−Xi

hn

,y−Yi hn

,

siendoKe un n´ucleo enRd+1_{. Definiendo}_{K(x) =}R_R_{K(x, y)dy}e _{y con el cambio}

de variable y−Yi

hn =use tiene que Z

R

vn(x, y)dy =

1 nhd+1n

n X i=1 Z R e K _x

−Xi

hn

,y−Yi hn dy = 1 nhd n n X i=1 Z R e K x₋Xi

hn , u du = 1 nhd n n X i=1 K

x−Xi

hn

An´alogamente, con el mismo cambio de variabley−Yi

(13)

de queRRuK(x, u)due = 0 se obtiene Z

R

yvn(x, y)dy =

1 nhd+1n

n

X

i=1

Z

R yKe

_x

−Xi

hn

,y−Yi hn dy = 1 nhd n n X i=1 Z R

(Yi+uhn)Ke

_x

−Xi

hn , u du = 1 nhd n n X i=1

YiK

x₋Xi

hn

El estimador plug-in definido antes es

φn(x) =

R

Ryvn(x, y)dy R

Rvn(x, y)dy =

1 nhd

n Pn

i=1YiK

x−Xi

hn 1 nhd n Pn i=1K

x−Xi

hn

Se denotan la siguientes expresiones comogn(x) yfn(x)

gn(x) = 1

nhd n

n

X

i=1

YiK

x−Xi

hn

fn(x) =

1 nhd n n X i=1 K

x₋Xi

hn

de modo que el estimador se escribe comoφn(x) =g_fn_n(x)_(x).

La normalizaci´on de las variablesfn(x) ygn(x) se realiza mediante nhdn, es

decir que depende de la dimensi´on del espacio, m´as concretamente del volumen de la bola de centro 0 y radio hn. El problema de dimensionalidad, es decir

que para estimar en dimensiones mayores son necesarios más datos porque la concentración de una cantidad fija de datos disminuye al aumentar la dimensión, queda reflejado en esta normalización. Gran parte de los resultados existentes asumen densidades para las variables (X, Y). Esta hipótesis es necesaria por la forma en que se realiza la normalización, al considerarsegn(x) yfn(x)

norma-lizados pornhd

n. Bajo hip´otesis m´as generales, sin asumir densidades se puede

realizar la normalizaci´on utilizando los valores esperados, es decir normalizando porEhKx−_h_nXii, obteni´endose as´ı la convergencia en probabilidad (Greblicki, Krzyzak & Pawlak 1984).

Para el caso donde se asumen densidades se demuestra la convergencia en probabilidad, es decir que

φn(x) p

→φ(x),

cuando n _{→ ∞}, donde _→p indica convergencia en probabilidad. Este resulta-do se basa en las convergencias en media cuadr´atica de fn(x) y de gn(x), en

(14)

resultados de distribución asintótica, la demostración se concluye realizando descomposiciones adecuadas del estimadorφn(x).

Tambi´en se prueba convergencia y normalidad asint´otica, es decir que p

nhn(φn(x)−φ(x))=w⇒N(0, σ2(x)),

donde =w_⇒ indica convergencia en distribuci´on y N(0, σ2_{(x)) representa una}

variable con distribuci´on gaussiana con media 0 y varianza σ2_{(x). Bajo}

dife-rentes hipótesis de momentos para las variables (X, Y) y diferentes velocidades de convergencia a 0 de la ventana se demuestran estos resultados. En todos los casos la velocidad de convergencia a 0 de la ventana debe ser pequeña comparada con la velocidad con la que n tiende a ∞ y además depende de la dimensión del espacio (por ejemplo enRd _{es necesario que l´ım}_n_→∞_nhd_n _{= 0). Bajo otras}

hip´otesis se prueban resultados m´as fuertes, como es la convergencia uniforme casi segura, es decir que

sup

a≤x≤b|

φn(x)−φ(x)|−→c.s.0,

donde_−→c.s. indica convergencia casi segura cuandon_{→ ∞}. También se obtiene la distribución asintótica gaussiana de modo uniforme, es decir que si se define la funciónφbn de modo que paraa≤x≤b, i= 1, . . . , sn,φbn(x) =φ(xi) para

todoxi≤x < xi+1, bajo ciertas hip´otesis se puede tener de manera expl´ıcita la

distribuci´on asint´otica de

p

nhn m´ax a≤x≤b

b

φn(x)−φ(x)

σn(x)

dondeσ2

n(x) es un estimador de la varianza. Este resultado permite la

construc-ción de intervalos de confianza para toda la funconstruc-ciónφa partir de las estimaciones en los puntosxi coni= 1, . . . , sn cuando la varianza asintótica es desconocida.

Resultados análogos de convergencia y normalidad asintótica se obtienen para el caso de variables débilmente dependientes (más espec´ıficamente, para variablesα-mixing) (Robinson 1983). En el caso de variables dependientes los resultados sobre distribución asintótica se basan en el método de bloques de Bernstein, que permite aproximar una suma de variables dependientes por una suma de variables independientes y luego aplicar un teorema central del l´ımite para arreglos triangulares de las variables independientes.

2.2. Estimador para variables funcionales

Para el caso en que, para cada n _≥ 1,Xn es una funci´on aleatoria en un

espacio de funciones D con una seminorma k · k, Ferraty, Goia y Vieu (2002) introducen el estimadorφn para el modelo de regresi´on, definido por

φn(x) =

Pn i=1YiK

_k_x₋_X ik

hn

Pn i=1K

_k_x₋_X ik

(15)

donde se considera 0/0 = 0.

En esta sección se enunciarán sin demostración los resultados de consisten-cia y distribución asintótica del estimador bajo diferentes hipótesis. Todos los trabajos que aqu´ı se refieren buscan alguna manera de resolver el problema de la dimensionalidad, ya que a diferencia del caso real se está trabajando en es-pacios de funciones, que tienen dimensión infinita. El problema que abordan los diferentes autores consiste en encontrar algún tipo de condición que garantice la concentración de las observaciones.

En el trabajo de Ferraty et al. (2002) el estimador finalmente es usado para la estimación de series temporales, usando un conjunto continuo de valores an-teriores de la serie temporal. Los autores trabajan con variables débilmente de-pendientes y estacionarias y abordan el problema de dimensionalidad mediante la dimensión fractal del proceso funcional, obteniendo convergencia completa y tasas de convergencia para el estimador. Se resumen aqu´ı los principales resul-tados.

Teorema 2.1(Teorema 4.1 (Ferraty et al. 2002)). SeanDun espacio vectorial de funciones con una seminorma_{k · k}y (Xn, Yn)n≥1 una sucesi´on de variables

estacionarias dondeXn ∈ D,Yn ∈R, y se cumplen las siguientes hip´otesis. H 2.2. La funci´onφ es continua enx.

H 2.3. K es una funci´on real, no negativa, con soporte en [0, ξ] para ξ >0 y tal queRRK(u)du= 1.

H 2.4. K es una funci´on Lipschitz, es decir que existeL >0tal que, para todo

u, v∈[0, ξ],|K(u)−K(v)| ≤L|u−v|.

H 2.5. Existenp_∈N_,_{p >}₀ _y _{C >}₀ _{tales que, para todo}_{t >}₀_,

P(|Y|> t)≤Ct−p.

H 2.6. La sucesi´on (Xn, Yn)n∈Z es α-mixing con coeficiente de mixing α y

existena >2y c >0 tales que, para todo k_∈N_,

α(k)≤ck−a.

H 2.7. Existen los segundos momentos condicionales y est´an acotados para todo

i, j_≥1, es decir que

E(|YiYj| |Xi, Xj)≤M <∞.

H 2.8. Para cada x_{∈ D} existenδ(x)>0 y c(x)>0 tales que

l´ım

h→0+

P(_kX₋x_{k ≤}h) hδ(x) =c(x)

y para todoi6=j, existe δ0(x)>0 tal que

l´ım

h→0+

P(kXi−xk ≤h,kXj−xk ≤h)

hδ(x)+δ0(x) =ci,j(x),

(16)

H 2.9. Se cumplen las hip´otesis H 2.5, H 2.6, H 2.8 con p > 4, a > _δδ(x)∗_(x), dondeδ∗_{(x) = m´ın}_{_{δ(x), δ}

0(x)}, y existenθ, C1, C2>0 tales que

C2n

4a+p(3₋a) δ(x)(a+ 1)p+θ_≤_h

n ≤C1n

q

qδ(x)−aδ∗_(x)−θ

,

con2/p= 1₋1/q.

Entoncesφn(x)converge completamente aφ(x)cuandon→ ∞, es decir que

para todoε >0

∞

X

n=1

P(_|φn(x)−φ(x)|> ε)<∞.

Bajo hip´otesis similares, pero que se cumplen de manera uniforme para todo x∈ D, y siφes uniformemente continua enS ⊂ D, los teoremas anteriores se generalizan a resultados uniformes, es decir que supx∈S|φn(x)−φ(x)|converge

completamente a 0 cuandon→ ∞.

Además de este teorema existen resultados sobre la velocidad de conver-gencia del estimador (Ferraty et al. 2002). Los autores también realizan varios comentarios sobre las hipótesis. Algunos comentarios sobre las hipótesis y sobre la demostración se presentan en lo que sigue.

Las hip´otesis H 2.5 y H 2.7 son sobre el decaimiento de las colas de la variable Y y sobre los momentos condicionales.

La hipótesis H 2.6 es una hipótesis de dependencia débil de las variables. El coeficiente deα-mixing para la sucesión de variables aleatorias (Xn, Yn) se

define como

α(k) = sup_{|P(A_∩B)₋P(A)P(B)_|:A_∈σ−∞0 , B∈σ+k∞},

donde σ0

−∞ y σk+∞ son las σ-´algebras generadas por {(Xn, Yn) : n ≤ 0} y

{(Xn, Yn) :n≥k} respectivamente.

En este art´ıculo los autores introducen la dimensión fractal (H 2.8) del proce-soX para resolver el problema de dimensionalidad. Estas hipótesis son sobre la concentración de la variableX y sobre la distribución conjunta de (Xi, Xj). La

hipótesis sobre dimensión fractal del procesoXgarantiza la concentración de las observaciones alrededor dexnecesaria para estimarφ(x). La normalización en el estimador para demostrar la convergencia depende de esta dimensión fractal, es decir que la normalización que paraX ∈Rd _{(asumiendo densidades) es}_nhd_n

en este caso esnhδ(x)n dondeδ(x) est´a definida en la hip´otesis H 2.8. Se puede

interpretar que localmente el comportamiento es como en un espacio de dimen-sión finita, con dimensiónδ(x). Análogamente al caso enRd_{, este valor, junto}

con las condiciones de dependencia débil, determina la velocidad de convergen-cia de la ventana a 0 para obtener la convergenconvergen-cia y las tasas de convergenconvergen-cia. La demostración está basada en el cálculo del l´ımite deE(fn(x)) y deE(gn(x)),

donde se prueba que existe una funci´onf(x) tal que l´ım

(17)

l´ım

n→∞E(gn(x)) =φ(x)f(x),

y luego en la convergencia completa a 0 de fn(x)−E(fn(x)) y de gn(x)−

E(gn(x)). Una descomposici´on adecuada de φn(x)−φ(x) permite reducir el

problema al estudio de la convergencia defn(x) y gn(x). A diferencia del caso

real, dondeE(fn(x)) converge a la densidad de la variableX en el punto x, en

este contexto el l´ımitef(x) depende deδ(x).

Para la demostraci´on de la convergencia se utilizan desigualdades exponen-ciales (donde la cota depende en forma exponencial de los momentos de Sn)

para acotar la probabilidadP(|Sn|> ε), siendoSnuna suma de variables

d´ebil-mente dependientes (α-mixing) y luego desigualdades de covarianza de variables mixing para acotar los momentos de Sn. La convergencia completa se obtiene

adem´as fijando la velocidad de convergencia a cero de la ventanahn. En esa

velocidad intervienen los parámetros que determinan el decaimiento del coefi-ciente de mixing y de las colas de la variableY, donde la relación entre estos parámetros está dada por la hipótesis H 2.9.

Masry (2005) prueba la normalidad asint´otica de φn para variables

d´ebil-mente dependientes asumiendo estacionariedad de segundo orden. El resultado se enuncia a continuaci´on.

Teorema 2.10(Corolario 2 (Masry 2005)). Sea_Dun espacio vectorial de fun-ciones con una seminorma _{k · k} y sea (Xn, Yn)n≥1 una sucesi´on de variables

dondeXn∈ D,Yn∈Ry se cumplen las siguientes hip´otesis. H 2.11. La funci´onK es positiva con soporte en[0,1].

H 2.12. La funci´onφcumple que para todo u, v∈ D

|φ(u)−φ(v)| ≤Lku−vkβ_,

dondeβ >0 y Les una constante positiva.

H 2.13. La funci´ong2 definida por

g2(u) =var(Yj|Xj =u)

es independiente dej y es continua en un entorno dex.

H 2.14. Existeν >2 tal queE_|Yi|ν <∞y la funci´ongν definida por

gν(u) =E(|Yi−φ(x)|ν|Xi=u)

no depende dei y es continua en un entorno dex.

H 2.15. La funci´ong definida para i6=j por

g(u, v) =E((Yi−φ(x))(Yj−φ(x))|Xi=u, Xj=v)

(18)

H 2.16. Existen funciones no negativas ψ y ψe definidas en R+_{, con} _{ψ(0) =}

e

ψ(0) = 0, continuas en un entorno de 0, yc1yc2tambi´en no negativas definidas

en_Dtales que para todo h >0, cuandou_→0

P[kXi−xk ≤h] =c1(x)ψ(h),

sup

i6=j

P(kXi−xk ≤h,kXj−xk ≤h)≤ψ(h)ce 2(x),

donde adem´as _ψψ(h)e2_(h) est´a acotado.

H 2.17. La funci´onψ es derivable y cumple, paraj= 1,2 que

l´ım

h→0

h ψ(h)

Z 1

0

Kj(u)ψ′(hu)du=Cj,

dondeCj es una constante positiva.

H 2.18.La sucesi´on(Xn, Yn)n∈Zesα-mixing. El coeficiente de mixingαcumple

que existeν >2y δ >1₋2/ν tales que

∞

X

k=1

kδα(k)1−2/ν <∞.

H 2.19. La ventanahn cumple quel´ımn→∞hn= 0 y

l´ım

n→∞nh

2β

n ψ(hn) = 0.

Entonces _p

nψ(hn) (φn(x)−φ(x)) w

=_⇒N(0, σ2(x)),

dondeσ2_{(x) =} C2g2(x)

C2 1c1(x).

La distribución asintótica en el caso de variables dependientes se obtiene mediante el método de bloques de Bernstein, que permite reducir el problema al teorema central del l´ımite de Lindeberg. Las hipótesis de dependencia débil son análogas a las hipótesis para la consistencia y no se asume estacionariedad en el sentido estricto. Bajo hipótesis más débiles para la convergencia de la ventana se obtiene la distribución gaussiana asintótica para el estimador más un término de sesgo, y para eliminar el término de sesgo se utiliza la hipótesis H 2.19. La hipótesis H 2.17 permite el cálculo de la varianza asintótica.

La demostración en este caso se basa en determinada descomposición del estimador, donde la normalización se hace utilizando los valores esperados, es decir normalizando medianteEhKkx−_h_nXiki, análogamente a lo realizado en el caso real por Greblicki et al. (1984).

(19)

Masry sobre la concentración de las observaciones. Este trabajo los autores consideran particularmente el cálculo expl´ıcito de las constantes que aparecen en sus resultados, y resaltan su importancia para las aplicaciones. Del mismo modo tratan el problema de la elección de la ventana, que se obtiene minimizando el error cuadrático medio para valores del estimador obtenidos mediante bootstrap. El bootstrap para este problema se realiza calculando el estimadorφn a partir

de una muestra, (X1, Y1), . . . ,(Xn, Yn) con una ventanahnelegida y calculando

los residuos para esa muestra, es decir

εi =Yi−φn(Xi),

para cada i = 1, . . . , n. Se obtiene una muestra bootstrap de estos residuos ε∗1, . . . , ε∗n, y para un estimador φen calculando con la muestra original y otra

ventanaehn se calcula

Yi∗=φen(Xi) +ε∗i.

Luego con la nueva muestra (X1, Y1∗), . . . ,(Xn, Yn∗) y con la ventana originalhn

se obtiene un estimador bootstrapφ∗

n. La justificaci´on te´orica de la validez del

bootstrap para estos datos est´a indicada como una l´ınea de trabajo a desarrollar por los autores.

Se encuentran también, además de los ya citados, trabajos relacionados sobre la estimación densidades para datos funcionales (Gasser, Hall & Presnell 1998), para la estimación de la moda (Dabo-Niang, Ferraty & Vieu 2004), para la nor-malidad asintótica de estimadores de núcleos para datos funcionales (Oliveira 2005).

2.3. Extensiones al caso no estacionario y

de-pendiente

El problema que motiva este trabajo consiste en estimar ciertos parámetros de calidad de servicio para un tráfico multimedia en una conexión entre dos extremos en la red, donde la calidad de servicio está representada por la variable Y, es función del estado de la red que determinará la variable X y se desea estimar la funciónφen el modeloY =φ(X) +ε.

En este caso, si bien hay relación entre el estado de la red y la calidad de servicio para un tráfico multimedia, es dif´ıcil establecer un modelo para la funciónφ, por eso se enfoca este problema en forma no paramétrica.

(20)

Los datos correspondientes a la variable X que se obtienen experimental-mente del problema de telecomunicaciones son datos de grandes dimensiones y para el análisis de estos datos es adecuado considerar el vector de datos como una función, es decir que cada observación de la variable aleatoria X en vez de tratarse como un vector deRd _{se considerará como función en alg´}_un

espa-cio de funespa-ciones. Actualmente la posibilidad de obtener y almacenar datos de grandes dimensiones hace que el an´alisis de ´estos sea un tema donde se desarro-llan muchos trabajos, y el enfoque de datos funcionales es una alternativa para su tratamiento.

Por otra parte uno de los problemas que aparece para estos datos sobre tr´afi-co en Internet, tanto si se tr´afi-consideran datos funcionales o datos enRd_{, es que los}

datos son no estacionarios. El estado de la red presenta un comportamiento no estacionario, dependiendo del momento del d´ıa, presentando comportamientos periódicos, donde solamente se puede asumir que las observaciones son esta-cionarias en escalas de tiempo cortas. A modo de ejemplo existen trabajos donde para el corazón de Internet se puede suponer válida la hipótesis de que el tráfico se distribuye como un proceso de Poisson en escalas cortas de tiempo, mien-tras que se observa tráfico no estacionario y con dependencias largas en escalas de tiempo mayores, y finalmente un modelo de Poisson dependiente del tiem-po permite representar las caracter´ısticas de estas diferentes escalas de tiemtiem-po (Karagiannis, Molle, Faloutsos & Broido 2004). El carácter estacionario o no de los datos (tanto si provienen de mediciones activas como de mediciones pasivas) depende de la escala de tiempo como del tipo de magnitud que se esté con-siderando (pérdidas, tráfico por unidad de tiempo) as´ı como también del tipo de red que se esté considerando. Algunos trabajos abordan el análisis de es-tos diferentes casos con el objetivo de determinar la validez de la predicción de caracter´ısticas futuras en base a medidas en determinado momento (Zhang, Paxson & Shenker 2000), (Zhang & Duffield 2001).

En este trabajo se consideran datos funcionales no estacionarios según de-terminado modelo que se describe en el cap´ıtulo 4 para representar el estado de la red y se estudia la regresión no paramétrica para estimar parámetros de calidad de servicio. La extensión de los resultados teóricos presentados en este cap´ıtulo a este modelo es el contenido de dicho cap´ıtulo. Los teoremas que all´ı se prueban se basan en los resultados de regresión no paramétrica para datos fun-cionales que se describieron en este cap´ıtulo y en un teorema central de l´ımite para arreglos triangulares de campos estacionarios enZd_{. Este teorema y varios}

(21)

Teorema central del l´ımite

para arreglos triangulares

En este capitulo se presentan los resultados de distribución asintótica para sumas de variables aleatorias donde la existencia de la distribución l´ımite de-pende de la geometr´ıa de los conjuntos de ´ındices considerados. Estos resulta-dos serán básicos para el cap´ıtulo 4, donde se estudiará una mezcla de variables aleatorias no estacionarias y dependientes. Se considerarán en ese caso las sumas en los conjuntos de nivel de una de las componentes de la mezcla, de modo de obtener as´ı variables estacionarias. La geometr´ıa de los conjuntos de nivel de-terminará la existencia de un teorema central del l´ımite. En lo que sigue se presentan las generalidades de los resultados acerca de la relación entre el teore-ma central del l´ımite y la geometr´ıa de los conjuntos, y luego las caracter´ısticas que debe tener una variable aleatoria para que sus conjuntos de nivel permitan la existencia de una distribución asintótica gaussiana para sumas de variables con ´ındices en dichos conjuntos.

Se considera una variable X = (Xn)n≥1, donde Xn ∈R, y para cada

sub-conjuntoA_⊂N_{se define la suma}

Sn(A, X) =

1

√_n X

i∈An Xi,

dondeAn=A∩[1, n]. Para variables vectoriales, es decir a valores enRm, donde

X= (Xn)n≥1, con

Xn= (Xn1, Xn2, . . . , Xnm),

se considera la suma en m subconjuntos de N_, _A1_{, A}2_{, . . . , A}m_{, disjuntos dos}

a dos, de las variables reales X1_{, X}2_{, . . . , X}m _con _Xk _{= (X}k

n)n≥1 para k =

1,2, . . . , m, donde se considera el vector

Sn(A, X) = Sn(A1, X1), Sn(A2, X2), . . . , Sn(Am, Xm).

Perera (1997) (2002) estudia la distribuci´on asint´otica deSn(A, X) para el caso

(22)

cia de un teorema central del l´ımite depende fuertemente de la geometr´ıa de los conjuntos, donde la varianza para el teorema central del l´ımite se calcula expl´ıcitamente en funci´on de determinados par´ametros que representan esta ge-ometr´ıa. Por otra parte estos resultados son extendidos por Tablar (2007), que presenta el teorema central del l´ımite para arreglos triangulares, es decir cuando se tiene Xn _{= (X}n

k)k∈Zd, un campo en Z

d _{a valores reales para cada} _n _∈ _N_.

En este trabajo se enuncian los resultados para variables aleatorias (es decir considerando un conjunto de ´ındices enN_{), que son los que luego se utilizan en}

el cap´ıtulo 4, y al igual que enZd_{la existencia de un teorema central del l´ımite}

depende fuertemente de la geometr´ıa de los conjuntos. Por otra parte los resulta-dos en los trabajos antes mencionaresulta-dos est´an presentados para campos a valores enR_{, pero tambi´en son v´}_{alidos para campos a valores en}Rm_{. Estos resultados}

se utilizarán en el cap´ıtulo 4, donde será necesaria la formulación para varia-bles a valores en Rm_{. La extensi´}_{on de los resultados de normalidad asintótica}

para variables a valores enRm_{consiste en probar la normalidad asint´otica para}

cualquier combinaci´on lineal del vector aleatorio, de manera que el problema se reduce al caso real (Cramer-Wald). En la secci´on 3.1 se enuncian propiedades de los subconjuntos deN_{que caracterizar´}_{an la existencia de un teorema central}

del l´ımite para Sn(A, X) o Sn(A, Xn) y en la secci´on 3.2 se enuncia el

resul-tado de teorema central del l´ımite para arreglos triangulares para variables a valores reales y su extensi´on para variable a valores enRm_{. Un caso particular}

de conjuntos que será objeto de estudio consiste en considerar los conjuntos de nivel de una variable aleatoriaZ. Determinadas propiedades de la variable determinan las propiedades geométricas de los conjuntos de nivel de modo de garantizar un teorema central del l´ımite para estos conjuntos en particular. En la sección 3.3 se describen estas variables. Esta caracterización permite consi-derar en el cap´ıtulo 4 un modelo de dependencia y no estacionariedad para una mezcla de variables considerando las sumas en los conjuntos de nivel de una de las componente de la mezcla.

3.1. Conjuntos asint´

oticamente medibles

Las siguientes definiciones son introducidas por Perera (1997) (2002), con ejemplos de este tipo de conjuntos, donde se realiza la caracterizaci´on de estos en base a la regularidad de su frontera.

Definici´on 3.1. Un subconjuntoA⊂N_{se denomina conjunto asint´oticamente}

medible enN_{si para todo}_k_∈N_{existe el siguiente l´ımite}

F(k, A) = l´ım

n→∞Fn(k, A) = l´ımn→∞

card{Ac

n∩(An−k)}

n

dondeAc _{es el complemento de}_{A. La funci´}_on_F_{(., A) se llama funci´on frontera}

del subconjuntoA.

(23)

Ejemplo 3.2. Sea el conjuntoAdefinido por A=∪∞

k=0

102k,102k+1∩2N_.

Se tiene que

A=_∪∞k=0Ik∩2N

donde Ik = 102k,102k+1 y se cumple que la distancia entre dos intervalos

consecutivosIk−1 eIk es 102k−1·9. Se consideran las sucesiones 102k, 102k+1y

F102k(1, A),F₁₀2k+1(1, A). Entonces

F102k(1, A)≤

card(A102k) 102k

y comocard(A102k)≤10

2k−1

2 , resulta que

F102k(1, A)≤ 102k−1

2_·102k =

1 20. Por otra parteAc

102k+1∩(A102k+1−1) =∪k_i=0

102i_,₁₀2i+1

∩2N_{+ 1 de donde}

F102k(1, A)≥

card(Ik)

102k+1

dondecard(Ik) =10 2k_·₉

2 y entonces

F102k(1, A)≥

102k_·₉

2_·102k+1 =

9 20.

Entonces las sucesi´onFn(1, A) no tiene l´ımite y el conjuntoAno es

asint´otica-mente medible.

Definici´on 3.3. La familia de subconjuntos de N_, _Ai_:_i_{= 1, . . . , m} _{es una}

familia asint´oticamente medible si para todoi _{∈ {}1, . . . , m_} el subconjuntoAi

es asint´oticamente medible y para todo k _∈ N _{y para todo} _{i, j} _{∈ {}_{1, . . . , m}_}

existe el siguiente l´ımite

F k, Ai, Aj= l´ım

n→∞Fn k, A

i_{, A}j_{= l´ım} n→∞

card{Ai

n∩(Ajn−k)}

n .

Un ejemplo de familia asint´oticamente medible se obtiene considerando los conjuntos de nivel de una variable aleatoria con determinadas propiedades.

Ejemplo 3.4. Se consideran (Zn)n∈N una sucesi´on de variables aleatorias, y

Bj _:_j_{= 1, . . . , m} _{una familia de borelianos, disjuntos dos a dos, y se define}

el conjuntoAj _mediante _Aj₌_{_i_∈_N_:_Z

i∈Bj}. Entonces

l´ım

n→∞Fn k, A

i_{, A}j ₌ _l´ım n→∞

card{Ai

n∩(Ajn−k)}

n = l´ım

n→∞

1 n

n

X

h=1

(24)

donde la última igualdad se cumple porquek es fijo yn_{→ ∞}. Si por ejemplo (Zn)n∈Nes una sucesión i.i.d. por la ley fuerte de los grandes números se tiene que

1 n

n

X

h=1

1{Zh∈Bi}1{Zh+k∈Bj}

c.s

−→E 1{Z0∈Bi_}1_{_Z0_∈_Bj_}

donde

E 1{Z0∈Bi_}1_{_Z0_∈_Bj_}=P Z₀∈BiP Z₀∈Bj.

3.2. Teorema central del l´ımite

En esta secci´on se presenta el teorema central del l´ımite para arreglos trian-gulares para variables centradas y estacionarias a valores enR _{(Tablar 2007).}

Un arreglo triangular es una doble sucesi´on de variables aleatoriasXn k donde

k_{→ ∞}cuandon_{→ ∞}. Se enuncia el teorema para variables a valores reales, se presentan las hip´otesis para el caso a valores enRm_{y se justifica la extensi´on del}

resultado a este caso. La demostraci´on del teorema para variables a valores en

Rm_consistir´_{a en verificar las hip´}_{otesis del caso real para cualquier combinaci´on}

lineal del vector aleatorio enRm_{. Para una variable} _Xn _{= (X}n

k)k∈N centrada estacionaria, a valores enRm_{, para cada}_n_∈N_{, las componentes se denotan por}

Xn = (X1,n, . . . , Xm,n) y para cadak∈N_,

Xkn = (X 1,n k , . . . , X

m,n k ).

Se considera adem´as Xn,J _{= (X}1,n,J_{, . . . , X}m,n,J_{) la variable}_Xn _{truncada por}

J, definida parak_∈N_y_{J >}_{0 como}

X_kn,J=Xkn1_{kXn

kk≤J} −E h

Xkn1_{kXn kk≤J}

i ,

donde_{k · k}es la norma eucl´ıdea enRm_.

3.2.1. Teorema central del l´ımite para variables reales

Aqu´ı se presenta el teorema central del l´ımite para arreglos triangulares, (ver teorema 4.15 (Tablar 2007) para la demostraci´on en el caso de campos enZd_),

enunciado para variables con ´ındices enN_{y a valores en}R_{, y luego la extensi´on}

para variables con ´ındices enN_{y a valores en}Rm_.

Teorema 3.5. Sea Xn _{= (X}n

k)k∈N una variable aleatoria para cada n∈N. Si

se verifican las siguientes hip´otesis:

H 3.6. Para cada n _∈ N_, _Xn _{es una variable centrada , estacionaria, con}

segundo momento finito y tal queP_k_∈N|E{X

n

0Xkn}|<∞.

(25)

1. Existe γ(k)_≥0 tal queP_k_∈Nγ(k)<∞y para todok∈N,n∈Nvale

EnX0n,JX n,J

k o≤γ(k)

2. Existe b(J)tal quel´ımJ→∞b(J) = 0 y para cada B⊂N

Eh Sn(B, Xn)−Sn B, Xn,J 2i

≤ b(J)card(B_n n).

H 3.8. Existe una sucesi´on C(J) < ∞, para todo J > 0, tal que para cada

B⊂N_vale

EhSn B, Xn,J 4i

≤C(J)

_card(B

n)

n 2

.

H 3.9. Existe una funci´on h : R+ _→ R+_{, tal que} _l´ım_x_→₊_∞_{h(x) = 0} _{y una}

funci´ong(J, t)<_∞para todoJ >0fijo, gest´a acotada en la segunda variable, es decirsupt∈Rmg(J, t) =gJ <∞, que verifica

EheiSn(B∪C,ht,Xn,Ji)i

−EheiSn(B,ht,Xn,Ji)i_Eh_eiSn(C,ht,Xn,Ji)i

≤g(J, t)h(d(B, C)),

para todo par de conjuntos disjuntosB, C⊂N_{y para todo}_n_∈N_,_t_∈R_.

H 3.10. Existen sucesiones γJ_(k) _y _γ(k)_, _k

∈ N _{tal que para todo} _{J >}₀ _se

tiene que

l´ım

n→∞E

n X0n,JX

n,J k

o

=γJ(k),

y

l´ım

J→∞γ

J_{(k) =}_γ(k).

Entonces, para cualquier conjuntoA asint´oticamente medible,

Sn(A, Xn)=w⇒N(0, σ2(A)),

donde

σ2(A) =X

k∈N

γ(k)F(k, A).

(26)

la misma distribución asintótica que una suma de variables independientes. El método de bloques consiste en considerar la suma de las variables en bloques separados de modo que la distancia entre bloques tiende a _∞ cuando n _→

∞ pero a su vez es despreciable respecto al tama˜no de cada bloque. De este modo las sumas en cada bloque asint´oticamente se comportan como variables independientes. Luego el resultado final se obtiene aplicando el teorema central del l´ımite para arreglos triangulares en el caso independiente.

3.2.2. Teorema central del l´ımite para variables vectoriales

Teorema 3.11. Sea Xn _{= (X}n

k)k∈N una sucesi´on de variables aleatorias

cen-tradas estacionarias a valores enRm_{. Si se verifican las siguientes hip´}_otesis:

H 3.12. Para todoi, j_{∈ {}1, . . . , m_} yn_∈N_,

X

k∈N

EnX0i,nX j,n k

o <∞.

H 3.13. Existe una sucesi´on γ(k) _≥ 0 tal que P_k_∈Nγ(k) < ∞ y para todo k_∈N_,_n_∈N_,_{i, j}_{∈ {}_{1, . . . , m}_} _y _{J >}₀ _{se tiene}

EnX0i,n,JX j,n,J k

o

≤γ(k).

H 3.14. Existe una sucesi´onb(J)tal que l´ımJ→∞b(J) = 0y para todo B⊂N,

i_{∈ {}1, . . . , m_},n_∈N_y _{J >}₀

Eh Sn B, Xi,n−Sn B, Xi,n,J 2i

≤b(J)card(B_n n).

H 3.15. Existe una sucesi´on C(J) < ∞ para todo J > 0 tal que para todo

B⊂N_,_n_∈N_,_{J >}₀_,_i_{∈ {}_{1, . . . , m}_} _{se tiene que}

EhSn B, Xi,n,J 4i

≤C(J)

_card(B

n)

n 2

.

H 3.16. Existe una funci´on h : R+ _→ R+_{, tal que} _l´ım_x_→₊_∞_{h(x) = 0} _{y una}

funci´ong:R+_×Rm_→R+_{, tal que}_{g(J, t)}_<_∞_{para todo}_{J >}₀_{fijo y se cumple}

supt∈Rmg(J, t) =gJ<∞, tal que

EheiSn(B∪C,ht,Xn,Ji) i

−EheiSn(B,ht,Xn,Ji) i

EheiSn(C,ht,Xn,Ji)i

≤g(J, t)h(d(B, C)),

para todos los B, C _⊂ N _{disjuntos, para todo} _n _∈ N_,_{J >} ₀ _y _t _∈ Rm_{, donde}

h·,_·i es el producto escalar enRm_.

H 3.17. Existen sucesionesγJ_{(i, j, k)}_y_{γ(i, j, k)}_,_{i, j}

∈ {1, . . . , m_},k_∈N_tales

que para todoJ >0 se tiene que

l´ım

n→∞E

n

X0i,n,JX j,n,J k

o

(27)

y

l´ım

J→∞γ

J_{(i, j, k) =}_{γ(i, j, k)}

parai, j_{∈ {}1, . . . , m_} yk_∈N_.

Entonces para cualquier familia asint´oticamente medible {Ai_:_i_{= 1, . . . , m}_}

de subconjuntos deN_{disjuntos dos a dos (}_Ai_∩_Aj ₌_∅_si_i₆₌_j_{), cuando}_n_tiende

a_∞se cumple que:

(Sn(A1, X1,n), . . . , Sn(Am, Xm,n))=w⇒Nm(0,Σ),

donde

Σ(i, j) =γ(i, j,0)F(i, j,0) +X

k≥1

{γ(i, j, k)F(i, j, k) +γ(j, i, k)F(j, i, k)} (3.1)

para todoi, j_{∈ {}1, . . . , m_} y

F(i, j, k) = l´ım

n→∞

card_{Ai

n∩(Ajn−k)}

n .

Demostraci´on. El resultado se obtiene a partir del teorema 3.5. Para probar que el campo vectorial

Sn= (Sn(A1, X1,n), . . . , Sn(Am, Xm,n)) w

=_⇒Nm(0,Σ)

basta probar que _hλ, Sni w

=_⇒ N(0, λt_{Σλ) con} _λt _{= (λ}

1, . . . , λm) ( (Billingsley

1995), p´ag. 335).

hSn, λi =

m

X

k=1

λkSn(Ak, Xk,n)

=

m

X

k=1

1

√_nλk

X

k∈Ak n

X_ik,n

= √1_n

n−1

X

i=0 m

X

k=1

λkXik,n1{i∈Ak n}

= √1_n

n−1

X

i=0

˘ Xin

= Sn({0, . . . , n−1},X)˘

donde el proceso ˘Xn₌

{X˘n

i :i∈N}se define por ˘Xin=λkXik,nsii∈Akn. Para

demostrar el teorema basta observar que el proceso a valores reales ˘Xn _verifica

todas las hip´otesis del teorema 3.5. Para obtener la matriz de covarianzas Σ basta calcular Σ(i, j), donde

Σ(i, j) = l´ım

n→∞E

Sn(Ai, Xi,n)Sn(Aj, Xj,n)

(28)

Se tiene que

E Sn(Ai, Xi,nSn(Aj, Xj,n=

1 n

X

h∈Ai n,l∈A

j n

EXi hX

j l

Adem´asEXi hX

j l

=γ(i, j, l−h) si l−h≥0 yEXi hX

j l

=γ(j, i, h−l) si l−h <0, de donde ESn(Ai, Xi,n)Sn(Aj, Xj,n)est´a compuesta por la suma

de tres t´erminos

1 n

X

h∈Ai n∩A

j n

γ(i, j,0),

1 n

X

h∈Ai n

X

l∈Aj n

X

l−h>0

γ(i, j, l₋h),

1 n

X

h∈Ai n

X

l∈Aj n

X

l−h<0

γ(j, i, h₋l).

Entonces calculando los l´ımites respectivos se tiene que

l´ım

n→∞

1 n

X

h∈Ai n∩A

j n

γ(i, j,0) = l´ım

n→∞γ(i, j,0)

card(Ai n∩Ajn)

n =γ(i, j,0)F(i, j,0),

l´ım

n→∞

1 n

X

h∈Ai n

X

l∈Aj n

X

l−h>0

γ(i, j, l₋h) = l´ım

n→∞

X

k≥1

γ(i, j, k)card{A

i

n∩(Ajn−k)}

n

=X

k≥1

γ(i, j, k)F(i, j, k),

l´ım

n→∞

1 n

X

h∈Ai n

X

l∈Ajn X

l−h>0

γ(i, j, l−h) = l´ım

n→∞

X

k≥1

γ(j, i, k)card{A

j

n∩(Ain−k)}

n

=X

k≥1

γ(j, i, k)F(j, i, k),

de donde se obtiene Σ(i, j) determinada por la ecuaci´on (3.1).

3.3. Variables asint´

oticamente medibles

(29)

Definici´on 3.18. La variable Z = (Zn)n∈N a valores reales es una variable asint´oticamente medible enN_{si existe una medida de probabilidad aleatoria}_R₀

en_B, donde_Bes laσ-´algebra de Borel enR_{, tal que}

1 n

n

X

m=1

1{Zm∈B}

c.s.

−→R0(B)

y para todoi∈N_{− {}₀_}_{existe una medida aleatoria} _R_k _en_B₂_{, donde} _B₂ _{es la}

σ-´algebra de Borel enR2_{, tal que para todo}_{B, C} _{∈ B}

1 n

n

X

m=1

1{Zm∈B}1{Zm−k∈C}

c.s.

−→Rk(B×C)

Si la medida l´ımite no es aleatoria se dice queZ es un campo regular en N_.

En la siguiente proposici´on se calcula la funci´on frontera para los conjuntos de nivel de una variableZ, siendo el ejemplo 3.4 un caso particular de esto.

Proposici´on 3.19.Se consideran(Zn)n∈Nuna sucesi´on de variables aleatorias,

yBj _:_j_{= 1, . . . , m} _{una familia de borelianos, disjuntos dos a dos, y se define}

el conjunto Aj _mediante _Aj ₌

{i _∈N_: _Z_i _∈_Bj_} _{para cada} _j _{= 1, . . . , m}_.

En-tonces condicionado aZla familia_{Aj _:_j_{= 1, . . . , m}

}es una familia asint´ otica-mente medible con

F(k, Ai, Aj) =Rk(Bi×Bj),

F(0, Ai, Aj) =R0(Bi)1{i=j}.

Si adem´asZes regularF(k, Ai, Aj)yF(0, Ai, Aj)no dependen deZy la familia {Aj _:_j_{= 1, . . . , m}

} es una familia asint´oticamente medible. Demostraci´on. Se tiene que

Fn(k, Ai, Aj) =card(A i

n∩(Ajn−k)

n ,

de dondel_∈Ai

n∩(Ajn−k) siZl∈BiyZl+k ∈Bj, de modo que asint´oticamente,

comokes fijoFn(k, Ai, Aj) se comporta como _n1Pn_h=0−11{Zh∈Bi}1{Zh+k∈Bj}, de donde, condicionando aZ, que es asint´oticamente medible, resulta

F(k, Ai, Aj) =Rk(Bi×Bj).

Del mismo modo

Fn(0, Ai, Aj) =

card(Ai n∩Ajn)

n yl _∈Ai

n∩Ajn si Zl ∈Bi, Zl ∈Bj, entonces Fn(0, Ai, Aj) = 0 sii 6=j y para

i=j tomando l´ımite condicionado aZ se obtiene F(0, Ai_{, A}j_{) =}_R

0(Bi).

CuandoZ es regular las medidas Rk y R0 no dependen de Z y se obtiene el

(30)

Consistencia y distribuci´

on

asint´

otica del estimador

En este cap´ıtulo se estudia la consistencia y la distribución asintótica del estimador de la función de regresiónφen el modelo

Y =φ(X) +ε,

dondeX _{∈ D}, un espacio vectorial de funciones con una seminorma _{k · k},φ es una funci´onφ:_{D →}R_, _Y _∈R_{, y la variable} _ε_{es centrada e independiente de}

X.

Se quiere estudiar la consistencia y distribuci´on asint´otica estacionaria del estimador obtenido en base a las observaciones_{(Xi, Yi) :i= 1, . . . , n}, definido

por

φn(x) =

Pn i=1YiK

||x−Xi||

hn

Pn i=1K

||x−Xi||

hn .

El objetivo es generalizar los resultados sobre consistencia del estimador de-mostrados por Ferraty et al. (2002) y sobre distribución asintótica dede-mostrados por Masry (2005) para un modelo en el queXes una mezcla no estacionaria y de-pendiente de procesos estacionarios débilmente dede-pendientes. Más precisamente se asume que existen dos procesos ξ = (ξn)n≥1, Z = (Zn)n≥1 independientes

entre s´ı, tales queξ es estacionario con valores en _F, siendo _F un espacio de funciones yZ toma valores en un subconjunto_{z1, . . . , zm} deRy una funci´on

ϕ:_{F ×}R_{→ D}_{tal que} _X _{cumple que para cada}_n_≥₁

Xn=ϕ(ξn, Zn).

Se asumen condiciones generales de dependencia que se obtienen de condi-ciones de dependencia d´ebil del procesoξ, por ejemplo hip´otesis de mixing, pero el procesoZ puede ser no estacionario y dependiente. La consistencia del esti-mador se obtiene mediante argumentos similares a los de Ferraty et al.(2002),

(31)

condicionando a la variableZ y luego hipótesis generales para esta variable per-miten obtener el resultado sin condicionar. Para obtener la normalidad asintótica también se considerará el estimador condicionado a los valores de la variable Z. Este modelo permite considerar observaciones no estacionarias e incluso no débilmente dependientes. Perera (2002) introduce el modelo para aplicaciones a problemas con datos estacionales. Se tienen diferentes tipos de variables para cada k = {1,2, . . . , m}. En la aplicación a telecomunicaciones estos tipos de variables pretenden modelar las variaciones a lo largo del tiempo de los estados de una red, donde se puede asumir que por ejemplo hay determinadas horas del d´ıa donde el tráfico que atraviesa un enlace es mucho mayor que en otras horas, pero que dentro de ciertas escalas de tiempo este mismo tráfico es estacionario. Para cada uno de los valores deZ se tiene una variable estacionaria, de modo que el objetivo será aplicar los resultados de teorema central del l´ımite para a-rreglos triangulares del cap´ıtulo 3 para un vector que tiene en sus componentes a los valores del estimador condicionados a cada valor deZ. Por otra parte para resolver el problema de dimensión infinita al trabajar con variables funcionales se utilizan las mismas técnicas que Masry (2005). Para cada valor del conjunto

{z1, . . . , zm} se asumen hip´otesis sobre la concentraci´on de la variable ϕ(ξ, zk),

alrededor de x, donde a grandes rasgos se asume que existen funciones no ne-gativasψk definidas enR+, conψk(0) = 0, continuas en un entorno de 0, yck

tambi´en no negativa definida enDtales que para todoh >0, cuandoh→0 P(_kϕ(ξ, zk)−xk ≤h) =c(x)ψk(h).

Las funcionesψk determinar´an la normalizaci´on del estimador, dependiendo de

las caracter´ısticas de cada componente de la mezcla. El estimadorφn se puede escribir como

φn(x) =

gn(x)

fn(x),

donde

gn(x) =

1 nψ(hn)

n

X

i=1

YiKn(Xi),

fn(x) =

1 nψ(hn)

n

X

i=1

Kn(Xi)

con

Kn(u) =K

ku₋x_k

hn

,

para todou∈ Dy dondeψ(hn) es la normalización, y está definida más adelante,

pero se obtiene a partir de las funciones ψk que determinan la concentraci´on

de cada componente de la mezcla, es decir la concentraci´on de cada variable ϕ(ξ, zk), con k= 1, . . . , m.

En el teorema 4.9 se prueba la consistencia del estimador y en el teorema 4.17 se obtiene la normalidad asint´otica de

φn(x)−

E(gn(x))

(32)

En lo que sigue se presentan los resultados de consistencia en la sección 4.1 y de normalidad asintótica en la sección 4.2.

4.1. Consistencia

En esta secci´on se demuestra a la convergencia casi segura del estimador. Para esto se calcula primero el l´ımite deE(fn(x)) y deE(gn(x)), siguiendo las

ideas de Ferraty et al.(2002), condicionando a los valores de la variableZ. Luego de la demostraci´on se presentan algunos comentarios sobre las hip´otesis.

Proposici´on 4.1. SeaX = (Xn)n≥1 y el modeloY =φ(X) +ε,conεcentrada

e independiente deX tal que se cumplen las siguientes hip´otesis.

H 4.2. Existen dos procesosξ= (ξn)n∈N,Z= (Z_n)_n_∈N, independientes entre s´ı,

tales queξes estacionario con valores en _D,Z toma valores en un subconjunto {z1, . . . , zm} de Ry existe una funci´on ϕ:D ×R→ Dtal que

Xn=ϕ(ξn, Zn).

H 4.3. Existen funciones positivasψ, ψ1, . . . , ψmdefinidas enR+×D, funciones

c1, . . . , ck definidas en D y un subconjunto∆ de {1, . . . , m} tal que para todo

h >0

P[kϕ(ξ1, zk)−xk ≤h] =ck(x)ψk(h, x),

donde l´ımh→0

ψk(h, x)

ψ(h, x) = 1 si k ∈∆, y l´ımh→0

ψk(h, x)

ψ(h, x) = 0 si k ∈∆

c_{. Para}

simplificar notaci´on se omite la dependencia dexescribiendo ψ(hn)en vez de

ψ(hn, x).

H 4.4. Las funcionesu_7→ψk(u, x)son derivables enR+, con derivada ψ′k(u, x)

y cumplen

l´ım

h→0

h ψk(h, x)

Z 1

0

K(u)ψ′k(uh, x)du=dk(x),

donde las funcionesdk est´an definidas en D.

H 4.5. Parak_{∈ {}1, . . . , m_} existe el siguiente l´ımite

l´ım

n→∞

1 n

n

X

i=1

P(Zi=zk)

y se denotapk.

H 4.6. La funci´onφ es continua.

H 4.7. La funci´onK es positiva con soporte en[0,1].

H 4.8. La ventana hn cumple quel´ımn→∞hn= 0y que l´ımn→∞nψ(hn) = 0.

(33)

1. el estimador fn(x)cumple que

l´ım

n→∞E(fn(x)) =f(x),

donde f(x)>0 y la funci´on f est´a definida para todou_{∈ D}por

f(u) =X

k∈∆

pkdk(u)ck(u),

2. el estimador gn(x)cumple que

l´ım

n→∞E(gn(x)) =φ(x)f(x).

Demostraci´on.

E(fn(x)) = 1

nψ(hn) n

X

i=1

E(Kn(Xi))

ComoξyZ son independientes se cumple

E(Kn(Xi)) =E{E(Kn(Xi)|Zi)}= m

X

k=1

E{Kn(ϕ(ξi, zk))}P(Zi=zk)

Como para cadak(ϕ(ξi, zk))i≥1 es una sucesi´on estacionaria se tiene que

E(fn(x)) = m

X

k=1

1

ψ(hn)E(Kn(ϕ(ξ1, zk)))

1 n

n

X

i=1

P(Zi=zk)

! .

La hip´otesis H 4.3 implica que la densidad de kϕ(ξ1, zk)−xk es la funci´on

u7→ck(x)ψ′k(u, x) y entonces

E[Kn(ϕ(ξ1, zk))] =hnck(x)

Z 1

0

K(u)ψk′(uhn, x)du

Luego usando las hip´otesis H 4.3, H 4.4, H 4.8 se tiene que

l´ım

n→∞

1 ψ(hn)

E[Kn(ϕ(ξ1, zk))] =dk(x)ck(x)1{k∈∆},

y usando la hip´otesis H 4.5

l´ım

n→∞E(fn(x)) = l´ımn→∞

m

X

k=1

1 ψ(hn)

E(Kn(ϕ(ξ1, zk)))

1 n

n

X

i=1

P(Zi=zk)

!

=X

k∈∆

pkdk(x)ck(x)

An´alogamente se tiene que

E(gn(x)) = m

X

k=1

1 ψ(hn)

E(φ(ϕ(ξ1, zk))Kn(ϕ(ξ1, zk)))

1 n

n

X

i=1

P(Zi=zk)