Modelos no paramétricos de ajuste de curvas aplicados al ámbito forestal

(1)

UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE

INGENIEROS DE MONTES

TESIS DOCTORAL

Esperanza Ayuga Téllez Ingeniero de Montes

(2)

UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE

INGENIEROS DE MONTES

Modelos no paramétricos de ajuste de curvas aplicados al ámbito forestal

Trabajo que se presenta en la Escuela Técnica Superior de Ingenieros de Montes para la obtención del grado de Doctor.

Autor: Esperanza Ayuga Téllez Ingeniero de Montes

Director: D. J. Eugenio Martinez Falero

(3)

ÍNDICE

AGRADECIMIENTOS RESUMEN

SUMMARY

INTRODUCCIÓN

0.1 - OBJETIVOS.

0.2 - MÉTODO DE TRABAJO.

0.3 - ESTRUCTURACIÓN DEL TRABAJO.

CAPITULO 1: MÉTODOS DE ESTIMACIÓN NO PARAHETRICA

1.0 - INTRODUCCIÓN.

1.1 - PROPIEDADES DE LOS ESTIMADORES NO PARAMETRICOS.

1.1. Sesgo. 1.2. Consistencia.

1.3. Los estimadores como funciones de densidad.

1.2 - ESTIMACIÓN MEDIANTE EL HISTOGRAMA DE FRECUENCIAS.

2.1. Propiedades estadísticas. 2.2. Elección del ancho de caja. 2.3. Estimadores relacionados.

1.3 - EL ESTIMADOR NÚCLEO.

3.1. Propiedades estadísticas. 3.2. Elección del núcleo.

3.3. Elección del parámetro de alisado. 3.4. Estimadores relacionados.

1.4 - ESTIMACIONES BASADAS EN PROCESOS DE ALISADO LOCAL.

4.1. El histograma de particiones variables.

4.2. Estimadores basados en bloques estadísticamente equi 4.3. El método de los puntos más próximos.

4.4. Estimadores de núcleo variable. 4.5. Estimadores de núcleo adaptado.

1.5 - ESTIMADORES CON SERIES ORTOGONALES.

5.1. Desarrollo ortogonal arbitrario. 5.2. Propiedades estadísticas. 5.3. Elección del número de términos.

1.6 - ESTIMADORES DE DENSIDAD DE SECUENCIA DELTA. 1.7 - ESTIMADORES DE MÁXIMA VEROSIMILITUD RESTRINGIDA.

(4)

7.3. El método de máxima verosimilitud penalizada. 37

1.8 - ESTIMACIÓN DE DENSIDAD POR BÚSQUEDA DE PROYECCIÓN. 39

8.1. El paradigma EDBP. 40 8.2. índices de proyección. 41 CAPITULO 2:ESTIMACIÓN DE LA DENSIDAD BASADA EN FUNCIONES NÚCLEO

2.0 - INTRODUCCIÓN. 46 2.1 - TIPOS DE FUNCIONES NÚCLEO. 47

2.3 - MÉTODOS DE DETERMINACIÓN DEL ANCHO DE VENTANA. 54

3.1. Método de Scott, Tapia y Thompson, 1977. 54

3.2. Método de validación cruzada. 56

2.4 - ELECCIÓN DE LA FUNCIÓN NÚCLEO Y DEL ANCHO DE BANDA MAS APROPIADOS

EN FUNCIÓN DE LAS CARACTERÍSTICAS MUÉSTRALES PARA MUESTRAS PEQUEÑAS. 60

4.1. Funciones núcleo y anchos de banda empleados. 61 4.2. Selección del conjunto de problemas para comparación 62 4.3. Comparación de los núcleos y anchos de ventana 67

4.4 Resultados 96

2.5.- ELECCIÓN DE LA FUNCIÓN NÚCLEO Y DEL ANCHO DE BANDA MAS APROPIADOS

EN FUNCIÓN DE LAS CARACTERÍSTICAS MUÉSTRALES PARA MUESTRAS GRANDES. 98

5.1. Selección del conjunto de problemas para comparar. 100

5.2. Comparación de núcleos y anchos de banda 102

5.3. Resultados. 112 CAPITULO 3:APLICACI0NES A EJEMPLOS FORESTALES DE LOS RESULTADOS ANTERIORES

3.0 - INTRODUCCIÓN. 113 3.1 - TENSIÓN DE ROTURA A CORTANTE EN LINEAS DE ENCOLADO. 115

1.1. Estimación de la función de densidad. 117

1.2. Estimación de los cuantiles. 125

3.2 - PLUVIOMETRÍA Y CRECIMIENTO DE MASAS FORESTALES. 128

2.1. Estimación de cuantiles en la pluviometría. 130 2.2. Estimación de las funciones de densidad del crecimiento. 136

CAPITULO 4:REGRESI0N NO PARAMETRICA

4.0 - INTRODUCCIÓN. 151 4.1 - ESTIMACIÓN DE LA REGRESIÓN POR QUEBRADAS ALISADAS. 154

4.2 - ESTIMACIÓN DE LA REGRESIÓN POR FUNCIONES NÚCLEO. 156

2.1. Estimadores del tipo de Priestley y Chao. 158 2.2. Estimadores del tipo de Nadaraya y Wat son. 160 2.3. Estimación por los puntos más próximos. 162

4.3 - ESTIMACIÓN DE LA REGRESIÓN CON SERIES ORTOGONALES. 164

(5)

4.5 - ESTIMACIÓN DE LA REGRESIÓN POR PARTICIÓN RECURSIVA. 167 4.6 - ESTIMACIÓN DE LA REGRESIÓN POR PROYECCIONES SUCESIVAS. 168 4.7 - UNIFICACIÓN DEL PROCEDIMIENTO DE ESTIMACIÓN DE

LA REGRESIÓN NO PARAMETRICA. 170

CAPITULO 5:ESTIMACION DE LA REGRESIÓN BASADA EN FUNCIONES NÚCLEO

5.0 - INTRODUCCIÓN. 173 5.1 - ESTIMADORES NÚCLEO DE LA LINEA DE REGRESIÓN. 174

1.1. Estimador del tipo de Nadaraya y Watson. 174 1.2. Estimadores del tipo de Priestley y Chao. 177

5.2 - FUNCIONES NÚCLEO. 180 5.3 -MÉTODOS DE DETERMINACIÓN DEL ANCHO DE VENTANA. 181

3.1. Ninimización del ECH(h). 182 3.2. Ninimización del ECHI(h). 184

5.4 -ESTIMACIÓN NÚCLEO DE LA REGRESIÓN. 187

CAPITULO 6:APLICACIONES A EJEMPLOS FORESTALES DE LA ESTIHACION NÚCLEO DE LA CURVA DE REGRESIÓN

6.0 - INTRODUCCIÓN. 212 6.1 - ESTUDIO DE LAS RELACIONES ENTRE LA CANTIDAD DE BIOMASA Y

CIERTAS VARIABLES DENDROMETRICAS. 215

1.1. Relaciones del PFRF con el diámetro y la altura del árbol. 217 1.2. Relaciones del PST con el diámetro y la altura del árbol. 219 1.3. Relaciones del PFT con el diámetro y la altura del árbol. 223

1.4. Conclusiones. 226

6.2 - ESTUDIO DE LAS RELACIONES ENTRE LA EDAD DE POLLOS DE PERDIZ

Y ALGUNAS VARIABLES QUE MIDEN EL CRECIMIENTO. 227

2.1. Relación entre el peso y la edad. 229 2.2. Relación entre la longitud total y la edad.

2.3. Relación entre la longitud de la cola y la edad. 231 2.4. Relación entre la longitud del ala y la edad. 231 2.5. Relación entre la longitud del tarso y la edad. 234 2.6. Relación entre la longitud desde el culmen y la edad. 234 2.7. Relación entre la longitud desde la narina y la edad. 237

2.8. Relación entre la anchura del pico y la edad. 239

2.9. Conclusiones. 242 CAPITULO 7:ESTIMACI0N POR EL MÉTODO NÚCLEO DE LA

FUNCIÓN DE DENSIDAD MULTIVARIABLE. APLICACIONES.

7.0 - INTRODUCCIÓN. 244 7.1 - ESTIMADOR NÚCLEO DE LA FUNCIÓN DE DENSIDAD MULTIVARIABLE. 245

(6)

7.2 - ESTIMACIÓN DE LA FUNCIÓN DE DENSIDAD BIVARIANTE. 251

7.3 - ANÁLISIS DISCRIMINANTE NO PARAMETRICO. 266

7.4 - FUNCIÓN DE DENSIDAD ESPECTRAL. 268

7.5 - CONCLUSIONES. 275

CAPITULO 8:CONCLUSIONES

8.1 - REGLAS DE DECISIÓN. 279

1.1. Estimación de funciones de densidad. 279

1.2. Estimación de la regresión. 281 1.3. Estimación de funciones de densidad bivariantes. 281

8.2 - APLICACIONES AL ÁMBITO FORESTAL. 282

2.1. Resistencia a cortante de la madera laminada encolada. 282

2.2. Pluviometría y altura de eucaliptos en Huelva. 282

2.3. Producción de biomasa del rebollo. 283 2.4. Crecimiento de pollos de perdiz de granja. 284

REFERENCIAS 285 APÉNDICE

VALORES MUÉSTRALES

Valores de las 200 realizaciones muéstrales de tamaño n=25 303 Valores de las realizaciones muéstrales de tamaño n=100 308

Valores de la tensión de rotura a cortante 329 Valores de las precipitaciones anuales 331 Valores de alturas medias de eucaliptos 333 Valores de peso de la biomasa de rebollo 337 Valores del crecimiento de la perdiz 340 Valores de las realizaciones muéstrales bivariantes 347

PROGRAMAS

Programa para estimar funciones de densidad y distribución unidimensionales 357

Programa para estimar la curva de regresión con un modelo fijo 365 Programa para estimar la curva de regresión con un modelo aleatorio 372

(7)

AGRADECIMIENTOS

(8)

INTRODUCCIÓN

0.1 - OBJETIVOS.

En muchos campos, entre ellos el de la gestión forestal, es frecuente encontrar trabajos donde se analiza estadísticamente información que viola las hipótesis básicas de partida empleadas por los métodos convencionales. Por ello, se ha hecho necesario buscar soluciones que permitan el análisis estadístico de tales situaciones.

En este sentido, el desarrollo de técnicas de estimación no paramétrica se ha visto favorecido gracias al auge y perfeccionamiento de los ordenadores, que ha hecho operativos algunos de los procedimientos planteados con anterioridad. La aparición de los primeros trabajos que hacen referencia a estos estimadores data de los años 30-50. No obstante, hasta los años 80, no se inicia su aplicación en la práctica. En los últimos años abundan las publicaciones sobre estudios de los aspectos teóricos de los estimadores no paramétricos y aparecen algunos

(9)

trabajos con aplicaciones prácticas, tanto en revistas de ámbito internacional, como en textos, que cada vez son más numerosos.

El hecho de que estas técnicas sean objeto de tanta atención no puede ser fruto de una única circustancia. Aparte su novedad y aplicabilidad, presentan unas buenas propiedades teóricas y aportan resultados válidos de indudable interés. Es por esto que creemos necesaria una revisión de dichas técnicas estadísticas y un estudio más completo de sus posibles aplicaciones, centrándonos en las más utilizadas en la gestión forestal.

Como primer objetivo, se plantea la formulación de unas reglas de decisión básicas para la aplicación de los estimadores no paramétricos, estas reglas de decisión suponen un primer paso en la construcción de una interfase usuario-métodos estadísticos para la aplicación consistente de los modelos no paramétricos por usuarios no expertos. Para alcanzar este objetivo se analizan los métodos de estimación de funciones de densidad univariantes y multivariantes, así como, los estimadores de la regresión, y se definen, en algunos casos acudiendo a la simulación, los modelos a aplicar en diferentes situaciones.

Un segundo objetivo, complementario del anterior, consiste en la validación de los resultados obtenidos mediante la aplicación de las reglas de decisión a trabajos relacionados con diferentes aspectos de la gestión de las explotaciones e industrias forestales y la comparación de los resultados con los obtenidos al aplicar métodos paramétricos usuales. Para alcanzar este segundo objetivo se han escogido algunos aspectos que están siendo en la actualidad objeto de investigación mediante la aplicación de otras técnicas, para los cuales, el presente

(10)

trabajo aporta conclusiones complementarias y, en ocasiones, sustancialmente diferentes de las obtenidas con otras metodologías.

0.2- MÉTODO DE TRABAJO.

Una vez planteados los objetivos del trabajo, es necesario establecer un método para su realización que, en líneas generales, responde al siguiente plan de trabajo:

En primer lugar se describen los estimadores no paramétricos que pueden emplearse en cada caso, ocupándonos principalmente de sus propiedades matemáticas. Una vez conocidos los posibles estimadores, se escoge el que creemos más adecuado para emplearlo en los trabajos de aplicación relacionados con las explotaciones e industrias forestales. El método general de estimación seleccionado es el método núcleo.

En segundo lugar se procede a analizar los estimadores núcleo: De qué dependen; si existen diferentes tipos de estimadores núcleo; y, lo más importante, determinar, si es posible, en función del problema que se plantea y los datos muéstrales, los diferentes pasos a seguir, seleccionando los elementos más apropiados que se pueden emplear con este método, de tal manera que las estimaciones sean sencillas y eficaces.

En tercer lugar se emplea la metodología propuesta para resolver algunos problemas prácticos de interés para el sector

(11)

forestal. Estos problemas ilustran el método de trabajo descrito y permiten además, extraer conclusiones acerca del problema estudiado.

Estas tres etapas se concretan en la determinación de los estimadores no paramétricos de la función de densidad univariable, estimadores de la regresión, y estimadores de la función de densidad multivariable. La justificación de la importancia de estos tres tipos de modelos aplicados a la gestión forestal es inmediata.

En muchos casos se requiere inicialmente, la estimación de funciones de densidad de las variables objeto de estudio. Por ejemplo, en los ensayos de control de calidad de fabricación de los numerosos productos obtenidos por transformación de la materia prima que se obtiene en las masas arboladas, donde los límites de tolerancia se obtienen a través de las funciones de densidad de la variable. También son muy empleadas en los estudios del medio físico variables multidimensionales, de las que una estimación de la función de densidad es imprescindible en muchas circustancias.

Cuando los estudios que se realizan incluyen más de una variable, generalmente se buscan las relaciones que ligan dos o más variables. Su importancia es capital para los estudios del medio forestal. Por ejemplo, en los trabajos de explotación de las masas arboladas se requiere, con frecuencia, estimaciones de las existencias del monte, ya que resulta difícil determinarlas directamente, siendo preciso relacionarlas con variables que sean más fácilmente medibles.

(12)

0.3- ESTRUCTURACIÓN DEL TRABAJO.

Los métodos de estimación no paramétrica de funciones de densidad se describen en el primer capítulo. En él se revisan los trabajos existentes sobre descripción de métodos y estudio de las propiedades y características de estos estimadores.

En el segundo capítulo, se estudian a fondo los estimadores núcleo, los cuales, por medio de una función denominada "núcleo" y de una constante, llamada "ancho de banda", estiman la función de densidad. Se emplean distintos procedimientos para seleccionar entre algunas de las funciones núcleo más conocidas, y entre los diferentes métodos de cálculo de los anchos de banda, aquellos que mejor se adaptan a las características muéstrales de los datos.

Los resultados obtenidos se utilizan en algunas aplicaciones prácticas, presentadas en el siguiente capítulo. Se estimarán de esta forma las funciones de densidad de la pluviometría anual, altura media de eucaliptos y tensiones de rotura a cortante de la madera laminada encolada. También se calculan por los métodos desarrollados en el capítulo anterior, los valores que podrían considerarse como límites de la pluviometría y el valor que podría servir para determinar las piezas con encolado defectuoso en los controles de calidad de fabricación de la madera laminada encolada.

En el capítulo cuarto. se revisan los métodos no paramétricos de estimación de la regresión, tanto para modelos de diseño fijo, como modelos de diseño aleatorio. La descripción de los distintos estimadores y también de sus propiedades y

(13)

características más sobresalientes, se consideran al efectuar una elección del método que se empleará en el desarrollo del capítulo quinto.

Los estimadores de la línea de regresión que se analizan en dicho capítulo son los diferentes tipos de estimadores núcleo, que al igual que en el caso de la estima de la densidad, emplean funciones núcleo y anchos de banda que influyen en la bondad del ajuste. Se señalan los pasos a seguir en la selección del tipo de estimador, de la función núcleo y del ancho de banda, y también se expone un nuevo método que elimina la tendencia, de la línea de regresión estimada, a disminuir bruscamente en los extremos del intervalo de estimación.

La metodología definida anteriormente permite una aplicación sistemática a los problemas generales de regresión con dos variables y que, en el capítulo seis, se emplea para relacionar variables que sirven para medir el crecimiento de pollos de perdiz, con su edad en días; también se relacionan algunas variables que miden la cantidad de biomasa producida por una masa arbolada de rebollo con el diámetro normal y la altura del árbol.

En el capítulo siete. se considera brevemente, la metodología para estimar funciones de densidad bivariantes, junto con algunas aplicaciones de ésta a otras técnicas estadísticas, la estimación de la función espectral y el análisis discriminante.

En el capítulo ocho, se recogen las conclusiones del presente trabajo, tanto en el plano teórico, como en el aplicado y se esbozan las líneas de trabajo que pueden seguirse para completar este estudio.

(14)

Por último, se recogen en un apéndice, los datos de las muestras empleadas en las diferentes aplicaciones de los estimadores núcleo y los programas fundamentales de ordenador, en lenguaje BASIC, que se emplearon para desarrollar este trabajo. Dos de ellos para calcular y representar la estimación de las funciones de densidad univariantes y bivariantes y otros dos, para representar gráficamente la linea de regresión, con un modelo fijo y un modelo aleatorio.

(15)

CAPITULO 1: MÉTODOS DE ESTIMACIÓN NO PARAMETRICA

1.0 - INTRODUCCIÓN.

1.1 - PROPIEDADES DE LOS ESTIMADORES NO PARAMETRICOS. 1.1. Sesgo.

1.2. Consistencia.

1.3. Los estimadores como funciones de densidad. 1.2- ESTIMACIÓN MEDIANTE EL HISTOGRAMA DE FRECUENCIAS.

2.1. Propiedades estadísticas. 2.2. Elección del ancho de caja. 2.3. Estimadores relacionados. 1.3 - EL ESTIMADOR NÚCLEO.

3.1. Propiedades estadísticas. 3.2. Elección del núcleo.

(16)

4.1. El histograma de particiones variables. 4.2. Estimadores basados en bloques

estadísticamente equivalentes.

4.3. El método de los puntos más próximos. 4.4. Estimadores de núcleo variable.

4.5. Estimadores de núcleo adaptado. 1.5 - ESTIMADORES CON SERIES ORTOGONALES. 5.1. Desarrollo ortogonal arbitrario. 5.2. Propiedades estadísticas.

5.3. Elección del número de términos.

1.6 - ESTIMADORES DE DENSIDAD DE SECUENCIA DELTA. 1.7 - ESTIMADORES DE MÁXIMA VEROSIMILITUD RESTRINGIDA.

7.1. Métodos de orden restringido. 7.2. Método de cribas.

7.3. El método de máxima verosimilitud penalizada. 1.8 - ESTIMACIÓN DE DENSIDAD POR BÚSQUEDA DE

PROYECCIÓN.

(17)

CAPITULO 1

MÉTODOS DE ESTIMACIÓN NO PARAMETRICA

En los últimos años, la frecuente aplicación del análisis estadístico a todo tipo de problemas ha originado la búsqueda de soluciones no habituales que se adapten a los requerimientos y circunstancias actuales. El campo no paramétrico es uno de los más populares y se está empleando como una nueva herramienta de análisis estadístico. Esta herramienta ofrece una alternativa más o menos sofisticada a los modelos paramétricos tradicionales en la exploración de datos univariantes o multivariantes sin presuponer ninguna distribución específica. La estimación no paramétrica de la densidad, ha llegado ha ser un importante objeto de investigación estadística. Aunque los primeros intentos de estimación no paramétrica de la densidad comenzaron en la década de los treinta, la preocupación por desarrollar este tema no surge hasta los años ochenta, siendo numerosas las publicaciones de trabajos realizados sobre los aspectos teóricos de este tipo de estimación.

(18)

Si X,, X2, ..., Xn es una muestra aleatoria d dimensional de

una función de probabilidad continua f, donde

f(x)*0, íRd f(x)dx=l, (0.1)

el problema que plantea la inferencia es la estimación de f sin emplear una estructura formal paramétrica, para lo cual se considera f como perteneciente a una clase muy general y extensa de densidades que no pueden ser representadas por un número finito de parámetros. A las densidades así estimadas y a sus derivadas se les suele imponer ciertas condiciones de alisado.

El primer estimador no paramétrico de una densidad univariante f propuesto por Glivenko (1934) es el histograma. Posteriores trabajos considerando diversas modificaciones de este estimador abren nuevos caminos -inicialmente con el estimador núcleo, las series ortogonales y el método de los puntos más próximos- donde se fundamentan las aplicaciones de discriminación no paramétrica y sirven de base en el desarrollo de las estimaciones de densidad espectral para series de tiempo estacionarias. Más adelante y con otros objetivos distintos se emplearán métodos como la verosimilitud penalizada, alisado polinomial, núcleo variable, de cribas y por búsqueda de proyección (P.P.D.E.). La popularidad creciente de los estimadores de densidad no paramétricos se debe a la utilización de los ordenadores en la investigación estadística, tanto por su capacidad de proceso, como por las ventajas de las representaciones con gráficos de alta calidad.

Las estimas no paramétricas de densidad han demostrado su efectividad en los siguientes casos: a) En los análisis exploratorios para determinar las características descriptivas

(19)

de la estima de la densidad especialmente en lo que se refiere a multimodalidad, comportamiento de las colas y asimetría; en estos casos un método no paramétrico puede ser más flexible que los métodos paramétricos tradicionales; b) En análisis confirmatorio, las estimas no paramétricas de densidad se emplean en análisis discriminante, clasificación no paramétrica, contrastes para modas y contrastes de variación aleatoria; c) En la presentación de resultados, las peculiaridades estadísticas de los datos se pueden explicar fácilmente a través de los gráficos de las curvas de densidad estimadas.

En las últimas dos décadas se ha presenciado una consolidación y una valoración critica de estos métodos que se ve reflejada en los numerosos trabajos, fundamentalmente teóricos, que se han publicado en relación a este campo (ver Izenman, 1991).

El éxito en las técnicas de estimación de densidad no paramétrica ha llevado a su vez a la formulación de la regresión no paramétrica incluyendo el análisis no paramétrico de curvas de crecimiento (Eubank 1988; Müller 1988; Nadaraya 1989) y el reconocimiento estadístico no paramétrico de patrones ( Devijver y Kittler 1982; Fukunaga 1972, cap. 6 ) .

1.1 - PROPIEDADES DE LOS ESTIMADORES NO PARAMÉTRICOS.

El uso de estimadores de densidad no paramétrica sólo es recomendable, como cualquier procedimiento estadístico, si se cumplen determinadas propiedades. Estas propiedades, en general, confirman su utilidad en muestras grandes; sin embargo también

(20)

son aplicables en muestras pequeñas que satisfacen condiciones especiales (ver por ejemplo, Deheuvels, 1977 y Fryer, 1976). A continuación se analizan algunas propiedades de estos métodos de estimación.

1.1. Sesgo.

Sea un estimador f de una función de densidad f. Se dice que este estimador es insesgado para f si, para todo xeRd,

Ef [ f (x) ]=f (x) . Aunque hay estimadores insesgados de densidades

paramétricas tales como la normal o la exponencial, ningún estimador de densidad auténtico, es decir, que satisfaga la definición general, puede existir y ser insesgado para todas las funciones de densidad de tipo continuo (Rosenblatt, 1956). Por esto se ha enfocado la atención a la posibilidad de encontrar secuencias { f n> neN de estimadores de densidad no paramétricos que

sean asintóticamente insesgados para f. Es decir, para todo xeRd,

Ef[fn(x)]-f(x) si n^oo.

1.2. Consistencia.

La propiedad más estudiada de estos estimadores de densidad es la consistencia, debido a su aplicación para muestras grandes. Un estimador de densidad f es consistente (débilmente) para una

P

función univariante f cuando f (x)-+ f (x) para todo xeR ; será fuertemente consistente si se mantiene la convergencia casi segura para f. Se pueden definir, además, otros tipos de

(21)

consistencia dependiendo del criterio elegido para medir el error. Los métodos de medida de la consistencia más empleados son los denominados Lj y L, (Hall, 1989b).

El método L2. El método 1^ restringe la estimación a

funciones de densidad con cuadrado integrable. En este caso el error en la estima f (para xeR) puede medirse por el error cuadrático medio,

E.C.M.= Ef[£(x)- í(x)]2= var[£(x)] + { sesgo[£{x)}) 2, (l.l)

si el E.C.M. tiende a cero para todo xeR cuando n-+oo entonces f se dice que es un estimador consistente de f en media cuadrática.

Otro tipo de criterios considera cómo la curva completa f se aproxima a f. Una medida de la bondad de ajuste en este caso se encuentra integrando el E.C.M. en todos los valores de x,

E.C.M.I.= f " Ef[£(x) - f (x)]2dx. (1.2) J —oo

Otra medida empleada usualmente es el error cuadrático integrado (E.C.I.) o Norma 1^ ,

E. C. J.= f ~[£(x)- f(x)]2dx. (1.3)

J —oo

Tomando esperanzas sobre f en el E.C.I. obtendríamos el E.C.M.I. Suele emplearse preferentemente el E.C.I. en lugar de su valor esperado ya que éste determina la cuantía de la aproximación de f a f para un conjunto dado de datos, aunque el E.C.M.I. promedia sobre todos los posibles conjuntos de datos. Bajo condiciones suaves se ha demostrado que el E.C.I. es una aproximación aleatoria bastante razonable del E.C.M.I. (Marrón y Hardle, 1986) mientras en ciertas situaciones el E.C.M.I. puede

(22)

ser un mejor criterio de error que el E.C.I. (Hall y Marrón, 1988). Farrel (1972) expuso que la posible mejor razón de convergencia asintótica para el E.C.M.I. en estimas de densidad auténticas es 0(n"4/5), un infinitésimo de orden n"4/5, y Boyd y

Steele (1978) probaron que no puede existir una estima de f cuya razón de convergencia para el E.C.M.I. sea mejor que 0(n"1).

El método L,,. En este caso, la única restricción impuesta al espacio paramétrico de funciones de densidad estimables, es que se traten de funciones integrables. El método L2 presenta un

problema para estimas de densidad no paramétricas y es que el comportamiento de la cola de una densidad pierde importancia, posiblemente como resultado de las peculiaridades que presenta la estima de la densidad en las colas. Otras objeciones fueron planteadas por Donoho y Jhonstone (1989). Por estas razones, en multitud de trabajos se propone e investiga la alternativa L,, a la teoría anterior de la estimación de densidad no paramétrica. Devroye y Gyorfi (1985) consideraron más natural para las densidades el espacio L1 y demostraron que el error absoluto

integrado, también conocido como la variabilidad total o la norma

E.A.I.=f °° \£{x)- f(x)\dx, (1.4)

J —00

está siempre bien definido como una norma en ese espacio, es invariante por transformaciones monótonas y 0< E.A.I.< 2. Si E.A.I.-»-0 en probabilidad cuando n-*°o se dice que f es un estimador consistente de f. También se dice que el estimador es fuertemente consistente cuando la posible convergecia es casi segura. Tomando la esperanza del E.A.I. obtendremos el E.A.I.M.

(23)

Hall y Wand (1988) llegaron a obtener una expresión asintótica general para el E.A.I.M. y demostraron que su minimización se reducía a la solución numérica de una ecuación particular. A pesar de los logros obtenidos en este método puede observarse claramente que la labor técnica para obtener resultados de L1 es sustancialmente más complicada que la

necesaria para obtener análogos resultados con L2.

1.3. Los estimadores como funciones de densidad.

Algunos de los métodos de estimación de la densidad nos llevan a funciones de densidad auténticas mientras otros pueden conducir a estimas con ordenadas negativas (especialmente en las colas) o bien tener una integral infinita. La negatividad puede darse de forma natural, obteniéndose como un resultado de la dispersión de los datos en ciertas regiones (ver los trabajos de Boneva, Kendall y Stefanov, 1971 y Kronmal y Tarter, 1968), o puede ser causada por relajación de la restricción de no negatividad en orden a obtener una mejor razón de convergencia en el estimador de f. La búsqueda de estimadores con razón de convergencia más rápida ha decidido a algunos investigadores a relajar la restricción en la integral en lugar de la no negatividad. Gajek (1986) propuso un esquema simple por el cual cualquier estimador de densidad que no tuviera una densidad auténtica se puede hacer que converja a ésta.

(24)

1.2 - ESTIMACIÓN MEDIANTE EL HISTOGRAMA DE FRECUENCIAS.

Tradicionalmente, el histograma se ha utilizado para proporcionar un índice visual de la forma de f. Supondremos que f tiene un soporte A= [a,b], donde a y b son tales que abarcan todos los datos observados. Para el cálculo del histograma se realiza una partición de A en franjas no superpuestas:

Ti= tVi' V¡+i)' c o n i = 1/2,...,m , donde

a= tn ,,< tn 2< ...< t „„..,= b, y donde los extremos {tní> dependen

del tamaño muestral n. Si ITi es la función indicador del

subintervalo i-ésimo y si H. es el número de valores muéstrales encontrados en Ti (i= l,2,...,m), ( £ N,-= n ) , entonces el

histograma queda definido por m

esta estimación satisface (0.1). Si la amplitud del intervalo hn= t -+1- tn ,• (i=l,2, . . . ,m) es la misma, entonces

1 m

V*>=

-ér

E

NiirM)-

(2.2)

lula i=l

Sin embargo, como un estimador de la densidad el histograma presenta algunos defectos, que incluyen, la naturaleza fija de la partición, las discontinuidades en los extremos de los subintervalos y sobre todo la sensibilidad de la forma del histograma a la elección de un origen.

(25)

2.1. Propiedades estadísticas.

El histograma es un estimador máximo-verosímil basado en la muestra aleatoria y constituido por funciones quebradas con nudos en los puntos tn1,..., ^ ^ 1 / ver De Montricher, Tapia y Thomson

(1975) y Tapia y Thompson (1978) para versiones más generales del histograma.

Bajo ciertas condiciones de f y de fhn, Scott (1979) y

Freedman y Diaconis (1981) demostraron que si hn->0 y nhn-«» si

n-"», entonces E.C.M.I->0 y se minimiza asintóticamente para 6

h\=

i 1

3 n 3. (2.3)

f °°[f'(x)]2dx J —00

La razón de convergencia E.C.M.I. óptima es 0(n~2/3),

substancialmente más lenta que la mayoría de las otras clases de estimadores de densidad, lo que constituye el principal motivo para no emplear el histograma cuando puedan emplearse otros procedimientos de estimación. Devroye y Gyorfi (1985) demostraron que fhn era fuertemente consistente para todo f y que la razón de

convergencia del E.A.M.I. era de orden 0(n"1/3).

2.2. Elección del ancho de caja.

Como h*n depende de la densidad desconocida f, puede

emplearse una estima de ésta función. Scott (1979) propone un ancho óptimo aproximado íi*n= 3'49sn"1/3 donde s es la desviación

típica muestral y trabaja bien para muestras gaussianas mientras que sobrealisa en otros casos. Freedman y Diaconis (1981) sugieren ñ*n=2 (RIQ)n"1/3, donde RIQ es el rango intercuartílico de

(26)

los datos. A su vez, Taylor (1987) emplea el criterio de información de Akaike para determinar un ancho óptimo. Scott

(1988) estudia formas de cajas hexagonales y cuadráticas para histogramas bivariantes.

2.3. Estimadores relacionados.

Se puede alcanzar una razón de convergencia de E.C.M.I. más rápida modificando la forma de los bloques del histograma. Los estimadores que permiten obtener un orden de convergencia de 0(n"4/5) son los siguientes:

El histograma promediado variable de Scott y Thompson (1983) y Scott (1985a) se construye promediando varios histogramas con igual ancho de caja pero en diferente posición.

El polígono de frecuencias estudiado por Scott (1985b), se construye uniendo los valores de mitad del intervalo por líneas rectas.

El histo-quebrado de Boneva, Kendall y Stefanov (1971) es una quebrada cuadrática cardinal ajustada al histograma.

El histograma ponderado propuesto por Vítale (1975) y Gawronski y Stadtmuller (1980), en que los conteos en los intervalos son ponderados mediante probabilidades de Poisson empíricas.

(27)

1.3 - EL ESTIMADOR NÚCLEO.

El estimador núcleo de densidad multivariable de f tiene la forma:

donde xeRd ; la elección de la función K y el ancho de ventana

h=hn> 0 determina el comportamiento del estimador núcleo como

estimador de f. Silverman (1982a) y Jones y Lotwick (1984) recomiendan la transformación rápida de Fourier para calcular

(3.1) en el caso univariable. Como se aprecia en su expresión el estimador núcleo abarca las propiedades de la función núcleo siendo por tanto de gran importancia que K tenga buenas propiedades.

Para que una función K(x) se considere función núcleo debe cumplir ciertas propiedades (Nadaraya, 1989):

a) K{x) =K(-x)

b) ¡K(x) dx=l

c) sup \K(x) \<.A<<*> -<*><x<°°

d) fx

i

K(x)dx=0,

i=l, s-1

con s par y mayor o igual que 2;

e) fx

s

K(x) dx0*

f) fx

s

\K(x) \dx<<>*

La clase más sencilla de núcleos consiste en las funciones de densidad de probabilidad. Es decir, las que satisfacen (1.1). Si se emplea un núcleo de esta clase en la estimación, fn siempre

(28)

será una auténtica densidad. Las funciones núcleo m á s conocidas incluyen el núcleo Gaussiano con soporte no acotado y los núcleos polinomiales con soporte compacto

K(x)= *„<l-|x|*)T[Wsl],

kzs= 7ñ7 5 „ / x > r>0. SZO. (3.2)

zs 2B(s+l,l/r) (Ver Izenman, 1 9 9 1 ) .

La estima de densidad del núcleo triangular ( r=l, s=l) está asintóticamente relacionada con el histograma promediado variable ya que el primero se obtiene como limite de este último cuando el número de histogramas variables tiende a infinito. Los núcleos multivariables (xeRd) suelen ser densidades unimodales radialmente simétricas tales como el Gaussiano,

K(x)= (2it)"d/2 e"^(X'X), (3.3)

y el de Barlett-Epanechnikov,

cd= nd/2T[(d/2)+l] . (3.4)

Cacoullos (1966) y Nadaraya (1989) proponen productos d e funciones núcleo univariables donde K(x)= ndj=1 K(Xj) . Este método

es el empleado en los estudios con datos reales de Kasser y Bruce (1969) y Scott, Gotto, Colé y Gorry (1978).

Devroye (1983) emplea el enfoque L1 para demostrar que el

estimador núcleo es fuertemente consistente si K satisface las condiciones (0.1) y además hn->0 y nh-*» cuando n-«» sin

(29)

condiciones sobre f. Devroye y Penrod (1984) también demostraron que, para el caso univariante, la razón de convergencia del E.A.M.I. era de orden 0(n"2/5). Hall y Wand (1988) obtuvieron con

este planteamiento las expresiones explícitas del E.A.M.I. mínimo y del parámetro de alisado óptimo.

Siguiendo el planteamiento 1^ y bajo ciertas condiciones de regularidad de K y f, Parzen (1962) demostró que si hn-»-0 cuando

n-«» entonces el estimador núcleo es asintóticamente insesgado y asintóticamente normal. Cacoullos (1966) demostró que la expresión asintótica de E.C.M.I. en el caso d-dimensional era minimizada por todo hcn= a(K)/?(f )n~1 / ( d + 4 ) que cumpla las condiciones

de regularidad y E.C.M.I.-+0 con razón de convergencia de orden 0(n"4/(d+4)) . La razón de convergencia es más lenta a medida que

aumenta el número de dimensiones. Resultados adicionales sobre la consistencia fueron obtenidos por Hall y Hannan (1988).

3.2. Elección del núcleo.

Si bien el núcleo de Barlett-Epanechnikov minimiza el E.C.M.I. asintótico óptimo, Marrón y Nolan (1987) comprobaron la

insensibilidad del E.C.M.I. a la forma de K. Otros estudios debidos a Kazakos (1980) se inclinan por una función núcleo de soporte compacto [-T, T] y con ancho de banda que minimizan la cota superior de Wahba (1975) para el ECM,

K(x)= (1+a"1) (2T)-1 [1-T"a|x|a],

donde a= 2-p-l y p> 1.

Sin embargo las tendencias actuales consisten en investigar tipos más exóticos de núcleos. Los desarrollos más importantes

(30)

conciernen al orden de las funciones núcleo, definido por la existencia de ciertos momentos de K. Son interesantes aquellos núcleos que presentan varianza nula lo cual sólo puede obtenerse si K toma valores negativos, tales funciones reducen el sesgo y mejoran la razón de convergencia del E.C.M.I. ya que ésta, si K es de orden s, tendrá un orden de 0(n"2s/2s+1) . Hall y Marrón (1988)

consideraron la selección óptima del orden s. Otro resultado importante obtenido por Schucany y Sommers (1977) es el empleo del método "jacknife" generalizado usando estimadores tipo núcleo de orden cuatro, lo que permite reducir el sesgo, la varianza o ambos con un menor ECM asintótico.

3.3. Elección del parámetro de alisado.

El principal foco de investigación en estos momentos lo constituye la determinación del parámetro de alisado o ancho de ventana óptimo. Como hcn depende explícitamente de la función f

desconocida a través de /3(f) no se puede calcular exactamente. Se han propuesto varios procedimientos para estimar el parámetro de alisado donde j0(f) se emplea para estimar /3(f) con diferentes resultados ( Scott y Factor, 1981 ; Scott y Terrell, 1987).

Un método automático muy empleado es el de validación cruzada (VC). El algoritmo empleado consiste en extraer un valor de la muestra y calcular la estima de la densidad en ese punto a partir de los restantes valores muéstrales,

^ 2 (n-l) h f£ \ h )

eligiéndose, a continuación, un criterio de optimización para

(31)

determinar h. Los dos criterios que se han empleado son el de validación cruzada máximo verosímil (VCV), para encontrar un valor de h que maximice la función de pseudo verosimilitud, L(h) = IIfhi(Xi)/ y la validación cruzada mínimo cuadrática (VCC) para

encontrar el h que minimice MC(h)= J(fh)2dx -(2/n)Sfh • (X-) .

Marrón (1987b) proporciona una excelente revisión de varios métodos de cálculo del parámetro de alisado.

Se ha demostrado que cuando el núcleo se define en un intervalo cerrado, VCV proporciona estimas consistentes de densidades (definidas también en intervalos cerrados, ver por ejemplo, Chow, Germán y Wu, 1983) mientras que no sucede esto en estimas de densidades de soporte infinito (Schuster y Gregory, 1981). Hall (1987a) estudia la compleja influencia que las colas de K y f tienen sobre la VCV. Estudios de simulación de Scott y Factor (1981) indicaron que el VCV conducía frecuentemente a estimas de densidad sobrealisadas o subalisadas siendo además muy sensible a datos anómalos.

La VCC no precisa condiciones rigurosas sobre las colas de f y K para probar su optimalidad asintótica (Hall, 1983a y Stone, 1984) . Hall y Marrón (1987a y b) demostraron que el ancho obtenido con este método trabaja tan bien asintóticamente como el hcn óptimo, el cual, es realmente inalcanzable, si bien el

algoritmo converge muy lentamente.

La alta variabilidad de las estimas VC en relación al muestreo llevan a Terrell (1990) a proponer que se elija la estima más alisada que sea compatible con la escala estimada de la densidad.

(32)

3.4. Estimadores relacionados.

Aplicando ideas del análisis secuencial al estimador de densidad núcleo, Deheuvels (1973) llega a los estimadores secuenciales en que se emplea el muestreo secuencial; el estimador núcleo se calcula en cada tamaño de muestra hasta satisfacer cierta regla de convergencia. Un estimador relacionado es el estimador de densidad recursivo (se obtiene calculando fn

a partir de fn.1) que fue introducido por Wolverton y Wagner

(1969) y Yamato (1971); Sus propiedades teóricas fueron estudiadas posteriormente por Prakasa Rao (1983).

Los métodos de estimación descritos anteriormente son relativamente insensibles a peculiaridades regionales de los datos, tales como agrupaciones locales y dispersión de datos en algunas zonas, particularmente en las colas. Los estimadores que se exponen a continuación soslayan este inconveniente.

4.1. El histograma de particiones variables.

Originalmente sugerido por Wegman (1969, 1975), el histograma de partición variable se construye de forma similar al de partición fija pero en este caso la partición depende de los espacios entre los estadísticos ordenados (X(1),..., X(n)) . Se

puede obtener la partición de tal manera que cada intervalo contenga aproximadamente k valores muéstrales (k=n/m, m es el na

(33)

de cajas del histograma) . Entonces para un xe[X(1)/ X( n )],

?=t

(X

-x

n

\V

X)

-

u

'

1]

Devroye y Gyorfi (1985) demostraron que si k=kn-»°o y k^n-^O cuando

n-^«>, entonces la f anterior es un estimador fuertemente consistente para el procedimiento K,. Resultados similares para Lj se encuentran en Prakasa Rao (1983) y Kogure (1987) . El radio de convergencia para el E.C.M.I. del estimador (4.1) es 0(n"2/3),

el mismo orden que para el caso de partición fija.

4.2. Estimadores basados en bloques estadísticamente equivalentes.

Una versión multivariable del histograma de partición variable fue concebido por Gessaman (1970) y aplicado por Gessaman y Gessaman (1972) a la discriminación no paramétrica. Se define el estimador sobre una partición del espacio muestral en bloques estadísticamente equivalentes, analogía multivariable del espacio entre dos estadísticos de orden contiguo, y cada cuadrado de probabilidad Bn es la unión de, aproximadamente, kn

bloques estadísticamente equivalentes que contiene kn

observaciones. Si Bn es un cuadrado de probabilidad acotado y

xeBn entonces, f(x)= [ky (n+1) ]/Area(Bn) . Sobre cuadrados de

probabilidad sin acotar se estima f como 0. Gessaman (1970) demostró que si kn-»oo y k^n-^0 cuando n-"» entonces el estimador es

débilmente consistente para f. La razón de convergencia y la elección óptima para kn no han sido determinadas aún.

(34)

4.3. El método de los puntos más próximos.

Fix y Hodges (1951) propusieron el estimador por puntos más próximos. Dado un punto x y fijado un entero k, sea Dk(x) la

distancia euclídea de x a su k-ésimo punto más próximo entre los X.,,..., Xn, y sea Volk(x)= Cd[Dk(x)]d el volumen de la esfera

d-dimensional de radio Dk(x) donde Cd es el volumen de la esfera

unidad d-dimensional. El estimador de densidad por puntos más próximos viene dado por

*M=

T

, y ? x • (4

-

2)

Volk(x)

Una ventaja de éste estimador es que siempre es positivo aún en regiones donde los datos están muy dispersos. Loftsgaarden y Quesenberry (1965) probaron su consistencia si k= kn-+oo y k^n-^O

cuando n-+<». Abramson (1984) propuso, para el caso d-dimensional, la elección de un kn proporcional a n4/(d+4), y con constante de

proporcionalidad en función de x. Moore y Yackel (1977) y Mack y Rosenblatt (1979) analizaron el sesgo y la varianza del estimador (4.2) . Rosenblatt (1979) estudió el comportamiento global de las estimas generalizadas de f por éste método que se reveló adecuado para estimar la densidad en un punto pero no para la función completa de densidad. El estimador (4.2) conduce a una estima de densidad discontinua y con integral infinita debido a sus grandes colas. Estas dificultades hacen imposible el estudio de sus propiedades en L,, (ver Devroye y Gyorfi, 1985) .

(35)

4.4. Estimadores de núcleo variable.

El estimador de núcleo variable fue estudiado para evitar los problemas del estimador por puntos más próximos y se definió:

J-i « jk \ nJk )

donde el ancho de ventana variable H¡k= hDk(x) no depende de x

como en el estimador (4.2), h es el parámetro de alisado y k controla el comportamiento local de Hjk. Si K es una densidad

auténtica el estimador (4.3) también lo es y tiene las ventajas de poseer las propiedades de alisado del estimador núcleo y el carácter de adaptabilidad a los datos del estimador por puntos más próximos con un pequeño aumento de cálculos. Meisel lo propuso por primera vez siendo estudiado empíricamente por Breiman, Meisel y Purcell (1977) que en un estudio de simulación comprobaron el mal funcionamiento del estimador a menos que k fuera grande (del orden de O'ln). Las condiciones para la convergencia fueron obtenidas por Wagner (1975) y Devroye (1985) ; Devroye y Penrod (1986) probaron la consistencia fuerte uniforme del estimador (4.3).

4.5. Estimadores de núcleo adaptado.

Abramson (1982a,b) propuso un algoritmo en dos pasos para el cálculo de un ancho de ventana que se adaptara a los datos. Primero se obtiene una versión abreviada, f°h que se construye de

una estima de densidad núcleo f°h piloto con un ancho de ventana

fijo h para definir en el paso siguiente el estimador núcleo

(36)

adaptado como

donde hj= h[f°h(Xj) ]"1/2. Silverman (1986) propone un valor distinto

del parámetro 11,-= h[ (1/g) f°h(X¡) ]'", donde g es un factor de escala

tal como la media geométrica de f^fX,.) [i= l,...,n] y 0< a< 1 refleja la sensibilidad del ancho de ventana a las variaciones y a la estima piloto. Hall y Marrón (1988) establecen otro valor hf= hF[ f °hp(Xf) ]"1/2, donde h es el parámetro de alisado de la

estima piloto y hF el de la estima final. Esta modificación tiene

una razón de convergencia del E.C.M. muy rápida.

1.5 - ESTIMADORES CON SERIES ORTOGONALES.

Estos estimadores de densidad fueron introducidos por Cencov (1962) y han sido aplicados desde entonces a diferentes áreas especialmente reconocimiento de patrones y discriminación y clasificación asi como para estimar densidades multivariables.

5.1. Desarrollo ortogonal arbitrario.

Este método asume que una función de cuadrado integrable puede ser representada por desarrollo en series ortogonales convergentes,

oo

f(x)=^2 a

k

<p

k

(x) ,

xeQ, (5.1)

donde {q>k} es un sistema ortonormal completo de funciones en un

(37)

¡a<p. (x)<pk(x)dx= <Sjk, donde S-k es la S de Kronecker) y {ak> son

coeficientes definidos por ak= Ef[<p*k(X)], donde <p*k es el complejo

conjugado de <pk. Esta formulación tiene en cuenta sistemas de

funciones ortonormales de valores reales o complejos. Los sistemas ortonormales propuestos para {<pk} son con soporte

compacto (como el de Fourier, trigonométrico y los sistemas de Haar en [0,1] y el sistema de Legendre en [-1,1]) y aquellos con soporte no acotado [como el sistema de Hermite en R y el de Laguerre en [0,w)].

Tomando una muestra independiente X1, . . . , Xn de f y un

sistema {<Pk}, {ak} puede estimarse insesgadamente por

á

= i; ¿<P¿(i>- (5.2)

12 2=1

El estimador obvio de f, obtenido de sustituir (5.2) en (5.1) en lugar de ak, no está bien definido ya que su varianza sería

infinita y además no es consistente según el criterio E.C.I. Por ello, se han estudiado estimadores de la forma

oo

£ ( * ) = £ bkák(pk(x) , XEÜ, (5.3) jc=-«

donde, 0< bk< 1 es un peso simétrico que traslada ák hacia el

origen, y S|bk|< oo es una condición necesaria para la

convergencia de (5.3). Ver Watson (1969), Rosenblatt (1971), Brunk (1978) y Hall (1986). Johnstone y Silverman (1990) usaron estos estimadores con series ortogonales restringidas en un estudio de estima de densidad bivariante (distribución de la glucosa en el cerebro) eligiendo bk=l si -r< k< r (siendo r el

número de términos del desarrollo) y 0 en otro caso. Wahba (1981) considera un sistema biparamétrico de pesos, bk=[l+A (27rk)2m]"1 para

(38)

-r< k< r, donde A> 0 es un parámetro de alisado y m> 1/2 es un parámetro determinado. Otros sistemas de pesos son discutidos por Hall (1987b) y Lock (1990). Para estimar {bk>, Wahba (1981)

propone la V.C.V. y Hall (1987b) la V.C.C.

El estimador de series ortogonales para densidades con soporte no acotado más empleado es el estimador de series de Hermite. Las funciones Hermite normalizadas:

(p*(x)= ck(x)Hk(x) (£=0,1,2, ...) , c = e x p [ - x2/ 2 ]

k (2kk\U1/2)1/2

Hk(x) = (-l)ke~x2/2 (e-*2) (polinomio k-ésimo de Hermite) ,

dxk

forman bases ortonormales para un planteamiento L2. Hall (1987b)

estudia su relativa insensibilidad frente al comportamiento inusual de las colas de X. Schwartz (1967) demostró que si r= rn,

en las series ortogonales restringidas, satisface que r^n-t-O si

rn~K>0' entonces el E.C.M.I.-^O si n-n»; además si rn= 0(n1/q) para

q> 2, entonces el E.C.M.I.= 0 (n"(1"1/q)) , que presenta una ventaja

de estos estimadores frente a los estimadores núcleo al no depender de la dimensión de los datos; sin embargo, el sistema Hermite no constituye una base según el planteamiento L.,.

Si f tiene soporte compacto [0,1], se tiene el conocido estimador con series de Fourier o trigonométricas, que es la parte real de los estimadores de series ortogonales restringidos, y está formado por el sistema de funciones discretas de Fourier,

(39)

definido por <pk(x)= e2irikx [k= 0,1,2,...]. Whaba (1975a, 1975b,

1981) y Hall (1981) estudiaron la influencia de la periodicidad y el efecto Gibbs sobre las estimas de densidad con las series de Fourier. Devroye y Gyorfi (1985) probaron que bajo ciertas condiciones de f y si r^n-^0 cuando rn-*oo, entonces el E.A.M.I.-+0

si n-^oo.

5.3. Elección del número de términos.

El comportamiento y alisado de los estimadores con series ortogonales restringidas dependen del número de términos en el desarrollo (r). Kronmal y Tarter (1968) proponen una regla de parada óptima, término a término, para la elección de un r que minimice el E.C.M.I. estimado. Crain (1973) señaló las desventajas de esta regla y Hart (1985) comprobó con estudios de simulación que llevaba a estimas sobrealisadas. Hart (1985), Diggle y Hall (1986) y Lock (1990) propusieron algunas mejoras de esta regla.

1.6 - ESTIMADORES DE DENSIDAD DE SECUENCIA DELTA.

Muchos de los estimadores de densidad descritos anteriormente se pueden considerar casos especiales de este tipo de estimador no paramétrico.

Sea SX(X,Y), (X,YeR), una función acotada con índice el parámetro de alisado A>0. La secuencia (5A(X,Y)} se llama

secuencia 5 sobre R si j 6x(X,Y)<p(y)dy-*<p(x) cuando A-*» para cada función 0 sobre R infinitamente diferenciable. Cualquier

(40)

estimador que se pueda escribir en la forma

íAU ) = - ¿ S ^ U , ^ ) , XER, (6.1)

11 2=1

donde {SX(X,Y)} es una secuencia 6, se llama un estimador de densidad de secuencia 6. Asi los histogramas, los estimadores núcleo y los estimadores con series ortogonales pueden expresarse de la forma (6.1). En algunos casos (como histogramas y series ortogonales) A. será un entero, que representa el número de términos en un desarrollo; mientras que en otros (como estimadores núcleo) es un número real. Estos estimadores fueron estudiados por Whittle (1958); Watson y Leadbetter (1964) demostraron que son estimadores de la densidad asintóticamente insesgados. Walter y Blum (1979) y Prakasa Rao (1983) dieron una extensa lista de casos especiales y establecieron las razones de convergencia para el E.C.M. Marrón (1987a) utilizó los estimadores de secuencia S como un medio de comparar diferentes estimadores de densidad.

1.7 - ESTIMADORES DE MÁXIMA VEROSIMILITUD RESTRINGIDA.

La aplicación del método de máxima verosimilitud no puede proporcionar un único resultado cuando la clase de densidades H sobre la que se maximiza la verosimilitud no está definida. Por este motivo se estudiaron estos estimadores en los que se añaden restricciones en H o en la función de verosimilitud L.

(41)

7.1. Métodos de orden restringido.

Consideramos primero un orden de restricción sobre H, por ejemplo densidades que son monótonas decrecientes sobre el intervalo [0,«>) que son especialmente importantes en los problemas de supervivencia. Grenander (1956) demostró que el estimador máximo-verosimil para una densidad no decreciente sobre

[0,oo) era una función escalonada con saltos en los estadísticos de orden {X(i)}. Más concretamente, si Fn es la función de

distribución muestral entonces el estimador máximo-verosimil de una densidad no decreciente es el mínimo de la máxima pendiente de la Fn cóncava, expresado

- v min max F„(XÍH) -F„(XtiS)

sst-1 tsi X(t)-X(i) U 1] ()

y 0 para x< 0 y x< X(x). Este estimador es fuertemente consistente

para f monótona decreciente (Groeneboom, 1983). Devroye (1987) estableció la razón de convergencia, 0(n1/3), para el E.A.M.I.

Barlow, Bartholomew, Bremner y Brunk (1972) y Denby y Vardi (1986) proponen diferentes métodos de cálculo de (7.1) y Birge (1987a,b) expone métodos alternativos para estimas de densidad decreciente.

Para estimar densidades unimodales con el método de orden restringido se supone, en principio, la moda conocida e igual a 0. Como una densidad unimodal f es no decreciente en los x anteriores a la moda y no creciente después, basta considerar sólo la estima máximo verosímil de f+ que es la densidad

condicional sobre el intervalo [0,«). Un razonamiento similar se emplea para f.. La estima máximo-verosímil de f viene dada

(42)

entonces por

£=

&t+(i-&)£_

donde f+ es la parte correspondiente al mínimo mayorante de la

Fn cóncava, y f. es la parte del mínimo mayorante de la Fn

convexa y 0< á< 1 es la proporción de valores muéstrales que pertenecen a [0,oo) . ver Robertson, Wright, y Dykstra (1988) .

7.2. Método de cribas.

En este método se selecciona un parámetro de criba h> 0 y para cada criba escogemos un subconjunto Sh de densidades para

las que existe un estimador máximo-verosímil. Una vez calculado el estimador se deja crecer , de alguna forma, el subconj unto Sh

con el tamaño muestral n, mientras que se permite que h=hn->0

cuando n-«» de tal forma que la convergencia a una función de densidad queda asegurada. A la secuencia {Sh} de estos

subconjuntos se le llama cribas. El método fue introducido por Grenander (1981) y desarrollado posteriormente por Geman y Hwang

(1982) y Walter y Blum (1984) . Como en los demás estimadores que dependen de un parámetro de alisado, el método de cribas depende de la secuencia de los parámetros criba, los cuales tienden a 0 con razón suficientemente lenta (Grenander, 1981). Se ha demostrado que este método lleva a estimas consistentes en el sentido L. aunque no se han determinado razones de convergencia.

(43)

7.3. El método de máxima verosimilitud penalizada.

El método más popular para estimaciones de densidad restringidas máximo verosímiles penaliza la función de verosimilitud por la producción de estimas de densidad groseras

(ver Good y Gaskins, 1971) . Si $ es un funcional de penalización dado, no negativo, y definido sobre H, la verosimilitud $-penalizada de f se define como:

L(f)= ñ f ^ J e " * ^ . (7.2)

2=1

El problema de optimización de la función definida en (7.2) o su logaritmo se resolverá con las restricciones feH(n), J0f(t)dt= 1, y f(t)> 0 (Vteíi) . Si existe una solución, f, de ese

problema se le llama estimador máximo verosímil penalizado (MVP) de f correspondiente a la función de penalización $ y a la clase de funciones H. Good y Gaskins observaron que el método de máxima verosimilitud penalizada podía interpretarse para cierto tipo de problemas como cuasi bayesiano ya que (7.2) se asemeja a una densidad a posteriori para un problema de estimación paramétrica.

De Montricher, Tapia y Thompson (1975) establecieron rigurosamente la existencia y unicidad de la estima de densidad MVP y demostraron que este método estaba íntimamente relacionado con los métodos de quebradas, el estimador es una quebrada polinomial con saltos sólo en los puntos muéstrales, si f tiene soporte finito.

Cuando f tiene soporte infinito el problema es más complicado. Good y Gaskins propusieron funcionales de penalización diseñados para estimar la raíz de la densidad g=f1/2,

así f=g2 sería un estimador no negativo y auténtico de f. Los

(44)

funcionales de penalización fueron

*x( f ) = 4a r t s r ' U ) ]2 dx. a>0 ( 7 . 3 )

*2( . f ) = 4 a f " [ g r / U ) ]2 dx + p f" [gr"(x) ]2 dx, ( a * 0 , p*0) , (7.4)

•r — oo J - c o

donde los parámetros a y /3, con <*+/?> 0 en (7.4), controlan el promedio de alisado. El problema consiste en este caso en elegir uno de estos funcionales, Good y Gaskins prefirieron (7.4) basándose en la penalización por este funcional de la curvatura y la pendiente de la estima de la densidad. En trabajos posteriores Good y Gaskins (1980) y Good y Deaton (1981) establecieron a=0 y j8 lo determinaban de los datos. Klonias y Nash (1983) y Klonias (1984) investigaron una clase muy general de funcionales, que incluían (7.3) y (7.4) como casos especiales, cuya motivación primaria fue mejorar la estimación de los picos y los valles de f.

Para la función de penalización (7.3) y para un valor dado de a, De Montricher et al. (1975) demostraron que, si el problema de optimización está correctamente planteado, entonces el estimador resultante es único y además es una quebrada exponencial con saltos sólo en los valores muéstrales. Klonias

(1982) demostró la consistencia del estimador determinado con este funcional en varias normas diferentes, incluyendo L., y L2.

Silverman (1978) sugiere un método gráfico para la determinación de a. Con la función de penalización (7.4) y valores dados de a y /3, la estima resultante existe y es única si se establece un planteamiento correcto del problema de optimización. Good y Gaskins dieron algunas recomendaciones para los parámetros en este caso que funcionaban bien en sus ejemplos.

(45)

Silverman (1982b) desarrolla una estima MVP distinta y que también garantiza una densidad auténtica empleando una penalización basada en el funcional g=logf, y demostró que su método llevaba a un amplio rango de posibles estimas de densidad probando la existencia, consistencia y normalidad asintótica de los estimadores resultantes.

La implementación del método MVP depende de la calidad de las soluciones numéricas para los problemas de optimización restringida. Como g=f1/2 es de cuadrado integrable, Good y Gaskins

(1980) sugirieron el empleo de mezclas de desarrollos ortonormales para g, terminando el desarrollo en algún número finito de términos. Scott, Tapia, y Thompson (1980) estudiaron una aproximación discreta a las soluciones quebradas de los problemas MVP y probaron que el estimador discreto resultante existe, es único, converge al estimador MVP quebrado y es un estimador puntual fuertemente consistente de f.

1.8 - ESTIMACIÓN DE DENSIDAD POR BÚSQUEDA DE PROYECCIÓN.

Los estimadores de densidad núcleo multivariables tienden a funcionar mal cuando se manejan datos de dimensión alta ya que son necesarios tamaños muéstrales extremadamente grandes para igualar el tipo de fiabilidad numérica que es posible conseguir en dimensiones bajas. Para soslayar este inconveniente Friedman y Stuetzle (1982) y Friedman, Stuetzle y Schoeder (1984) desarrollaron la estimación de densidad por búsqueda de proyección (EDBP) . El método EDBP ha mostrado en simulación excelentes propiedades, publicándose varias aplicaciones a datos

(46)

reales.

8.1. El paradigma EDBP.

Cuando se trabaja con pequeñas muestras de alta dimensión el procedimiento EDBP puede iniciarse restringiendo la atención al subespacio comprendido por las primeras componentes principales significativas (ver Friedman, 1987 y Jee, 1987). Un EDBP de f se forma entonces empleando el siguiente procedimiento iterativo. Primero. se transforman los datos para centrar el origen y que la matriz de las covarianzas sea la identidad. Segundo, se elige f<0) para que sea una estima de densidad

multivariable inicial de f, usualmente se toma la multivariable Gaussiana. Tercero, se encuentra la dirección a.,eRd para la cual

el módulo de la densidad marginal fa1 a lo largo de a, difiera más

de la marginal fa1 estimada a lo largo de a.,. La elección de la

dirección no será única en general. Cuarto, dado a1 se define una

función incremento univariable g1 (a^x) como el cociente de las

dos funciones de densidad marginales de la forma,

g1(a1Tx)= fa1 (a/xj/f a1 (atTx) , y se actualiza la estima inicial

f(1)(x)= f <0>(x)g1 (a/x) . Se repite este procedimiento sobre la

estima de la densidad modificada, f(1)(x) así como con una

segunda dirección a2eRd, la función incremento g2(a2Tx) =

fa2(a2Tx)/fa2(a2Tx) y se modifica de nuevo la densidad, siendo

f (2)(x) = f (1>(x)g2(a2Tx) . El procedimiento se repite tantas veces

como sea necesario y en la k-ésima iteración tendremos

(47)

£(k) (x) = $(Jc'1) (x) gk{a£x) = £{0) (x) ft gj (a/x) , (8.1)

que será la última estima de densidad multivariable, donde gj(ajTx)= faj(ajTx)/faj(ajTx), j= 1, 2, ..., k.

En (8.1) los vectores {a-} son direcciones de longitud unidad en Rd y las funciones incremento (o cresta) {g.} son

empleadas para construir la estructura de f<0) de manera que f<k)

converja a f en algún sentido adecuado cuando k-«». El número de iteraciones k opera como un parámetro de alisado y se determina una regla de parada equilibrando el sesgo frente a la varianza de la estima. Friedman et al. (1984) sugirieron la inspección gráfica de las funciones incremento como un criterio para terminar el procedimiento iterativo.

El cálculo de las funciones incremento ha sido discutido por diversos autores. Dado a- se estima f • proyectando primero los datos muéstrales a lo largo de la dirección a- obteniendo asi z^a^Xj (i= 1, 2, ..., n) y luego calculando una estima núcleo de densidad a partir de {z¡}. Se emplea el muestreo de Monte Cario para calcular faj., seguido por una estima de densidad núcleo.

Alternativas al alisado con núcleo serían las funciones quebradas cúbicas (Friedman et al., 1984) y los histogramas promedio variables (Jee, 1987).

8.2. índices de proyección.

El EDBP funciona mediante un Índice de proyección, usualmente de la forma

I(f)= fj(f(z))f(z)dz= Ef [J(f)]t (8.2)

(48)

donde J es un funcional de alisado de valores reales y z es una versión unidimensional proyectiva de x. I(f) será absolutamente continuo con primeras derivadas fáciles de calcular. Proyecciones de interés corresponden a valores grandes de I(f) mientras que a los valores pequeños le corresponderían proyecciones aleatorias o sin estructura.

Las estimas de I(f) conllevan cálculos rápidos que no son afectados por la estructura de covarianza de los datos, datos anómalos o grandes colas (ver Huber, 1985). Friedman (1987) apuntó la necesidad de encontrar los máximos "substantivos" de I(f) con una mejora numérica muy fiable y minuciosa, ya que fluctuaciones muéstrales conducen a encontrar óptimos inadecuados entre una multitud de máximos locales. Si {z,-} son los datos p r o y e c t a d o s , entonces (8.2) se estima por Í(f)=/J(f (z))dFn(z) = (l/n)SJ(f (z,.)). Así si J(f (z) ) =f (z) ,

entonces I (f )=/[f (z) ]2dz puede estimarse por í (f ) = (l/n)Sf h(z¡) ,

donde fh es una estima núcleo con ancho de ventana h; ver

Friedman y Tukey (1974) y Tukey y Tukey (1981). Otra elección propuesta por Friedman et al. (1984) es tomar J(f(z))=logf(z), así que I(f)=/f(z)logf(z)dz y (8.2) puede estimarse en la iteración k-ésima por (l/n)Sf(k) (z,-) . Joe (1987) discutió la

estimación núcleo de funcionales tales como (8.2) y demostró que, para tamaños moderados de muestra, las propiedades estadísticas de í mejoraban con correcciones de sesgo o por empleo de un núcleo reescalado.

Otros índices de proyección que también se han empleado incluyen un índice momento basado en la suma de cuadrados del tercero y cuarto orden muestral de los datos proyectados (Jones

(49)

y Sibson, 1987) y el criterio ECI (Friedman, 1987 y Hall, 1989a). Procedimientos posteriores diferían sobre la conveniencia de transformar primero los datos proyectados o no. Friedman empleó el ECI entre la densidad de los datos transformados proyectados y la densidad uniforme mientras que Hall empleó el ECI entre la densidad de los datos proyectados sin transformar y la normal estándar. Ambos usaron estimadores de densidad de series ortogonales para estudiar sus índices de proyección.

Cada uno de los índices expuestos se definió para aplicaciones específicas. Así, Friedman y Tukey buscaron un índice para evidenciar agrupaciones y también desviaciones de una densidad parabólica; el índice de entropía buscaba desviaciones de la normalidad de los datos proyectados ya que la distribución normal maximiza la entropía; el índice momento y el criterio ECI también buscan desviaciones de la normalidad.

(50)

CAPITULO 2:ESTIMACIÓN DE LA DENSIDAD BASADA EN

FUNCIONES NÚCLEO

2.1 - TIPOS DE FUNCIONES NÚCLEO.

2.3 - MÉTODOS DE DETERMINACIÓN DEL ANCHO DE VENTANA. 3.1. Método de Scott, Tapia y Thompson, 1977.

3.2. Método de validación cruzada.

2.4 - ELECCIÓN DE LA FUNCIÓN NÚCLEO Y DEL ANCHO DE BANDA MAS APROPIADOS EN FUNCIÓN DE LAS

CARACTERÍSTICAS MUÉSTRALES PARA MUESTRAS PEQUEÑAS.

4.1. Funciones núcleo y anchos de banda

empleados.

4.2. Selección del conjunto de problemas para

comparación

4.3. Comparación de los núcleos y anchos de

ventana

(51)

2.5.- ELECCIÓN DE LA FUNCIÓN NÚCLEO Y DEL ANCHO DE BANDA MAS APROPIADOS EN FUNCIÓN DE LAS

CARACTERÍSTICAS MUÉSTRALES PARA MUESTRAS GRANDES.

5.1. Selección del conjunto de problemas para comparar.

(52)

CAPITULO 2

ESTIMACIÓN DE LA DENSIDAD BASADA EN FUNCIONES NÚCLEO

De los estimadores mencionados los mejor estudiados matemáticamente (y para los que existe un mayor número de aplicaciones a datos reales), son los basados en la definición de una función núcleo. Para su empleo es necesario elegir tanto el "núcleo" como un valor del parámetro de alisado, ambos determinarán la expresión final de la función de densidad estimada.

El núcleo es una función K(x), a partir de la cual se puede establecer el siguiente estimador no paramétrico de cualquier función de densidad f(x) (Rosenblatt, 1956):

donde hn es el parámetro de alisado y X1# ..., Xn los datos

observados.

Las propiedades que debe cumplir una función núcleo se recogen en el capitulo 1 (1.3).

(53)

El parámetro de alisado hn, también llamado "ancho de

ventana" o "ancho de banda", es un número positivo que tiende a cero con la condición de que si n->- a>, entonces hnxn-> a>.

La determinación del ancho de ventana se realiza de forma que se minimice algún tipo de error. Hall y Marrón (1988) proponen minimizar la integral del error cuadrático sobre el rango de variación de la variable aleatoria:

EMC=f[£(x)-f(x)]2dx, (0.2)

y Devroye y Gyorfi (1985) minimizar la integral de las diferencias en valor absoluto entre el estimador y la función:

ABSEMC=f \£(x)-f(x)\dx. (0.3)

Sin embargo, el proceso de minimización de estas medidas es substancialmente más complejo (ver por ejemplo Izenman, 1991) que la optimización de la medida propuesta por Rosenblatt (1971), la cual se define como el error cuadrático medio integrado (o el riesgo medio de la función de pérdida cuadrática entre la función y su estimador); y toma la siguiente expresión:

u(hn)= ¡E[fn(x, hn)-f(x)]2dx. (0.4)

2.1. - TIPOS DE FUNCIONES NÚCLEO.

Cualquiera de los estimadores no paramétricos a que nos hemos referido en el capitulo 1 puede emplearse en la estimación de funciones de densidad unidimensionales. El uso más frecuente

(54)

de los estimadores núcleo es debido a la aplicabilidad del método y al conocimiento de muchas de sus propiedades. Estas dependen fundamentalmente de la función núcleo empleada siendo, por tanto, de gran interés una elección apropiada de esta función.

A continuación se recogen las funciones núcleo más frecuentes pudiendo agruparse de la siguiente forma:

A) Núcleos polinomiales o de Lecrendre.

En general responden a la forma K(x)= P ( x ) , |x| < I, donde P es un polinomio y K(x)= 0 para |x| > I. Dentro de este grupo, por su frecuente aparición podemos destacar:

(1) Núcleos uniformes:

K(x)= 1, si |x|< 1/2. (Deheuvels, 1977). K(x)= 1/2, si |x|< 1. (Rosenblatt, 1956). (2) Núcleos de Epanechnikov (1969):

K(x) = 1- x2, si \x\< 1

K(x)= -A_ 1 - ^ | , si \x\< ^5

4v/5 V =»

(3) Núcleos de Legendre (Deheuvels, 1977) De orden 1,

K(x) = — ( 3 - 5x2) , si \x\< 1 o

De o r d e n 2 ,

K(x) = -^- ( 1 5 - 10x2+ 63x4) , si \x\< 1 .

1 < G O