Capítulo 3. Construcción de una tabla de vida
3.2 Métodos no paramétricos
A pesar de que los modelos paramétricos son métodos eficaces cuando se tiene
información del modelo que ajusta a las variables y sólo falta determinar un número
finito de parámetros, sin embargo, puede ser que la familia paramétrica elegida no sea
adecuada. Si no se esta seguro del modelo paramétrico supuesto, se sugiere utilizar
los métodos no paramétricos.
3.2.1 Técnicas de suavizado
Aquí se revisarán las distintas técnicas de suavizado (smoothing) para analizar algunas
de ellas con más detalle. La tarea de las técnicas de suavizado es disminuir la
variabilidad, para lo cual se deben modificar los datos observados mediante
procedimientos que permiten obtener una nueva serie de la que se han eliminado las
variaciones.
El procedimiento utiliza un valor de suavizamiento que en términos generales se basa
en obtener una media local. Se diferencian unos de otros por el método utilizado para
promediar y por tanto de asignar ponderaciones, pero además dentro de un tipo
determinado podemos obtener diferentes resultados según sea el tamaño de la
vecindad utilizada, es decir, el número de observaciones que intervienen en la
obtención de la media. Cuanto mayor es el tamaño de la vecindad menor es la varianza
pero mayor será el sesgo y viceversa. Hay diversos métodos para determinar el
29
tamaño de la vecindad o el “ancho de la banda” De acuerdo a Benjamín y Pollard
(1992), los tipos de smoother son:
Media móvil. El método de las medias móviles en estadística es un método
utilizado para analizar un conjunto de datos en modo de puntos para crear series
de promedios. Así las medias móviles son una lista de números en la cual cada
uno es el promedio de un subconjunto de los datos originales.
Para cada valor xi se define la vecindad simétrica de tamaño k.
�
{�
}
El método de medias móviles sustituye la observación yi por la media de las
observaciones de su vecindad, con ind(NS(xi)) conjunto de índices de la
vecindad. Para los puntos iniciales y finales de la serie que disten menos de k
unidades de los extremos.
Smoother de vecindad más cercana. De la expresión anterior, ignorando la
simetría, se pueden tomar la distancia 2k más cercana a xi independientemente
de que lado se encuentre (izquierda o derecha) y después promediarla. Así se
está encontrando la vecindad más cercana.
Regresión Local. La regresión local es un enfoque de ajuste de curvas (o
superficies) a datos mediante suavizados en los que el ajuste en x se realiza
utilizando únicamente observaciones en un entorno de x. Al realizar una
regresión local puede utilizarse una familia paramétrica al igual que en un ajuste
de regresión global pero solamente se realiza el ajuste localmente.
30
Sobre la función de regresión , tales como continuidad y derivabilidad de
manera que pueda estar bien aproximada localmente por polinomios de un cierto
grado.
Sobre la variabilidad de Y alrededor de la curva , por ejemplo variabilidad
constante.
- Los métodos de estimación que resultan de este tipo de modelos son
relativamente simples:
- Para cada punto x, se define un entorno.
- Dentro de ese entorno suponemos que la función regresiva es aproximada
por algún miembro de la familia paramétrica que podría ser de polinomios
cuadráticos: g(u) = a0 + a1(u - x) +a2(u -x)2.
- Luego se estiman los parámetros con las observaciones en el entorno.
- El ajuste local es el la función ajustada evaluada en x.
Por todo lo anterior, se puede decir que un método que resuelve la fluctuación
de las medias móviles es el smoother de regresión local. Se trata de ajustar una
recta de mínimos cuadrados a cada vecindad de tamaño fijo. Una mejora de éste
método es el uso de rectas de regresión utilizando ponderaciones que
disminuyan en relación con la lejanía del punto.
Splines cúbicos. Se define spline como una función polinomial dividida en trozos
(partes) donde el número máximo de derivadas existe. Sea una partición del
intervalo [a ; b] dada por los puntos a = x1 < x2
< … < xn = b, s es una función
spline de grado k con nodos x1; x2; … ; xn si es un polinomio de grado k o menor
en cada intervalo [xi , xi+1] y s es (k-1) veces diferenciable.
Los splines cúbicos minimizan la suma de cuadrados ya que presentan la
siguiente característica:
31
Donde es una constante fija y el primer término de la expresión mide la
cercanía a los datos mediante los cuadrados de la diferencia entre observados y
estimados, pero se ve afectado por el segundo término que aumenta con los
cambios de curvatura de la función f(x), de tal forma que los splines cúbicos
intentan maximizar la bondad del ajuste con poca variabilidad.
3.2.2 Selección del parámetro de suavizado
La selección del parámetro bandwidth o tamaño de la vecindad en la ciencia actuarial
es primero elegir el modelo que mejor ajusta a los datos y después contrastar su
suavidad. En la estadística se combinan ambos conceptos utilizando un método para
elegir el tamaño de la vecindad que intenta equilibrar varianza y sesgo.
Verrall (1996) describe el método de validación cruzada como aquel que minimiza:
∑
�̇
�̂
Dado un estimador cualquiera �̂x de la real probabilidad de muerte qx, se elige el valor
del bandwidth b, que minimiza:
∑
�̇
�̂
donde �̂
, es la estimación utilizando todos los valores brutos salvo el i-ésimo. La
validación cruzada consiste en estimar sucesivamente, de uno en uno, el suavizado en
xi a partir de los n - 1 puntos restantes, todos salvo (xi, qi).
In document
Predicción de tablas de vida dinámicas hasta el año 2025 para México.
(página 36-39)