Curso de Estadística no-paramétrica
Sesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad y bondad de ajuste
Facundo Muñoz
Grup d’Estadística espacial i Temporal Departament d’Estadística
en Epidemiologia i Medi Ambient i Investigació Operativa
Universitat de València
Junio 2013
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Ejemplo
Mortalidad infantil vs. PIB
mortalidadInfantil-PIB.csv1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 50 100 150 0 10000 20000 30000 40000
PIB per cápita (US$)
Mor
talidad inf
antil (x 1000)
Relación entre las tasas de
mortalidad infantil (por mil nacidos vivos) y el PIB per cápita (en
dólares) para 193 países del mundo.
Las variables están claramente asociadas, pero la relación es no lineal. La línea de regresión no paramétrica fue producida por el método de regresión polinomial local lowess. Uno de los métodos no
paramétricos más comunes.
1
John Fox and Sanford Weisberg (2011). An R Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL:
Regresión paramétrica vs. no paramétrica
Métodos de regresión
Objetivo: estimar el valor central (media, mediana) de una variable
respuesta y (cuantitativa) como una función de una o más (co)variables
predictivas (también cuantitativas).
Hipótesis de la regresión lineal (paramétrica) Asociación lineal: E(y|x) = µ(x) = α +βx
Normalidad: y|x ∼ N µ(x), σ2(x)
Homocedasticidad: σ2(x) = σ2
Independencia
La regresión no paramétrica sustituye la hipótesis de linealidad por la de
suavidad en la función de regresión
3 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Transformación de variables
Hipótesis de linealidad
Cuando la hipótesis de linealidad falla, a veces es posible trabajar de forma paramétrica con una transformación de las variables.
Esto suele ser preferible a una regresión no paramétrica
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 50 100 150 100 1000 10000
log−PIB per cápita (US$)
log−Mor
talidad inf
antil (x 1000)
Interpretabilidad de los coeficientes. Pendiente
−0,5: por cada punto
porcentual de incremento en el PIB per cápita se observa una reducción de un 0,5% en la mortalidad infantil
(elasticidad).
Métodos de regresión no paramétrica
Medias móviles: calcular la media de y en una ventana alrededor de cada valor de x
Medias móviles ponderadas (suavización kernel): ponderar los datos en función de la distancia
Regresión polinomial local: ajustar un polinomio por mínimos cuadrados a los puntos en una ventana local, ponderados por la distancia
5 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Parámetros de ajuste
Función kernel
Forma de la función de ponderación
Funciones comunes: uniforme, triangular, gaussiana, tricúbica, etc. Difieren en la rapidez con que decae el peso relativo con la distancia
Parámetros de ajuste
Ancho de banda
Regula a cuántos vecinos afecta la función Kernel
Normalmente es variable, y se regula para que en cada punto la ponderación se realice sobre una cierta proporción de las
observaciones
A mayor ancho de banda, más suave es la curva de regresión
7 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Inferencia
En una regresión paramétrica, los objetos de estimación son los
coeficientes de regresión. Rutinariamente se calculan intervalos de confianza o se contrasta la hipótesis de que sean diferentes de cero. En regresión no paramétrica no hay coeficientes de regresión. El objeto central de estimación es la función de regresión.
En cambio, se pueden construir bandas de confianza sobre la media de y para cada valor de x, a partir de las hipótesis de independencia, homocedasticidad y normalidad. ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 50 100 150 Mor talidad inf antil (x 1000)
Métodos de regresión no paramétrica
ImplementaciónSPSS
Puede añadirse manualmente una curva de regresión (lowess)
Pero no parece haber forma de recoger los valores predichos en una nueva variable, ni de utilizar la curva como efecto estimado en un modelo más complejo, ni de hacer inferencia
Está disponible sólo como un elemento descriptivo para valorar visualmente la relación entre dos variables
Ejercicio
Ajustar una curva no paramétrica a los datos de
mortalidadInfantil-PIB.csv
Explorar las diferencias en el ajuste con diferentes anchos de banda y funciones kernel
Ajustar un modelo lineal con las variables transformadas (log)
9 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Métodos de regresión no paramétrica
Más cosasEn regresión múltiple (i.e., más de una variable predictiva) aparecen nuevos problemas (e.g., correlación entre predictores, interacciones, etc.)
Una estrategia popular son los Modelos de Regresión Aditivos en los que se especifica la media de la variable respuesta como la suma de funciones suaves de los regresores
E(y|x1, . . . ,xk) = α+ f1(x1) + · · ·+ fk(xk)
Cuando la variable respuesta no es Normal, se generaliza todo lo anterior a Modelos de Regresión (Aditivos) Generalizados.
También aparecen el problema de selección de variables y comparación de modelos
Todo esto se escapa del alcance de este curso, y del software utilizado.
Aleatoriedad o independencia
Ejemplo
Queremos saber si la evolución de cierto valor es aleatoria o sigue algún patrón (tendencia, ciclo) que nos permita predecir las ganancias o
pérdidas.
Esta pregunta la podemos responder con un contraste de aleatoriedad Equivale a preguntarse si las observaciones son independientes entre sí Muchos métodos no paramétricos asumen la independencia como hipótesis de trabajo.
11 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Test de aleatoriedad por Rachas
Contraste de Wald–Wolfowitz
Transformar los datos en una secuencia de dos símbolos, de acuerdo a su valor, y contar el número de rachas de la muestra. Un número de rachas demasiado alto o demasiado bajo será evidencia de una muestra no
aleatoria.
+ + + + + + − − − − −− R = 2 rachas (correlación positiva)
+ − +− + −+ −+ − +− R = 12 rachas (correlación negativa)
+ + +− − + + + +− −− R = 4 rachas (posiblem. independientes)
Ejemplo: variable continua
Codificar los datos como + si el valor está por encima de cierto valor, o como − si está por debajo.
Si la muestra es aleatoria, se puede calcular el número aproximado de Rachas que deberían observarse
Test de aleatoriedad por Rachas
ImplementaciónSPSS
La variable debe ser Cuantitativa, o Nominal, con una codificación numérica
Si es necesario, Transformar:Recodificación automática Analizar:Pruebas no paramétricas:Rachas...
Ejercicio
Recodificar automáticamente la variable progenie en
progenie-cebada.csv
Comprobar si la muestra puede considerarse aleatoria utilizando diversos puntos de corte
13 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Variables categóricas
Variables categóricas (o cualitativas, o factores)
Aquellas que pueden tomar un número finito de valores
Ejemplos y clasificación
Nominales Grupo sanguíneo {A, B, AB, O}
Dicotómicas o binarias Sexo {H, M}; Factor RH {+, -}
Ordinales Concentración {Baja, Media, Alta}; Grupo de edad {0-25, 26-40, 40-60, 60+}
SPSS
Es importante definir correctamente el tipo de variable en SPSS ya que los métodos disponibles dependen de ello
Vista de variables:Medida
Ejemplo
Características de una progenie
Ejemplo 1.- En un estudio sobre el cruce de variedades de cebada, se observaron dos características: presentar 2 filas de granos (a) o no (A, dominante), y tener color verde (B, dominante) o ser planta clorótica (b). La combinación de estas características nos da cuatro posibilidades: verdes sin dos filas de granos, verdes con dos filas, cloróticas sin dos filas y
cloróticas con dos filas. Se recogieron datos de cruces entre heterozigóticos (AaBb), resultando:
Verde sin 2 filas 1178 Verde con 2 filas 291 Clorótica sin 2 filas 273 Clorótica con 2 filas 156 Total 1898
¿Se cumple la segregación normal dihíbrida con dominación completa (AaBb x AaBb –> 9 A-B- ; 3 A-bb ; 3 aaB- ; 1 aabb)?
15 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Abstracción
Bondad de ajuste de una población
Tenemos una población (la progenie de los cruces heterozigóticos) Una única variable respuesta: combinación del cruce (categórica con 4 categorías).
Objetivo: comprobar si se cumplen las proporciones (9/16, 3/16, 3/16, 1/16).
Test de bondad de ajuste
Consideremos una variable categórica con k categorías y una muestra
aleatoria de N observaciones de esa variable. Las observaciones se clasifican según las k categorías y se representan en una tabla de frecuencias absolutas (O1, . . . ,Ok).
Nuestro objetivo es contrastar si la proporción poblacional de cada categoría (π1, . . . , πk) cumple unas proporciones prefijadas
(p1, . . . ,pk). H0: π1 = p1, . . . , πk = pk
Si la hipótesis H0 fuera cierta, las frecuencias esperadas serían
Ei = Nπi.
Para comparar las frecuencias observadas con las frecuencias esperadas podemos utilizar el estadístico de contraste:
χ2s = X i (Oi −Ei)2 Ei ∼ χ2(k − 1) 17 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Test de bondad de ajuste
Implementación
SPSS
La variable debe ser Nominal, con una codificación numérica
Si no es así, utilizar Transformar:Recodificación automática Analizar:Pruebas no paramétricas:Chi-cuadrado...
Ejercicio
Comprobar las proporciones teóricas del banco de datos
progenie-cebada.csv