Curso de Estadística no-paramétrica

(1)

Curso de Estadística no-paramétrica

Sesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad y bondad de ajuste

Facundo Muñoz

Grup d’Estadística espacial i Temporal Departament d’Estadística

en Epidemiologia i Medi Ambient i Investigació Operativa

Universitat de València

Junio 2013

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Ejemplo

Mortalidad infantil vs. PIB

mortalidadInfantil-PIB.csv1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● _● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● _● ● ● ● ● ● ● ● ● ● ● ● 0 50 100 150 0 10000 20000 30000 40000

PIB per cápita (US$)

Mor

talidad inf

antil (x 1000)

Relación entre las tasas de

mortalidad infantil (por mil nacidos vivos) y el PIB per cápita (en

dólares) para 193 países del mundo.

Las variables están claramente asociadas, pero la relación es no lineal. La línea de regresión no paramétrica fue producida por el método de regresión polinomial local lowess. Uno de los métodos no

paramétricos más comunes.

1

John Fox and Sanford Weisberg (2011). An R Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL:

(2)

Regresión paramétrica vs. no paramétrica

Métodos de regresión

Objetivo: estimar el valor central (media, mediana) de una variable

respuesta y (cuantitativa) como una función de una o más (co)variables

predictivas (también cuantitativas).

Hipótesis de la regresión lineal (paramétrica) Asociación lineal: E(y|x) = µ(x) = α +βx

Normalidad: y|x ∼ N µ(x), σ2(x)

Homocedasticidad: σ2(x) = σ2

Independencia

La regresión no paramétrica sustituye la hipótesis de linealidad por la de

suavidad en la función de regresión

3 / 18

Transformación de variables

Hipótesis de linealidad

Cuando la hipótesis de linealidad falla, a veces es posible trabajar de forma paramétrica con una transformación de las variables.

Esto suele ser preferible a una regresión no paramétrica

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● _● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 50 100 150 100 1000 10000

log−PIB per cápita (US$)

log−Mor

talidad inf

antil (x 1000)

Interpretabilidad de los coeficientes. Pendiente

−0,5: por cada punto

porcentual de incremento en el PIB per cápita se observa una reducción de un 0,5% en la mortalidad infantil

(elasticidad).

(3)

Métodos de regresión no paramétrica

Medias móviles: calcular la media de y en una ventana alrededor de cada valor de x

Medias móviles ponderadas (suavización kernel): ponderar los datos en función de la distancia

Regresión polinomial local: ajustar un polinomio por mínimos cuadrados a los puntos en una ventana local, ponderados por la distancia

5 / 18

Parámetros de ajuste

Función kernel

Forma de la función de ponderación

Funciones comunes: uniforme, triangular, gaussiana, tricúbica, etc. Difieren en la rapidez con que decae el peso relativo con la distancia

(4)

Parámetros de ajuste

Ancho de banda

Regula a cuántos vecinos afecta la función Kernel

Normalmente es variable, y se regula para que en cada punto la ponderación se realice sobre una cierta proporción de las

observaciones

A mayor ancho de banda, más suave es la curva de regresión

7 / 18

Inferencia

En una regresión paramétrica, los objetos de estimación son los

coeficientes de regresión. Rutinariamente se calculan intervalos de confianza o se contrasta la hipótesis de que sean diferentes de cero. En regresión no paramétrica no hay coeficientes de regresión. El objeto central de estimación es la función de regresión.

En cambio, se pueden construir bandas de confianza sobre la media de y para cada valor de x, a partir de las hipótesis de independencia, homocedasticidad y normalidad. ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 50 100 150 Mor talidad inf antil (x 1000)

(5)

Métodos de regresión no paramétrica

Implementación

SPSS

Puede añadirse manualmente una curva de regresión (lowess)

Pero no parece haber forma de recoger los valores predichos en una nueva variable, ni de utilizar la curva como efecto estimado en un modelo más complejo, ni de hacer inferencia

Está disponible sólo como un elemento descriptivo para valorar visualmente la relación entre dos variables

Ejercicio

Ajustar una curva no paramétrica a los datos de

mortalidadInfantil-PIB.csv

Explorar las diferencias en el ajuste con diferentes anchos de banda y funciones kernel

Ajustar un modelo lineal con las variables transformadas (log)

9 / 18

Métodos de regresión no paramétrica

Más cosas

En regresión múltiple (i.e., más de una variable predictiva) aparecen nuevos problemas (e.g., correlación entre predictores, interacciones, etc.)

Una estrategia popular son los Modelos de Regresión Aditivos en los que se especifica la media de la variable respuesta como la suma de funciones suaves de los regresores

E(y|x1, . . . ,xk) = α+ f1(x1) + · · ·+ fk(xk)

Cuando la variable respuesta no es Normal, se generaliza todo lo anterior a Modelos de Regresión (Aditivos) Generalizados.

También aparecen el problema de selección de variables y comparación de modelos

Todo esto se escapa del alcance de este curso, y del software utilizado.

(6)

Aleatoriedad o independencia

Ejemplo

Queremos saber si la evolución de cierto valor es aleatoria o sigue algún patrón (tendencia, ciclo) que nos permita predecir las ganancias o

pérdidas.

Esta pregunta la podemos responder con un contraste de aleatoriedad Equivale a preguntarse si las observaciones son independientes entre sí Muchos métodos no paramétricos asumen la independencia como hipótesis de trabajo.

11 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Test de aleatoriedad por Rachas

Contraste de Wald–Wolfowitz

Transformar los datos en una secuencia de dos símbolos, de acuerdo a su valor, y contar el número de rachas de la muestra. Un número de rachas demasiado alto o demasiado bajo será evidencia de una muestra no

aleatoria.

+ + + + + + − − − − −− R = 2 rachas (correlación positiva)

+ − +− + −+ −+ − +− R = 12 rachas (correlación negativa)

+ + +− − + + + +− −− R = 4 rachas (posiblem. independientes)

Ejemplo: variable continua

Codificar los datos como + si el valor está por encima de cierto valor, o como − si está por debajo.

Si la muestra es aleatoria, se puede calcular el número aproximado de Rachas que deberían observarse

(7)

Test de aleatoriedad por Rachas

Implementación

SPSS

La variable debe ser Cuantitativa, o Nominal, con una codificación numérica

Si es necesario, Transformar:Recodificación automática Analizar:Pruebas no paramétricas:Rachas...

Ejercicio

Recodificar automáticamente la variable progenie en

progenie-cebada.csv

Comprobar si la muestra puede considerarse aleatoria utilizando diversos puntos de corte

13 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Variables categóricas

Variables categóricas (o cualitativas, o factores)

Aquellas que pueden tomar un número finito de valores

Ejemplos y clasificación

Nominales Grupo sanguíneo {A, B, AB, O}

Dicotómicas o binarias Sexo {H, M}; Factor RH {+, -}

Ordinales Concentración {Baja, Media, Alta}; Grupo de edad {0-25, 26-40, 40-60, 60+}

SPSS

Es importante definir correctamente el tipo de variable en SPSS ya que los métodos disponibles dependen de ello

Vista de variables:Medida

(8)

Ejemplo

Características de una progenie

Ejemplo 1.- En un estudio sobre el cruce de variedades de cebada, se observaron dos características: presentar 2 filas de granos (a) o no (A, dominante), y tener color verde (B, dominante) o ser planta clorótica (b). La combinación de estas características nos da cuatro posibilidades: verdes sin dos filas de granos, verdes con dos filas, cloróticas sin dos filas y

cloróticas con dos filas. Se recogieron datos de cruces entre heterozigóticos (AaBb), resultando:

Verde sin 2 filas 1178 Verde con 2 filas 291 Clorótica sin 2 filas 273 Clorótica con 2 filas 156 Total 1898

¿Se cumple la segregación normal dihíbrida con dominación completa (AaBb x AaBb –> 9 A-B- ; 3 A-bb ; 3 aaB- ; 1 aabb)?

15 / 18

Abstracción

Bondad de ajuste de una población

Tenemos una población (la progenie de los cruces heterozigóticos) Una única variable respuesta: combinación del cruce (categórica con 4 categorías).

Objetivo: comprobar si se cumplen las proporciones (9/16, 3/16, 3/16, 1/16).

(9)

Test de bondad de ajuste

Consideremos una variable categórica con k categorías y una muestra

aleatoria de N observaciones de esa variable. Las observaciones se clasifican según las k categorías y se representan en una tabla de frecuencias absolutas (O1, . . . ,Ok).

Nuestro objetivo es contrastar si la proporción poblacional de cada categoría (π1, . . . , πk) cumple unas proporciones prefijadas

(p1, . . . ,pk). H0: π1 = p1, . . . , πk = pk

Si la hipótesis H0 fuera cierta, las frecuencias esperadas serían

Ei = Nπi.

Para comparar las frecuencias observadas con las frecuencias esperadas podemos utilizar el estadístico de contraste:

χ2_s = X i (Oi −Ei)2 Ei ∼ χ2(k − 1) 17 / 18

Test de bondad de ajuste

Implementación

SPSS

La variable debe ser Nominal, con una codificación numérica

Si no es así, utilizar Transformar:Recodificación automática Analizar:Pruebas no paramétricas:Chi-cuadrado...

Ejercicio

Comprobar las proporciones teóricas del banco de datos

progenie-cebada.csv