• No se han encontrado resultados

Diagnosis en el modelo de regresión lineal normal

N/A
N/A
Protected

Academic year: 2021

Share "Diagnosis en el modelo de regresión lineal normal"

Copied!
87
0
0

Texto completo

(1)

Universidade de Vigo

Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de

regresión lineal normal regresión lineal normal regresión lineal normal regresión lineal normal

Log L (θ ) Elementos de diagnosis, interpretación y análisis θ Log L (θ Log L (θ ∗) Log L A B(θ0 ) Log L (θ 0 ) ) Β Α θ ∗ θ 0

(2)

Universidade de Vigo Universidade

de Vigo

Justificación del tema Justificación del tema Justificación del tema Justificación del tema

Hasta ahora hemos considerado que las principales suposiciones

del modelo se verificaban, y en consecuencia, los estimadores MCO eran los más eficientes.

Sin embargo, cuando trabajamos con datos reales, no siempre es Sin embargo, cuando trabajamos con datos reales, no siempre es

esto cierto, y necesitamos algún instrumento que nos permita ver que suposiciones son válidas y cuales no.

(3)

Universidade de Vigo Universidade de Vigo Fuentes de Fuentes de Fuentes de

Fuentes de

elaboración

elaboración

elaboración

elaboración

de modelosde modelosde modelosde modelos

La fundamentación teórica, esto es, de la teoría

económica o de la empresa.

Depende de cada problema concreto

El análisis de datos o elementos estadísticos de

diagnosis.

(4)

Universidade de Vigo Universidade de Vigo Fallos en el modelo Fallos en el modelo Fallos en el modelo Fallos en el modelo

Un modelo puede fallar por dos tipos de causas:

El modelo está mal especificado, es decir alguna suposición de partida no se verifica.

Existen datos que provienen de otra población y contaminan el modelo.

Cuando el modelo obtenido no se ve afectado por cambios en Cuando el modelo obtenido no se ve afectado por cambios en

las suposiciones o los datos se dice que es robusto.

La diagnosis nos permite determinar el grado de robustez del

(5)

Universidade de Vigo Universidade de Vigo Necesidad de la diagnosis Necesidad de la diagnosis Necesidad de la diagnosis Necesidad de la diagnosis

A continuación se van a exponer de modo gráfico cuatro

modelos cuyos resultados de la regresión son casi equivalentes aparentemente.

El coeficiente de determinación vale en todos los casos 0,985 y

los coeficientes estimados son muy similares. los coeficientes estimados son muy similares.

Variable Name Estimated Coefficient Caso1 X 0.84 CONSTANT 19.15 Caso2 X 0.80 CONSTANT 19.87 Caso3 X 0.90 CONSTANT 18.08 Caso4 X 0.80 CONSTANT 20.00

(6)

Universidade de Vigo Universidade

de Vigo

Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la nube de puntos nube de puntos nube de puntos nube de puntos 1 2 3 4

(7)

Universidade de Vigo

Residuos ResiduosResiduos Residuos

(8)

Universidade de Vigo Universidade de Vigo Interpretación InterpretaciónInterpretación Interpretación

(1) modelo bien especificado

(2) forma funcional mal especificada: imponemos

una relación lineal que en la realidad no existe

(3) hay un valor influyente que cambia la dirección (3) hay un valor influyente que cambia la dirección

de la recta y que, además, es atípico

(4) tenemos un valor de comportamiento influyente,

(9)

Universidade de Vigo Universidade

de Vigo

Elementos para analizar en un Elementos para analizar en un Elementos para analizar en un Elementos para analizar en un modelo

modelomodelo modelo

Eso nos indica que no solo se deben examinar la salida sino

también diagnosticar el modelo.

Los elementos que se deben tener en cuenta a la hora de la

17/12/2007

Los elementos que se deben tener en cuenta a la hora de la

diagnosis son:

1º El comportamiento de los datos.

(10)

Universidade de Vigo Universidade

de Vigo

El comportamiento de los datos El comportamiento de los datos El comportamiento de los datos El comportamiento de los datos

Los datos marcan si el modelo con

el que se trabaja es válido o no.

De modo complementario, el

modelo ayuda a ver si los datos son coherentes con el

son coherentes con el

comportamiento esperado o no, existe por tanto un proceso de retroalimentación entre datos y modelo, por lo que en la practica hay que buscar un equilibrio entre ambos.

Datos Modelo

(11)

Universidade de Vigo Universidade

de Vigo

Proceso de diagnosis de un modelo Proceso de diagnosis de un modelo Proceso de diagnosis de un modelo Proceso de diagnosis de un modelo

1. Se empieza con un modelo, se estima y se analiza si existen datos

extraños al modelo, suponiendo válidas todas las suposiciones.

2. En caso de datos extraños se eliminan esos (o se corrigen) y se

revisa el modelo de nuevo.

3. Si alguna suposición falla, se corrige y se vuelve a revisar el 3. Si alguna suposición falla, se corrige y se vuelve a revisar el

modelo corregido.

4. Ese proceso se repite hasta que haya una adecuación conveniente

entre modelo y datos.

Eso exige analizar los factores que afectan al Eso exige analizar los factores que afectan al comportamiento de los datos

(12)

Universidade de Vigo Universidade

de Vigo

Factores que afectan a los datos Factores que afectan a los datosFactores que afectan a los datos Factores que afectan a los datos

A los datos que tengan un comportamiento muy distinto del

resto se les conoce como valores atípicos o anómalos. Un valor no es atípico siempre, sino que depende del entorno donde se estudie:

17/12/2007

donde se estudie:

1. El contexto del análisis

2. La muestra considerada

3. La forma funcional del modelo

(13)

Universidade de Vigo Universidade

de Vigo

Valores atípicos o anómalos Valores atípicos o anómalosValores atípicos o anómalos Valores atípicos o anómalos

*

Rregresión curvilinea

Valor atípico bajo la

regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * * * Regresión lineal A B

(14)

Universidade de Vigo Universidade de Vigo Elementos de Diagnosis Elementos de Diagnosis Elementos de Diagnosis Elementos de Diagnosis

Medidas basadas en los residuos Gráficos

Estadísticos y test de hipótesisEstadísticos y test de hipótesis

El orden de análisis es

1. Gráficos

2. Estadísticos y análisis de los residuos 3. Test de hipótesis

Se vieron en la asignatura de estadística y sólo los comentaremos a medida que

(15)

Universidade de Vigo

Instrumentos gráficos que permiten evaluar la

Gráficos para la diagnosis Gráficos para la diagnosisGráficos para la diagnosis Gráficos para la diagnosis

Instrumentos gráficos que permiten evaluar la calidad del modelo

(16)

Universidade de Vigo Universidade de Vigo Ruido Blanco Ruido Blanco Ruido Blanco Ruido Blanco Sucesión de variables aleatorias + + * * * *

El modelo bien especificado tiene residuos que se comportan El modelo bien especificado tiene residuos que se comportan como un ruido blanco.

como un ruido blanco. aleatorias independientes: Media cero Varianza constante Simétrica 0 -ei 0 -e * * * * * * * * * * * * * * * * * * * * * * * X

(17)

Universidade de Vigo Universidade

de Vigo

Comportamiento de los residuos Comportamiento de los residuos Comportamiento de los residuos Comportamiento de los residuos

Las perturbaciones del MRLN deberían comportarse como un

ruido blanco, puesto que son independientes e igualmente distribuidas con media 0 y simétricas.

Los residuos de la regresión son aproximaciones a las

perturbaciones y aunque no son independientes ni con varianza constante son bastante cercanos a ese comportamiento, por lo que constante son bastante cercanos a ese comportamiento, por lo que suponemos que bajo todas las suposiciones del modelo deberían comportarse casi como ruido blanco.

En todos los gráficos donde se representen los residuos respecto a

alguna variable, estos deben verificar que bajo las suposiciones del MRLN debería ser cercanos a un ruido blanco.

(18)

Universidade de Vigo Universidade

de Vigo

Gráficos de residuos Gráficos de residuosGráficos de residuos Gráficos de residuos

Por tanto, los residuos debe verificar:

E(e)=0;

los residuos deben oscilar alrededor del 0, no deben presentar ninguna forma funcional Var(e)= constante aproximadamente.

Los residuos deben dispersarse de forma homogénea, estar comprendidos entre dos bandas Independencia:

Los residuos no deben presentar relaciones entre ellos, formas graficas encadenadas.

Normalidad

Los residuos deben estar cercanos al 0, simétricos a cada lado y las bandas no muy alejadas del 0 (alrededor de dos veces la desviación estándar).

Eso significa que cualquier forma en que se aleje de esas

características existe un fallo de alguna suposición.

(19)

Universidade de Vigo

Gráfico resumen de calidad del Gráfico resumen de calidad del Gráfico resumen de calidad del Gráfico resumen de calidad del modelo modelo modelo modelo E 0.5 0.9 * * * *

Residuos respecto a valores estimados

5.8 6.6 7.3 8.02 8.77 9.4. E -0.5 0 * * * * * * * * * * * * * * Y ^

(20)

Universidade de Vigo Universidade

de Vigo

Conceptos asociados al gráfico Conceptos asociados al gráfico Conceptos asociados al gráfico Conceptos asociados al gráfico

Este gráfico representa los residuos frente a los valores estimados de la

variable dependiente.

Los residuos deben verificar las condiciones del ruido blanco. La variable independiente en este caso es el valor estimado de la

dependiente, por tanto recoge los posibles efectos de esta variable sobre el dependiente, por tanto recoge los posibles efectos de esta variable sobre el comportamiento de los residuos.

Esa variable contiene información sobre:

La variable dependiente, puesto que es la mejor aproximación lineal en función de las independientes Las variables independientes, puesto que todas intervienen en la estimación.

Eso significa que nos da información sobre como influyen tanto la variable

dependiente como las independientes sobre los residuos. En ese sentido se habla de resumen de la calidad del modelo puesto que integra todos los componentes de este.

(21)

Universidade de Vigo Universidade

de Vigo

Interpretación del gráfico Interpretación del gráfico Interpretación del gráfico Interpretación del gráfico

Se observa si existe:

Linealidad,

no se debe observar ninguna forma funcional. La media es constante e igual a

cero en todos los casos

Normalidad

Los datos se distribuyen de forma simétrica y más concentrados alrededor del

0. 0.

Homocedasticidad

La varianza es constante, dispersión igual para todos la serie.

Estabilidad

No se producen cambios repentinos de la serie de residuos

Independencia

No se observan relaciones entre residuos o grupos de residuos en la evolución

(22)

Universidade de Vigo

Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores predichos en la empresa XUMA

predichos en la empresa XUMA predichos en la empresa XUMA predichos en la empresa XUMA

0.4 0.6 0.8 SHAZAM PLOT E Valor atípico -0.4 -0.2 0 0.2 0.4 11.5 12 12.5 13 13.5 14 14.5 15 15.5 16 16.5 E YE atípico

(23)

Universidade de Vigo Universidade

de Vigo

Tipos de Gráficos Tipos de GráficosTipos de Gráficos Tipos de Gráficos

De los residuos

Se representan los residuos respecto a algunas variables que dan información

especifica del fallo de alguna suposición. Cada tipo específico se estudiará en la correspondiente suposición.

De los residuos al cuadrado

Se representan los residuos al cuadrado respecto a algunas variables que dan Se representan los residuos al cuadrado respecto a algunas variables que dan

información especifica del fallo la heterocedasticidad. Se estudiarán en esa suposición.

Gráficos de regresión parcial

Miden el efecto que tendría en la regresión el añadir una nueva variable

independiente. Se estudiarán a continuación.

Gráficos de probabilidad y de distribución

Miden la forma de la distribución de los residuos. Se estudiarán con la

(24)

Universidade de Vigo

Ejemplos de Gráficos de los residuos Ejemplos de Gráficos de los residuos Ejemplos de Gráficos de los residuos Ejemplos de Gráficos de los residuos

Y ^ 0 + ^ 0 + e t * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * E . . 0 . . -0.5 0,5 1 Respecto a la variable estimada Respecto a variables exógenas Y ^ -^ t -* * * * LA 6. 7 8 9. 10 * * * * * . -0.5 Respecto a residuos retardados 0 + -et et-1 * * * ** * * * * * * * * * * * * * * * *

(25)

Universidade de Vigo

Ejemplos de Ejemplos de Ejemplos de

Ejemplos de Gráficos de los residuos Gráficos de los residuos Gráficos de los residuos Gráficos de los residuos al cuadrado

al cuadrado al cuadrado al cuadrado

Respecto a la variable estimada Respecto a variables exógenas

+ + * * 2 * * * . . 0,5 1 Y ^ 0 -^ t 0 -e t * * * * * * * * * * * * * * * * * * * 2 LA 6. 7 8 9. 10 * * * * * * * * * * * * * * * E2 . . 0 -0.5

(26)

Universidade de Vigo

Ejemplos de Ejemplos de Ejemplos de

Ejemplos de Gráficos de Gráficos de Gráficos de Gráficos de probabilidad probabilidad probabilidad probabilidad y distribuciones

y distribuciones y distribuciones y distribuciones

Grafico de probabilidad respecto a una normal

(27)

Universidade de Vigo

Gráficos de regresión parcial Gráficos de regresión parcialGráficos de regresión parcial Gráficos de regresión parcial

5 114 * * * * * *

Este gráfico nos indica el efecto que tendría en la regresión el añadir la variable Xj la última. EA -1. 7 -.9 -.2 .5 1.3 2. 5 E -12 2. - 6 -4 * * * * * * * * * * * * * * * * * * variable Xj la última. La pendiente de la línea de regresión en el gráfico nos da el coeficiente de regresión parcial.

(28)

Universidade de Vigo Universidade

de Vigo

Método de construcción Método de construcciónMétodo de construcción Método de construcción

Trata de medir el efecto directo de una variable independiente

sobre la dependiente una vez eliminado el efecto de todas las demás variables independientes, es decir su coeficiente de regresión

parcial.

De ahí que primero haya que quitar los efectos de todas las

independientes tanto sobre la dependiente como sobre la otra independientes tanto sobre la dependiente como sobre la otra independiente.

Por lo tanto el método de construcción es el siguiente:

1. Se calcula e(j) el residuo de la regresión de y respecto a todas las

variables menos Xj;

2. Se calcula u(j) el residuo de la regresión de Xj respecto a las otras

independientes.

(29)

Universidade de Vigo

Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA de VAB sobre inversiones

de VAB sobre inversiones de VAB sobre inversiones de VAB sobre inversiones

0.4 0.6 0.8 SHAZAM PLOT E1 -0.6 -0.4 -0.2 0 0.2 0.4 -4 -3 -2 -1 0 1 2 3 4 5 E1 E21 Corte en la pendiente y un valor extraño

(30)

Universidade de Vigo

Gráfico de regresión parcial en la Gráfico de regresión parcial en la Gráfico de regresión parcial en la Gráfico de regresión parcial en la relación desigualdad de la renta relación desigualdad de la renta relación desigualdad de la renta relación desigualdad de la renta respecto a democratización respecto a democratización respecto a democratización respecto a democratización 7 8 9 10 INEQ Valor especial. Posible influyente

Pendiente que mide el efecto directo de la democratización 1 2 3 4 5 6 7 10 20 30 40 50 60 70 80 90 IN E Q TURNOUT influyente Forma no lineal posiblemente por el valor influyente sobre la desigualdad

(31)

Universidade de Vigo

Análisis de residuos Análisis de residuosAnálisis de residuos Análisis de residuos

El conocimiento de los residuos para evaluar gráficos y elementos de diagnosis

(32)

Universidade de Vigo Universidade

de Vigo

Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Ordinarios Ordinarios Ordinarios Ordinarios Definición e=Y-Xb Propiedades e=My e=My

Siguen leyes normales N(0,σ2M)

Son ortogonales a los regresores Xe=0

(33)

Universidade de Vigo Universidade

de Vigo

Efecto de una suposición sobre el Efecto de una suposición sobre el Efecto de una suposición sobre el Efecto de una suposición sobre el modelo estimado

modelo estimado modelo estimado modelo estimado

Un modelo mal especificado no verifica alguna de las

suposiciones de partida.

Por ejemplo si el modelo es cuadrático en vez de lineal, los residuos dependerán de la variable independiente al cuadrado, en vez de tener media 0.

Los residuos siguen leyes normales N(αx2,σ2M) Los residuos siguen leyes normales N(αx2,σ2M) Por tanto su forma no será centrada en el 0

(34)

Universidade de Vigo

Efectos de una observación sobre el Efectos de una observación sobre el Efectos de una observación sobre el Efectos de una observación sobre el modelo estimado

modelo estimado modelo estimado modelo estimado

Todo valor tiene un efecto sobre

la estimación del modelo:

Unos afectan más y otros

menos.

Los que cambian mucho el

modelo se denominan regresión sin i i cambia algo la y modelo se denominan influyentes

Esa influencia puede deberse a

las variables independientes o a la dependiente

Las diferentes medias de

influencia buscan también la causa 17/12/2007 regresión con i algo la recta de regresión x

(35)

Universidade de Vigo Efecto de un en punto Efecto de un en punto Efecto de un en punto Efecto de un en punto regresión sin i y La distancia a la recta afecta en la variable dependiente regresión con i x y

Cuanto mas cerca del centro esta el punto

menos efecto tiene

La distancia la centro afecta

en la variable independiente

(36)

Universidade de Vigo Universidade

de Vigo

Medidas basadas en los residuos Medidas basadas en los residuos Medidas basadas en los residuos Medidas basadas en los residuos

Medidas de influencia debidas a las

variables independientes

Distancia de Mahalanobis Niveles de influencia

Medidas de influencia debidas a la

variable dependiente: Residuos estandarizados Valores Valores Valores Valores potencialmente potencialmente potencialmente potencialmente influyentes influyentes influyentes influyentes Residuos estandarizados Residuos estudentizados-Valores atípicos Residuos predichos

Medidas de influencia conjunta

DFFIT DFBETAS COVRATIO Valores Valores Valores Valores atípicos atípicos atípicos atípicos Valores Valores Valores Valores influyentes influyentes influyentes influyentes

(37)

Universidade de Vigo Universidade

de Vigo

Efectos de los diferentes tipos de Efectos de los diferentes tipos de Efectos de los diferentes tipos de Efectos de los diferentes tipos de puntos sobre la regresión

puntos sobre la regresión puntos sobre la regresión puntos sobre la regresión

Se va a analizar el efecto de los valores potencialmente

influyentes según su distancia a la media en el espacio de variables independientes:

1. Valores cercanos a la media 2. Valores intermedios

2. Valores intermedios

(38)

Universidade de Vigo Universidade de Vigo Observaciones no alejadas de la Observaciones no alejadas de la Observaciones no alejadas de la Observaciones no alejadas de la media media media media y regresión con i y regresión sin i regresión con i regresión sin i "i" 17/12/2007 x "i" no atipico x "i" atipico

regresión sin i regresión sin i

(39)

Universidade de Vigo Universidade

de Vigo

Observaciones intermedias Observaciones intermediasObservaciones intermedias Observaciones intermedias y regresión con i y regresión sin i regresión con i regresión sin i "i" 17/12/2007 x "i" no atipico, no influyente x "i" atipico influyente regresión sin i

(40)

Universidade de Vigo Universidade

de Vigo

Observaciones alejadas de la Observaciones alejadas de la Observaciones alejadas de la

Observaciones alejadas de la mediamediamediamedia

regresión sin i i no influyente y regresión sin i regresión con i y 17/12/2007 regresión con i x "i" no influyente x "i" influyente i influyente

(41)

Universidade de Vigo Universidade de Vigo Plan de trabajo Plan de trabajo Plan de trabajo Plan de trabajo

Definir cada una de las medidas utilizadas indicando sus

propiedades, sus ventajas y sus inconvenientes y la necesidad de hacer uso de cada uno de ellos.

Grupo 1 : Medidas de influencia a priori Grupo 2 : Medidas de extrañeza

Grupo 2 : Medidas de extrañeza

(42)

Universidade de Vigo

Medidas de influencia a priori Medidas de influencia a prioriMedidas de influencia a priori Medidas de influencia a priori

(43)

Universidade de Vigo Universidade de Vigo Distancia de Distancia de Distancia de

Distancia de MahalanobisMahalanobisMahalanobisMahalanobis

Mide la distancia en un espacio multidimensional entre un punto cualquiera y

el centro. Para facilitar los cálculos utilizo la distancia al cuadrado

Tiene en cuenta las posibles interrelaciones y la diferente dispersión de la

variables del espacio.

Se define como Se define como

Siendo x la media y S la matriz de varianzas covarianzas de todas las variables x

que intervienen en el espacio.( , ) ( )' ( ) 1 2 x x S x x x x D DMt = t = t − − t

(44)

Interpretación geométrica

Centro del espacio

Espacio bidimensional original Espacio bidimensional original Espacio bidimensional original

Espacio bidimensional original Espacio bidimensional transformadoEspacio bidimensional transformadoEspacio bidimensional transformadoEspacio bidimensional transformado

Centro del espacio Distancia euclidea Distancia de Mahalanobis Punto del que se quiere conocer la distancia Punto del que se quiere conocer la distancia

(45)

Universidade de Vigo Universidade de Vigo Ejemplo Ejemplo Ejemplo Ejemplo

Sea el centro en el (1,1); el punto que se busca el (3,3) y la

matriz de covarianzas La distancia euclidea es       = 1 5 5 2 A La distancia de Mahalanobis es    5 1 5 4 1 ) 1 1 3 2 ( )' 1 1 3 2 ( 1  = + =      −             −       = t D 4782609 , 0 ) 1 1 3 2 ( 1 5 5 2 )' 1 1 3 2 ( 2 1 =       −                   −       = − t D

(46)

Universidade de Vigo Universidade de Vigo Propiedades Propiedades Propiedades Propiedades

1. Tiene en cuenta no sólo el valor medio sino también su discrepancia y la covarianza de las variables midieron

2. Representa (explica) las gamas de aceptabilidad (la discrepancia) entre variables

3. Compensa interacciones (la covarianza) entre variables 4. Es sin dimensiones

4. Es sin dimensiones

5. Si las variables son distribuidas normalmente puede ser convertida a probabilidades que usan la función de densidad χ2.

Esto nos permite aproximar su media por el número de dimensiones y su varianza por dos veces ese numero.

(47)

Universidade de Vigo Universidade de Vigo Niveles de influencia Niveles de influencia Niveles de influencia Niveles de influencia

• Estudian el efecto de la variable dependiente sobre su

predicción, diciéndonos el grado de influencia que tiene sobre ésta. ˆ Y t = hts s=1 T

Ys

• Miden el efecto que la observación Yt tiene sobre su predicción

s=1

∂Y ˆ t

(48)

Universidade de Vigo Universidade de Vigo Propiedades Propiedades Propiedades Propiedades

El valor predicho se puede descomponer como un promedio

ponderado de esa observación y del valor predicho sin ella.

Si el número total de observaciones es T, el nivel de influencia

(49)

Universidade de Vigo Universidade de Vigo Propiedades (2) Propiedades (2) Propiedades (2) Propiedades (2)

Si DMt nos mide la distancia de Mahalanobis de la

observación t-ésima, entonces

ht = 1+ DMt

ht = t

T

Al aumentar el nivel de influencia disminuye la varianza del

(50)

Universidade de Vigo Universidade

de Vigo

Ley de distribución de los Ley de distribución de los Ley de distribución de los

Ley de distribución de los niveles niveles niveles niveles de de de de Influencia

InfluenciaInfluencia Influencia

El valor medio de los niveles de influencia será:

k h h T t tt 1 1 = + =

= T k T h = t=1 = +1

= − = T 1 t 2 t 2 h (h h) T 1 S

Su varianza viene dada por

(51)

Universidade de Vigo Medidas de extrañeza Medidas de extrañeza Medidas de extrañeza Medidas de extrañeza

Medidas que indican si un punto tiene un comportamiento muy diferente del resto

(52)

Universidade de Vigo Universidade de Vigo Estudentizados Estudentizados Estudentizados Estudentizados (externamente (externamente(externamente

(externamente estudentizadosestudentizadosestudentizadosestudentizados

))))

Se definen como los residuos divididos, cada uno, por su

desviación estándar eliminada la observación correspondiente

t

e

s

=

se les denomina externamente estudentizados porque no

incluyen el propio valor al hacer la estimación de la varianza residual. • siendo t t R t t

h

s

s

=

1

) (

≠ − − = t s s t R e k T s 2 ( ) 2 2 1

(53)

Universidade de Vigo Universidade

de Vigo

Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos estudentizados

estudentizados estudentizados estudentizados

Los residuos estudentizados siguen aproximadamente una t

de Student con T-k-2 grados de libertad

Miden el error de cada observación independientemente

de las unidades de medida de las variables de las unidades de medida de las variables

(54)

Universidade de Vigo Universidade de Vigo

Estandarizados

Estandarizados

Estandarizados

Estandarizados

(internamente

(internamente

(internamente

(internamente

eeee

studentizados

studentizados

studentizados

studentizados

))))

=

e

t

• Se definen como los residuos divididos, cada uno, por su desviación estándar

se les denomina internamente estudentizados porque incluyen

el propio valor al hacer la estimación de la varianza residual.

t

r

=

e

t

R

(55)

Universidade de Vigo Universidade

de Vigo

Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos estandarizados

estandarizados estandarizados estandarizados

Los residuos estandarizados son asintóticamente

normales tipificados AN(0,1)

No se conoce su ley de distribución exacta, pues falla

la independencia la independencia

Miden el error de cada observación

independientemente de las unidades de medida de las variables

(56)

Universidade de Vigo Universidade de Vigo Residuos predichos Residuos predichos Residuos predichos Residuos predichos

Se definen como la distancia entre el valor observado y el valor

estimado haciendo uso de todas las observaciones menos la que corresponde a ese residuo.

e = Y − Yˆ

ˆ

Y t( t ) = ′ X t( t )b( t )

et( t) = Yt − Yˆ t( t)

(57)

Universidade de Vigo Universidade

de Vigo

Propiedades Residuos Predichos (1) Propiedades Residuos Predichos (1) Propiedades Residuos Predichos (1) Propiedades Residuos Predichos (1)

1. El residuo predicho también se puede escribir como

et ( t ) = et 1− ht

2. El residuo predicho siempre es mayor que el residuo, porque

ht es siempre positiva.

3. Si el residuo es alto quiere decir que el valor se estimaría mal

a partir de las demás observaciones, y por lo tanto, el residuo predicho sería alto. En otro caso sería una buena estimación.

(58)

Universidade de Vigo Universidade

de Vigo

Propiedades Residuos Predichos (2) Propiedades Residuos Predichos (2) Propiedades Residuos Predichos (2) Propiedades Residuos Predichos (2)

4. Cuanto mayor sea el valor ht mayor es el residuo predicho.

Como ht nos mide el nivel de influencia de Yt sobre su predicción entonces cuanta más influencia tenga una

observación más difícil es predecirla a partir del resto de los observación más difícil es predecirla a partir del resto de los valores de la muestra.

5. Si todos los residuos de predicción son pequeños entonces su

suma también lo será y por tanto nos servirá de ayuda para hacer una validación de la calidad del modelo.

(59)

Universidade de Vigo Universidade

de Vigo

Comparación entre los distintos tipos Comparación entre los distintos tipos Comparación entre los distintos tipos Comparación entre los distintos tipos de medidas

de medidas de medidas de medidas

Existe una relación directa entre los distintos tipos de

residuos, de tal forma que todos ellos dan una información complementaria.

Cuanto mayor es uno de ellos mayor son los demás, aunque

la influencia de los puntos afecta a su definición. la influencia de los puntos afecta a su definición.

(60)

Universidade de Vigo Universidade de Vigo Residuos Residuos Residuos

Residuos estudentizadosestudentizadosestudentizadosestudentizados respecto a respecto a respecto a respecto a residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados

e

t

=

e

t

S

1

=

e

t ( t )

1

h

t

S

e

t

=

S

R ( t )

1

h

t

=

S

R ( t)

Depende de la varianza residual estimada sin la observación y del nivel de influencia

(61)

Universidade de Vigo

Residuos estandarizados respecto a Residuos estandarizados respecto a Residuos estandarizados respecto a Residuos estandarizados respecto a residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados

r

t

=

e

t

S

1

h

=

t ( t )

e

1

h

t

S

r

t

=

S

R

1

h

t

=

S

R

Depende de la varianza residual estimada y del nivel de influencia

(62)

Universidade de Vigo

Los residuos Los residuos Los residuos

Los residuos estudentizadosestudentizadosestudentizadosestudentizados respecto respecto respecto respecto a residuos estandarizados.

a residuos estandarizados.a residuos estandarizados. a residuos estandarizados.

e

=

S

R

r

e

t

=

R ( t )

S

r

t

Depende de la varianza residual estimada sin la observación y con ella

(63)

Universidade de Vigo

Medidas de influencia a posteriori Medidas de influencia a posteriori Medidas de influencia a posteriori Medidas de influencia a posteriori

(64)

Universidade de Vigo Universidade

de Vigo

Medidas de la robustez del modelo a Medidas de la robustez del modelo a Medidas de la robustez del modelo a Medidas de la robustez del modelo a los datos

los datos los datos los datos

Existen varias medidas que nos ayudan a evaluar el grado

de robustez de un modelo a los datos, o sea hasta que punto existe influencia de un dato sobre el

comportamiento global del modelo. comportamiento global del modelo.

En general nos interesa el efecto que una observación tiene

sobre:

Los estimadores de los coeficientes

La predicción de la variable dependiente

Los estimadores de la varianza de las perturbaciones

(65)

Universidade de Vigo Universidade

de Vigo

Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes estimados

estimados estimados estimados

DFBETAS

Se define para cada uno de los coeficientes estimados

bj como la distancia entre el coeficiente calculado incluyendo el punto y sin incluirlo estandarizado

17/12/2007

(

)

jj t R t j j tj a S b b DFBETA ) ( ) ( ˆ − =

(66)

Universidade de Vigo Universidade

de Vigo

Medidas de robustez de los valores Medidas de robustez de los valores Medidas de robustez de los valores Medidas de robustez de los valores estimados de la dependiente

estimados de la dependiente estimados de la dependiente estimados de la dependiente

DFFITS (Distancia al valor predicho estandarizado)

Mide el grado de influencia sobre los valores

estimados de eliminar la observación t , y en este sentido nos da una medida global de la influencia a posteriori. 17/12/2007 t t R t t t t t t t t h S y y h b X b X DFFITS ) ( ) ( ) ( ) ( ˆ ˆ ˆ ˆ − = ′ − ′ = σ

(67)

Universidade de Vigo Universidade

de Vigo

Medidas de robustez de los Medidas de robustez de los Medidas de robustez de los Medidas de robustez de los estimadores de la varianza estimadores de la varianzaestimadores de la varianza estimadores de la varianza

COVRATIO (Razón entre los determinantes de las varianzas de los estimadores)

Mide el grado de influencia sobre la matriz de

varianza-covarianza de los estimadores de los coeficientes como consecuencia de eliminar la observación t, y en este sentido nos da una medida de

17/12/2007

observación t, y en este sentido nos da una medida de la influencia a posteriori sobre la estimación de la varianza. 2 1 ( ) ( ) ( ) 2 1 det[ ( ' ) ] det[ ( ' ) ] i i i i s X X C O V R A T IO s X X − − =

(68)

Universidade de Vigo

Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión

(69)

Universidade de Vigo Universidade

de Vigo

Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión

Existen dos tipos de valores que pueden afectar al

modelo:

Los valores atípicos que afectan al comportamiento

de la variable dependiente sobre la estimación

Los valores influyentes que afectan a la estimación Los valores influyentes que afectan a la estimación

del modelo bien a los coeficientes, bien los valores estimados de la dependiente o bien a las varianzas.

(70)

Universidade de Vigo

Definición de valor atípico Definición de valor atípicoDefinición de valor atípico Definición de valor atípico

El concepto de valor atípico se inserta dentro del

conjunto de datos con el que se trabaja:

Se define valor atípico individual al nivel α si verifica que

verifica que

Se define valor atípico conjunto al nivel α si verifica que 2, 2 t T k e∗ > t − − α 2, / 2 t T k T e∗ > t − − α Principio de Bonferroni

(71)

Universidade de Vigo Universidade

de Vigo

Valor atípico al nivel Valor atípico al nivel Valor atípico al nivel Valor atípico al nivel αααα

4 2 Residuos Estudentizados 17/12/2007 2 0 - 2 - 4 1 2 3 4 5 6 7 8 9 101112131415161718192021222324

(72)

Universidade de Vigo Universidade

de Vigo

Efectos de los valores atípicos Efectos de los valores atípicos Efectos de los valores atípicos Efectos de los valores atípicos

Afectan a la distribución de los datos.

En muestras pequeñas sesgan la estimación.

Pueden generar un efecto sobre los parámetros si también

son influyentes.

Aumentan el error de la estimación, generando ineficiencia Aumentan el error de la estimación, generando ineficiencia

en los estimadores de los coeficientes y sesgo en el estimador de la varianza.

(73)

Universidade de Vigo Universidade de Vigo Valores influyentes Valores influyentes Valores influyentes Valores influyentes

Son los que afectan a la estimación de los parámetros

produciendo un importante sesgo en sus valores.

Puede afectar a los estimadores de coeficientes, al estimador

de la varianza o a ambos.

Cuando sólo afecta a la varianza pero no a los coeficientes

tiene menos importancia para la estimación del modelo. tiene menos importancia para la estimación del modelo.

(74)

Universidade de Vigo Universidade

de Vigo

Características de un punto influyente Características de un punto influyente Características de un punto influyente Características de un punto influyente en los coeficientes

en los coeficientesen los coeficientes en los coeficientes

1.Modifica el vector b de los parámetros estimados. 2.Modifica el vector de predicción.

3.Hace que la predicción del punto influyente sea muy buena cuando se incluye en el modelo y muy mala cuando se

excluye.

17/12/2007

(75)

Universidade de Vigo

Evaluación de las medidas de Evaluación de las medidas de Evaluación de las medidas de Evaluación de las medidas de Robustez

RobustezRobustez Robustez

Medida Estadístico VC Bajo VC Alto Influencia global DFFITS 2(p/T)1/2 p1/2 global Influencia en los estimadores DFBETAS 2/T1/2 1 Influencia en la varianza COVRATIO 3(k+1)/T 17/12/2007 Se utiliza el valor absoluto de COVRATIO-1 para realizar la comparación

(76)

Universidade de Vigo Universidade

de Vigo

Relación entre valores atípicos e Relación entre valores atípicos e Relación entre valores atípicos e Relación entre valores atípicos e influyentes

influyentes influyentes influyentes

Se demuestra que existe una relación directa entre valores

atípicos e influyentes, puesto que

t t h DFFITS = e∗ − 1 t t DFFITS e h = − Valor influyente Valor potencial-mente influyente Valor Atípico

(77)

Universidade de Vigo Universidade

de Vigo

Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos o influyentes

o influyenteso influyentes o influyentes

Eliminar los puntos si realmente no presentan ningún

interés.

Crear una variable ficticia (DUMMY) que trate de medir

el efecto del punto sobre el modelo y que lo caracterice como punto especial proveniente de otra población.

17/12/2007

como punto especial proveniente de otra población.

(78)

Universidade de Vigo

Una aproximación intuitiva

Test de hipótesis Test de hipótesis Test de hipótesis Test de hipótesis

(79)

Universidade de Vigo Universidade de Vigo Test de Test de Test de

Test de hipotesishipotesishipotesishipotesis

Tratan de comprobar si una determinada hipótesis es

aceptable o no por unos determinados datos bajo una serie de suposiciones previas.

Son la clave de la demostración empírica científica y por ello

son necesarios en las ciencias sociales.

Nos vamos a centrar en los test de significación que son

Nos vamos a centrar en los test de significación que son

aquellos en los que se define un nivel de significación, es decir una cota de la probabilidad de elegir la hipótesis

alternativa cuando se supone que esa es falsa. De este modo se facilita la construcción del test (Lema de Neyman

(80)

Universidade de Vigo Universidade de Vigo Test de significación Test de significación Test de significación Test de significación

En todos los test de significación se tienen en cuenta los

siguientes aspectos:

1. Definir modelo de análisis e indicar suposiciones del test 2. Definir hipótesis nula y alternativa

3. Fijar el nivel de significación 4. Estadístico de la prueba

4. Estadístico de la prueba

5. Ley de distribución del estadístico 6. Regla de decisión

(81)

Universidade de Vigo Universidade de Vigo Modelo y suposiciones Modelo y suposiciones Modelo y suposiciones Modelo y suposiciones

Para poder contrastar una determinada hipótesis es necesario

presuponer un cierto comportamiento de los datos, puesto que el proceso de generación de estos siempre esta

determinado por los factores que los condicionan.

Cuando ese modelo esta determinado por un número finito de parámetros, se dice paramétrico. En otro caso es no

parámetros, se dice paramétrico. En otro caso es no paramétrico.

Estas suposiciones son previas, eso quiere decir que no se

contrastan en el test y por consiguiente los resultados de ese test están condicionados a la validez de las suposiciones.

Cuando esas suposiciones inhabilitan totalmente el test se dice que es poco robusto, en otro caso se dice que es robusto.

(82)

Universidade de Vigo Universidade de Vigo Hipótesis Hipótesis Hipótesis Hipótesis

En todos los test de significación se contrastan dos hipótesis: la nula y la alternativa.

La hipótesis nula es aquella que se presupone inicialmente y los datos deben

comprobar si se rechaza o no hay argumentos suficientes para ello. Eso indica que es una hipótesis conservadora en el sentido que se mantiene mientras nos e

demuestre lo contrario.

La hipótesis alternativa es la que tienen valor probatorio en el sentido de que dice

que los datos rechazan claramente la hipótesis nula. Indica cual es la línea de fallo que los datos rechazan claramente la hipótesis nula. Indica cual es la línea de fallo de la hipótesis nula y por consiguiente la que le da capacidad de discriminación al test. Por ese motivo es importante elegir bien la hipótesis alternativa para tener mas capacidad de rechazar cuando haya que hacerlo. Esto es lo que se denomina

potencia del test.

Normalmente la hipótesis nula es un caso particular de la alternativa. En ese caso el test d se denomina anidado. En otro caso es no anidado.

En el caso de contraste de suposiciones, la hipótesis nula siempre va a ser que las suposiciones del MRLN se verifican y la alternativa será el fallo de cada suposición.

(83)

Universidade de Vigo Universidade de Vigo El nivel de significación El nivel de significación El nivel de significación El nivel de significación

Indica un limite a la probabilidad de cometer un error de tipo I.

Para ello debemos definir previamente los diferentes tipos de errores, tal como se hace en la tabla siguiente, según sea cierta o no determinada hipótesis.

H0 es cierta H1 es cierta

Decido aceptar H0 BIEN ERROR II

La idea es buscar la mínima probabilidad de cometer un error de

tipo II, una vez fijado un límite a la probabilidad de cometer un error de tipo de I.

La elección del nivel de significación es subjetiva, por lo que se

suele elegir entre el 5% o el 10% en ciencias sociales, mientras que en las naturales se suele optar por el 1% o el 5%.

Decido aceptar H0 BIEN ERROR II

(84)

Universidade de Vigo Universidade de Vigo Estadístico de prueba Estadístico de prueba Estadístico de prueba Estadístico de prueba

Consiste en formalizar la idea intuitiva del test, plasmando en

una función de los datos muestrales (estadístico) que nos dé información sobre como discriminar entre cada una de las hipótesis.

Normalmente este este estadístico tiene un comportamiento

bajo la hipótesis nula y otro bajo la alternativa y su resultado bajo la hipótesis nula y otro bajo la alternativa y su resultado nos va a permitir decidirnos por una u otra de las dos

hipótesis según con cual sea mas coherente.

Para definirlo es conveniente conocer cual es la idea intuitiva

del test, es decir, la forma en la que comparamos las hipótesis con los datos en el test.

(85)

Universidade de Vigo Universidade

de Vigo

Ley de distribución del estadístico Ley de distribución del estadístico Ley de distribución del estadístico Ley de distribución del estadístico

Para elaborar las reglas de decisión del test es conveniente

conocer cual es la ley que sigue el estadístico de prueba bajo la hipótesis nula.

Dicha ley se determina a partir a de las suposiciones de

partida y debe ser independiente de las hipótesis por lo menos conocida si la hipótesis nula se verifica.

menos conocida si la hipótesis nula se verifica.

A partir de esa ley de distribución se pueden definir dos

regiones en el espacio muestral:

la región de aceptación que es aquella en la que se espera que

caiga el estadistico cuando la hipótesis nula es cierta

(86)

Universidade de Vigo Universidade de Vigo Regla de decisión Regla de decisión Regla de decisión Regla de decisión

Una vez determinada la ley simplemente se construye la regla

de decisión que siempre suele ser del mismo tipo:

Si el estadístico muestral cae en la región de aceptación se acepta la hipótesis nula, en caso contrario se rechaza.

La región de rechazo nos indica aquellos valores muestrales La región de rechazo nos indica aquellos valores muestrales

que hacen improbable (con una probabilidad menor que el nivel de significación) que sea cierta la hipótesis nula. Es decir, si la hipótesis nula fuera cierta la probabilidad que ocurra lo que ocurrió o algo mas distante es prácticamente cero, por consiguiente supongo que la hipótesis nula no es consistente con los datos, esto significa que la rechazo.

(87)

Universidade de Vigo Universidade de Vigo Ejercicio Ejercicio Ejercicio Ejercicio

Plantear siguiendo el esquema anterior el contraste

individual de los coeficientes de regresión para ver si son nulos o no.

Referencias

Documento similar

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

La siguiente y última ampliación en la Sala de Millones fue a finales de los años sesenta cuando Carlos III habilitó la sexta plaza para las ciudades con voto en Cortes de

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

El desarrollo de una conciencia cáritas es esencial para identificar cuando un momento de cuidado se convierte en transpersonal, es necesaria para identificar

Modelo de regresión lineal sobre el efecto de la variedad y diversidad de la dieta en

Por otro lado, la teoría también resalta dos efectos positivos de la incertidumbre sobre el crecimiento económico: opciones de crecimiento, que implican que una mayor

trañables para él: el campo, la vida del labriego, otra vez el tiempo, insinuando ahora una novedad: la distinción del tiempo pleno, el tiempo-vida, y el tiempo