Universidade de Vigo
Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de
regresión lineal normal regresión lineal normal regresión lineal normal regresión lineal normal
Log L (θ ) Elementos de diagnosis, interpretación y análisis θ Log L (θ Log L (θ ∗) Log L A B(θ0 ) Log L (θ 0 ) ) Β Α θ ∗ θ 0
Universidade de Vigo Universidade
de Vigo
Justificación del tema Justificación del tema Justificación del tema Justificación del tema
Hasta ahora hemos considerado que las principales suposiciones
del modelo se verificaban, y en consecuencia, los estimadores MCO eran los más eficientes.
Sin embargo, cuando trabajamos con datos reales, no siempre es Sin embargo, cuando trabajamos con datos reales, no siempre es
esto cierto, y necesitamos algún instrumento que nos permita ver que suposiciones son válidas y cuales no.
Universidade de Vigo Universidade de Vigo Fuentes de Fuentes de Fuentes de
Fuentes de
elaboración
elaboración
elaboración
elaboración
de modelosde modelosde modelosde modelosLa fundamentación teórica, esto es, de la teoría
económica o de la empresa.
Depende de cada problema concreto
El análisis de datos o elementos estadísticos de
diagnosis.
Universidade de Vigo Universidade de Vigo Fallos en el modelo Fallos en el modelo Fallos en el modelo Fallos en el modelo
Un modelo puede fallar por dos tipos de causas:
El modelo está mal especificado, es decir alguna suposición de partida no se verifica.
Existen datos que provienen de otra población y contaminan el modelo.
Cuando el modelo obtenido no se ve afectado por cambios en Cuando el modelo obtenido no se ve afectado por cambios en
las suposiciones o los datos se dice que es robusto.
La diagnosis nos permite determinar el grado de robustez del
Universidade de Vigo Universidade de Vigo Necesidad de la diagnosis Necesidad de la diagnosis Necesidad de la diagnosis Necesidad de la diagnosis
A continuación se van a exponer de modo gráfico cuatro
modelos cuyos resultados de la regresión son casi equivalentes aparentemente.
El coeficiente de determinación vale en todos los casos 0,985 y
los coeficientes estimados son muy similares. los coeficientes estimados son muy similares.
Variable Name Estimated Coefficient Caso1 X 0.84 CONSTANT 19.15 Caso2 X 0.80 CONSTANT 19.87 Caso3 X 0.90 CONSTANT 18.08 Caso4 X 0.80 CONSTANT 20.00
Universidade de Vigo Universidade
de Vigo
Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la nube de puntos nube de puntos nube de puntos nube de puntos 1 2 3 4
Universidade de Vigo
Residuos ResiduosResiduos Residuos
Universidade de Vigo Universidade de Vigo Interpretación InterpretaciónInterpretación Interpretación
(1) modelo bien especificado
(2) forma funcional mal especificada: imponemos
una relación lineal que en la realidad no existe
(3) hay un valor influyente que cambia la dirección (3) hay un valor influyente que cambia la dirección
de la recta y que, además, es atípico
(4) tenemos un valor de comportamiento influyente,
Universidade de Vigo Universidade
de Vigo
Elementos para analizar en un Elementos para analizar en un Elementos para analizar en un Elementos para analizar en un modelo
modelomodelo modelo
Eso nos indica que no solo se deben examinar la salida sino
también diagnosticar el modelo.
Los elementos que se deben tener en cuenta a la hora de la
17/12/2007
Los elementos que se deben tener en cuenta a la hora de la
diagnosis son:
1º El comportamiento de los datos.
Universidade de Vigo Universidade
de Vigo
El comportamiento de los datos El comportamiento de los datos El comportamiento de los datos El comportamiento de los datos
Los datos marcan si el modelo con
el que se trabaja es válido o no.
De modo complementario, el
modelo ayuda a ver si los datos son coherentes con el
son coherentes con el
comportamiento esperado o no, existe por tanto un proceso de retroalimentación entre datos y modelo, por lo que en la practica hay que buscar un equilibrio entre ambos.
Datos Modelo
Universidade de Vigo Universidade
de Vigo
Proceso de diagnosis de un modelo Proceso de diagnosis de un modelo Proceso de diagnosis de un modelo Proceso de diagnosis de un modelo
1. Se empieza con un modelo, se estima y se analiza si existen datos
extraños al modelo, suponiendo válidas todas las suposiciones.
2. En caso de datos extraños se eliminan esos (o se corrigen) y se
revisa el modelo de nuevo.
3. Si alguna suposición falla, se corrige y se vuelve a revisar el 3. Si alguna suposición falla, se corrige y se vuelve a revisar el
modelo corregido.
4. Ese proceso se repite hasta que haya una adecuación conveniente
entre modelo y datos.
Eso exige analizar los factores que afectan al Eso exige analizar los factores que afectan al comportamiento de los datos
Universidade de Vigo Universidade
de Vigo
Factores que afectan a los datos Factores que afectan a los datosFactores que afectan a los datos Factores que afectan a los datos
A los datos que tengan un comportamiento muy distinto del
resto se les conoce como valores atípicos o anómalos. Un valor no es atípico siempre, sino que depende del entorno donde se estudie:
17/12/2007
donde se estudie:
1. El contexto del análisis
2. La muestra considerada
3. La forma funcional del modelo
Universidade de Vigo Universidade
de Vigo
Valores atípicos o anómalos Valores atípicos o anómalosValores atípicos o anómalos Valores atípicos o anómalos
*
Rregresión curvilinea
Valor atípico bajo la
regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * * * Regresión lineal A B
Universidade de Vigo Universidade de Vigo Elementos de Diagnosis Elementos de Diagnosis Elementos de Diagnosis Elementos de Diagnosis
Medidas basadas en los residuos Gráficos
Estadísticos y test de hipótesisEstadísticos y test de hipótesis
El orden de análisis es
1. Gráficos
2. Estadísticos y análisis de los residuos 3. Test de hipótesis
Se vieron en la asignatura de estadística y sólo los comentaremos a medida que
Universidade de Vigo
Instrumentos gráficos que permiten evaluar la
Gráficos para la diagnosis Gráficos para la diagnosisGráficos para la diagnosis Gráficos para la diagnosis
Instrumentos gráficos que permiten evaluar la calidad del modelo
Universidade de Vigo Universidade de Vigo Ruido Blanco Ruido Blanco Ruido Blanco Ruido Blanco Sucesión de variables aleatorias + + * * * *
El modelo bien especificado tiene residuos que se comportan El modelo bien especificado tiene residuos que se comportan como un ruido blanco.
como un ruido blanco. aleatorias independientes: Media cero Varianza constante Simétrica 0 -ei 0 -e * * * * * * * * * * * * * * * * * * * * * * * X
Universidade de Vigo Universidade
de Vigo
Comportamiento de los residuos Comportamiento de los residuos Comportamiento de los residuos Comportamiento de los residuos
Las perturbaciones del MRLN deberían comportarse como un
ruido blanco, puesto que son independientes e igualmente distribuidas con media 0 y simétricas.
Los residuos de la regresión son aproximaciones a las
perturbaciones y aunque no son independientes ni con varianza constante son bastante cercanos a ese comportamiento, por lo que constante son bastante cercanos a ese comportamiento, por lo que suponemos que bajo todas las suposiciones del modelo deberían comportarse casi como ruido blanco.
En todos los gráficos donde se representen los residuos respecto a
alguna variable, estos deben verificar que bajo las suposiciones del MRLN debería ser cercanos a un ruido blanco.
Universidade de Vigo Universidade
de Vigo
Gráficos de residuos Gráficos de residuosGráficos de residuos Gráficos de residuos
Por tanto, los residuos debe verificar:
E(e)=0;
los residuos deben oscilar alrededor del 0, no deben presentar ninguna forma funcional Var(e)= constante aproximadamente.
Los residuos deben dispersarse de forma homogénea, estar comprendidos entre dos bandas Independencia:
Los residuos no deben presentar relaciones entre ellos, formas graficas encadenadas.
Normalidad
Los residuos deben estar cercanos al 0, simétricos a cada lado y las bandas no muy alejadas del 0 (alrededor de dos veces la desviación estándar).
Eso significa que cualquier forma en que se aleje de esas
características existe un fallo de alguna suposición.
Universidade de Vigo
Gráfico resumen de calidad del Gráfico resumen de calidad del Gráfico resumen de calidad del Gráfico resumen de calidad del modelo modelo modelo modelo E 0.5 0.9 * * * *
Residuos respecto a valores estimados
5.8 6.6 7.3 8.02 8.77 9.4. E -0.5 0 * * * * * * * * * * * * * * Y ^
Universidade de Vigo Universidade
de Vigo
Conceptos asociados al gráfico Conceptos asociados al gráfico Conceptos asociados al gráfico Conceptos asociados al gráfico
Este gráfico representa los residuos frente a los valores estimados de la
variable dependiente.
Los residuos deben verificar las condiciones del ruido blanco. La variable independiente en este caso es el valor estimado de la
dependiente, por tanto recoge los posibles efectos de esta variable sobre el dependiente, por tanto recoge los posibles efectos de esta variable sobre el comportamiento de los residuos.
Esa variable contiene información sobre:
La variable dependiente, puesto que es la mejor aproximación lineal en función de las independientes Las variables independientes, puesto que todas intervienen en la estimación.
Eso significa que nos da información sobre como influyen tanto la variable
dependiente como las independientes sobre los residuos. En ese sentido se habla de resumen de la calidad del modelo puesto que integra todos los componentes de este.
Universidade de Vigo Universidade
de Vigo
Interpretación del gráfico Interpretación del gráfico Interpretación del gráfico Interpretación del gráfico
Se observa si existe:
Linealidad,
no se debe observar ninguna forma funcional. La media es constante e igual a
cero en todos los casos
Normalidad
Los datos se distribuyen de forma simétrica y más concentrados alrededor del
0. 0.
Homocedasticidad
La varianza es constante, dispersión igual para todos la serie.
Estabilidad
No se producen cambios repentinos de la serie de residuos
Independencia
No se observan relaciones entre residuos o grupos de residuos en la evolución
Universidade de Vigo
Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores predichos en la empresa XUMA
predichos en la empresa XUMA predichos en la empresa XUMA predichos en la empresa XUMA
0.4 0.6 0.8 SHAZAM PLOT E Valor atípico -0.4 -0.2 0 0.2 0.4 11.5 12 12.5 13 13.5 14 14.5 15 15.5 16 16.5 E YE atípico
Universidade de Vigo Universidade
de Vigo
Tipos de Gráficos Tipos de GráficosTipos de Gráficos Tipos de Gráficos
De los residuos
Se representan los residuos respecto a algunas variables que dan información
especifica del fallo de alguna suposición. Cada tipo específico se estudiará en la correspondiente suposición.
De los residuos al cuadrado
Se representan los residuos al cuadrado respecto a algunas variables que dan Se representan los residuos al cuadrado respecto a algunas variables que dan
información especifica del fallo la heterocedasticidad. Se estudiarán en esa suposición.
Gráficos de regresión parcial
Miden el efecto que tendría en la regresión el añadir una nueva variable
independiente. Se estudiarán a continuación.
Gráficos de probabilidad y de distribución
Miden la forma de la distribución de los residuos. Se estudiarán con la
Universidade de Vigo
Ejemplos de Gráficos de los residuos Ejemplos de Gráficos de los residuos Ejemplos de Gráficos de los residuos Ejemplos de Gráficos de los residuos
Y ^ 0 + ^ 0 + e t * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * E . . 0 . . -0.5 0,5 1 Respecto a la variable estimada Respecto a variables exógenas Y ^ -^ t -* * * * LA 6. 7 8 9. 10 * * * * * . -0.5 Respecto a residuos retardados 0 + -et et-1 * * * ** * * * * * * * * * * * * * * * *
Universidade de Vigo
Ejemplos de Ejemplos de Ejemplos de
Ejemplos de Gráficos de los residuos Gráficos de los residuos Gráficos de los residuos Gráficos de los residuos al cuadrado
al cuadrado al cuadrado al cuadrado
Respecto a la variable estimada Respecto a variables exógenas
+ + * * 2 * * * . . 0,5 1 Y ^ 0 -^ t 0 -e t * * * * * * * * * * * * * * * * * * * 2 LA 6. 7 8 9. 10 * * * * * * * * * * * * * * * E2 . . 0 -0.5
Universidade de Vigo
Ejemplos de Ejemplos de Ejemplos de
Ejemplos de Gráficos de Gráficos de Gráficos de Gráficos de probabilidad probabilidad probabilidad probabilidad y distribuciones
y distribuciones y distribuciones y distribuciones
Grafico de probabilidad respecto a una normal
Universidade de Vigo
Gráficos de regresión parcial Gráficos de regresión parcialGráficos de regresión parcial Gráficos de regresión parcial
5 114 * * * * * *
Este gráfico nos indica el efecto que tendría en la regresión el añadir la variable Xj la última. EA -1. 7 -.9 -.2 .5 1.3 2. 5 E -12 2. - 6 -4 * * * * * * * * * * * * * * * * * * variable Xj la última. La pendiente de la línea de regresión en el gráfico nos da el coeficiente de regresión parcial.
Universidade de Vigo Universidade
de Vigo
Método de construcción Método de construcciónMétodo de construcción Método de construcción
Trata de medir el efecto directo de una variable independiente
sobre la dependiente una vez eliminado el efecto de todas las demás variables independientes, es decir su coeficiente de regresión
parcial.
De ahí que primero haya que quitar los efectos de todas las
independientes tanto sobre la dependiente como sobre la otra independientes tanto sobre la dependiente como sobre la otra independiente.
Por lo tanto el método de construcción es el siguiente:
1. Se calcula e(j) el residuo de la regresión de y respecto a todas las
variables menos Xj;
2. Se calcula u(j) el residuo de la regresión de Xj respecto a las otras
independientes.
Universidade de Vigo
Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA de VAB sobre inversiones
de VAB sobre inversiones de VAB sobre inversiones de VAB sobre inversiones
0.4 0.6 0.8 SHAZAM PLOT E1 -0.6 -0.4 -0.2 0 0.2 0.4 -4 -3 -2 -1 0 1 2 3 4 5 E1 E21 Corte en la pendiente y un valor extraño
Universidade de Vigo
Gráfico de regresión parcial en la Gráfico de regresión parcial en la Gráfico de regresión parcial en la Gráfico de regresión parcial en la relación desigualdad de la renta relación desigualdad de la renta relación desigualdad de la renta relación desigualdad de la renta respecto a democratización respecto a democratización respecto a democratización respecto a democratización 7 8 9 10 INEQ Valor especial. Posible influyente
Pendiente que mide el efecto directo de la democratización 1 2 3 4 5 6 7 10 20 30 40 50 60 70 80 90 IN E Q TURNOUT influyente Forma no lineal posiblemente por el valor influyente sobre la desigualdad
Universidade de Vigo
Análisis de residuos Análisis de residuosAnálisis de residuos Análisis de residuos
El conocimiento de los residuos para evaluar gráficos y elementos de diagnosis
Universidade de Vigo Universidade
de Vigo
Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Ordinarios Ordinarios Ordinarios Ordinarios Definición e=Y-Xb Propiedades e=My e=My
Siguen leyes normales N(0,σ2M)
Son ortogonales a los regresores Xe=0
Universidade de Vigo Universidade
de Vigo
Efecto de una suposición sobre el Efecto de una suposición sobre el Efecto de una suposición sobre el Efecto de una suposición sobre el modelo estimado
modelo estimado modelo estimado modelo estimado
Un modelo mal especificado no verifica alguna de las
suposiciones de partida.
Por ejemplo si el modelo es cuadrático en vez de lineal, los residuos dependerán de la variable independiente al cuadrado, en vez de tener media 0.
Los residuos siguen leyes normales N(αx2,σ2M) Los residuos siguen leyes normales N(αx2,σ2M) Por tanto su forma no será centrada en el 0
Universidade de Vigo
Efectos de una observación sobre el Efectos de una observación sobre el Efectos de una observación sobre el Efectos de una observación sobre el modelo estimado
modelo estimado modelo estimado modelo estimado
Todo valor tiene un efecto sobre
la estimación del modelo:
Unos afectan más y otros
menos.
Los que cambian mucho el
modelo se denominan regresión sin i i cambia algo la y modelo se denominan influyentes
Esa influencia puede deberse a
las variables independientes o a la dependiente
Las diferentes medias de
influencia buscan también la causa 17/12/2007 regresión con i algo la recta de regresión x
Universidade de Vigo Efecto de un en punto Efecto de un en punto Efecto de un en punto Efecto de un en punto regresión sin i y La distancia a la recta afecta en la variable dependiente regresión con i x y
Cuanto mas cerca del centro esta el punto
menos efecto tiene
La distancia la centro afecta
en la variable independiente
Universidade de Vigo Universidade
de Vigo
Medidas basadas en los residuos Medidas basadas en los residuos Medidas basadas en los residuos Medidas basadas en los residuos
Medidas de influencia debidas a las
variables independientes
Distancia de Mahalanobis Niveles de influencia
Medidas de influencia debidas a la
variable dependiente: Residuos estandarizados Valores Valores Valores Valores potencialmente potencialmente potencialmente potencialmente influyentes influyentes influyentes influyentes Residuos estandarizados Residuos estudentizados-Valores atípicos Residuos predichos
Medidas de influencia conjunta
DFFIT DFBETAS COVRATIO Valores Valores Valores Valores atípicos atípicos atípicos atípicos Valores Valores Valores Valores influyentes influyentes influyentes influyentes
Universidade de Vigo Universidade
de Vigo
Efectos de los diferentes tipos de Efectos de los diferentes tipos de Efectos de los diferentes tipos de Efectos de los diferentes tipos de puntos sobre la regresión
puntos sobre la regresión puntos sobre la regresión puntos sobre la regresión
Se va a analizar el efecto de los valores potencialmente
influyentes según su distancia a la media en el espacio de variables independientes:
1. Valores cercanos a la media 2. Valores intermedios
2. Valores intermedios
Universidade de Vigo Universidade de Vigo Observaciones no alejadas de la Observaciones no alejadas de la Observaciones no alejadas de la Observaciones no alejadas de la media media media media y regresión con i y regresión sin i regresión con i regresión sin i "i" 17/12/2007 x "i" no atipico x "i" atipico
regresión sin i regresión sin i
Universidade de Vigo Universidade
de Vigo
Observaciones intermedias Observaciones intermediasObservaciones intermedias Observaciones intermedias y regresión con i y regresión sin i regresión con i regresión sin i "i" 17/12/2007 x "i" no atipico, no influyente x "i" atipico influyente regresión sin i
Universidade de Vigo Universidade
de Vigo
Observaciones alejadas de la Observaciones alejadas de la Observaciones alejadas de la
Observaciones alejadas de la mediamediamediamedia
regresión sin i i no influyente y regresión sin i regresión con i y 17/12/2007 regresión con i x "i" no influyente x "i" influyente i influyente
Universidade de Vigo Universidade de Vigo Plan de trabajo Plan de trabajo Plan de trabajo Plan de trabajo
Definir cada una de las medidas utilizadas indicando sus
propiedades, sus ventajas y sus inconvenientes y la necesidad de hacer uso de cada uno de ellos.
Grupo 1 : Medidas de influencia a priori Grupo 2 : Medidas de extrañeza
Grupo 2 : Medidas de extrañeza
Universidade de Vigo
Medidas de influencia a priori Medidas de influencia a prioriMedidas de influencia a priori Medidas de influencia a priori
Universidade de Vigo Universidade de Vigo Distancia de Distancia de Distancia de
Distancia de MahalanobisMahalanobisMahalanobisMahalanobis
Mide la distancia en un espacio multidimensional entre un punto cualquiera y
el centro. Para facilitar los cálculos utilizo la distancia al cuadrado
Tiene en cuenta las posibles interrelaciones y la diferente dispersión de la
variables del espacio.
Se define como Se define como
Siendo x la media y S la matriz de varianzas covarianzas de todas las variables x
que intervienen en el espacio.( , ) ( )' ( ) 1 2 x x S x x x x D DMt = t = t − − t −
Interpretación geométrica
Centro del espacio
Espacio bidimensional original Espacio bidimensional original Espacio bidimensional original
Espacio bidimensional original Espacio bidimensional transformadoEspacio bidimensional transformadoEspacio bidimensional transformadoEspacio bidimensional transformado
Centro del espacio Distancia euclidea Distancia de Mahalanobis Punto del que se quiere conocer la distancia Punto del que se quiere conocer la distancia
Universidade de Vigo Universidade de Vigo Ejemplo Ejemplo Ejemplo Ejemplo
Sea el centro en el (1,1); el punto que se busca el (3,3) y la
matriz de covarianzas La distancia euclidea es = 1 5 5 2 A La distancia de Mahalanobis es 5 1 5 4 1 ) 1 1 3 2 ( )' 1 1 3 2 ( 1 = + = − − = t D 4782609 , 0 ) 1 1 3 2 ( 1 5 5 2 )' 1 1 3 2 ( 2 1 = − − = − t D
Universidade de Vigo Universidade de Vigo Propiedades Propiedades Propiedades Propiedades
1. Tiene en cuenta no sólo el valor medio sino también su discrepancia y la covarianza de las variables midieron
2. Representa (explica) las gamas de aceptabilidad (la discrepancia) entre variables
3. Compensa interacciones (la covarianza) entre variables 4. Es sin dimensiones
4. Es sin dimensiones
5. Si las variables son distribuidas normalmente puede ser convertida a probabilidades que usan la función de densidad χ2.
Esto nos permite aproximar su media por el número de dimensiones y su varianza por dos veces ese numero.
Universidade de Vigo Universidade de Vigo Niveles de influencia Niveles de influencia Niveles de influencia Niveles de influencia
• Estudian el efecto de la variable dependiente sobre su
predicción, diciéndonos el grado de influencia que tiene sobre ésta. ˆ Y t = hts s=1 T
∑
Ys• Miden el efecto que la observación Yt tiene sobre su predicción
s=1
∂Y ˆ t
Universidade de Vigo Universidade de Vigo Propiedades Propiedades Propiedades Propiedades
El valor predicho se puede descomponer como un promedio
ponderado de esa observación y del valor predicho sin ella.
Si el número total de observaciones es T, el nivel de influencia
Universidade de Vigo Universidade de Vigo Propiedades (2) Propiedades (2) Propiedades (2) Propiedades (2)
Si DMt nos mide la distancia de Mahalanobis de la
observación t-ésima, entonces
ht = 1+ DMt
ht = t
T
Al aumentar el nivel de influencia disminuye la varianza del
Universidade de Vigo Universidade
de Vigo
Ley de distribución de los Ley de distribución de los Ley de distribución de los
Ley de distribución de los niveles niveles niveles niveles de de de de Influencia
InfluenciaInfluencia Influencia
El valor medio de los niveles de influencia será:
k h h T t tt 1 1 = + =
∑
= T k T h = t=1 = +1∑
= − = T 1 t 2 t 2 h (h h) T 1 SSu varianza viene dada por
Universidade de Vigo Medidas de extrañeza Medidas de extrañeza Medidas de extrañeza Medidas de extrañeza
Medidas que indican si un punto tiene un comportamiento muy diferente del resto
Universidade de Vigo Universidade de Vigo Estudentizados Estudentizados Estudentizados Estudentizados (externamente (externamente(externamente
(externamente estudentizadosestudentizadosestudentizadosestudentizados
))))
• Se definen como los residuos divididos, cada uno, por su
desviación estándar eliminada la observación correspondiente
t
e
s
=
se les denomina externamente estudentizados porque no
incluyen el propio valor al hacer la estimación de la varianza residual. • siendo t t R t t
h
s
s
−
=
1
) (∑
≠ − − = t s s t R e k T s 2 ( ) 2 2 1Universidade de Vigo Universidade
de Vigo
Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos estudentizados
estudentizados estudentizados estudentizados
Los residuos estudentizados siguen aproximadamente una t
de Student con T-k-2 grados de libertad
Miden el error de cada observación independientemente
de las unidades de medida de las variables de las unidades de medida de las variables
Universidade de Vigo Universidade de Vigo
Estandarizados
Estandarizados
Estandarizados
Estandarizados
(internamente
(internamente
(internamente
(internamente
eeeestudentizados
studentizados
studentizados
studentizados
))))
=
e
t• Se definen como los residuos divididos, cada uno, por su desviación estándar
se les denomina internamente estudentizados porque incluyen
el propio valor al hacer la estimación de la varianza residual.
t
r
=
e
tR
Universidade de Vigo Universidade
de Vigo
Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos estandarizados
estandarizados estandarizados estandarizados
Los residuos estandarizados son asintóticamente
normales tipificados AN(0,1)
No se conoce su ley de distribución exacta, pues falla
la independencia la independencia
Miden el error de cada observación
independientemente de las unidades de medida de las variables
Universidade de Vigo Universidade de Vigo Residuos predichos Residuos predichos Residuos predichos Residuos predichos
Se definen como la distancia entre el valor observado y el valor
estimado haciendo uso de todas las observaciones menos la que corresponde a ese residuo.
e = Y − Yˆ
ˆ
Y t( t ) = ′ X t( t )b( t )
et( t) = Yt − Yˆ t( t)
Universidade de Vigo Universidade
de Vigo
Propiedades Residuos Predichos (1) Propiedades Residuos Predichos (1) Propiedades Residuos Predichos (1) Propiedades Residuos Predichos (1)
1. El residuo predicho también se puede escribir como
et ( t ) = et 1− ht
2. El residuo predicho siempre es mayor que el residuo, porque
ht es siempre positiva.
3. Si el residuo es alto quiere decir que el valor se estimaría mal
a partir de las demás observaciones, y por lo tanto, el residuo predicho sería alto. En otro caso sería una buena estimación.
Universidade de Vigo Universidade
de Vigo
Propiedades Residuos Predichos (2) Propiedades Residuos Predichos (2) Propiedades Residuos Predichos (2) Propiedades Residuos Predichos (2)
4. Cuanto mayor sea el valor ht mayor es el residuo predicho.
Como ht nos mide el nivel de influencia de Yt sobre su predicción entonces cuanta más influencia tenga una
observación más difícil es predecirla a partir del resto de los observación más difícil es predecirla a partir del resto de los valores de la muestra.
5. Si todos los residuos de predicción son pequeños entonces su
suma también lo será y por tanto nos servirá de ayuda para hacer una validación de la calidad del modelo.
Universidade de Vigo Universidade
de Vigo
Comparación entre los distintos tipos Comparación entre los distintos tipos Comparación entre los distintos tipos Comparación entre los distintos tipos de medidas
de medidas de medidas de medidas
Existe una relación directa entre los distintos tipos de
residuos, de tal forma que todos ellos dan una información complementaria.
Cuanto mayor es uno de ellos mayor son los demás, aunque
la influencia de los puntos afecta a su definición. la influencia de los puntos afecta a su definición.
Universidade de Vigo Universidade de Vigo Residuos Residuos Residuos
Residuos estudentizadosestudentizadosestudentizadosestudentizados respecto a respecto a respecto a respecto a residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados
e
t∗=
e
t
S
1
−
=
e
t ( t )1
−
h
t
S
e
t=
S
R ( t )1
−
h
t
=
S
R ( t)Depende de la varianza residual estimada sin la observación y del nivel de influencia
Universidade de Vigo
Residuos estandarizados respecto a Residuos estandarizados respecto a Residuos estandarizados respecto a Residuos estandarizados respecto a residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados residuos predichos estandarizados
r
t=
e
tS
1
−
h
=
t ( t )e
1
−
h
tS
r
t=
S
R1
−
h
t=
S
RDepende de la varianza residual estimada y del nivel de influencia
Universidade de Vigo
Los residuos Los residuos Los residuos
Los residuos estudentizadosestudentizadosestudentizadosestudentizados respecto respecto respecto respecto a residuos estandarizados.
a residuos estandarizados.a residuos estandarizados. a residuos estandarizados.
e
∗=
S
Rr
e
t=
R ( t )
S
r
tDepende de la varianza residual estimada sin la observación y con ella
Universidade de Vigo
Medidas de influencia a posteriori Medidas de influencia a posteriori Medidas de influencia a posteriori Medidas de influencia a posteriori
Universidade de Vigo Universidade
de Vigo
Medidas de la robustez del modelo a Medidas de la robustez del modelo a Medidas de la robustez del modelo a Medidas de la robustez del modelo a los datos
los datos los datos los datos
Existen varias medidas que nos ayudan a evaluar el grado
de robustez de un modelo a los datos, o sea hasta que punto existe influencia de un dato sobre el
comportamiento global del modelo. comportamiento global del modelo.
En general nos interesa el efecto que una observación tiene
sobre:
Los estimadores de los coeficientes
La predicción de la variable dependiente
Los estimadores de la varianza de las perturbaciones
Universidade de Vigo Universidade
de Vigo
Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes estimados
estimados estimados estimados
DFBETAS
Se define para cada uno de los coeficientes estimados
bj como la distancia entre el coeficiente calculado incluyendo el punto y sin incluirlo estandarizado
17/12/2007
(
)
jj t R t j j tj a S b b DFBETA ) ( ) ( ˆ − =Universidade de Vigo Universidade
de Vigo
Medidas de robustez de los valores Medidas de robustez de los valores Medidas de robustez de los valores Medidas de robustez de los valores estimados de la dependiente
estimados de la dependiente estimados de la dependiente estimados de la dependiente
DFFITS (Distancia al valor predicho estandarizado)
Mide el grado de influencia sobre los valores
estimados de eliminar la observación t , y en este sentido nos da una medida global de la influencia a posteriori. 17/12/2007 t t R t t t t t t t t h S y y h b X b X DFFITS ) ( ) ( ) ( ) ( ˆ ˆ ˆ ˆ − = ′ − ′ = σ
Universidade de Vigo Universidade
de Vigo
Medidas de robustez de los Medidas de robustez de los Medidas de robustez de los Medidas de robustez de los estimadores de la varianza estimadores de la varianzaestimadores de la varianza estimadores de la varianza
COVRATIO (Razón entre los determinantes de las varianzas de los estimadores)
Mide el grado de influencia sobre la matriz de
varianza-covarianza de los estimadores de los coeficientes como consecuencia de eliminar la observación t, y en este sentido nos da una medida de
17/12/2007
observación t, y en este sentido nos da una medida de la influencia a posteriori sobre la estimación de la varianza. 2 1 ( ) ( ) ( ) 2 1 det[ ( ' ) ] det[ ( ' ) ] i i i i s X X C O V R A T IO s X X − − =
Universidade de Vigo
Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión
Universidade de Vigo Universidade
de Vigo
Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión Valores especiales en la regresión
Existen dos tipos de valores que pueden afectar al
modelo:
Los valores atípicos que afectan al comportamiento
de la variable dependiente sobre la estimación
Los valores influyentes que afectan a la estimación Los valores influyentes que afectan a la estimación
del modelo bien a los coeficientes, bien los valores estimados de la dependiente o bien a las varianzas.
Universidade de Vigo
Definición de valor atípico Definición de valor atípicoDefinición de valor atípico Definición de valor atípico
El concepto de valor atípico se inserta dentro del
conjunto de datos con el que se trabaja:
Se define valor atípico individual al nivel α si verifica que
verifica que
Se define valor atípico conjunto al nivel α si verifica que 2, 2 t T k e∗ > t − − α 2, / 2 t T k T e∗ > t − − α Principio de Bonferroni
Universidade de Vigo Universidade
de Vigo
Valor atípico al nivel Valor atípico al nivel Valor atípico al nivel Valor atípico al nivel αααα
4 2 Residuos Estudentizados 17/12/2007 2 0 - 2 - 4 1 2 3 4 5 6 7 8 9 101112131415161718192021222324
Universidade de Vigo Universidade
de Vigo
Efectos de los valores atípicos Efectos de los valores atípicos Efectos de los valores atípicos Efectos de los valores atípicos
Afectan a la distribución de los datos.
En muestras pequeñas sesgan la estimación.
Pueden generar un efecto sobre los parámetros si también
son influyentes.
Aumentan el error de la estimación, generando ineficiencia Aumentan el error de la estimación, generando ineficiencia
en los estimadores de los coeficientes y sesgo en el estimador de la varianza.
Universidade de Vigo Universidade de Vigo Valores influyentes Valores influyentes Valores influyentes Valores influyentes
Son los que afectan a la estimación de los parámetros
produciendo un importante sesgo en sus valores.
Puede afectar a los estimadores de coeficientes, al estimador
de la varianza o a ambos.
Cuando sólo afecta a la varianza pero no a los coeficientes
tiene menos importancia para la estimación del modelo. tiene menos importancia para la estimación del modelo.
Universidade de Vigo Universidade
de Vigo
Características de un punto influyente Características de un punto influyente Características de un punto influyente Características de un punto influyente en los coeficientes
en los coeficientesen los coeficientes en los coeficientes
1.Modifica el vector b de los parámetros estimados. 2.Modifica el vector de predicción.
3.Hace que la predicción del punto influyente sea muy buena cuando se incluye en el modelo y muy mala cuando se
excluye.
17/12/2007
Universidade de Vigo
Evaluación de las medidas de Evaluación de las medidas de Evaluación de las medidas de Evaluación de las medidas de Robustez
RobustezRobustez Robustez
Medida Estadístico VC Bajo VC Alto Influencia global DFFITS 2(p/T)1/2 p1/2 global Influencia en los estimadores DFBETAS 2/T1/2 1 Influencia en la varianza COVRATIO 3(k+1)/T 17/12/2007 Se utiliza el valor absoluto de COVRATIO-1 para realizar la comparación
Universidade de Vigo Universidade
de Vigo
Relación entre valores atípicos e Relación entre valores atípicos e Relación entre valores atípicos e Relación entre valores atípicos e influyentes
influyentes influyentes influyentes
Se demuestra que existe una relación directa entre valores
atípicos e influyentes, puesto que
t t h DFFITS = e∗ − 1 t t DFFITS e h = − Valor influyente Valor potencial-mente influyente Valor Atípico
Universidade de Vigo Universidade
de Vigo
Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos o influyentes
o influyenteso influyentes o influyentes
Eliminar los puntos si realmente no presentan ningún
interés.
Crear una variable ficticia (DUMMY) que trate de medir
el efecto del punto sobre el modelo y que lo caracterice como punto especial proveniente de otra población.
17/12/2007
como punto especial proveniente de otra población.
Universidade de Vigo
Una aproximación intuitiva
Test de hipótesis Test de hipótesis Test de hipótesis Test de hipótesis
Universidade de Vigo Universidade de Vigo Test de Test de Test de
Test de hipotesishipotesishipotesishipotesis
Tratan de comprobar si una determinada hipótesis es
aceptable o no por unos determinados datos bajo una serie de suposiciones previas.
Son la clave de la demostración empírica científica y por ello
son necesarios en las ciencias sociales.
Nos vamos a centrar en los test de significación que son
Nos vamos a centrar en los test de significación que son
aquellos en los que se define un nivel de significación, es decir una cota de la probabilidad de elegir la hipótesis
alternativa cuando se supone que esa es falsa. De este modo se facilita la construcción del test (Lema de Neyman
Universidade de Vigo Universidade de Vigo Test de significación Test de significación Test de significación Test de significación
En todos los test de significación se tienen en cuenta los
siguientes aspectos:
1. Definir modelo de análisis e indicar suposiciones del test 2. Definir hipótesis nula y alternativa
3. Fijar el nivel de significación 4. Estadístico de la prueba
4. Estadístico de la prueba
5. Ley de distribución del estadístico 6. Regla de decisión
Universidade de Vigo Universidade de Vigo Modelo y suposiciones Modelo y suposiciones Modelo y suposiciones Modelo y suposiciones
Para poder contrastar una determinada hipótesis es necesario
presuponer un cierto comportamiento de los datos, puesto que el proceso de generación de estos siempre esta
determinado por los factores que los condicionan.
Cuando ese modelo esta determinado por un número finito de parámetros, se dice paramétrico. En otro caso es no
parámetros, se dice paramétrico. En otro caso es no paramétrico.
Estas suposiciones son previas, eso quiere decir que no se
contrastan en el test y por consiguiente los resultados de ese test están condicionados a la validez de las suposiciones.
Cuando esas suposiciones inhabilitan totalmente el test se dice que es poco robusto, en otro caso se dice que es robusto.
Universidade de Vigo Universidade de Vigo Hipótesis Hipótesis Hipótesis Hipótesis
En todos los test de significación se contrastan dos hipótesis: la nula y la alternativa.
La hipótesis nula es aquella que se presupone inicialmente y los datos deben
comprobar si se rechaza o no hay argumentos suficientes para ello. Eso indica que es una hipótesis conservadora en el sentido que se mantiene mientras nos e
demuestre lo contrario.
La hipótesis alternativa es la que tienen valor probatorio en el sentido de que dice
que los datos rechazan claramente la hipótesis nula. Indica cual es la línea de fallo que los datos rechazan claramente la hipótesis nula. Indica cual es la línea de fallo de la hipótesis nula y por consiguiente la que le da capacidad de discriminación al test. Por ese motivo es importante elegir bien la hipótesis alternativa para tener mas capacidad de rechazar cuando haya que hacerlo. Esto es lo que se denomina
potencia del test.
Normalmente la hipótesis nula es un caso particular de la alternativa. En ese caso el test d se denomina anidado. En otro caso es no anidado.
En el caso de contraste de suposiciones, la hipótesis nula siempre va a ser que las suposiciones del MRLN se verifican y la alternativa será el fallo de cada suposición.
Universidade de Vigo Universidade de Vigo El nivel de significación El nivel de significación El nivel de significación El nivel de significación
Indica un limite a la probabilidad de cometer un error de tipo I.
Para ello debemos definir previamente los diferentes tipos de errores, tal como se hace en la tabla siguiente, según sea cierta o no determinada hipótesis.
H0 es cierta H1 es cierta
Decido aceptar H0 BIEN ERROR II
La idea es buscar la mínima probabilidad de cometer un error de
tipo II, una vez fijado un límite a la probabilidad de cometer un error de tipo de I.
La elección del nivel de significación es subjetiva, por lo que se
suele elegir entre el 5% o el 10% en ciencias sociales, mientras que en las naturales se suele optar por el 1% o el 5%.
Decido aceptar H0 BIEN ERROR II
Universidade de Vigo Universidade de Vigo Estadístico de prueba Estadístico de prueba Estadístico de prueba Estadístico de prueba
Consiste en formalizar la idea intuitiva del test, plasmando en
una función de los datos muestrales (estadístico) que nos dé información sobre como discriminar entre cada una de las hipótesis.
Normalmente este este estadístico tiene un comportamiento
bajo la hipótesis nula y otro bajo la alternativa y su resultado bajo la hipótesis nula y otro bajo la alternativa y su resultado nos va a permitir decidirnos por una u otra de las dos
hipótesis según con cual sea mas coherente.
Para definirlo es conveniente conocer cual es la idea intuitiva
del test, es decir, la forma en la que comparamos las hipótesis con los datos en el test.
Universidade de Vigo Universidade
de Vigo
Ley de distribución del estadístico Ley de distribución del estadístico Ley de distribución del estadístico Ley de distribución del estadístico
Para elaborar las reglas de decisión del test es conveniente
conocer cual es la ley que sigue el estadístico de prueba bajo la hipótesis nula.
Dicha ley se determina a partir a de las suposiciones de
partida y debe ser independiente de las hipótesis por lo menos conocida si la hipótesis nula se verifica.
menos conocida si la hipótesis nula se verifica.
A partir de esa ley de distribución se pueden definir dos
regiones en el espacio muestral:
la región de aceptación que es aquella en la que se espera que
caiga el estadistico cuando la hipótesis nula es cierta
Universidade de Vigo Universidade de Vigo Regla de decisión Regla de decisión Regla de decisión Regla de decisión
Una vez determinada la ley simplemente se construye la regla
de decisión que siempre suele ser del mismo tipo:
Si el estadístico muestral cae en la región de aceptación se acepta la hipótesis nula, en caso contrario se rechaza.
La región de rechazo nos indica aquellos valores muestrales La región de rechazo nos indica aquellos valores muestrales
que hacen improbable (con una probabilidad menor que el nivel de significación) que sea cierta la hipótesis nula. Es decir, si la hipótesis nula fuera cierta la probabilidad que ocurra lo que ocurrió o algo mas distante es prácticamente cero, por consiguiente supongo que la hipótesis nula no es consistente con los datos, esto significa que la rechazo.
Universidade de Vigo Universidade de Vigo Ejercicio Ejercicio Ejercicio Ejercicio
Plantear siguiendo el esquema anterior el contraste
individual de los coeficientes de regresión para ver si son nulos o no.