UD 5 Introducción a la Inferencia
Estadística
Contenido
-
UD5 Introducción a la Inferencia Estadística-5.4. Introducción a la Regresión Lineal
2.2. Estadística Descriptiva Bidimensional - 2
5.3 Introducción al Análisis de la Varianza
5.3 Introducción al Análisis de la Varianza
5.2 Inferencia básica en poblaciones normales
5.1 Distribuciones en el muestreo
5.1 Distribuciones en el muestreo
UD 5 Introducción a la Inferencia Estadística
(Parte IV)
Distribuciones marginales y condicionales Diagramas de dispersión
Covarianza. Coeficiente de correlación Interpretación de relaciones
Recta de regresión
Análisis de residuos
1-Distribuciones marginales y condicionales
Variable aleatoria bidimensional : sobre cada individuo de la población se observan dos características aleatorias expresables numéricamente Ejemplos:
Población estudiantes universitarios se observa la ESTATURA (cms) y el PESO (kgs) de cada estudiante
Para el control del consumo de energía en una factoría se anota cada día el CONSUMO (termias) y la TEMPERATURA DIARIA (ºC)
En un sistema informático se observa semanalmente la carga media del sistema (CARGA, peticiones procesadas por unidad
1-Distribuciones marginales y condicionales
Objetivo del análisis: Describir la relación existente entre las dos componentes de la v.a. Bidimensional Herramientas: Tabla de Frecuencias Cruzada
variables discretas (naturaleza cualitativa)
REPITE SEXO SI 1 NO 2 Row Total CHICOS 1 5 10.9 41 89.1 46 64.8 CHICAS 2 1 4.0 24 96.0 25 35.2 COLUMN TOTAL 6 8.5 65 91.5
1-Distribuciones marginales y condicionales
variables continuas: existen técnicas más poderosas para analizar y describir la relación existente entre
las dos vbles.
Previamente a la representación de la Tabla será necesario agrupar los valores de las variables en intervalos, de forma similar a como se hizo con las
tablas de frecuencias para variables
1-Distribuciones marginales y condicionales
Frequency Table for PESOCOD by ESTACOD
Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD
Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frecuencias marginales de PESO Frecuencias marginales de ESTATURA
1-Distribuciones marginales y condicionales
Frequency Table for PESOCOD by ESTACOD
Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD
Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%
Frecuencias observadas de PESO condicionadas a ESTATURA PESO
< ≤
]
145, 155]
1-Distribuciones marginales y condicionales
• Distribución marginal:• A la pauta de variabilidad que sigue en la población la
variable PESO, sin tener en cuenta la ESTATURA, se conoce por distribución marginal (de PESO)
• A la pauta de variabilidad que sigue en la población la
variable ESTATURA, sin tener en cuenta el PESO, se conoce por distribución marginal (de ESTATURA)
• Distribución condicional: PESO/ESTATURA, por ejemplo
• A la pauta de variabilidad que sigue en la población la
variable PESO, ciñéndonos a los individuos que presentan una
cierta ESTATURA, se denomina distribución condicional (de
1-Distribuciones marginales y condicionales
Frequency Table for PESOCOD by ESTACOD
Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD
Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%
¿Existe relación entre el PESO y la ESTATURA de una persona?
1-Distribuciones marginales y condicionales
Summary Statistics
Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0
• Parámetros de las distribuciones condicionales de PESO en función de la ESTATURA
StatgraphicsPlus y Centurion: Describe Numeric Data Subset
1-Distribuciones marginales y condicionales
Summary Statistics
Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0 90 80 70 60 50 PESO (Kg) ESTATURA (cm) Distribución marginal del PESO Distribuciones condicionales
del PESO respecto a ESTATURA
1-Distribuciones marginales y condicionales
Summary Statistics
Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0
• Parámetros de las distribuciones condicionales de PESO en función de la ESTATURA
Autoevaluación: Las medias de las distribuciones condicionales aumentan al aumentar los valores de la variable condicionante ESTATURA. ¿Te parece lógico este resultado?
1-Distribuciones marginales y condicionales
• Toda va bidimensional (X,Y) tiene asociadas :• Dos distribuciones unidimensionales (marginal de X, marginal
de Y)
• Distribución condicional de una de ellas para cada uno de los valores posibles de la otra (Y/X=xi)
• Si todas las distribuciones condicionales (Y/X=xi) son iguales, esto es, no dependen del valor concreto xi, se dice que las dos variables X e Y son independientes
Ejemplos: (X: Peso, Y: Coeficiente intelectual) (X: Temperatura, Y: Consumo)
2 - Diagramas de Dispersión
Es un gráfico XY en el que cada observación de la
muestra se representa por un punto en el plano, cuya abcisa corresponde al valor de la primera variable y
cuya ordenada corresponde al valor de la segunda variable
Secuencia de opciones en StatgraphicsPlus y Centurion:
2 - Diagramas de Dispersión
Diagrama de dispersión de la variable PESO frente a ESTATURA
Plot of PESO vs ESTATURA
150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O
2 - Diagramas de Dispersión
Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO
Plot of PESO vs ESTATURA
ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95
2 - Diagramas de Dispersión
Ejercicio: Como ejemplo de un diagrama de dispersión que muestra una relación negativa, obtener mediante Statgraphics el diagrama de
dispersión entre las variables TEMPER y
2 - Diagramas de Dispersión
Plot of CONSUMO vs TEMPER
-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O
Cuanto más estrechamente se agrupen los puntos del
diagrama de dispersión en torno a una recta, más fuerte es el grado de relación lineal existente entre las dos variables
2 - Diagramas de Dispersión
Relación lineal Baja Relación lineal Intermedia
2 - Diagramas de Dispersión
Autoevaluación:
¿Sigue creciendo la gente a partir de los 19 años? Para ver si hay alguna evidencia al respecto en los datos de la encuesta, construir el Diagrama de
Dispersión de ESTATURA frente a EDAD
2 - Diagramas de Dispersión
Plot of ESTATURA vs EDAD
19 22 25 28 31 34
EDAD
150 160 170 180 190 200E
S
T
A
T
U
R
A
3- Covarianza. Coeficiente de correlación
Objetivo: cuantificar en un índice numérico el grado de relación lineal existente entre dos variables
Covarianza:
Plot of CONSUMO vs TEMPER
-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 4 247.6 10.9
3- Covarianza. Coeficiente de correlación
Para todo pareja de valores (xi , yi ), observamos el signo de los productos:
Plot of CONSUMO vs TEMPER
-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 4 247.6 10.9 i i
(x
−
x ) .(y
−
y )
3- Covarianza. Coeficiente de correlación
i i
(x
−
x ) .(y
−
y )
Plot of CONSUMO vs TEMPER
-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O En el cuadrante 1 y 3 >0 En el cuadrante 2 y 4 <0 1 2 3 4
3- Covarianza. Coeficiente de correlación
1
N
)
Y
)(Y
X
(X
COV
(X, Y) i i−
−
−
=
∑
Promedio de los productos de las desviaciones de ambas variables respecto a sus medias respectivas
La covarianza será positiva si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X) y negativa si la relación existente es decreciente
3- Covarianza. Coeficiente de correlación
Solución: Coeficiente de correlación lineal Inconveniente depende de las dimensiones en que se expresen las variables
Ejemplo: la covarianza entre PESO y
ESTATURA será 100 veces mayor si la ESTATURA se mide en centímetros que si se mide en metros
3- Covarianza. Coeficiente de correlación
Coeficiente de correlación lineal:
Ventajas: Parámetro adimensional Acotado (-1 , +1)
Los valores extremos solo los toma en el caso en que los puntos del Diagrama de dispersión estén alineados exactamente en línea recta
3- Covarianza. Coeficiente de correlación
Cuanto más fuerte es el grado de relación lineal entre dos variables, más cercano a “+1” es el valor de rx,y (o a “-1” si la relación es decreciente)
Un valor de rx,y nulo o cercano a “0” indicará una relación lineal inexistente o muy débil
StatgraphicsPlus permite obtener las covarianzas y los coeficientes de correlación entre varias variables con las opciones:
Describe Numeric Data Multiple-Variable Analyisis,
introducir las variables en el campo Data Tabular Options, seleccionar Covariances , Correlations
3- Covarianza. Coeficiente de correlación
Matriz de Varianzas-Covarianzas:
Matriz de Correlaciones : rx,x
3- Covarianza. Coeficiente de correlación
Autoevaluación: Calcular por medio de Statgraphics
Centurion los valores de las covarianzas y de los
coeficientes de correlación entre las siguientes
parejas de variables:
ESTATURA y PESO ESTATURA y EDAD TEMPER y CONSUMO
3- Covarianza. Coeficiente de correlación
Covariances ESTATURA PESO ---ESTATURA 82,3711 71,6159 ( 131) ( 131) PESO 71,6159 113,569 ( 131) ( 131) Correlations ESTATURA PESO ---ESTATURA 0,7404 ( 131) 0,0000 PESO 0,7404 ( 131) 0,0000 ---Número de observaciones a partir de las que se calcula el parámetro¿Sabrías obtener la matriz de correlación a partir de la matriz de var-cov?
3- Covarianza. Coeficiente de correlación
Covariances ESTATURA EDAD ---ESTATURA 82,3711 1,31439 ( 131) ( 131) EDAD 1,31439 2,7825 ( 131) ( 131) ---Correlations ESTATURA EDAD ---ESTATURA 0,0868 ( 131) 0,3241 EDAD 0,0868 ( 131) 0,3241---3- Covarianza. Coeficiente de correlación
Covariances TEMPER CONSUMO ---TEMPER 29,0832 -535,449 ( 57) ( 57) CONSUMO -535,449 10487,2 ( 57) ( 57) Correlations TEMPER CONSUMO ---TEMPER -0,9695 ( 57) 0,0000 CONSUMO -0,9695 ( 57) 0,00003- Covarianza. Coeficiente de correlación
Dos variables X, Y pueden tener una estrecha relación y resultar rx,y cercano a 0 por ser dicha relación no
lineal
Ejemplo:
X: -3, -2, -1, 0, 1, 2, 3 Y: 9, 4, 1, 0, 1, 4, 9
¿Están relacionadas las variables? ¿Lo están linealmente?
3- Covarianza. Coeficiente de correlación
Plot of Y vs X -3 -2 -1 0 1 2 3 X 0 2 4 6 8 10 Y Correlations X Y ---X 1 0,0000 Y 0,0000 1---3- Covarianza. Coeficiente de correlación
Si dos variables son independientes rx,y = 0
Si rx,y tiene un valor cercano a 0 no hay relación
LINEAL entre X e Y
Como ya se ha comentado, un valor de rx,y nulo o cercano a cero indica una relación lineal inexistente o muy débil (pero no necesariamente independencia)
El cuadrado del coeficiente de correlación mide la proporción (o porcentaje si se multiplica por 100) de la varianza de Y que está asociada a la variabilidad de X
4- Interpretación de relaciones
Dependencia causal unidireccional:
CAUSA EFECTO
Tráfico en la red Latencia de los mensajes
Agua de lluvia caída Agua evacuada por alcantarillado
Tamaño de los mensajes Retardo
Temperatura ambiental Consumo en calefacción
4- Interpretación de relaciones
Dependencia parcial de otra u otras variables:
CAUSA EFECTO
Características genéticas Estatura y Peso
Turbulencias en el aire Letrero ‘Abroche su
cinturón` y sacudidas en el avión
Renta familiar Gasto en zapatos y en libros de las familias españolas
Interdependencia entre las 2 variables:
Oferta y demanda de un producto
UD 5 Introducción a la Inferencia Estadística
(Parte IV)
Distribuciones marginales y condicionales Diagramas de dispersión
Covarianza. Coeficiente de correlación Interpretación de relaciones
Recta de regresión
Análisis de residuos
5 – Recta de Regresión
Objetivo: cuantificar la relación existente entre dos variables con el fin de predecir el valor de una de ellas a partir del valor constatado de la otra
Ejemplo: para el control de consumo de energía en
una factoría durante los meses de invierno se anota diariamente el CONSUMO (termias) y la TEMPERATURA diaria (ºC a las 12h). El responsable del control del consumo en la factoría desea saber si el consumo de 290 termias registrado el día anterior puede considerarse “normal” sabiendo que la temperatura fue
5 – Recta de Regresión
El consumo depende de la temperatura y de otros factores (humedad, viento, volumen de producción…), aún no habiendo anomalías el consumo en la población constituída por los días en que la temperatura es 10ºC fluctuará aleatoriamente
Pero en promedio, ¿cuánto se consumirá los días en que la temperatura sea 10ºC?
Con toda seguridad menos que lo que se consumirá en
promedio los días en que la temperatura sea de 5ºC,
Pero…. ¿cuánto menos?
Plot of Fitted Model CONSUMO = 448,913 - 18,4109*TEMPER -3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 140 118 18ºC 6,5ºC yi - (a+bxi) = 140-118 = 22 = ei residuoi
5 – Recta de Regresión
Predice el valor que en promedio corresponde a una variable Y cuando otra variable X tiene un valor
determinado
Los valores a y b que definen la recta son aquellos que minimizan
5 – Recta de Regresión
Los valores de b y a vienen dados por las siguientes expresiones:
5 – Recta de Regresión
Diagrama de dispersión de la variable PESO frente a ESTATURA
Plot of PESO vs ESTATURA
150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O
5 – Recta de Regresión
Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO
Plot of PESO vs ESTATURA
ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95
5 – Recta de Regresión
La recta de regresión calculada a partir de las variables
PESO (variable dependiente) y ESTATURA (variable independiente) se obtiene en StatgraphicsPlus a partir de la secuencia de opciones:
Relate Simple Regresion Variable Y: PESO
5 – Recta de Regresión
Regression Analysis - Linear model: Y = a + b*X
---Dependent variable: PESO
Independent variable: ESTATURA
Standard T
Parameter Estimate Error Statistic P-Value
---Intercept -84,0714 12,0274 -6,99002 0,0000 Slope 0,869429 0,0694856 12,5124 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 8094,44 1 8094,44 156,56 0,0000 Residual 6669,58 129 51,7021 ---Total (Corr.) 14764,0 130 Correlation Coefficient = 0,740442 R-squared = 54,8255 percent
R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042
Mean absolute error = 5,49874
Durbin-Watson statistic = 1,87089 (P=0,2311) Lag 1 residual autocorrelation = 0,0637738
**
rxy
a b
5 – Recta de Regresión
La mayor parte de los resultados obtenidos con este análisis se aplican en un contexto de Inferencia Estadística
Las probabilidades de la última columna indican hasta qué punto la relación constatada se debe:
a un simple azar del muestreo (Prob.>0,05)
o por el contrario está asociada a una relación real
existente en la población muestreada
5 – Recta de Regresión
Plot of Fitted Model
ESTATURA
P
E
S
O
150 160 170 180 190 200 45 55 65 75 85 95 PESO=-84.07+0.87ESTATURA5 – Recta de Regresión
Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO
Plot of PESO vs ESTATURA
P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95
5 – Recta de Regresión
Estudio de la relación entre el PESO y la ESTATURA en chicos
Regression Analysis - Linear model: Y = a + b*X
---Dependent variable: SELECT ( PESO; SEXO="chicos")
Independent variable: ESTATURA
Standard T
Parameter Estimate Error Statistic P-Value
---Intercept -17,0594 20,9979 -0,812434 0,4188 Slope 0,498687 0,118347 4,21378 0,0001 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 968,597 1 968,597 17,76 0,0001 Residual 4745,9 87 54,5505 ---Total (Corr.) 5714,49 88 Correlation Coefficient = 0,411702 R-squared = 16,9498 percent
5 – Recta de Regresión
Plot of Fitted Model
ESTATURA S E L E C T ( P E S O ; S E X O = "c h ic o s ") 150 160 170 180 190 200 56 66 76 86 96
5 – Recta de Regresión
Estudio de la relación entre el PESO y la ESTATURA en chicas
Regression Analysis - Linear model: Y = a + b*X
---Dependent variable: SELECT ( PESO; SEXO="chicas")
Independent variable: ESTATURA
Standard T
Parameter Estimate Error Statistic P-Value
---Intercept -70,1354 21,5958 -3,24764 0,0024 Slope 0,767583 0,132065 5,81218 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 777,89 1 777,89 33,78 0,0000 Residual 921,086 40 23,0271 ---Total (Corr.) 1698,98 41 Correlation Coefficient = 0,676652 R-squared = 45,7858 percent
5 – Recta de Regresión
Plot of Fitted Model
ESTATURA
S
E
L
E
C
T
(
P
E
S
O
;
S
E
X
O
=
"c
h
ic
a
s
")
150 160 170 180 190 200 45 50 55 60 65 70 755 – Recta de Regresión
Ejercicio: Conociendo el PESO y la ESTATURA de cada
alumno calcular el peso previsto por la ecuación de regresión, en función del SEXO, y compararlo con el real.
5 – Recta de Regresión. Análisis de residuos
Análisis de Residuos
Concepto: se denomina residuo de un dato a la diferencia entre el valor yi del mismo y el valor a+bxi
que se predice para el valor medio de Y en los individuos de la población en los que la variable X vale xi
Interpretación: el residuo de un día recoge el efecto
que sobre el consumo de dicho día han tenido todas las otras variables que influyen sobre el consumo, incluyendo posibles anomalías y que no se han tenido en cuenta en el análisis
Parámetros:
• Media=0
• Varianza S2
r = S2y (1- r2xy) Permite estimar el orden de
Regression Analysis - Linear model: Y = a + b*X
---Dependent variable: PESO
Independent variable: ESTATURA
Standard T
Parameter Estimate Error Statistic P-Value
---Intercept -84,0714 12,0274 -6,99002 0,0000 Slope 0,869429 0,0694856 12,5124 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 8094,44 1 8094,44 156,56 0,0000 Residual 6669,58 129 51,7021 ---Total (Corr.) 14764,0 130 Correlation Coefficient = 0,740442 R-squared = 54,8255 percent
R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042
Mean absolute error = 5,49874
Durbin-Watson statistic = 1,87089 (P=0,2311) Lag 1 residual autocorrelation = 0,0637738
**
**
**
Residuos de la relación PESO-ESTATURA
Summary Statistics for RESIDUALS
Count = 131 Average = 0,00000141672 Variance = 51,3044 Standard deviation = 7,16271 Minimum = -14,687 Maximum = 23,5296 Range = 38,2166 Stnd. skewness = 3,53009 Stnd. kurtosis = 1,33846
¿Cuánto pesa, en promedio, un chico de estatura 1,75 m (175 cm)?
¿Entre qué límites fluctúa, en el 95% de los casos, el peso de un chico de 1,75m (175cm) de estatura?
Ê(PESO) = -17,06 + 0,5 x ESTATURA
Ê(PESO) = -17,06 + 0,5 x 175 = 70,44 Kg.
Predicción media ± 2xSresidual
70,44 ± 2 x 7,39 =[55,66 Kg. , 85,22 Kg.]
Inferencia en modelos de regresión. Coeficiente R
2La variabilidad total de la variable dependiente Y en
el conjunto de las N observaciones puede
descomponerse en:
SCTotal = SCExplicada + SCResidual
SCExplicada: Variabilidad asociada a las variables
explicativas Xi (con I grados de libertad = nº de var. explicativas)
SCResidual: Variabilidad no asociada a las variables
La diferencia:
SC
Explicada= SC
Total– SC
Residuales la parte de la variabilidad de Y asociada a las variables explicativas 2 Re 2
1
[0,1]
=
Explicada= −
sidual∈
Total TotalSC
SC
R
R
SC
SC
Bondad del ajuste:
Coeficiente de Determinación R2
2 2
[0,1]
E xplicada TotalSC
R
R
SC
=
∈
Cuanto más cercano a 1 sea el coeficiente mayor parte de la variabilidad constatada en Y estará asociada a las variables explicativas incluidas en el modelo. Normalmente viene expresado en porcentaje
R2 coincide con el coeficiente de correlación lineal entre X e Y al cuadrado
2 2
X ,Y
r
.100
=
R
Inferencia en MR:
Significación del efecto de una variable XiDado el modelo
E(
Y
) = α +
ββββ
X
El test para contrastar la hipótesis nula
H0: ß = 0, frente a la alternativa
H1: ß ≠≠≠≠ 0 (implica la existencia de un efecto real poblacional de la X sobre E(Y))
b
b
S
Si la variable X no influye en E(Y) ⇐⇐⇐⇐⇒⇒⇒⇒ ββββ = 0
se lleva a cabo dividiendo el coeficiente estimado b por el margen de incertidumbre asociado a su estimación Sb
Test para contrastar la hipótesis nula: H0: ß = 0, frente a la alternativa
H1: ß ≠≠≠≠ 0 (que implica la existencia de un efecto real
poblacional de la X sobre E(Y)) Si ββββ = 0 1 − −
≈
N I bb
t
S
Si ββββ ≠≠≠≠ 0b
>
t
N − −1 IS
αSi se acepta la H0: ß = 0 No existe un efecto real poblacional de la X sobre E(Y),
1 − −
≤
N I bb
t
S
α Si se rechaza la H0: ß = 0 Se acepta H1: ßi ≠≠≠≠ 0Existe un efecto real poblacional de la X sobre E(Y),
1 − −
>
N I bb
t
S
α6 – Trabajos Prácticos
Los datos para ese estudio se encuentran en el fichero GAS. Los nombres de las variables son CONSUMO (expresado en una unidad arbitraria, termias) , TEMPERATURA (expresada en ºC) y DIA (códigos de 1 a 5 correspondientes a los 5 días laborables)
1.- Representar el diagrama de dispersión entre CONSUMO y TEMPER
2.- Obtener la ecuación de la recta de regresión del CONSUMO en función de TEMPER. Interpretar el significado de los coeficientes
6 – Trabajos Prácticos
3.- Posible no linealidad de la relación. Dado que el diagrama de dispersión junto con el gráfico de los residuos frente a TEMPER, sugiere la posibilidad de que la relación sea no lineal, ajustar los datos a una parábola del tipo:
CONSUMO=a+b.TEMPER+c.TEMPER2
4.- Interpretación del valor 0.955 para R-SQUARED
5.- ¿Entre qué límites fluctúa en un 95% de los casos el consumo de los días en que la temperatura es de 15ºC? 6.- ¿Cuál es la probabilidad de obtener un consumo
Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 España de Creative Commons. Para ver una copia de esta licencia, visite