UD 5 Introducción a la Inferencia Estadística. Parte IV

(1)

UD 5 Introducción a la Inferencia

Estadística

(2)

Contenido

-

UD5 Introducción a la Inferencia Estadística

-5.4. Introducción a la Regresión Lineal

2.2. Estadística Descriptiva Bidimensional - 2

5.3 Introducción al Análisis de la Varianza

5.2 Inferencia básica en poblaciones normales

5.1 Distribuciones en el muestreo

(3)

UD 5 Introducción a la Inferencia Estadística

(Parte IV)

Distribuciones marginales y condicionales Diagramas de dispersión

Covarianza. Coeficiente de correlación Interpretación de relaciones

Recta de regresión

Análisis de residuos

(4)

1-Distribuciones marginales y condicionales

Variable aleatoria bidimensional : sobre cada individuo de la población se observan dos características aleatorias expresables numéricamente Ejemplos:

Población estudiantes universitarios se observa la ESTATURA (cms) y el PESO (kgs) de cada estudiante

Para el control del consumo de energía en una factoría se anota cada día el CONSUMO (termias) y la TEMPERATURA DIARIA (ºC)

En un sistema informático se observa semanalmente la carga media del sistema (CARGA, peticiones procesadas por unidad

(5)

1-Distribuciones marginales y condicionales

Objetivo del análisis: Describir la relación existente entre las dos componentes de la v.a. Bidimensional Herramientas: Tabla de Frecuencias Cruzada

variables discretas (naturaleza cualitativa)

REPITE SEXO SI 1 NO 2 Row Total CHICOS 1 5 10.9 41 89.1 46 64.8 CHICAS 2 1 4.0 24 96.0 25 35.2 COLUMN TOTAL 6 8.5 65 91.5

(6)

1-Distribuciones marginales y condicionales

variables continuas: existen técnicas más poderosas para analizar y describir la relación existente entre

las dos vbles.

Previamente a la representación de la Tabla será necesario agrupar los valores de las variables en intervalos, de forma similar a como se hizo con las

tablas de frecuencias para variables

(7)

1-Distribuciones marginales y condicionales

Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frecuencias marginales de PESO Frecuencias marginales de ESTATURA

(8)

1-Distribuciones marginales y condicionales

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%

Frecuencias observadas de PESO condicionadas a ESTATURA PESO

< ≤

]

145, 155

]

(9)

1-Distribuciones marginales y condicionales

• Distribución marginal:

• A la pauta de variabilidad que sigue en la población la

variable PESO, sin tener en cuenta la ESTATURA, se conoce por distribución marginal (de PESO)

variable ESTATURA, sin tener en cuenta el PESO, se conoce por distribución marginal (de ESTATURA)

• Distribución condicional: PESO/ESTATURA, por ejemplo

variable PESO, ciñéndonos a los individuos que presentan una

cierta ESTATURA, se denomina distribución condicional (de

(10)

1-Distribuciones marginales y condicionales

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%

¿Existe relación entre el PESO y la ESTATURA de una persona?

(11)

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0

• Parámetros de las distribuciones condicionales de PESO en función de la ESTATURA

StatgraphicsPlus y Centurion: Describe Numeric Data Subset

(12)

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0 90 80 70 60 50 PESO (Kg) ESTATURA (cm) Distribución marginal del PESO Distribuciones condicionales

del PESO respecto a ESTATURA

(13)

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0

• Parámetros de las distribuciones condicionales de PESO en función de la ESTATURA

Autoevaluación: Las medias de las distribuciones condicionales aumentan al aumentar los valores de la variable condicionante ESTATURA. ¿Te parece lógico este resultado?

(14)

1-Distribuciones marginales y condicionales

• Toda va bidimensional (X,Y) tiene asociadas :

• Dos distribuciones unidimensionales (marginal de X, marginal

de Y)

• Distribución condicional de una de ellas para cada uno de los valores posibles de la otra (Y/X=x_i)

• Si todas las distribuciones condicionales (Y/X=x_i) son iguales, esto es, no dependen del valor concreto x_i, se dice que las dos variables X e Y son independientes

Ejemplos: (X: Peso, Y: Coeficiente intelectual) (X: Temperatura, Y: Consumo)

(15)

2 - Diagramas de Dispersión

Es un gráfico XY en el que cada observación de la

muestra se representa por un punto en el plano, cuya abcisa corresponde al valor de la primera variable y

cuya ordenada corresponde al valor de la segunda variable

Secuencia de opciones en StatgraphicsPlus y Centurion:

(16)

2 - Diagramas de Dispersión

Diagrama de dispersión de la variable PESO frente a ESTATURA

Plot of PESO vs ESTATURA

150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O

(17)

2 - Diagramas de Dispersión

Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO

ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(18)

2 - Diagramas de Dispersión

Ejercicio: Como ejemplo de un diagrama de dispersión que muestra una relación negativa, obtener mediante Statgraphics el diagrama de

dispersión entre las variables TEMPER y

(19)

2 - Diagramas de Dispersión

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O

Cuanto más estrechamente se agrupen los puntos del

diagrama de dispersión en torno a una recta, más fuerte es el grado de relación lineal existente entre las dos variables

(20)

2 - Diagramas de Dispersión

Relación lineal Baja Relación lineal Intermedia

(21)

2 - Diagramas de Dispersión

Autoevaluación:

¿Sigue creciendo la gente a partir de los 19 años? Para ver si hay alguna evidencia al respecto en los datos de la encuesta, construir el Diagrama de

Dispersión de ESTATURA frente a EDAD

(22)

2 - Diagramas de Dispersión

Plot of ESTATURA vs EDAD

19 22 25 28 31 34

EDAD

150 160 170 180 190 200

E

S

T

A

T

U

R

A

(23)

3- Covarianza. Coeficiente de correlación

Objetivo: cuantificar en un índice numérico el grado de relación lineal existente entre dos variables

Covarianza:

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 ₄ 247.6 10.9

(24)

3- Covarianza. Coeficiente de correlación

Para todo pareja de valores (x_i , y_i ), observamos el signo de los productos:

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 ₄ 247.6 10.9 i i

(x

−

x ) .(y

−

y )

(25)

3- Covarianza. Coeficiente de correlación

i i

(x

−

x ) .(y

−

y )

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O En el cuadrante 1 y 3 >0 En el cuadrante 2 y 4 <0 1 2 3 4

(26)

3- Covarianza. Coeficiente de correlación

1 N

)

Y

)(Y

X

(X

COV

_(X, _Y) i i

−

=

∑

Promedio de los productos de las desviaciones de ambas variables respecto a sus medias respectivas

La covarianza será positiva si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X) y negativa si la relación existente es decreciente

(27)

3- Covarianza. Coeficiente de correlación

Solución: Coeficiente de correlación lineal Inconveniente depende de las dimensiones en que se expresen las variables

Ejemplo: la covarianza entre PESO y

ESTATURA será 100 veces mayor si la ESTATURA se mide en centímetros que si se mide en metros

(28)

3- Covarianza. Coeficiente de correlación

Coeficiente de correlación lineal:

Ventajas: Parámetro adimensional Acotado (-1 , +1)

Los valores extremos solo los toma en el caso en que los puntos del Diagrama de dispersión estén alineados exactamente en línea recta

(29)

3- Covarianza. Coeficiente de correlación

Cuanto más fuerte es el grado de relación lineal entre dos variables, más cercano a “+1” es el valor de r_x,y (o a “-1” si la relación es decreciente)

Un valor de r_x,y nulo o cercano a “0” indicará una relación lineal inexistente o muy débil

StatgraphicsPlus permite obtener las covarianzas y los coeficientes de correlación entre varias variables con las opciones:

Describe Numeric Data Multiple-Variable Analyisis,

introducir las variables en el campo Data Tabular Options, seleccionar Covariances , Correlations

(30)

3- Covarianza. Coeficiente de correlación

Matriz de Varianzas-Covarianzas:

Matriz de Correlaciones : r_x,x

(31)

3- Covarianza. Coeficiente de correlación

Autoevaluación: Calcular por medio de Statgraphics

Centurion los valores de las covarianzas y de los

coeficientes de correlación entre las siguientes

parejas de variables:

ESTATURA y PESO ESTATURA y EDAD TEMPER y CONSUMO

(32)

3- Covarianza. Coeficiente de correlación

Covariances ESTATURA PESO ---ESTATURA 82,3711 71,6159 ( 131) ( 131) PESO 71,6159 113,569 ( 131) ( 131) Correlations ESTATURA PESO ---ESTATURA 0,7404 ( 131) 0,0000 PESO 0,7404 ( 131) 0,0000 ---Número de observaciones a partir de las que se calcula el parámetro

¿Sabrías obtener la matriz de correlación a partir de la matriz de var-cov?

(33)

3- Covarianza. Coeficiente de correlación

Covariances ESTATURA EDAD ---ESTATURA 82,3711 1,31439 ( 131) ( 131) EDAD 1,31439 2,7825 ( 131) ( 131) ---Correlations ESTATURA EDAD ---ESTATURA 0,0868 ( 131) 0,3241 EDAD 0,0868 ( 131) 0,3241

(34)

---3- Covarianza. Coeficiente de correlación

Covariances TEMPER CONSUMO ---TEMPER 29,0832 -535,449 ( 57) ( 57) CONSUMO -535,449 10487,2 ( 57) ( 57) Correlations TEMPER CONSUMO ---TEMPER -0,9695 ( 57) 0,0000 CONSUMO -0,9695 ( 57) 0,0000

(35)

(36)

3- Covarianza. Coeficiente de correlación

Dos variables X, Y pueden tener una estrecha relación y resultar r_x,ycercano a 0 por ser dicha relación no

lineal

Ejemplo:

X: -3, -2, -1, 0, 1, 2, 3 Y: 9, 4, 1, 0, 1, 4, 9

¿Están relacionadas las variables? ¿Lo están linealmente?

(37)

3- Covarianza. Coeficiente de correlación

Plot of Y vs X -3 -2 -1 0 1 2 3 X 0 2 4 6 8 10 Y Correlations X Y ---X 1 0,0000 Y 0,0000 1

(38)

---3- Covarianza. Coeficiente de correlación

Si dos variables son independientes r_x,y = 0

Si r_x,y tiene un valor cercano a 0 no hay relación

LINEAL entre X e Y

Como ya se ha comentado, un valor de r_x,y nulo o cercano a cero indica una relación lineal inexistente o muy débil (pero no necesariamente independencia)

El cuadrado del coeficiente de correlación mide la proporción (o porcentaje si se multiplica por 100) de la varianza de Y que está asociada a la variabilidad de X

(39)

4- Interpretación de relaciones

Dependencia causal unidireccional:

CAUSA EFECTO

Tráfico en la red Latencia de los mensajes

Agua de lluvia caída Agua evacuada por alcantarillado

Tamaño de los mensajes Retardo

Temperatura ambiental Consumo en calefacción

(40)

4- Interpretación de relaciones

Dependencia parcial de otra u otras variables:

CAUSA EFECTO

Características genéticas Estatura y Peso

Turbulencias en el aire Letrero ‘Abroche su

cinturón` y sacudidas en el avión

Renta familiar Gasto en zapatos y en libros de las familias españolas

Interdependencia entre las 2 variables:

Oferta y demanda de un producto

(41)

UD 5 Introducción a la Inferencia Estadística

(Parte IV)

Distribuciones marginales y condicionales Diagramas de dispersión

Covarianza. Coeficiente de correlación Interpretación de relaciones

Recta de regresión

Análisis de residuos

(42)

5 – Recta de Regresión

Objetivo: cuantificar la relación existente entre dos variables con el fin de predecir el valor de una de ellas a partir del valor constatado de la otra

Ejemplo: para el control de consumo de energía en

una factoría durante los meses de invierno se anota diariamente el CONSUMO (termias) y la TEMPERATURA diaria (ºC a las 12h). El responsable del control del consumo en la factoría desea saber si el consumo de 290 termias registrado el día anterior puede considerarse “normal” sabiendo que la temperatura fue

(43)

5 – Recta de Regresión

El consumo depende de la temperatura y de otros factores (humedad, viento, volumen de producción…), aún no habiendo anomalías el consumo en la población constituída por los días en que la temperatura es 10ºC fluctuará aleatoriamente

Pero en promedio, ¿cuánto se consumirá los días en que la temperatura sea 10ºC?

Con toda seguridad menos que lo que se consumirá en

promedio los días en que la temperatura sea de 5ºC,

Pero…. ¿cuánto menos?

(44)

Plot of Fitted Model CONSUMO = 448,913 - 18,4109*TEMPER -3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 140 118 18ºC 6,5ºC y_i - (a+bx_i) = 140-118 = 22 = e_i residuo_i

(45)

5 – Recta de Regresión

Predice el valor que en promedio corresponde a una variable Y cuando otra variable X tiene un valor

determinado

Los valores a y b que definen la recta son aquellos que minimizan

(46)

5 – Recta de Regresión

Los valores de b y a vienen dados por las siguientes expresiones:

(47)

(48)

5 – Recta de Regresión

Diagrama de dispersión de la variable PESO frente a ESTATURA

150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O

(49)

5 – Recta de Regresión

ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(50)

5 – Recta de Regresión

La recta de regresión calculada a partir de las variables

PESO (variable dependiente) y ESTATURA (variable independiente) se obtiene en StatgraphicsPlus a partir de la secuencia de opciones:

Relate Simple Regresion Variable Y: PESO

(51)

5 – Recta de Regresión

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: PESO

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -84,0714 12,0274 -6,99002 0,0000 Slope 0,869429 0,0694856 12,5124 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 8094,44 1 8094,44 156,56 0,0000 Residual 6669,58 129 51,7021 ---Total (Corr.) 14764,0 130 Correlation Coefficient = 0,740442 R-squared = 54,8255 percent

R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042

Mean absolute error = 5,49874

Durbin-Watson statistic = 1,87089 (P=0,2311) Lag 1 residual autocorrelation = 0,0637738

**

r_xy

a b

(52)

5 – Recta de Regresión

La mayor parte de los resultados obtenidos con este análisis se aplican en un contexto de Inferencia Estadística

Las probabilidades de la última columna indican hasta qué punto la relación constatada se debe:

a un simple azar del muestreo (Prob.>0,05)

o por el contrario está asociada a una relación real

existente en la población muestreada

(53)

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA

P

E

S

O

150 160 170 180 190 200 45 55 65 75 85 95 _{PESO=-84.07+0.87ESTATURA}

(54)

5 – Recta de Regresión

P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(55)

5 – Recta de Regresión

Estudio de la relación entre el PESO y la ESTATURA en chicos

---Dependent variable: SELECT ( PESO; SEXO="chicos")

Standard T

(56)

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA S E L E C T ( P E S O ; S E X O = "c h ic o s ") 150 160 170 180 190 200 56 66 76 86 96

(57)

5 – Recta de Regresión

Estudio de la relación entre el PESO y la ESTATURA en chicas

---Dependent variable: SELECT ( PESO; SEXO="chicas")

Standard T

(58)

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA

S

E

L

E

C

T

(

P

E

S

O

;

S

E

X

O

=

"c

h

ic

a

s

")

150 160 170 180 190 200 45 50 55 60 65 70 75

(59)

5 – Recta de Regresión

Ejercicio: Conociendo el PESO y la ESTATURA de cada

alumno calcular el peso previsto por la ecuación de regresión, en función del SEXO, y compararlo con el real.

(60)

5 – Recta de Regresión. Análisis de residuos

Análisis de Residuos

Concepto: se denomina residuo de un dato a la diferencia entre el valor y_i del mismo y el valor a+bx_i

que se predice para el valor medio de Y en los individuos de la población en los que la variable X vale x_i

Interpretación: el residuo de un día recoge el efecto

que sobre el consumo de dicho día han tenido todas las otras variables que influyen sobre el consumo, incluyendo posibles anomalías y que no se han tenido en cuenta en el análisis

Parámetros:

• Media=0

• Varianza S2

r = S2y (1- r2xy) Permite estimar el orden de

(61)

---Dependent variable: PESO

Standard T

R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042

Mean absolute error = 5,49874

Durbin-Watson statistic = 1,87089 (P=0,2311) Lag 1 residual autocorrelation = 0,0637738

**

(62)

Residuos de la relación PESO-ESTATURA

Summary Statistics for RESIDUALS

Count = 131 Average = 0,00000141672 Variance = 51,3044 Standard deviation = 7,16271 Minimum = -14,687 Maximum = 23,5296 Range = 38,2166 Stnd. skewness = 3,53009 Stnd. kurtosis = 1,33846

(63)

¿Cuánto pesa, en promedio, un chico de estatura 1,75 m (175 cm)?

¿Entre qué límites fluctúa, en el 95% de los casos, el peso de un chico de 1,75m (175cm) de estatura?

Ê(PESO) = -17,06 + 0,5 x ESTATURA

Ê(PESO) = -17,06 + 0,5 x 175 = 70,44 Kg.

Predicción media ± 2xS_residual

70,44 ± 2 x 7,39 =[55,66 Kg. , 85,22 Kg.]

(64)

Inferencia en modelos de regresión. Coeficiente R

2

La variabilidad total de la variable dependiente Y en

el conjunto de las N observaciones puede

descomponerse en:

SCTotal = SCExplicada + SCResidual

SCExplicada: Variabilidad asociada a las variables

explicativas X_i (con I grados de libertad = nº de var. explicativas)

SCResidual: Variabilidad no asociada a las variables

(65)

La diferencia:

SC

_Explicada

= SC

_Total

– SC

_Residual

es la parte de la variabilidad de Y asociada a las variables explicativas 2 _Re 2

1 [0,1]

=

Explicada

= −

_sidual

∈

Total Total

SC

_SC

R

SC

Bondad del ajuste:

Coeficiente de Determinación R2

(66)

2 2

[0,1]

E xplicada Total

SC

R

SC

=

∈

Cuanto más cercano a 1 sea el coeficiente mayor parte de la variabilidad constatada en Y estará asociada a las variables explicativas incluidas en el modelo. Normalmente viene expresado en porcentaje

R2 _{coincide con el coeficiente de correlación lineal entre} X e Y al cuadrado

2 2

X ,Y

r

.100

=

R

(67)

Inferencia en MR:

Significación del efecto de una variable X_i

Dado el modelo

E(

Y

) = α +

ββββ

X

El test para contrastar la hipótesis nula

H₀: ß = 0, frente a la alternativa

H₁: ß ≠≠≠≠ 0 (implica la existencia de un efecto real poblacional de la X sobre E(Y))

b

S

Si la variable X no influye en E(Y) ⇐⇐⇐⇐⇒⇒⇒⇒ ββββ = 0

se lleva a cabo dividiendo el coeficiente estimado b por el margen de incertidumbre asociado a su estimación S_b

(68)

Test para contrastar la hipótesis nula: H₀: ß = 0, frente a la alternativa

H₁: ß ≠≠≠≠ 0 (que implica la existencia de un efecto real

poblacional de la X sobre E(Y)) Si ββββ = 0 1 − −

≈

_N _I b

b

t

S

Si ββββ ≠≠≠≠ 0

b

>

t

_N _{− −}₁ _I

S

α

(69)

Si se acepta la H₀: ß = 0 No existe un efecto real poblacional de la X sobre E(Y),

1 − −

≤

_N _I b

b

t

S

α Si se rechaza la H₀: ß = 0 Se acepta H₁: ß_i ≠≠≠≠ 0

Existe un efecto real poblacional de la X sobre E(Y),

1 − −

>

_N _I b

b

t

S

α

(70)

6 – Trabajos Prácticos

Los datos para ese estudio se encuentran en el fichero GAS. Los nombres de las variables son CONSUMO (expresado en una unidad arbitraria, termias) , TEMPERATURA (expresada en ºC) y DIA (códigos de 1 a 5 correspondientes a los 5 días laborables)

1.- Representar el diagrama de dispersión entre CONSUMO y TEMPER

2.- Obtener la ecuación de la recta de regresión del CONSUMO en función de TEMPER. Interpretar el significado de los coeficientes

(71)

6 – Trabajos Prácticos

3.- Posible no linealidad de la relación. Dado que el diagrama de dispersión junto con el gráfico de los residuos frente a TEMPER, sugiere la posibilidad de que la relación sea no lineal, ajustar los datos a una parábola del tipo:

CONSUMO=a+b.TEMPER+c.TEMPER2

4.- Interpretación del valor 0.955 para R-SQUARED

5.- ¿Entre qué límites fluctúa en un 95% de los casos el consumo de los días en que la temperatura es de 15ºC? 6.- ¿Cuál es la probabilidad de obtener un consumo

(72)

Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 España de Creative Commons. Para ver una copia de esta licencia, visite