• No se han encontrado resultados

UD 5 Introducción a la Inferencia Estadística. Parte IV

N/A
N/A
Protected

Academic year: 2021

Share "UD 5 Introducción a la Inferencia Estadística. Parte IV"

Copied!
72
0
0

Texto completo

(1)

UD 5 Introducción a la Inferencia

Estadística

(2)

Contenido

-

UD5 Introducción a la Inferencia Estadística

-5.4. Introducción a la Regresión Lineal

2.2. Estadística Descriptiva Bidimensional - 2

5.3 Introducción al Análisis de la Varianza

5.3 Introducción al Análisis de la Varianza

5.2 Inferencia básica en poblaciones normales

5.1 Distribuciones en el muestreo

5.1 Distribuciones en el muestreo

(3)

UD 5 Introducción a la Inferencia Estadística

(Parte IV)

Distribuciones marginales y condicionales Diagramas de dispersión

Covarianza. Coeficiente de correlación Interpretación de relaciones

Recta de regresión

Análisis de residuos

(4)

1-Distribuciones marginales y condicionales

Variable aleatoria bidimensional : sobre cada individuo de la población se observan dos características aleatorias expresables numéricamente Ejemplos:

Población estudiantes universitarios se observa la ESTATURA (cms) y el PESO (kgs) de cada estudiante

Para el control del consumo de energía en una factoría se anota cada día el CONSUMO (termias) y la TEMPERATURA DIARIA (ºC)

En un sistema informático se observa semanalmente la carga media del sistema (CARGA, peticiones procesadas por unidad

(5)

1-Distribuciones marginales y condicionales

Objetivo del análisis: Describir la relación existente entre las dos componentes de la v.a. Bidimensional Herramientas: Tabla de Frecuencias Cruzada

variables discretas (naturaleza cualitativa)

REPITE SEXO SI 1 NO 2 Row Total CHICOS 1 5 10.9 41 89.1 46 64.8 CHICAS 2 1 4.0 24 96.0 25 35.2 COLUMN TOTAL 6 8.5 65 91.5

(6)

1-Distribuciones marginales y condicionales

variables continuas: existen técnicas más poderosas para analizar y describir la relación existente entre

las dos vbles.

Previamente a la representación de la Tabla será necesario agrupar los valores de las variables en intervalos, de forma similar a como se hizo con las

tablas de frecuencias para variables

(7)

1-Distribuciones marginales y condicionales

Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frecuencias marginales de PESO Frecuencias marginales de ESTATURA

(8)

1-Distribuciones marginales y condicionales

Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%

Frecuencias observadas de PESO condicionadas a ESTATURA PESO

< ≤

]

145, 155

]

(9)

1-Distribuciones marginales y condicionales

• Distribución marginal:

• A la pauta de variabilidad que sigue en la población la

variable PESO, sin tener en cuenta la ESTATURA, se conoce por distribución marginal (de PESO)

• A la pauta de variabilidad que sigue en la población la

variable ESTATURA, sin tener en cuenta el PESO, se conoce por distribución marginal (de ESTATURA)

• Distribución condicional: PESO/ESTATURA, por ejemplo

• A la pauta de variabilidad que sigue en la población la

variable PESO, ciñéndonos a los individuos que presentan una

cierta ESTATURA, se denomina distribución condicional (de

(10)

1-Distribuciones marginales y condicionales

Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%

¿Existe relación entre el PESO y la ESTATURA de una persona?

(11)

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0

• Parámetros de las distribuciones condicionales de PESO en función de la ESTATURA

StatgraphicsPlus y Centurion: Describe Numeric Data Subset

(12)

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0 90 80 70 60 50 PESO (Kg) ESTATURA (cm) Distribución marginal del PESO Distribuciones condicionales

del PESO respecto a ESTATURA

(13)

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0

• Parámetros de las distribuciones condicionales de PESO en función de la ESTATURA

Autoevaluación: Las medias de las distribuciones condicionales aumentan al aumentar los valores de la variable condicionante ESTATURA. ¿Te parece lógico este resultado?

(14)

1-Distribuciones marginales y condicionales

• Toda va bidimensional (X,Y) tiene asociadas :

• Dos distribuciones unidimensionales (marginal de X, marginal

de Y)

• Distribución condicional de una de ellas para cada uno de los valores posibles de la otra (Y/X=xi)

• Si todas las distribuciones condicionales (Y/X=xi) son iguales, esto es, no dependen del valor concreto xi, se dice que las dos variables X e Y son independientes

Ejemplos: (X: Peso, Y: Coeficiente intelectual) (X: Temperatura, Y: Consumo)

(15)

2 - Diagramas de Dispersión

Es un gráfico XY en el que cada observación de la

muestra se representa por un punto en el plano, cuya abcisa corresponde al valor de la primera variable y

cuya ordenada corresponde al valor de la segunda variable

Secuencia de opciones en StatgraphicsPlus y Centurion:

(16)

2 - Diagramas de Dispersión

Diagrama de dispersión de la variable PESO frente a ESTATURA

Plot of PESO vs ESTATURA

150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O

(17)

2 - Diagramas de Dispersión

Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO

Plot of PESO vs ESTATURA

ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(18)

2 - Diagramas de Dispersión

Ejercicio: Como ejemplo de un diagrama de dispersión que muestra una relación negativa, obtener mediante Statgraphics el diagrama de

dispersión entre las variables TEMPER y

(19)

2 - Diagramas de Dispersión

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O

Cuanto más estrechamente se agrupen los puntos del

diagrama de dispersión en torno a una recta, más fuerte es el grado de relación lineal existente entre las dos variables

(20)

2 - Diagramas de Dispersión

Relación lineal Baja Relación lineal Intermedia

(21)

2 - Diagramas de Dispersión

Autoevaluación:

¿Sigue creciendo la gente a partir de los 19 años? Para ver si hay alguna evidencia al respecto en los datos de la encuesta, construir el Diagrama de

Dispersión de ESTATURA frente a EDAD

(22)

2 - Diagramas de Dispersión

Plot of ESTATURA vs EDAD

19 22 25 28 31 34

EDAD

150 160 170 180 190 200

E

S

T

A

T

U

R

A

(23)

3- Covarianza. Coeficiente de correlación

Objetivo: cuantificar en un índice numérico el grado de relación lineal existente entre dos variables

Covarianza:

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 4 247.6 10.9

(24)

3- Covarianza. Coeficiente de correlación

Para todo pareja de valores (xi , yi ), observamos el signo de los productos:

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 4 247.6 10.9 i i

(x

x ) .(y

y )

(25)

3- Covarianza. Coeficiente de correlación

i i

(x

x ) .(y

y )

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O En el cuadrante 1 y 3 >0 En el cuadrante 2 y 4 <0 1 2 3 4

(26)

3- Covarianza. Coeficiente de correlación

1

N

)

Y

)(Y

X

(X

COV

(X, Y) i i

=

Promedio de los productos de las desviaciones de ambas variables respecto a sus medias respectivas

La covarianza será positiva si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X) y negativa si la relación existente es decreciente

(27)

3- Covarianza. Coeficiente de correlación

Solución: Coeficiente de correlación lineal Inconveniente depende de las dimensiones en que se expresen las variables

Ejemplo: la covarianza entre PESO y

ESTATURA será 100 veces mayor si la ESTATURA se mide en centímetros que si se mide en metros

(28)

3- Covarianza. Coeficiente de correlación

Coeficiente de correlación lineal:

Ventajas: Parámetro adimensional Acotado (-1 , +1)

Los valores extremos solo los toma en el caso en que los puntos del Diagrama de dispersión estén alineados exactamente en línea recta

(29)

3- Covarianza. Coeficiente de correlación

Cuanto más fuerte es el grado de relación lineal entre dos variables, más cercano a “+1” es el valor de rx,y (o a “-1” si la relación es decreciente)

Un valor de rx,y nulo o cercano a “0” indicará una relación lineal inexistente o muy débil

StatgraphicsPlus permite obtener las covarianzas y los coeficientes de correlación entre varias variables con las opciones:

Describe Numeric Data Multiple-Variable Analyisis,

introducir las variables en el campo Data Tabular Options, seleccionar Covariances , Correlations

(30)

3- Covarianza. Coeficiente de correlación

Matriz de Varianzas-Covarianzas:

Matriz de Correlaciones : rx,x

(31)

3- Covarianza. Coeficiente de correlación

Autoevaluación: Calcular por medio de Statgraphics

Centurion los valores de las covarianzas y de los

coeficientes de correlación entre las siguientes

parejas de variables:

ESTATURA y PESO ESTATURA y EDAD TEMPER y CONSUMO

(32)

3- Covarianza. Coeficiente de correlación

Covariances ESTATURA PESO ---ESTATURA 82,3711 71,6159 ( 131) ( 131) PESO 71,6159 113,569 ( 131) ( 131) Correlations ESTATURA PESO ---ESTATURA 0,7404 ( 131) 0,0000 PESO 0,7404 ( 131) 0,0000 ---Número de observaciones a partir de las que se calcula el parámetro

¿Sabrías obtener la matriz de correlación a partir de la matriz de var-cov?

(33)

3- Covarianza. Coeficiente de correlación

Covariances ESTATURA EDAD ---ESTATURA 82,3711 1,31439 ( 131) ( 131) EDAD 1,31439 2,7825 ( 131) ( 131) ---Correlations ESTATURA EDAD ---ESTATURA 0,0868 ( 131) 0,3241 EDAD 0,0868 ( 131) 0,3241

(34)

---3- Covarianza. Coeficiente de correlación

Covariances TEMPER CONSUMO ---TEMPER 29,0832 -535,449 ( 57) ( 57) CONSUMO -535,449 10487,2 ( 57) ( 57) Correlations TEMPER CONSUMO ---TEMPER -0,9695 ( 57) 0,0000 CONSUMO -0,9695 ( 57) 0,0000

(35)
(36)

3- Covarianza. Coeficiente de correlación

Dos variables X, Y pueden tener una estrecha relación y resultar rx,y cercano a 0 por ser dicha relación no

lineal

Ejemplo:

X: -3, -2, -1, 0, 1, 2, 3 Y: 9, 4, 1, 0, 1, 4, 9

¿Están relacionadas las variables? ¿Lo están linealmente?

(37)

3- Covarianza. Coeficiente de correlación

Plot of Y vs X -3 -2 -1 0 1 2 3 X 0 2 4 6 8 10 Y Correlations X Y ---X 1 0,0000 Y 0,0000 1

(38)

---3- Covarianza. Coeficiente de correlación

Si dos variables son independientes rx,y = 0

Si rx,y tiene un valor cercano a 0 no hay relación

LINEAL entre X e Y

Como ya se ha comentado, un valor de rx,y nulo o cercano a cero indica una relación lineal inexistente o muy débil (pero no necesariamente independencia)

El cuadrado del coeficiente de correlación mide la proporción (o porcentaje si se multiplica por 100) de la varianza de Y que está asociada a la variabilidad de X

(39)

4- Interpretación de relaciones

Dependencia causal unidireccional:

CAUSA EFECTO

Tráfico en la red Latencia de los mensajes

Agua de lluvia caída Agua evacuada por alcantarillado

Tamaño de los mensajes Retardo

Temperatura ambiental Consumo en calefacción

(40)

4- Interpretación de relaciones

Dependencia parcial de otra u otras variables:

CAUSA EFECTO

Características genéticas Estatura y Peso

Turbulencias en el aire Letrero ‘Abroche su

cinturón` y sacudidas en el avión

Renta familiar Gasto en zapatos y en libros de las familias españolas

Interdependencia entre las 2 variables:

Oferta y demanda de un producto

(41)

UD 5 Introducción a la Inferencia Estadística

(Parte IV)

Distribuciones marginales y condicionales Diagramas de dispersión

Covarianza. Coeficiente de correlación Interpretación de relaciones

Recta de regresión

Análisis de residuos

(42)

5 – Recta de Regresión

Objetivo: cuantificar la relación existente entre dos variables con el fin de predecir el valor de una de ellas a partir del valor constatado de la otra

Ejemplo: para el control de consumo de energía en

una factoría durante los meses de invierno se anota diariamente el CONSUMO (termias) y la TEMPERATURA diaria (ºC a las 12h). El responsable del control del consumo en la factoría desea saber si el consumo de 290 termias registrado el día anterior puede considerarse “normal” sabiendo que la temperatura fue

(43)

5 – Recta de Regresión

El consumo depende de la temperatura y de otros factores (humedad, viento, volumen de producción…), aún no habiendo anomalías el consumo en la población constituída por los días en que la temperatura es 10ºC fluctuará aleatoriamente

Pero en promedio, ¿cuánto se consumirá los días en que la temperatura sea 10ºC?

Con toda seguridad menos que lo que se consumirá en

promedio los días en que la temperatura sea de 5ºC,

Pero…. ¿cuánto menos?

(44)

Plot of Fitted Model CONSUMO = 448,913 - 18,4109*TEMPER -3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 140 118 18ºC 6,5ºC yi - (a+bxi) = 140-118 = 22 = ei residuoi

(45)

5 – Recta de Regresión

Predice el valor que en promedio corresponde a una variable Y cuando otra variable X tiene un valor

determinado

Los valores a y b que definen la recta son aquellos que minimizan

(46)

5 – Recta de Regresión

Los valores de b y a vienen dados por las siguientes expresiones:

(47)
(48)

5 – Recta de Regresión

Diagrama de dispersión de la variable PESO frente a ESTATURA

Plot of PESO vs ESTATURA

150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O

(49)

5 – Recta de Regresión

Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO

Plot of PESO vs ESTATURA

ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(50)

5 – Recta de Regresión

La recta de regresión calculada a partir de las variables

PESO (variable dependiente) y ESTATURA (variable independiente) se obtiene en StatgraphicsPlus a partir de la secuencia de opciones:

Relate Simple Regresion Variable Y: PESO

(51)

5 – Recta de Regresión

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: PESO

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -84,0714 12,0274 -6,99002 0,0000 Slope 0,869429 0,0694856 12,5124 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 8094,44 1 8094,44 156,56 0,0000 Residual 6669,58 129 51,7021 ---Total (Corr.) 14764,0 130 Correlation Coefficient = 0,740442 R-squared = 54,8255 percent

R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042

Mean absolute error = 5,49874

Durbin-Watson statistic = 1,87089 (P=0,2311) Lag 1 residual autocorrelation = 0,0637738

**

rxy

a b

(52)

5 – Recta de Regresión

La mayor parte de los resultados obtenidos con este análisis se aplican en un contexto de Inferencia Estadística

Las probabilidades de la última columna indican hasta qué punto la relación constatada se debe:

a un simple azar del muestreo (Prob.>0,05)

o por el contrario está asociada a una relación real

existente en la población muestreada

(53)

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA

P

E

S

O

150 160 170 180 190 200 45 55 65 75 85 95 PESO=-84.07+0.87ESTATURA

(54)

5 – Recta de Regresión

Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO

Plot of PESO vs ESTATURA

P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(55)

5 – Recta de Regresión

Estudio de la relación entre el PESO y la ESTATURA en chicos

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: SELECT ( PESO; SEXO="chicos")

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -17,0594 20,9979 -0,812434 0,4188 Slope 0,498687 0,118347 4,21378 0,0001 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 968,597 1 968,597 17,76 0,0001 Residual 4745,9 87 54,5505 ---Total (Corr.) 5714,49 88 Correlation Coefficient = 0,411702 R-squared = 16,9498 percent

(56)

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA S E L E C T ( P E S O ; S E X O = "c h ic o s ") 150 160 170 180 190 200 56 66 76 86 96

(57)

5 – Recta de Regresión

Estudio de la relación entre el PESO y la ESTATURA en chicas

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: SELECT ( PESO; SEXO="chicas")

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -70,1354 21,5958 -3,24764 0,0024 Slope 0,767583 0,132065 5,81218 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 777,89 1 777,89 33,78 0,0000 Residual 921,086 40 23,0271 ---Total (Corr.) 1698,98 41 Correlation Coefficient = 0,676652 R-squared = 45,7858 percent

(58)

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA

S

E

L

E

C

T

(

P

E

S

O

;

S

E

X

O

=

"c

h

ic

a

s

")

150 160 170 180 190 200 45 50 55 60 65 70 75

(59)

5 – Recta de Regresión

Ejercicio: Conociendo el PESO y la ESTATURA de cada

alumno calcular el peso previsto por la ecuación de regresión, en función del SEXO, y compararlo con el real.

(60)

5 – Recta de Regresión. Análisis de residuos

Análisis de Residuos

Concepto: se denomina residuo de un dato a la diferencia entre el valor yi del mismo y el valor a+bxi

que se predice para el valor medio de Y en los individuos de la población en los que la variable X vale xi

Interpretación: el residuo de un día recoge el efecto

que sobre el consumo de dicho día han tenido todas las otras variables que influyen sobre el consumo, incluyendo posibles anomalías y que no se han tenido en cuenta en el análisis

Parámetros:

Media=0

• Varianza S2

r = S2y (1- r2xy) Permite estimar el orden de

(61)

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: PESO

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -84,0714 12,0274 -6,99002 0,0000 Slope 0,869429 0,0694856 12,5124 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 8094,44 1 8094,44 156,56 0,0000 Residual 6669,58 129 51,7021 ---Total (Corr.) 14764,0 130 Correlation Coefficient = 0,740442 R-squared = 54,8255 percent

R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042

Mean absolute error = 5,49874

Durbin-Watson statistic = 1,87089 (P=0,2311) Lag 1 residual autocorrelation = 0,0637738

**

**

**

(62)

Residuos de la relación PESO-ESTATURA

Summary Statistics for RESIDUALS

Count = 131 Average = 0,00000141672 Variance = 51,3044 Standard deviation = 7,16271 Minimum = -14,687 Maximum = 23,5296 Range = 38,2166 Stnd. skewness = 3,53009 Stnd. kurtosis = 1,33846

(63)

¿Cuánto pesa, en promedio, un chico de estatura 1,75 m (175 cm)?

¿Entre qué límites fluctúa, en el 95% de los casos, el peso de un chico de 1,75m (175cm) de estatura?

Ê(PESO) = -17,06 + 0,5 x ESTATURA

Ê(PESO) = -17,06 + 0,5 x 175 = 70,44 Kg.

Predicción media ± 2xSresidual

70,44 ± 2 x 7,39 =[55,66 Kg. , 85,22 Kg.]

(64)

Inferencia en modelos de regresión. Coeficiente R

2

La variabilidad total de la variable dependiente Y en

el conjunto de las N observaciones puede

descomponerse en:

SCTotal = SCExplicada + SCResidual

SCExplicada: Variabilidad asociada a las variables

explicativas Xi (con I grados de libertad = nº de var. explicativas)

SCResidual: Variabilidad no asociada a las variables

(65)

La diferencia:

SC

Explicada

= SC

Total

– SC

Residual

es la parte de la variabilidad de Y asociada a las variables explicativas 2 Re 2

1

[0,1]

=

Explicada

= −

sidual

Total Total

SC

SC

R

R

SC

SC

Bondad del ajuste:

Coeficiente de Determinación R2

(66)

2 2

[0,1]

E xplicada Total

SC

R

R

SC

=

Cuanto más cercano a 1 sea el coeficiente mayor parte de la variabilidad constatada en Y estará asociada a las variables explicativas incluidas en el modelo. Normalmente viene expresado en porcentaje

R2 coincide con el coeficiente de correlación lineal entre X e Y al cuadrado

2 2

X ,Y

r

.100

=

R

(67)

Inferencia en MR:

Significación del efecto de una variable Xi

Dado el modelo

E(

Y

) = α +

ββββ

X

El test para contrastar la hipótesis nula

H0: ß = 0, frente a la alternativa

H1: ß ≠≠≠≠ 0 (implica la existencia de un efecto real poblacional de la X sobre E(Y))

b

b

S

Si la variable X no influye en E(Y) ⇐⇐⇐⇐⇒⇒⇒⇒ ββββ = 0

se lleva a cabo dividiendo el coeficiente estimado b por el margen de incertidumbre asociado a su estimación Sb

(68)

Test para contrastar la hipótesis nula: H0: ß = 0, frente a la alternativa

H1: ß ≠≠≠≠ 0 (que implica la existencia de un efecto real

poblacional de la X sobre E(Y)) Si ββββ = 0 1 − −

N I b

b

t

S

Si ββββ ≠≠≠≠ 0

b

>

t

N − −1 I

S

α

(69)

Si se acepta la H0: ß = 0 No existe un efecto real poblacional de la X sobre E(Y),

1 − −

N I b

b

t

S

α Si se rechaza la H0: ß = 0 Se acepta H1: ßi ≠≠≠≠ 0

Existe un efecto real poblacional de la X sobre E(Y),

1 − −

>

N I b

b

t

S

α

(70)

6 – Trabajos Prácticos

Los datos para ese estudio se encuentran en el fichero GAS. Los nombres de las variables son CONSUMO (expresado en una unidad arbitraria, termias) , TEMPERATURA (expresada en ºC) y DIA (códigos de 1 a 5 correspondientes a los 5 días laborables)

1.- Representar el diagrama de dispersión entre CONSUMO y TEMPER

2.- Obtener la ecuación de la recta de regresión del CONSUMO en función de TEMPER. Interpretar el significado de los coeficientes

(71)

6 – Trabajos Prácticos

3.- Posible no linealidad de la relación. Dado que el diagrama de dispersión junto con el gráfico de los residuos frente a TEMPER, sugiere la posibilidad de que la relación sea no lineal, ajustar los datos a una parábola del tipo:

CONSUMO=a+b.TEMPER+c.TEMPER2

4.- Interpretación del valor 0.955 para R-SQUARED

5.- ¿Entre qué límites fluctúa en un 95% de los casos el consumo de los días en que la temperatura es de 15ºC? 6.- ¿Cuál es la probabilidad de obtener un consumo

(72)

Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 España de Creative Commons. Para ver una copia de esta licencia, visite

Referencias

Documento similar

• Una variable aleatoria que cuenta el número de fracasos hasta obtener el k-ésimo éxito en la k+x repetición sigue una distribución binomial negativa.. Función de masa

Para responder esta pregunta se debe tener en cuenta que la distribución muestral del estadístico depende de: La distribución de la población, es decir, de la distribución de

La hipótesis sobre la distribución de probabilidad ha de hacerse a priori, teniendo en cuenta las características conocidas de la población en estudio (hay que tener

“Sin tener en cuenta la forma funcional de la población de donde se  extrae  la  muestra,    la  distribución  de  las  medias  muestrales calculadas  con 

Para este test habría que utilizar el valor establecido para la desviación típica (16.. Características de la distribución muestral de la media.?. días), en lugar de estimarlo de

La región Ayacucho cuenta con un alto porcentaje de empleo informal, como se aprecia en el gráfico 9: un 87,6% es informal, sumado a que solo un 22,2% de la población económicamente

• Una variable aleatoria que cuenta el número de fracasos hasta obtener el k-ésimo éxito en la k+x repetición sigue una distribución binomial negativa.. Función de masa

La región Puno cuenta con un alto porcentaje de empleo informal, como se aprecia en el gráfico 8, donde un 85,3% de la población ocupada tiene un empleo informal, sumado a que solo un