• No se han encontrado resultados

UD 5 Introducción a la Inferencia Estadística. Parte IV

N/A
N/A
Protected

Academic year: 2021

Share "UD 5 Introducción a la Inferencia Estadística. Parte IV"

Copied!
81
0
0

Texto completo

(1)

UD 5 Introducción a la Inferencia

Estadística

(2)

Contenido

-

UD5 Introducción a la Inferencia Estadística

-5.4. Introducción a la Regresión Lineal

2.2. Estadística Descriptiva Bidimensional - 2

5.3 Introducción al Análisis de la Varianza

5.3 Introducción al Análisis de la Varianza

5.2 Inferencia básica en poblaciones normales

5.1 Distribuciones en el muestreo

5.1 Distribuciones en el muestreo

(3)

UD 5 Introducción a la Inferencia Estadística

(Parte IV)

Distribuciones marginales y condicionales Diagramas de dispersión

Covarianza. Coeficiente de correlación Interpretación de relaciones

Recta de regresión

Análisis de residuos

(4)

1-Distribuciones marginales y condicionales

Variable aleatoria bidimensional : sobre cada

individuo de la población se observan dos

características aleatorias expresables numéricamente Ejemplos:

Población estudiantes universitarios se observa la ESTATURA (cms) y el PESO (kgs) de cada estudiante

Para el control del consumo de energía en una factoría se anota cada día el CONSUMO (termias) y la TEMPERATURA DIARIA (ºC)

En un sistema informático se observa semanalmente la carga media del sistema (CARGA, peticiones procesadas por unidad

(5)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

1-Distribuciones marginales y condicionales

Objetivo del análisis: Describir la relación existente entre las dos componentes de la v.a. Bidimensional

Herramientas: Tabla de Frecuencias Cruzada

variables discretas (naturaleza cualitativa)

REPITE SEXO SI 1 NO 2 Row Total CHICOS 1 5 10.9 41 89.1 46 64.8 CHICAS 2 1 4.0 24 96.0 25 35.2 COLUMN TOTAL 6 8.5 65 91.5

(6)

1-Distribuciones marginales y condicionales

variables continuas: existen técnicas más poderosas

para analizar y describir la relación existente entre las dos vbles.

Previamente a la representación de la Tabla será necesario agrupar los valores de las variables en intervalos, de forma similar a como se hizo con las

tablas de frecuencias para variables

(7)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

1-Distribuciones marginales y condicionales

Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frecuencias marginales de PESO Frecuencias marginales de ESTATURA

(8)

1-Distribuciones marginales y condicionales

Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%

Frecuencias observadas de PESO condicionadas a ESTATURA PESO

< ≤

]

145, 155

]

(9)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

1-Distribuciones marginales y condicionales

• Distribución marginal:

• A la pauta de variabilidad que sigue en la población la variable PESO, sin tener en cuenta la ESTATURA, se conoce por distribución marginal (de PESO)

• A la pauta de variabilidad que sigue en la población la variable ESTATURA, sin tener en cuenta el PESO, se conoce

por distribución marginal (de ESTATURA)

• Distribución condicional: PESO/ESTATURA, por ejemplo

• A la pauta de variabilidad que sigue en la población la variable PESO, ciñéndonos a los individuos que presentan una cierta ESTATURA, se denomina distribución condicional (de PESO) PESO/ESTATURA

(10)

1-Distribuciones marginales y condicionales

Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00% Frequency Table for PESOCOD by ESTACOD

Row 145 155 155 165 165 175 175 185 185 195 Total ---40 55 | 9 | 17 | 0 | 0 | 0 | 26 | 75,00% | 44,74% | 0,00% | 0,00% | 0,00% | 20,00% ---55 70 | 3 | 18 | 31 | 5 | 0 | 57 | 25,00% | 47,37% | 53,45% | 29,41% | 0,00% | 43,85% ---70 85 | 0 | 3 | 24 | 12 | 3 | 42 | 0,00% | 7,89% | 41,38% | 70,59% | 60,00% | 32,31% ---85 99 | 0 | 0 | 3 | 0 | 2 | 5 | 0,00% | 0,00% | 5,17% | 0,00% | 40,00% | 3,85% ---Column 12 38 58 17 5 130 Total 9,23% 29,23% 44,62% 13,08% 3,85% 100,00%

¿Existe relación entre el PESO y la ESTATURA

(11)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0

• Parámetros de las distribuciones condicionales de

PESO en función de la ESTATURA

StatgraphicsPlus y Centurion: Describe Numeric Data Subset Analysis

(12)

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0 90 80 70 60 50 PESO (Kg) ESTATURA (cm) Distribución marginal del PESO Distribuciones condicionales

del PESO respecto a ESTATURA

(13)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

1-Distribuciones marginales y condicionales

Summary Statistics

Standard Code Count Average Deviation Minimum Maximum Range ---145 155 12 53,0 6,39602 45,0 65,0 20,0 155 165 38 57,7895 7,45856 46,0 80,0 34,0 165 175 59 70,7458 7,61485 56,0 90,0 34,0 175 185 17 73,4118 4,71777 66,0 84,0 18,0 185 195 5 84,0 4,1833 77,0 88,0 11,0 ---Total 131 66,2137 10,6569 45,0 90,0 45,0

• Parámetros de las distribuciones condicionales de

PESO en función de la ESTATURA

Autoevaluación: Las medias de las distribuciones condicionales aumentan al aumentar los valores de la variable condicionante ESTATURA. ¿Te parece lógico este resultado?

(14)

1-Distribuciones marginales y condicionales

• Toda va bidimensional (X,Y) tiene asociadas :

• Dos distribuciones unidimensionales (marginal de X, marginal

de Y)

• Distribución condicional de una de ellas para cada uno de los valores posibles de la otra (Y/X=xi)

• Si todas las distribuciones condicionales (Y/X=xi) son

iguales, esto es, no dependen del valor concreto xi, se

dice que las dos variables X e Y son independientes

Ejemplos: (X: Peso, Y: Coeficiente intelectual) (X: Temperatura, Y: Consumo)

(15)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

2 - Diagramas de Dispersión

Es un gráfico XY en el que cada observación de la

muestra se representa por un punto en el plano, cuya abcisa corresponde al valor de la primera variable y

cuya ordenada corresponde al valor de la segunda variable

Secuencia de opciones en StatgraphicsPlus y Centurion:

(16)

2 - Diagramas de Dispersión

Diagrama de dispersión de la variable PESO frente a ESTATURA

Plot of PESO vs ESTATURA

150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O

(17)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

2 - Diagramas de Dispersión

Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO

Plot of PESO vs ESTATURA

ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(18)

2 - Diagramas de Dispersión

Ejercicio: Como ejemplo de un diagrama de

dispersión que muestra una relación negativa,

obtener mediante Statgraphics el diagrama de

dispersión entre las variables TEMPER y

(19)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

2 - Diagramas de Dispersión

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O

Cuanto más estrechamente se agrupen los puntos del

diagrama de dispersión en torno a una recta, más fuerte

es el grado de relación lineal existente entre las dos

(20)

2 - Diagramas de Dispersión

Relación lineal Baja Relación lineal Intermedia

Relación lineal Fuerte

(21)

Interpretación de los Diagramas de Dispersión

Relación lineal Débil Relación lineal Intermedia

Relación lineal Fuerte

(22)

2 - Diagramas de Dispersión

Autoevaluación:

¿Sigue creciendo la gente a partir de los 19 años? Para ver si hay alguna evidencia al respecto en los datos de la encuesta, construir el Diagrama de

Dispersión de ESTATURA frente a EDAD

(23)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

2 - Diagramas de Dispersión

Plot of ESTATURA vs EDAD

19 22 25 28 31 34

EDAD

150 160 170 180 190 200

E

S

T

A

T

U

R

A

(24)

3- Covarianza. Coeficiente de correlación

Objetivo: cuantificar en un índice numérico el grado de relación lineal existente entre dos variables

Covarianza:

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 4 247.6 10.9

(25)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Para todo pareja de valores (xi , yi ), observamos el

signo de los productos:

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 2 1 3 4 247.6 10.9 i i

(x

x ) .(y

y )

(26)

3- Covarianza. Coeficiente de correlación

i i

(x

x ) .(y

y )

Plot of CONSUMO vs TEMPER

-3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O

En los cuadrantes 1 y 3 este producto es >0

1 2

(27)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

1

N

)

Y

)(Y

X

(X

COV

(X, Y) i i

=

Promedio de los productos de las desviaciones de ambas variables respecto a sus medias respectivas

La covarianza será positiva si existe una relación

creciente entre las dos variables (es decir, si la Y

tiende a crecer cuando lo hace la X) y negativa

(28)

3- Covarianza. Coeficiente de correlación

Solución: Coeficiente de correlación lineal

Inconveniente depende de las dimensiones en

que se expresen las variables

Ejemplo: la covarianza entre PESO y

ESTATURA será 100 veces mayor si la ESTATURA se mide en centímetros que si se mide en metros

(29)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Coeficiente de correlación lineal:

Ventajas:

Parámetro adimensional

Su valor no varía aunque a las variables X e Y se les aplique una transformación lineal

Acotado [-1 , +1]

Los valores extremos solo los toma en el caso en que

los puntos del Diagrama de dispersión estén

(30)

3- Covarianza. Coeficiente de correlación

Coeficiente de correlación lineal:

rxy = +1 rxy = -1

X X

Y Y

Relación Lineal Exacta y Relación Lineal Exacta y negativa

(31)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Un valor de rx,y nulo o cercano a 0 indicará una

relación lineal inexistente o muy débil

Cuanto más fuerte es el grado de relación lineal entre

dos variables, más cercano a +1 es el valor de rx,y

(o a -1 si la relación es decreciente)

Si rXY ≈≈ 0 ⇔⇔⇔⇔ No hay relación LINEAL ¡ puede haberla de otro tipo !

Si rXY +1 ⇔⇔⇔⇔ relación LINEAL creciente

(32)

Diagramas de Dispersión - r

XY No hay correlación Relación Lineal Fuerte Relación Lineal Débil rXY ∈∈∈∈ ]0 ; 0,3] rXY ∈∈∈∈ ]0,3 ; 0,8[ rXY ∈∈∈∈ [0,8 ; 1[ Relación positiva

(33)

Diagramas de Dispersión - r

XY No hay correlación Relación lineal Fuerte Relación Lineal Intermedia Relación negativa rXY ∈∈∈∈ ]-1 ; -0,8] rXY ∈∈∈∈ [-0,3 ; 0[ rXY ∈∈∈∈ ]-0,8 ; -0,3[

(34)

Diagramas de Dispersión - r

XY

r

x ,y

=

+1

r

x ,y

=

-1

(35)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Matriz de Varianzas-Covarianzas: Características:

Matriz cuadrada. En caso de variables bidimensionales es una matriz de 2x2.

Matriz simétrica respecto a su diagonal principal.

En la diagonal principal se encuentran las varianzas de las variables y el resto de elementos corresponden a las covarianzas entre cada pareja de variables.

(36)

3- Covarianza. Coeficiente de correlación

rx,x

ry,y

Matriz de Correlaciones: Características:

Matriz cuadrada. En caso de variables bidimensionales es una matriz de 2x2.

Matriz simétrica respecto a su diagonal principal, en ella se encuentra el coeficiente de correlación de cada variable consigo misma (rxx), por ello aparece el valor 1 (o por defecto ni siquiera se calcula este valor).

El resto de elementos corresponde al valor del coeficiente de correlación lineal entre cada pareja de variables.

(37)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Statgraphics permite obtener las covarianzas y los

coeficientes de correlación entre varias variables a

partir de las siguientes opciones:

Describe Numeric Data Multiple-Variable Analyisis, introducir las variables en el campo Data Tabular Options, seleccionar Covariances ,

(38)

3- Covarianza. Coeficiente de correlación

Autoevaluación: Calcular por medio de Statgraphics

Centurion los valores de las covarianzas y de los

coeficientes de correlación entre las siguientes

parejas de variables:

ESTATURA y PESO ESTATURA y EDAD TEMPER y CONSUMO

(39)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Covariances ESTATURA PESO ---ESTATURA 82,3711 71,6159 ( 131) ( 131) PESO 71,6159 113,569 ( 131) ( 131) Correlations ESTATURA PESO ---ESTATURA 0,7404 ( 131) 0,0000 PESO 0,7404 ( 131) 0,0000 ---Número de observaciones a partir de las que se calcula el parámetro rPESO,ESTATURA r ESTATURA, PESO S2 ESTATURA S2 PESO

CovPESO, ESTATURA

CovESTATURA, PESO

Número de observaciones a partir de las que se calcula el parámetro

Resultado de carácter inferencial. Con carácter general, si el valor es <0,05 puede considerarse una relación real a nivel poblacional

(40)

3- Covarianza. Coeficiente de correlación

Covariances ESTATURA EDAD ---ESTATURA 82,3711 1,31439 ( 131) ( 131) EDAD 1,31439 2,7825 ( 131) ( 131) ---Correlations ESTATURA EDAD ---ESTATURA 0,0868 ( 131) 0,3241 EDAD 0,0868 ( 131) 0,3241

---Como era de esperar tras la representación del diagrama de

dispersión entre estas dos variables, no hay relación lineal entre ambas

(41)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Covariances TEMPER CONSUMO ---TEMPER 29,0832 -535,449 ( 57) ( 57) CONSUMO -535,449 10487,2 ( 57) ( 57) Correlations TEMPER CONSUMO ---TEMPER -0,9695 ( 57) 0,0000 CONSUMO -0,9695 ( 57) 0,0000

---¿Sabrías obtener la matriz de correlación a partir de la matriz de var-cov?

(42)

3- Covarianza. Coeficiente de correlación

Covariances TEMPER CONSUMO ---TEMPER 29,0832 -535,449 ( 57) ( 57) CONSUMO -535,449 10487,2 ( 57) ( 57) Correlations TEMPER CONSUMO ---TEMPER -0,9695 ( 57) 0,0000 CONSUMO -0,9695 ( 57) 0,0000

(43)

---DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Dos variables X, Y pueden tener una estrecha relación

y resultar rx,y cercano a 0 por ser dicha relación no

lineal

Ejemplo:

X: -3, -2, -1, 0, 1, 2, 3

Y: 9, 4, 1, 0, 1, 4, 9

¿Están relacionadas las variables? ¿Lo están linealmente?

(44)

Plot of Y vs X -3 -2 -1 0 1 2 3 X 0 2 4 6 8 10 Y

3- Covarianza. Coeficiente de correlación

Correlations X Y ---X 1 0,0000 Y 0,0000 1

---Existe una estrecha relación entre X Y, pero dicha relación

NO es lineal El coeficiente de correlación rxy únicamente cuantifica el grado de relación lineal

(45)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

3- Covarianza. Coeficiente de correlación

Si dos variables son independientes (y por tanto no

guardan relación alguna) rx,y = 0

Si rx,y tiene un valor cercano a 0 no hay relación

LINEAL entre X e Y

Como ya se ha comentado, un valor de rx,y nulo o

cercano a cero indica una relación lineal inexistente o

muy débil (pero no necesariamente independencia)

El cuadrado del coeficiente de correlación mide la proporción (o porcentaje si se multiplica por 100) de la varianza de Y que está asociada a la variabilidad de X

(46)

4- Interpretación de relaciones

Dependencia causal unidireccional:

CAUSA EFECTO

Tráfico en la red Latencia de los mensajes

Agua de lluvia caída Agua evacuada por alcantarillado

Tamaño de los mensajes Retardo

Temperatura ambiental Consumo en calefacción

(47)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

4- Interpretación de relaciones

Dependencia parcial de otra u otras variables:

CAUSA EFECTO

Características genéticas Estatura y Peso

Turbulencias en el aire Letrero ‘Abroche su

cinturón` y sacudidas en el avión

Renta familiar Gasto en zapatos y en libros de las familias españolas

Interdependencia entre las 2 variables:

Oferta y demanda de un producto

Niveles de ventas y gastos en publicidad

(48)

UD 5 Introducción a la Inferencia Estadística

(Parte IV)

Distribuciones marginales y condicionales Diagramas de dispersión

Covarianza. Coeficiente de correlación Interpretación de relaciones

Recta de regresión

(49)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

Objetivo: cuantificar la relación existente entre dos

variables con el fin de predecir el valor de una de ellas

a partir del valor constatado de la otra

Ejemplo: para el control de consumo de energía en

una factoría durante los meses de invierno se anota diariamente el CONSUMO (termias) y la TEMPERATURA diaria (ºC a las 12h). El responsable del control del consumo en la factoría desea saber si el consumo de

290 termias registrado el día anterior puede

considerarse “normal” sabiendo que la temperatura fue de 10ºC

(50)

5 – Recta de Regresión

El consumo depende de la temperatura y de otros factores (humedad, viento, volumen de producción…), aún no habiendo anomalías el consumo en la población constituída por los días en que la temperatura es 10ºC fluctuará aleatoriamente

Pero en promedio, ¿cuánto se consumirá los días en

que la temperatura sea 10ºC?

Con toda seguridad menos que lo que se consumirá en

promedio los días en que la temperatura sea de 5ºC,

Pero…. ¿cuánto menos?

(51)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

Predice el valor que en promedio corresponde a una

variable Y cuando otra variable X tiene un valor

determinado

Los valores a y b que definen la recta son aquellos

(52)

5 – Recta de Regresión

Los valores de b y a vienen dados por las siguientes

(53)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

Plot of Fitted Model

CONSUMO = 448,913 - 18,4109*TEMPER -3 1 5 9 13 17 21 TEMPER 0 100 200 300 400 500 C O N S U M O 140 118 18ºC 6,5ºC yi - (a+bxi) = 140-118 = 22 = ei residuoi

La diferencia entre el consumo observado en un día de temperatura de 18ºC ha sido de 140 termias. Sin embargo la recta de regresión “predice” que para dicha temperatura habrá un consumo de 118 termias.

La diferencia entre el valor observado y el previsto para un día corresponde al residuo de dicho día (22 termias)

Recta de regresión

estimada a partir de los valores del consumo y de la temperatura

(54)
(55)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

Diagrama de dispersión de la variable PESO frente a ESTATURA

Plot of PESO vs ESTATURA

150 160 170 180 190 200 ESTATURA 45 55 65 75 85 95 P E S O

(56)

5 – Recta de Regresión

Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO

Plot of PESO vs ESTATURA

P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(57)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

La recta de regresión calculada a partir de las variables

PESO (variable dependiente) y ESTATURA (variable independiente) se obtiene en StatgraphicsPlus a partir de la secuencia de opciones:

Relate Simple Regresion Variable Y: PESO

(58)

5 – Recta de Regresión

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: PESO

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -84,0714 12,0274 -6,99002 0,0000 Slope 0,869429 0,0694856 12,5124 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 8094,44 1 8094,44 156,56 0,0000 Residual 6669,58 129 51,7021 ---Total (Corr.) 14764,0 130 Correlation Coefficient = 0,740442 R-squared = 54,8255 percent

R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042

Mean absolute error = 5,49874

Durbin-Watson statistic = 1,87089 (P=0,2311)

**

rxy

a b

(59)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

La mayor parte de los resultados obtenidos con este

análisis se aplican en un contexto de Inferencia

Estadística

Las probabilidades de la última columna indican hasta qué punto la relación constatada se debe:

a un simple azar del muestreo (Prob.>0,05)

o por el contrario está asociada a una relación real

existente en la población muestreada

(60)

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA

P

E

S

O

150 160 170 180 190 200 45 55 65 75 85 95 PESO=-84.07+0.87ESTATURA

(61)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

Diagrama de dispersión de la variable PESO frente a ESTATURA, codificando las observaciones según SEXO

Plot of PESO vs ESTATURA

ESTATURA P E S O SEXO chicas chicos 150 160 170 180 190 200 45 55 65 75 85 95

(62)

5 – Recta de Regresión

Estudio de la relación entre el PESO y la ESTATURA

en chicos

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: SELECT ( PESO; SEXO="chicos")

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -17,0594 20,9979 -0,812434 0,4188 Slope 0,498687 0,118347 4,21378 0,0001 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 968,597 1 968,597 17,76 0,0001 Residual 4745,9 87 54,5505 ---Total (Corr.) 5714,49 88 Correlation Coefficient = 0,411702

(63)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA S E L E C T ( P E S O ; S E X O = "c h ic o s ") 150 160 170 180 190 200 56 66 76 86 96

(64)

5 – Recta de Regresión

Estudio de la relación entre el PESO y la ESTATURA en chicas

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: SELECT ( PESO; SEXO="chicas")

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -70,1354 21,5958 -3,24764 0,0024 Slope 0,767583 0,132065 5,81218 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 777,89 1 777,89 33,78 0,0000 Residual 921,086 40 23,0271 ---Total (Corr.) 1698,98 41 Correlation Coefficient = 0,676652

(65)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

5 – Recta de Regresión

Plot of Fitted Model

ESTATURA

S

E

L

E

C

T

(

P

E

S

O

;

S

E

X

O

=

"c

h

ic

a

s

")

150 160 170 180 190 200 45 50 55 60 65 70 75

(66)

5 – Recta de Regresión. Análisis de residuos

Análisis de Residuos

Concepto: se denomina residuo de un dato a la

diferencia entre el valor yi del mismo y el valor a+bxi

que se predice para el valor medio de Y en los individuos

de la población en los que la variable X vale xi

Interpretación: el residuo de un día recoge el efecto

que sobre el consumo de dicho día han tenido todas las otras variables que influyen sobre el consumo, incluyendo posibles anomalías y que no se han tenido en cuenta en el análisis

Parámetros:

Media=0

• Varianza S2

r = S2y (1- r2xy) Permite estimar el orden de

(67)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

Regression Analysis - Linear model: Y = a + b*X

---Dependent variable: PESO

Independent variable: ESTATURA

Standard T

Parameter Estimate Error Statistic P-Value

---Intercept -84,0714 12,0274 -6,99002 0,0000 Slope 0,869429 0,0694856 12,5124 0,0000 Analysis of Variance ---Source Sum of Squares Df Mean Square F-Ratio P-Value ---Model 8094,44 1 8094,44 156,56 0,0000 Residual 6669,58 129 51,7021 ---Total (Corr.) 14764,0 130 Correlation Coefficient = 0,740442 R-squared = 54,8255 percent

R-squared (adjusted for d.f.) = 54,4753 percent Standard Error of Est. = 7,19042

Mean absolute error = 5,49874

Durbin-Watson statistic = 1,87089 (P=0,2311) Lag 1 residual autocorrelation = 0,0637738

**

**

**

5 – Recta de Regresión. Análisis de residuos

El peso de una persona aumenta 0,87 kg por cada cm que se

incrementa su estatura

CMR es la varianza residual =51,7021 y Sr es la desviación típica residual =7,19

R2 = 8094/14764= =0,5483

(68)

Estudio descriptivo de los Residuos de la relación PESO-ESTATURA

Summary Statistics for RESIDUALS

Count = 131 Average = 0,00000141672 Variance = 51,3044 Standard deviation = 7,16271 Minimum = -14,687 Maximum = 23,5296 Range = 38,2166 Stnd. skewness = 3,53009 Stnd. kurtosis = 1,33846

5 – Recta de Regresión. Análisis de residuos

Hay 131

observaciones y 131 residuos. Un residuo por cada observación

El CCE<+2 probablemente haya algún residuo anómalo procedente de

La media de los residuos

aproximadamente toma el valor “0” y la desv. típica, es la

(69)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

¿Cuánto pesa, en promedio, un chico de estatura 1,75 m (175 cm)?

¿Entre qué límites fluctúa, en el 95% de los casos, el peso de un chico de 1,75m (175cm) de estatura?

Ê(PESO) = -17,06 + 0,5 x ESTATURA

Ê(PESO) = -17,06 + 0,5 x 175 = 70,44 Kg.

Predicción media ± 2xSresidual

70,44 ± 2 x 7,39 =[55,66 Kg. , 85,22 Kg.]

(70)

Ejercicio: Conociendo el PESO y la ESTATURA de cada

alumno, calcular el peso previsto por la ecuación de regresión, en función del SEXO, y compararlo con el real.

1. ¿Qué diferencia hay entre el peso real (tu peso) y el peso previsto para tu estatura por el modelo de regresión?

2. ¿Es una diferencia positiva o negativa? ¿Qué indica dicha diferencia?

3. ¿Sabes cómo se llama la diferencia que acabas de calcular?

(71)

DEIOAC -Estadística Fuente: Romero, R.;Zúnica, L.R. Estadística. ISBN 84-7721-2233-6

Inferencia en modelos de regresión. Coeficiente R

2

La variabilidad total de la variable dependiente Y en

el conjunto de las N observaciones puede

descomponerse en:

SCTotal = SCExplicada + SCResidual

SCExplicada: Variabilidad asociada a las variables

explicativas Xi (con I grados de libertad = nº de var.

explicativas)

SCResidual: Variabilidad no asociada a las variables

(72)

La diferencia:

SC

Explicada

= SC

Total

– SC

Residual

es la parte de la variabilidad de Y asociada a las variables explicativas 2 Re 2

1

[0,1]

=

Explicada

= −

sidual

Total Total

SC

SC

R

R

SC

SC

Bondad del ajuste:

Coeficiente de Determinación R2

(73)

DEIOAC -Estadística Fuente: Romero, R.;Zúnica, L.R. Estadística. ISBN 84-7721-2233-6 2 2

[0,1]

E xplicada Total

SC

R

R

SC

=

Cuanto más cercano a 1 sea el coeficiente mayor

parte de la variabilidad constatada en Y estará asociada a

las variables explicativas incluidas en el modelo.

Normalmente viene expresado en porcentaje

R2 coincide con el coeficiente de correlación lineal entre

X e Y al cuadrado

2 2

X ,Y

r

.100

=

R

(74)

Inferencia en MR:

Significación del efecto de una variable Xi

Dado el modelo

E(

Y

) = α +

ββββ

X

El test para contrastar la hipótesis nula

H0: ß = 0, frente a la alternativa

H1: ß ≠≠≠≠ 0 (implica la existencia de un efecto real poblacional de la X sobre E(Y))

b

S

Si la variable X no influye en E(Y) ⇐⇐⇐⇐⇒⇒⇒⇒ ββββ = 0

se lleva a cabo dividiendo el coeficiente estimado b por

(75)

DEIOAC -Estadística Fuente: Romero, R.;Zúnica, L.R. Estadística. ISBN 84-7721-2233-6

Test para contrastar la hipótesis nula: H0: ß = 0, frente a la alternativa

H1: ß ≠≠≠≠ 0 (que implica la existencia de un efecto real

poblacional de la X sobre E(Y)) Si ββββ = 0 1 − −

N I b

b

t

S

Si ββββ ≠≠≠≠ 0

>

N − −1 I b

b

t

S

α

(76)

Si se acepta la H0: ß = 0 No existe un efecto real poblacional de la X sobre E(Y),

1 − −

N I b

b

t

S

α Si se rechaza la H0: ß = 0 Se acepta H1: ßi ≠≠≠≠ 0

Existe un efecto real poblacional de la X sobre E(Y),

1

− −

>

N I

b

t

α

(77)

Simple Regression - PESO vs. ESTATURA

Dependent variable: PESO

Independent variable: ESTATURA Linear model: Y = a + b*X

Number of observations: 131

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value

Intercept -84,0714 12,0274 -6,99002 0,0000

Slope 0,869429 0,0694856 12,5124 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 8094,44 1 8094,44 156,56 0,0000

Residual 6669,58 129 51,7021

Total (Corr.) 14764,0 130

Correlation Coefficient = 0,740442

R-squared = 54,8255 percent

R-squared (adjusted for d.f.) = 54,4753 percent

Standard Error of Est. = 7,19042

Mean absolute error = 5,49874

Durbin-Watson statistic = 1,87089 (P=0,2311)

DEIOAC– Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

Ejemplo Peso- Estatura

Análisis del PESO de un individuo frente a su ESTATURA

P-value<0,05 Existe una

relación real a nivel poblacional entre el peso y la estatura

Coeficiente de correlación, rx,y (relación lineal débil y positiva) Coeficiente de determinación, coincide con

(78)

Ejemplo Consumo-Temperatura

Análisis del CONSUMO frente a la TEMPERATURA del día

Simple Regression - CONSUMO vs. TEMPER

Dependent variable: CONSUMO (consumo diario de gas) Independent variable: TEMPER (temperatura diaria) Linear model: Y = a + b*X

Number of observations: 57

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value

Intercept 448,913 7,63264 58,8148 0,0000

Slope -18,4109 0,62714 -29,3569 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 552054, 1 552054, 861,83 0,0000

Residual 35230,8 55 640,56

Total (Corr.) 587285, 56

Correlation Coefficient = -0,969541

R-squared = 94,0011 percent

P-value<0,05 Existe una

relación real a nivel poblacional entre el consumo y la

(79)

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

6 – Trabajos Prácticos

Los datos para ese estudio se encuentran en el fichero GAS. Los nombres de las variables son CONSUMO

(expresado en una unidad arbitraria, termias) ,

TEMPERATURA (expresada en ºC) y DIA (códigos de 1 a 5 correspondientes a los 5 días laborables)

1.- Representar el diagrama de dispersión entre

CONSUMO y TEMPER

2.- Obtener la ecuación de la recta de regresión del

CONSUMO en función de TEMPER. Interpretar el

(80)

6 – Trabajos Prácticos

3.- Posible no linealidad de la relación. Dado que el diagrama de dispersión junto con el gráfico de los residuos frente a TEMPER, sugiere la posibilidad de que la relación sea no lineal, ajustar los datos a una parábola del tipo:

CONSUMO=a+b.TEMPER+c.TEMPER2

4.- Interpretación del valor 0.955 para R-SQUARED

5.- ¿Entre qué límites fluctúa en un 95% de los casos el consumo de los días en que la temperatura es de 15ºC? 6.- ¿Cuál es la probabilidad de obtener un consumo

(81)

Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 España de Creative Commons. Para ver una copia de esta licencia, visite

Referencias

Documento similar