• No se han encontrado resultados

EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

N/A
N/A
Protected

Academic year: 2022

Share "EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE"

Copied!
24
0
0

Texto completo

(1)

EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

TEMA III

(2)

Regresión Lineal Múltiple. En Rial, A. y Varela, J. (2008). Estadística

Práctica para la Investigación en Ciencias de la Salud. Coruña:

Netbiblo. Páginas 199-223.

LECTURA OBLIGATORIA

(3)

LA CORRELACIÓN LINEAL

COEFICIENTE DE CORRELACIÓN de PEARSON

Es una medida del grado de asociación entre dos variables de intervalo o razón

Una manera útil de examinar la relación entre dos variables de intervalo es mediante un DIAGRAMA DE DISPERSIÓN

Y

Tendencia lineal

A valores altos de Y le corresponden valores altos de X rxy > 0, directa

rxy = 0, ausencia de relación r < o, inversa

(4)

COVARIANZA Y CORRELACIÓN

La correlación es una medida estandarizada de la Covarianza

 -1 < r

xy

< + 1: es una medida tanto de la dirección como de la fuerza de la relación

Permite que se compare la relación entre pares de variables independientemente de las unidades en que se midan

y x

i i

xy

n S S

Y Y

X r X

) (

) )(

(

n

Y Y

X Y X

X

Cov

(

i

)(

i

)

)

,

(

(5)

REGRESIÓN LINEAL SIMPLE

¿QUÉ ES? Un tipo de análisis que permite conocer en qué

medida una VD o criterio puede ser explicada o predicha a partir de una VI o predictora, siendo ambas de intervalo o razón

EJEMPLO :

V.D. Aciertos en un Test (Y) V.I. Horas de estudio (X)

X Y

50 60 70 80 90 100 100

50 60 70 80 90

Horas de estudio Aciertos test

(6)

Para ello tenemos que calcular la Ecuación de la recta (Y=a+bX), donde:

a= valor de la intersección con el eje Y b= la pendiente de la recta

Debe minimizar el error o la desviación no explicada Mínimos cuadrados =e(Yi Yˆi)2 i ; mínimo ei2

Método de MÍNIMOS CUADRADOS

Podríamos intentar ajustar una línea a ojo, por la mitad del diagrama de dispersión, para obtener una relación lineal entre X e Y

Pero vamos a hacerlo siguiendo un procedimiento matemático, definiendo una recta en el plano X,Y, con unos parámetros concretos.

Tenemos que buscar la ecuación que minimice los errores de predicción.

(7)

Los valores de a y b que minimizan la suma del cuadrado de los

errores son:

X b Y

a

)2

(Yi Yˆi

x y xy

S r S

b

Método de MÍNIMOS CUADRADOS

En el caso de que…

b=

0.93

Predeciríamos un incremento de 0.93 en los aciertos del test por cada hora de estudio. Un signo negativo de b indicaría que a más horas de estudio menos aciertos.

(8)

Interpretación de los coeficientes

a

indica el valor pronosticado de Y cuando X es cero (“intercepto”)

b

representa la cantidad de cambio que pronosticaríamos en Y para un cambio de una unidad en X (pendiente de la recta)

La ecuación de regresión (Y’=6.16+0.93X) puede utilizarse para generar pronósticos de Y a partir de X

Además se cumple que la diferencia entre los valores observados y pronosticados elevados al cuadrado es mínima

mínimo e

Y Y

SCerror i ˆi 2 i2

Ningún otro valor de a y b daría este SCerror tan pequeño

(9)

Desviación total= Desviación debido a X + Desviación debido al error

SC

total

= Sc

explicada por la regresión

+ Sc

no explicada por la regresión

Variación Total

Variación.

explicada por la regresión

Variación.no explicada por la

regresión

= +

FUENTES DE VARIACIÓN

2 2

i

2 ( Yˆ ) ( ˆ )

)

(Yi Y Y Yi Yi

(10)

La predicción más sencilla sería asignarle la media global. La parte explicada por el modelo es

justamente la cantidad en que se reduce la desviación total debido a nuestro conocimiento de otras variables y su relación con la VD (ecuación de regresión)

Y

X

Y

total ) (Yi Y

explicada ˆ )

(Yi Y

y=a+bX explicada

no ˆ) (Yi Yi

GRÁFICAMENTE

(11)

Varianza explicada

Se le llama también coeficiente de determinación (R

2

)

Es una proporción entre la variación explicada por la ecuación de regresión, con respecto a la variación total

2 2 2

) (

ˆ ) ( total

SC

explicada SC

al variac.tot

licada variac.exp

i i i

xy

Y Y

Y R Y

2 2 2

) (

ˆ ) (

total SC

error SC

al variac.tot

or variac.err 1

i i xy

Y Y

Y R Y

(12)

EJEMPLO

El objetivo del responsable de MKT de una estación de esquí es determinar cuáles son las variables que mejor explican que un sujeto esquíe mucho o poco en su estación

Trató de explicar el nº de días que los esquiadores iban a su estación durante una temporada (V1). Para ello registró

 Edad de los esquiadores (V2)

 Años de práctica (V3)

 Ingresos económicos (V4)

 Satisfacción general (V5)

 Nº de personas con las que esquía (V6)

(13)

Prestar especial atención a varios elementos:

Fijar bien los objetivos

Todas las variables deben ser métricas (de ESCALA)

Especificar correctamente el modelo:

Especificar la VD y las VI

No omitir variables relevantes ni incluir irrelevantes

Utilizar herramientas adecuadas para recoger (medir) los datos

Garantizar que se cumplen una serie de Supuestos:

NORMALIDAD DE LAS Vs

LINEALIDAD (relación lineal entre predictores y criterio)

Ausencia de MULTICOLINEALIDAD

INDEPENDENCIA de los errores (no correlacionados)

NORMALIDAD de los errores (residuos aleatorios, media de errores = 0)

DISEÑO

(14)

Interpretación de Resultados

BONDAD DE AJUSTE

R esumen del mod elo

,819a ,670 ,656 1,478

,879b ,773 ,752 1,254

,917c ,841 ,818 1,075

M odelo 1 2 3

R R cuadrado

R cuadrado corregida

Error típ. de la estimación

Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS a.

Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS, AÑOS PR ACTIC ANDO ESQUÍ

b.

Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS, AÑOS PR ACTIC ANDO ESQUÍ, SAT ISFACC IÓN GENERAL c.

(15)

Interpretación de Resultados

AN OVAd

101,995 1 101,995 46,689 ,000a

50,245 23 2,185

152,240 24

117,619 2 58,809 37,370 ,000b

34,621 22 1,574

152,240 24

127,987 3 42,662 36,940 ,000c

24,253 21 1,155

152,240 24

Regresión Residual Total Regresión Residual Total Regresión Residual Total M odelo

1

2

3

Suma de

cuadrados gl

M edia

cuadrática F Sig.

Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS a.

Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS, AÑOS PR ACTICAND O ESQU Í

b.

SIGNIFICACIÓN DEL MODELO (contraste global: F)

Se comprueba hasta qué punto la Variación Explicada por la Regresión es significativa. Se trata de un cociente o proporción con relación a la varianza de error.

Cuanto más grande sea con los datos muestrales, menor probabilidad habrá de que en la población ese cociente sea 0.

(16)

C oefici entesa

,343 ,813 ,422 ,677

2,922E-03 ,000 ,819 6,833 ,000

9,728E-02 ,695 ,140 ,890

2,153E-03 ,000 ,603 4,924 ,000

,227 ,072 ,386 3,151 ,005

-2,244 ,982 -2,285 ,033

2,075E-03 ,000 ,581 5,526 ,000

,201 ,062 ,341 3,215 ,004

,388 ,129 ,268 2,996 ,007

(Constante)

IN GRESOS EC ONÓM IC OS (Constante)

IN GRESOS EC ONÓM IC OS AÑOS PR ACTIC ANDO ESQUÍ (Constante)

IN GRESOS EC ONÓM IC OS AÑOS PR ACTIC ANDO ESQUÍ SATISFACCIÓN GEN ERAL M odel o

1

2

3

B Error típ.

Coefi cientes no estandari zados

Beta Coefi cientes estandari zados

t Si g.

Variable dependiente: Nº D ÍAS QUE ESQUÍA POR TEMPOR ADA a.

SIGNIFICACIÓN DE LOS PARÁMETROS (contraste particular: t)

Interpretación de Resultados

Para comprobar si cada V.I. por influye significativamente sobre la V.D., comprobando si se trata de un predictor estadísticamente significativo (“significativamente distinto de 0”)

H0: BP = 0 H1: BP 0

Bp

p

Se t B

(17)

84 .

Re 0

2

Y gr

SC R SC

81 . 1 0

) 1

( 2

. 2 2

P n

R R P

R aj

Interpretación de Resultados

INDICADORES DE BONDAD DE AJUSTE:

a) El cuadrado del Coeficiente de Correlación Múltiple (R2 ) b) El % de varianza explicada (R2x100). 84%

c) R2 ajustado, porque R2 aumenta en función del número de V.I. y con un “n”

pequeño

LOS PARÁMETROS

“a” es la constante, el intercepto, valor de Y cuando X=0

P, indica la dirección de la relación y la intensidad de la relación Si P > 0: un incremento en una unidad, de la variable asociada XP

implica un incremento en Y en unidades (Si se incrementa en un punto la satisfacción se incrementará la estancia en 0.338 días)

(18)

b vs.

Como las XP fueron medidas en escalas diferentes (años, euros, número personas, etc.) los coeficientes “b” NO SON COMPARABLES ENTRE SÍ

Para saber qué predictor es más importante hay que normalizar los coeficientes b.

Y X p

p S

S b p

Interpretación de Resultados

(19)

Razones por las que B p puede no ser significativo

Tamaño de la muestra inadecuado.

Solución: ampliar el “n” (arma de doble filo)

Especificación incorrecta del modelo

(la relación entre x e Y no es lineal). Solución: transformar las variables.

Poco recorrido de los valores de X e Y.

Solución: Recurrir al Análisis Discriminante o a la Regresión Logística (“Grupos Polares”)

Existencia de multicolinealidad.

VI en principio importantes no entran en la ecuación porque ya lo hicieron antes otras con las que guarda mucha relación. Puede derivar también en resultados contradictorios (B negativos cuando las correlaciones son positivas). Soluciones: prescindir de alguna variable, análisis de correlaciones previo, …

(20)

La selección de variables

VARIOS MÉTODOS

A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones son fundamentalmente dos:

MÉTODO INTRODUCIR (ENTER). Construye la ecuación utilizando todos los predictores. Se utiliza por defecto. No aconsejable: R2 está inflado.

MÉTODOS POR PASOS (STEPWISE). Se van incorporando o eliminando variables paso a paso,si cumplen unos criterios de selección. El objetivo es siempre maximizar el ajuste del modelo utilizando el menor nº de

predictores posible. Hacia delante vs. hacia atrás.

¡No olvidar la Parsimonia!

(21)

La selección de variables

CRITERIOS ESTADÍSTICOS:

Significación

Mayor correlación con el criterio

Mayor correlación parcial (eliminando influencia del resto)

Cambio en R

2

(selecciona la variable que maximice el cambio)

Tolerancia alta (una VI no puede ser explicada por las

otras VI)

(22)

¿ QUÉ ES? Y - Y’ = e

¿A qué puede deberse?

Variables relevantes omitidas en el modelo

Mala especificación del modelo (relaciones no lineales)

Errores en la medición (recogida de datos)

Comportamiento cambiante de los sujetos

Falta de recorrido en la VD o en las VI

EL ERROR EN LA REGRESIÓN

(23)

X Y

50 60 70 80 90 100 100

50 60 70 80 90

¿Cómo mejorar el ajuste del modelo?

Tratamiento de los Outliers

Sujetos que estropean el ajuste del modelo

Se detectan en base a los residuos

Brutos (no tipificados)

Tipificados (divididos por Se - nunca superior a 3, incluso 2)

Otros indicadores

Distancia de Cook (valores >1 gran importancia de un sujeto en los parámetros del modelo)

Distancia de Mahalanobis (valores altos, sujetos distintos al resto)

(24)

Comprobación de supuestos

Normalidad de cada VI (Lilliefors)

Linealidad

Diagramas de dispersión particulares (de cada VI con la VD)

Ausencia de Multicolinealidad

TOLERANCIA. Una tolerancia alta indica que la VI es independiente del resto de variables del modelo.

Independencia de los errores (residuos) Estadístico Durbin-Watson

Normalidad de los residuos

Histograma, Gráfico de probabilidad normal, K-S

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

Para ello se estimó un modelo de 2 etapas, donde la primera etapa se orienta a determinar si los factores: edad, nitrógeno, número de corte, tipos de suelo y

La escala de frustración de las necesidades psicológicas básicas en contextos educativo obtuvo valores significativos en el análisis de regresión lineal para los factores

Metodología: en primer lugar, se realiza un análisis de regresión múltiple para determinar qué factores tienen mayor efecto sobre el aprendizaje y, posteriormente, determinar en

Metodología: en primer lugar, se realiza un análisis de regresión múltiple para determinar qué factores tienen mayor efecto sobre el aprendizaje y, posteriormente,

El análisis de Regresión es una técnica estadística que estudia la naturaleza de las relaciones entre un conjunto de variables con el objetivo de hacer predicciones; tra-

Nuestra prueba prueba experimental consiste en medir el error cuadrático medio de los árboles CART y los bosques aleatorios con su nueva implementación multi-objetivo

– Regresión Lineal, Análisis Discriminante, Regresión logística, Análisis de Varianza, Análisis Conjunto, Análisis de Supervivencia, Análisis de.. Estructuras de